最近这几天,有许多美国媒体幸灾乐祸,认为中国超算行业将受到致命打击,离开了美国的CPU,中国将造不出超算。事实是这样的吗?这个禁令对我国的超算行业有什么影响? 据多家媒体报道,在当地时间6月21日,美国商务部以国家安全为由,再次将中国的5家实体列入进出口管制的实体清单,禁止它们从美国的供应商采购零部件,相关决定于6月24日生效。这五家实体与中国超算行业的“三巨头”中的两位相关,涉及到“曙光”和“神威”两款超算。这五家实体中的江南计算技术研究所就是“神威”超算的研发制造单位。而其他四家实体,中科曙光,天津海光(Higon)、成都海光集成电路、成都海光微电子技术全都与“曙光”系列超算有关。 最近这几天,有许多美国媒体幸灾乐祸,认为中国超算行业将受到致命打击,离开了美国的CPU,中国将造不出超算。事实是这样的吗?这个禁令对我国的超算行业有什么影响?本文将对这个问题进行详细分析。 首先,美国为什么要再次对我国超算企业进行制裁? 实际上,早在2015年初,美国商务部就将中国的四大超算中心列入了禁运清单。这源于美国长久以来的焦虑:在大约40年中,中国的超算行业从完全进口美国产品,到购买美国的CPU自己制造超算,再到使用自己的CPU和加速器制造超算; 从只有几台超算,在全世界超算市场里不值一提,到拥有超算的数量全球第一,大大超越美国;从拥有的超算性能低下排不上号,到称霸全球最快超算排行榜第一名多年;中国超算行业走出了一条完美的逆袭之路。 世界超算组织top500.org每半年推出一次全球最快的500台超算排行榜。今年6月刚刚推出了最新的榜单。全球最快的500台超算数量按国家的分布图如下:
▲数据来源于top500.rog,由笔者整理 TOP500榜单中,中国超算的数量达到了219台,占全球的44%,世界第一;美国以116台的数量占全球的23%,比中国落后甚多。 要知道,在仅仅一年前的2018年6月,中国在TOP500中的超算总数还是206台,美国还是124台。这一年中,中国又有了进步,美国又在退步。从趋势来看,中国的优势会越来越大。 由于超算在军事,科研和经济中的巨大作用,美国心里的焦虑是可以理解的。他们急于抑制住中国的发展势头,于是就把商业诚信和公平贸易原则仍进下水道,祭出了禁运大法。那么,这次的禁运措施对中国超算行业有什么影响? 对中国正在研制中的三台E级超算影响不大 在2018年夏天,美国的超算SUMMIT终于排上了TOP500的第一名,把霸榜多年的中国“太湖之光”挤到了第二名,它比“太湖之光”快60%左右;接着,美国的另一台超算Sierra投入使用,它以微弱的优势把“太湖之光”挤到了第三位。 美国的媒体兴奋起来,一改多年的沉默,开始吹嘘下一代E级超算的威力。所谓E级超算,是指每秒钟运算一百亿亿次的超级计算机,比SUMMIT还好快许多倍。美国的E级超算计划在2021年左右投入使用,而中国为E级超算准备了三个方案,全部使用国产CPU和加速器,也计划在2020到2021年期间陆续投入使用。 这里需要介绍一下加速器,超算的核心部件不止是CPU,由于超算做的是密集的科学计算工作,CPU执行这样的计算任务并不是效率最高的,拥有众多运算单元的加速器处理器的效率更高,比较典型的加速器芯片就是Nvidia公司的通用型GPU,以及英特尔公司的至强Xeon Phi处理器。 最近几年出现的超算有一个趋势,就是使用一颗CPU带多颗加速器的架构,计算任务主要由加速器芯片完成,CPU主要做协调,通讯和分配任务的工作。 那么,美国的这次禁运对我们的E级超算有什么影响呢?让我们来仔细看看。 我国为下一代E级超算准备的三套方案,全都使用国产CPU和加速器芯片: 天河三号E级超算:
2018年5月19日,国家超算天津中心展示了天河三号原型机,在2018年底投入使用。天河三号的全配置主机计划在2020年投入使用,性能计划为1EFlops. 天河三号将使用国产飞腾FT2000plus或者后续型号的CPU,以及国防科技大学的Matrix2000plus或者后续型号的加速器芯片。 飞腾CPU采用ARM架构。 Matrix2000加速芯片是国防科大的通用DSP芯片,GPDSP,就像英伟达公司通用GPU(GPGPU)那样,DSP(数字信号处理器)也拥有大量的运算单元。
神威E级超算:
神威系列超算是由江南计算机研究所研制的。2018年7月神威E级原型机落户于国家超算济南中心,需要三年左右的研发时间,将在2021年正式投入使用。神威的CPU肯定是申威系列的最新型号,加速器可能也会采用Matrix2000plus或者其后续型号。 申威系列CPU脱胎于DEC Alpha处理器架构。 曙光E级超算: 中科曙光主要使用X86架构的CPU。在最新的TOP500榜单里,共有曙光公司制造的63台超算。除了一台以外,其它62台全部使用英特尔的至强CPU,有些超算还使用了英伟达的Tesla加速器芯片。 猛的一看,似乎这次禁运对曙光公司是致命的打击。因为英特尔和英伟达的芯片以后都买不到了。但是,曙光公司早就有了全国产化布局。秘密就在这62台之外的那一台超算上。 CPU: 这台型号为TC8600的超算是2018年投入使用的,它的CPU采用的是天津海光公司的Hygon Dhyana处理器,32核,2Ghz频率。天津海光公司在2016年初得到了美国AMD公司的第一代ZEN架构的永久授权,起点相当高,要知道AMD公司在2018年才推出第二代ZEN2的架构。海光3000系列CPU使用的是x86通用架构,完全支持Windows10 Pro, Windows Server2019, Linux Centos 7.x等主流操作系统,而且还有类似AMD EPYC的服务器版,最多32核64线程,基础频率2.0GHz,加速频率可达3.0GHz,而且涵盖了从4核到32核在内的多个产品线。 在这次禁运公布后,海光公司无法再得到AMD新的产品架构授权,但这并不影响已经得到的授权。海光公司已经组建了超过500人的研发团队,有能力在已经得到的授权的基础上,进一步开发新的产品,提升CPU的性能。这也意味着未来X86架构的CPU在中国可能会产生硬分叉,我们将从此与美国分道扬镳,走出自己的路来。 加速器芯片: 而这台曙光超算的加速器芯片更有意思:它的名称为Deep Computing Processor。根据公开的新闻报道,曙光的加速器芯片是基于我国寒武纪公司的AI处理器架构研制的,全球独一无二。曙光公司的通稿上说:“2017年11月,曙光基于寒武纪低功耗深度学习处理器,率先推出PHANERON,引起业界广泛关注。时隔6个月,寒武纪发布性能更为强劲的MLU100,曙光同步升级PHANERON产品,并发布一系列搭载寒武纪MLU100的服务器产品,保持着在智能服务器领域的持续领先” 这意味着曙光TC8600超算应用于AI领域将拥有极大的优势。 未来曙光公司的E级超算,应该就是基于海光公司的最新CPU和曙光自己设计的PHANERON AI加速芯片的最新版本。 由此也可以看出美国商务部的这次禁运,也根本影响不了曙光公司的E级超算产品。 禁运可能对曙光公司的商用超算产品线的影响巨大 我们还需要看到,由于曙光公司的主要产品线都是基于英特尔的CPU和英伟达的加速器芯片,在这次禁运之后,这些产品线都难以为继了。从商业层面来说,对曙光公司的影响巨大。但是好在曙光有了全国产的CPU和加速器芯片替代产品。我们可以从排名第43的曙光TC8600和排名第88位的曙光TC4600LP/W740l这两台超算的测试数据看出一些细节来:
表格来源于top500.org,笔者进行整理分析 曙光TC4600LP超算是基于英特尔至强CPU和英伟达Tesla加速器的产品。从以上测试数据来看,使用国产CPU和加速器的TC8600超算,在使用了3倍多的CPU核心数量以及5倍左右的加速器核心数量的情况下,跑分只不过增加到了1.4倍到1.7倍。但是功耗下降了很多,功耗效率提升了3倍多。 笔者分析这主要是因为TC8600采用的AI加速器并不适合传统的浮点运算,它只是在AI运算上具有巨大优势。 这也意味着,曙光公司缺乏合适的加速器芯片,来提升系统的浮点运算能力。这可能会对曙光公司的商业发展产生不利影响。 也许曙光公司的未来销售重点将转向AI运算。但是,也不排除未来曙光公司开发基于国产Matrix2000加速芯片的产品。 在这里必须介绍一下,为何曙光公司不能放弃X86架构的CPU。 全球TOP500强的超算100%都使用Linux操作系统的不同发行版。这些版本都为各自的CPU和加速器芯片做了优化。 而在超算上跑的应用软件也会受到CPU架构的影响。 从目前来看,对X86架构优化的Linux系统最成熟,应用软件最多,程序开发最容易,整个软件生态系统最成熟,稳定。而国产申威和飞腾CPU的系统则有些不足,软件工具为它们优化得少,编程也有些麻烦,系统bug也较多,整个软件生态系统只是解决了可用,离X86系统那样的好用仍然有一定距离。 所以,无论从国家的战略方面,还是从曙光公司的商业前景而言,X86架构都是应该坚持做下去的。 中国半导体制造技术的进步将极大地推进国产超算CPU和加速器芯片的性能 中国的半导体制造业长期以来是我们最大的短板。在台积电和三星电子已经量产7纳米工艺,英特尔已经小规模量产10纳米工艺的时候,我国目前最先进的半导体制造工艺还是中芯国际的28纳米工艺。 而在上面提到的国产CPU,要么使用国产较落后的工艺,自主性能够保证,但性能落后;要么在海外找半导体代工企业生产,性能可以提升,但自主性无法得到保证,说不定什么时候就会被掐脖子。 但这个状态很快就要结束了。中芯国际在2018年8月的第二季度业界报告中宣布,其14纳米生产工艺取得了重大进展,第一代FinFET技术研发已经进入了客户导入阶段。而正式量产则计划在2019年中期。所以,很快,我们就会拥有自己的14纳米半导体生产工艺了。 14纳米有多厉害?要知道,现在英特尔所有的台式机和服务器芯片都是14纳米的。英特尔在刚刚过去的台北电脑展上宣布会小规模量产10纳米工艺的低电压笔记本电脑处理器,并且预计未来几年14纳米仍然是它的主力工艺。只有AMD在台积电的代工下,刚刚宣布实现了CPU的7纳米工艺生产。 如果国产超算CPU和加速器芯片都使用中芯国际的14纳米工艺生产,它们的性能将会得到一个飞跃。 美国终将搬起石头砸自己的脚 实际上,美国在2015年对中国的四大超算中心的禁运,已经砸了它自己的脚:英特尔的至强Phi加速器芯片停产。
▲图为美国《个人计算机》杂志当年对美国封杀中国四大超算中心,禁止因特尔提供至强Phi加速器芯片给它们的报道 笔者在这里列一些事实: 中国的天河2号超算分别使用了3.2万颗Xeon E5 CPU和4.8万颗Xeon Phi加速器。 对于Xeon Phi的销量,Intel CEO曾表示过2016年的目标是10万颗出货量。 可见,单单我国的天河2号就能达到Intel 2016年约一半的Xeon Phi销量。 2015年4月9日,美国商务部宣布对中国的四家超算中心禁运英特尔的至强Xeon处理器和至强Phi加速器芯片。 2016年6月18日,至强Phi 7290/7250加速器价格直接腰斩。到2017年8月24日,英特尔宣布至强Phi 7200系列协处理器加速卡进入停产退市进程。
▲图为美国《个人计算机》杂志在当年的报道中也提到中国市场对于因特尔这一芯片的重要性,以及美国禁令将给因特尔带来沉重打击 笔者毫不怀疑英特尔至强Phi加速器芯片的停产就是因为对中国的禁运。这甚至影响到了美国下一代E级超算的开发。美国的E级超算,CPU可选择英特尔和AMD的X86处理器以及IBM的Power处理器,而加速器芯片目前只有一个选择,就是英伟达的通用GPU。 那么美国商务部的这次禁运会有什么结果呢?笔者相信,在我们自力更生的努力之下,几年之后,世界上会出现几个新的超算CPU生态圈,彻底打破美国的垄断。 实际上,美国《纽约时报》和《华尔街日报》也都不认为美国政府的这一打击中国超算的举动会阻碍中国的发展。这两家媒体采访几位不同的美国超算专家就表示,美国政府的行为虽然短期内或给中国的超算发展带来阻碍,却也会更加坚定中国开发本土技术替换美国科技的决心。
而一件必然会要发生的事,就是在2020年和2021年,中国有三台E级超算将会冲击TOP500排行榜的冠军位置,把美国超算踢下去。让美国看看,谁才是超算领域的王者! |