英特尔:高性能计算如何走向百亿亿次刀片服务器

2012-06-26    来源:比特网    
最新的一期高性能计算排行榜平淡当中又有新意:来自美国国家核安全管理局的超级计算机红杉排名第一,而前十名中有一半是新上榜系统,其中四套来自经济疲软的欧盟国家这些数据

  最新的一期高性能计算排行榜平淡当中又有新意:来自美国国家核安全管理局的超级计算机“红杉”排名第一,而前十名中有一半是新上榜系统,其中四套来自经济疲软的欧盟国家——这些数据足以说明,高性能计算已被视为国家的核心竞争力之一。而在行业方面,可再生能源、基因研究/生物科学、设计与模拟、媒体与娱乐等方面对高性能计算能力的迫切需求,则推动了高性能计算市场的持续大热。英特尔的统计也证明了这点:在今后5年,数据中心将会有爆炸性的增长,高性能计算领域的增长率将超过20%。在高性能计算持续大热的背景下,未来的高性能计算将如何发展?如何走向百亿亿次计算?为此,在高性能计算500强榜单发布之际,比特网记者采访了英特尔(中国)有限公司服务器平台产品经理张振宇先生。

  走向百亿亿次 混合结构成必然

  Q:高性能计算领域的发展已经有很多年了,英特尔刚刚也发布了“至强融核”品牌。英特尔为什么要在高性能计算领域推出这个品牌?

  A:在推动千万亿次向百亿亿次级的过程当中,至强扮演着非常重要的角色。至强本身是非常强大的平台,它能够适应各种各样的工作负载。尤其是我们今年3月发布的至强E5-2600系列处理器,其采用的“AVX”指令集对高性能计算非常有用,能够把性能提升5倍。实际上,至强E5平台也是高性能计算历史上被采用最快的一种技术。在最新的榜单里,3月份才发布的产品,到目前为止已经有45套在TOP500里出现,在新系统当中占据的比例达到了78%。

  但是,要发展到百亿亿次,仅仅依赖至强是不够的,还需要用“至强融核”架构来提高高度定型应用的计算效率。这是因为,当计算规模达到一定程度的时候,CPU和功耗和计算效率都不足以解决大规模的计算问题,这就需要采用例如GPU或协同处理器等方式进行加速。至强本身是通用处理器,能够适应各种各样的工作负载。“至强融核”是至强品牌下的一部分,英文名是“Xeon Phi”,Phi是希腊文的第11个字母,代表黄金分割,有科学、创新、和谐、完美的喻意,主要是在一些高度定型的应用,为数据中心、高性能领域以及工作站提供更强的计算能力。英特尔希望通过它为客户提供高性能计算的同时,为客户实现创新、达到完美。同时,“融核”也体现集成众核的含义。

  Q:如您所说,混合架构是走向未来高性能计算的必然趋势,但这种混合架构也包括多种混合方式。例如,早前的GPGPU+CPU方式,就曾在业绩获得广泛认可。您如何看待融核架构的前景?

  A:至强融核最大的特点就是“单一源程序”,经过简单编译可以在至强融核和至强两种架构上同时运行。因为采用了通用的编程和开发工具,能够帮助客户实现更有效的计算。确实如你所说,GPGPU+CPU模式在高性能计算领域当中已有一些应用,但这种模式也有其弊端——会带来编程上复杂性。由于GPGPU和x86架构在编程方面有极大的不同,客户需要花费大量时间学习。

  作为对比,“至强融核”的“单一源程序”特性为科学工作者带来了福音。例如,Altair和SGI用SGI UV2在我们的平台上进行汽车和汽车模拟的碰撞,客户印象最深的就是编程连续性,客户无需为了提升计算效率而重新学习另一种编程语言。实际上,我们期望至强融核能够改变高性能计算游戏规则。过去,人们鼓吹GPU,利用CPU来进行浮点加速来提高计算性能,但用户应该将精力放在科学研究上,而不是放在学习编程语言上。

  Q:至强融核架构适合哪些应用场景?会有桌面高性能计算这类应用吗?

  A:在高性能计算领域,石油、地质勘探、气象、动漫渲染、生命科学以及一部分的金融行业,金融风险分析,这一类应用都比较适合至强融核架构。在国内,英特尔也选定了一些目标客户,例如去年就选择了6个客户将其应用移植过来。实际上,这个过程也是客户跟我们相互认可的过程。同时,我也强调一点,至强融核产品是定位在数据中心、工作站、高性能计算领域。目前主要是着眼在高性能计算,下一代英特尔会帮助客户在工作站里完成并行计算工作;在数据中心当中的一些互联网应用和大数据应用未来也能从至强融核产品当中受益,流媒体监控也大有用武之地。

  Q:我们发现,榜单上的至强融核混合架构的效率是65.53%,未来会有提升的余地吗?

  A:凡是混合的架构,它的效率都不会太高。完全由至强组成的系统,其Linpack效率可以达到90%;但GPU+至强的结构,其效率甚至只有40%多。因此,至强融核混合架构的集群效率达到65%,这已经非常不错了。英特尔在国内的测试结果显示,单节点效率超过70%。因此,集群效率能够达到65%是不错的成绩。

    CPU不是瓶颈 互联才是

  Q:现在的融核有大约50颗内核,要实现了亿亿次计算,需要多少核?如何解决多核系统之间的通信问题?

  A:要实现百亿亿次计算不是简单地对核进行堆叠就能实现的。英特尔预测到2018年会出现百亿亿次计算系统,这需要互连技术的进展、编程工具的进展,以及其他方面的进展,这些因素会直接影响到系统最终的计算内核数。如果用理论值计算的话,简单地用浮点值相乘即可。不过,我相信到2018年,技术会比现在有很大的进步,所以现在很难准确预测系统的内核数。

  至于多核系统之间的互联通信,这确实是在发展百亿亿次计算时急需解决的一个问题。在高性能计算领域,有这么一句名言,“计算是免费的,移动是昂贵的,”指的就是通信问题。高性能计算发展到现在,计算已经不是瓶颈,通信互联才是。英特尔本身已有万兆网卡,在过去一年内在互联方面投入了很多资源,收购了生产高速交换机的一家公司、Qlogic和Infiniband业务和Cray的互联技术。我们也期待有更新的技术来帮助解决百亿亿次规模集群的通讯问题。,我们本身有万兆网卡,以太网这样的产品,去年7月份我们收购了一家公司是“Knights Corner”是生产高速交换机的厂商,今年收购了Qlogic和Infiniband业务和Cray的互联技术。

  Q:既然互联通信对高性能计算如此重要,那么,在高性能计算选型时,英特尔如何向客户推荐Infiniband技术和万兆网技术?

  A:Infiniband和万兆网各有各的特点,万兆网定义成下一代的统一网络(Unified networking),可以把存储和网络整合在一起,能够提供很大的带宽,整体的成本也比较好。有的应用,例如石油和对计算带宽要求不太高的环境,对计算延迟要求也不是那么严,可以采用万兆网技术;而对于像气象、汽车模拟碰撞、移动,这一类的应用就适合应用延迟比较低的Infiniband技术。当然,万兆网技术的延迟也在逐步降低,缩短了跟Infiniband技术之间的差距,这时候,我们会根据客户的应用需求看看到底是适合Infiniband还是适合万兆网。实际上,高性能计算的应用非常不同,不同的应用会有特别不同的需求。在大规模超算上,例如Petaflop级别,万兆网技术就不是最合适的。

  另一个例子,绝大多数应用都适合在至强上跑,但也有5%到10%的应用是高度定制的,例如大数据应用、动态学应用等等,这些就比较适合融核应用。因此,在至强融核产品发布之前,英特尔就开始就跟行业内的一些互联网厂商和最终用户帮助把合适的用户移植到至强融核产品上进行评估,看看什么应用最适合。

  超算领域 多极并存

  Q:您提到在超算领域,CPU已不再是瓶颈。我们也注意到,在TOP 10榜单中,专有系统还有很大的比例。这是否意味着,超算领域的格局已经处于专有系统和x86系统的相对平衡状态?

  A:这个情况与应用领域的U2L(UNIX 2 Linux)或者说RISC Migration(RISC迁移)的情况类似。你会发现,有一些应用放在RISC架构上有其存在的必然性,超算也一样。在关注通用性的时候,尤其是对一般用户而言,借助商用的互联设备、用开源软件来搭建一个相对低廉的计算的环境,这是一个合适的选择。但是为了追求极限速度,专有系统有其存在价值。因此,专有系统并不会消亡,在顶尖超算系统当中,还会出现专用系统的身影。但大家也可以关注一下,基于至强处理器的高性能计算系统,在Top 500榜单当中是保持了一个稳定上升的趋势。

  Q:在高性能计算领域,英特尔已有处理器、芯片、互联架构,并且能够帮助用户进行软件调优,已经形成了一条相对完整的产业链。那么,英特尔会在高性能计算领域推行平台化战略吗?就好像在笔记本电脑领域推行迅驰平台一样?

  A:英特尔现在还没有做平台化一体机的想法,但是你会发现,英特尔逐步从处理器生产商的角色逐步向平台或者系统供应商的角色转换。在高性能计算系统当中,CPU很重要,但整个系统的效率如何,不仅取决于CPU,还取决于其中的各种子系统,例如“内存子系统、互联通信子系统。英特尔为客户提供各种各样的组件,包括Infiniband、万兆网互联的设备、存储设备、计算设备,甚至还给出一些主板设计模板、软件开发工具,通过这些模块(Building)来帮助客户搭建自己最适合的系统。但是,英特尔自身并不会提供一体机之类平台化的产品。

1
3