全球第十超算:Sun刀片服务器和存储展示刀片服务器

2010-10-25    来源:51CTO    
在超级计算机中,全球排名第十的是位于美国新墨西哥州阿尔伯克基桑迪亚国家实验室的Red Sky,它由甲骨文Sun x6275刀片组成,配备了多达42440个拥有64TB随机存储器的英特尔Xeon 5500系列处

  在超级计算机中,全球排名第十的是位于美国新墨西哥州阿尔伯克基桑迪亚国家实验室的Red Sky,它由甲骨文Sun x6275刀片组成,配备了多达42440个拥有64TB随机存储器的英特尔Xeon 5500系列处理器核心,能够提供500万亿次的事务处理能力。这一切都由一组甲骨文Sun的存储来支持,在集群内使用红帽Linux操作系统。

  “我们正在利用甲骨文的Sun刀片服务器和Sun存储进行私有云设置,”桑迪亚国家实验室的高级计算机系统主管John Zepper说。

  这实际上是两个超级计算机操作系统的结合。这台被大家称之为Red Sky或者Red Mesa的超级计算机是桑迪亚国家实验室、国家可再生能源实验室(NREL)和甲骨文/Sun(纳斯达克:ORCL)通力合作的成果。Red Sky是一个由Red Mesa 每秒180万亿次系统支持的每秒325万亿次的系统。

  “Sun赢得了这台超级计算机的投标,目前在两台机器之间有将近有43000个核心,”Zepper说。

  甲骨文Sun X6275刀片采用了英特尔Nehalem架构,这是针对一般商业中高性能计算环境下的计算密集型应用程序设计的。桑迪亚国家实验室采用了无限带宽技术,利用英特尔的QuickPath技术来实现更高的带宽和更低的延迟。

  Zepper对该无限带宽技术的优点做了解释。通常情况下,对于每个节点,技术人员都必须牵一根连至主交换机的电缆。所以最终会导致你不得不采用很多根电缆。

  “无限带宽技术能够帮助我们显著减少布线的数量,”Zepper说。

  集成的无限带宽QDR主机通道适配器(HCA)和四倍数据速率以及高速网络交换模块(QNEM)被用于安置在甲骨文Sun 6048刀片机箱内刀片的相互连接。

  “我们在处理QNEM的时候遇到了一些问题,所以甲骨文与我们一起合作对其进行修改从而使它们能够在我们的环境下保持最佳的工作状态,”Zepper说。

  由桑迪亚和甲骨文/Sun共同设计的交换机被用来创建使用无线带宽网络技术的首次三维环面互联拓扑。该系统也被认为是首个完全采用光互联电缆的基于无限带宽的系统。

  Zepper透露说,实验室已经将所有硬盘驱动器从x6275刀片中移除。通过无限带宽进行启动,可以让实验室不再为Red Sky配备以太网基础架构。这将为每个刀片节约高达20%的成本。

  “通过启动无限带宽,我们可以看到现在的设备性能比起使用先前的基础架构的时候提高了四到五倍。”

  电源和冷却

  Zepper举了一个关于在加速计算性能的同时降低内存的生动案例。旧的超级计算机有17个机架,而桑迪亚现在可以将这一切都浓缩在一个刀片机架内。

  不过,由此带来的敝处就是它所产生的巨大热量。因此,为了提高工作效率和降低成本,实验室从新设计了它的冷却装置。Zepper将它描述为桑迪亚到目前为止所开发的是最具能源效率的计算平台。在电源和冷却方面,它配备了Emerson/Liebert XDP和APC配电装置(PDUs),同时为机架安装了Cooligy Clacier Door冷却设备。

  “外壳门采用了制冷剂,其目的是用来冷却刀片而不是机房,”Zepper说,“单单就电这一项,每年可以节省大约十万美元的开支。”安置在机房内的Liebert XDP可以保持制冷剂的冷却,这让每台机架可以负荷35千瓦的功率。

  这种直接冷却系统可以为每千瓦的冷却节约0.13千瓦。Zepper称这种冷却过程每年可以降低制冷设备耗损的37%,节约540万加仑的水,同时节省77%的制冷电能耗损。

  衡量数据中心工作效率的标准之一是电能利用率(PUE)。用进入数据中心的总功率除以运行计算机架构所使用的功率,然后你会得到一个功率比。该数值越接近1越好。而Red Sky已经达到了1.27的PUE。

  “对于一台拥有43000个核心的设备而言,实现1.27的PUE可谓惊人了,”Zepper说。

  他还说,比起老一代的四机架,APC PDUs可以在半台机架内提供288千瓦的功率。

  在存储方面,桑迪亚国家实验室拥有148个甲骨文Sun J4400磁盘阵列,能够为超计算机集群提供6PB的存储容量。Lustre文件系统在集群内部以20GB每秒的速度通过无线带宽技术进行运作。

  “Lustre拥有能够聚合数据的输入和输出控制器,可以让数以百计的用户访问我们的机器,”Zepper说。最重要的是,Red Sky/Red Mesa平台为处理复杂的问题带来了时间上质的飞跃。这才是这台设备的真正价值所在——让研究人员可以在处理实验室工作的时候加快步伐。

1
3