杨灿群主任设计师全面解构“天河一号”行业资讯

2010-12-09    来源:中国IDC产业联盟    编辑:桂军
“天河一号”超级计算机主任设计师、国防科大计算机学院系统软件研究室主任杨灿群详细介绍了“天河一号”的体系架构和软硬件系统。

      中国IDC产业联盟讯 在昨天举行的“2010中国存储峰会暨信息世界大会”上,“天河一号”超级计算机主任设计师、国防科大计算机学院系统软件研究室主任杨灿群详细介绍了“天河一号”的体系架构和软硬件系统。同时,杨灿群还简要介绍了“天河一号”目前的一些典型应用。

      据杨灿群介绍,国家超级计算机天津中心是科技部2009年5月批准设立的,由国防科技技术大学和天津滨海新区合作共建,中心的主要任务提供高性能计算服务。目标打造三个平台,其一是国家重大科技的服务平台,其二是产业技术创业平台,其三是人才聚集的培养平台。

      “天河一号”计算机于2010年8月在天津市超计算中心开始安装,两个月内就完成性能测试。从2010年11月开始,系统开始试运行,接待国内的用户。“天河一号”含有14366颗英特尔处理器,互连网络是国防科大自主研制互连网络,存储网络是2个TB,有218个计算服务机柜,6个通信机柜。

      “天河一号”一个特色就是采用了我们国家自主首创CPU与GPU体系结构,有效解决了CPU和GPU协作计算的效率问题。“单CPU和单GPU协同计算的效率显然不满足要求,经过我们科研人员努力,从20%提高到70%的工作效率,从体系结构上验证了新体系架构的可行性。”

      “天河一号”计算处理系统包括7168个计算机,每一个计算节定有2-6核CPU和1个GPU,GPU采用是英维达,一个CPU主板和GPU主板合起来就是两个计算节点。互联通信系统也是国防科技大学自主研制,达到10GBDS,两倍于主流通信网络速度。双向带宽有116个GPS,采用2级网络,第一级网络把16个节点通过交换板互联,第二是全系统通过11个384个互联,每个机柜里面包含两个交换机。

      “天河一号”通过自主高速互连网络连接起来,这些存储系统和计算节点都是通过自主研制的网络连接起来。网络基于Lustre用来提供稳定性和性能。监控诊断系统实现全系统的检测和控制功能,主要功能有实时系统的状态检测,故障定位,还有一个反馈的冷却环境,自动根据主板和CPU温度来进行控制,另外还提供远程的监控和管理。

      基础架构系统,“天河一号”采用双重对面刀片式系统,温度高,维护方便。基于Linux开发的定制和虚拟运行环境,实现了用户数据之间的安全过滤,面向多个用户,然后用户也可以定制自己的计算环境,在这里面也可以进行系列的资源角度。另外,“天河一号”还研制一套大规模资源管理系统,对整个作业管理系统,作业调度就有一套系统来管理。另外操作系统还有节能控制功能,编译系统,保证一些传统计算机用户程序很平滑过渡。

1
3