谢军:思科大数据支撑技术专家专栏

2012-12-25    来源:IDCUN    编辑:IDCUN
 2012年12月11日, 思科大中华区数据中心解决方案首席架构师谢军在2012中国IT合作伙伴峰会暨SPF2012上对思科在大数据中心方面的技术进行了阐述。

  2012年12月11日, 思科大中华区数据中心解决方案首席架构师谢军在2012中国IT合作伙伴峰会暨SPF2012上对思科在大数据中心方面的技术进行了阐述。

  

  思科大中华区数据中心解决方案首席架构师谢军

  谢军:各位下午好,很高兴今天有机会和大家介绍思科在大数据中心自己的一些技术。刚才我们嘉宾也给大家介绍了,大数据从IT角度讲带来商务驱动,会给我们带来增值业务。我今天讲大数据架构和传统数据中心数据管理方式有很大变化。这些变化事实上在我们IT行业有很多变革问题,面对这些挑战我们应该怎么办。思科哪些技术可以帮助我克服挑战。我们适应大数据环境里更加顺畅。前面讲主要两方面。这边是一个传统的HADOOP方式,会有一个非常关键的节点,这相当于工作引擎,所有数据管理要通过这个操作。这个节点出现故障整个大数据系统不可用。业务彻底停掉。

  第二个看左边数据分布,会有很多东西,中间通过网络进行连接。HADOOP多份数据复本保存数据,有三个数据复本。当一个数据复本出现故障会帮助做复制,这个复制通过网络实现。在第二方面会在一些特定情况下产生大量数据复制,特别是当系统做得比较大的时候。通过网络复制1个T数据需要多长时间?如果一个千M网络,整个复制带来网络冲击影响整个HADOOP运行。这是第二个。

  第三个大家会很明白,过去数据存放是集中式存储,联到服务器上。在整个数据管理层面上管理点是几个节点。比如说一个传统的数据库两个节点或者三四个节点。在HADOOP环境下会出现几十个上千个,而且上千个有可能跨不同数据中心的超大集群。意味着管理点非常多。管理成本上升。所以说这是在大数据情况下大家会碰到的两个挑战。这个讲HADOOP操作中的方式。这个方式数据产生和缩减时候通过网络做。HADOOP数据复制是串行方式,先写一个复本再写第二个,最后算的多快就是看时间,不同节点怎么算出结果,有时候不是带宽问题。怎么样把这些结果聚合起来,这还有一个带宽问题。这是我们看到大数据环境下的变化。

  思科做了计算系统,思科当时认为在今后数据中心发展,计算一定是往横向扩展,我们在往虚拟化,往云到今天讲大数据,其实都有个共同特点是分布式。 在分布式需要和网络关联,思科要考虑,我们是不是做一个产品把计算和网络融为一体。这是我们的UCS服务器系统。思科的服务器系统核心取决于这个万M矩阵,是计算域的管理点,所有挂上面的服务器对我们来说只是一个计算单元,所有它的挂在哪个应用上全是由这层决定的。他本身是实现硬件循环,把服务器所有的上升到网络,由网络去定义这个服务器。

  谢军:如果有100台服务器申请一个码要KVM100次,但是我们这个平台不需要,只要连接到交换群上可以控制下面挂的所有节点。会极大的缩短管理点。第三个好处本身集成两个能力。第一通过软件第二通过硬件实践。一旦在A链接上任何网络包括端口联线出现故障都会解决,实现网络自愈能力。第二个能力是实现了硬件能力,当内部最关键的点出现故障,是不是需要重装服务器,在我们这个平台不需要。我直接把这台服务器属性写到另外一个好的服务器上。这台服务器特点和原来的完全一样。所以实现了硬件管理关键数据节点安全。这方面在很多情况下去做大量维护时候会帮助节约很多软件上的成本。不需要做复杂软件重新定义。

  谢军:在一个大数据环境下,思科提供一个解决方案,在大数据方面现在基本两个趋势,一个是坚持独立自主开元方式做。另外会提供自己的解决方案,在原先大数据架构里面提供自己的产品。在这两个方式,思科会提供很好支撑。第一个是开元手段。开元时候大家看到上面的6200这个系列,帮助我们实现一个网状的计算。下面223是一个拓展块,帮助我们在一个比较大范围里面扩展到很多计算节点提供支撑。这个是我们一个解决方案,再一个柜里实现的。这个解决方案会是一个完全验证的,是和大数据成熟解决方案供应商结合。我们在上面可以做到机柜上的验证,这个验证我们不但准只是软件层面,包括硬件连接层。会根据数据库出现的问题,比如节点故障等等,很快解决问题。会做比较好的扩展,这是一个我们说的构建大数据的基础单元。下面是总结,对于一些关键的一些节点我们提供有硬件漂移能力的技术,出现故障几分钟修复。

  第二个解决我们这个大范围管理问题,160个服务器,能够做一个非常大的一个大数据集群。第三个怎么样保持性能,出现节点做大量数据复制,带来性能好处不言而喻。这个方案是我们主流合作伙伴在平台上经过验证。接下来关注一下大数据另外一个趋势,有一些厂商根据自己技术特点推出新的东西。最近最热是HADOOP,提供内存方式来解决数据处理问题。SAP的HANA解决方法能够做到很多节点扩张。但是和传统的也点不太一样,用了最简单最有效方法,在部署这种技术的时候有要求,在HANA里保持数据完整性。每份数据写到内存同时往磁盘写。分两部分,一部分是单一节点,还一个可以扩展方式。我们给大家介绍是扩展的解决方案。思科扩展解决方案基于UCS,存储方面也需要支撑。在存储方面我们有两个合作伙伴,EMC和APAK(音),我们解决方案里集成我们网络,不会看到IP网,这三个功能在我们一个网上足够。整个实现过程是非常简单的。在其他地方做不到。第二优化内存的时候怎么样跟进,我们和EMC有一个解决方案。这个方式是这样,当我是管理数据时候通过IO这种方式进行传递。但是一旦出现大量数据读写,是通过其他方式传递。通过这种方式改进需求。这是UCS对HANA提供的优化解决方案,不多说。今天主要介绍我们计算产品,思科计算不是单纯计算,是以网络发展计算。我们相信在今后,特别是越来越多强调分布式系统里思科计算会给大家带来很多惊喜。

  谢谢大家。

1
3