Hadoop的成功使之更安全网络安全

2014-08-20    来源:机房360    编辑:佚名
当人们在谈论大数据时,很自然的就会很快涉及到关于Hadoop的探讨。这款Apache开源软件是用来配合解决商品计算机堆积如山的数据信息集群危机的。

  虽然Hadoop的问世已经有一段时间了,其是在2005年由Doug Cutting和Mike Cafarella创建,并根据一款玩具大象而命名的,但其直到最近才刚刚开始获得发展。据Transparency Market Research的调研报告显示,在未来六年,Hadoop市场的复合年增长率将达到54.7%,会由2012年的15亿美元增长至2018年的209亿美元。

  而为了实现这一增长,Hadoop将不得不在一些企业级市场获得长足进展;要做到这一点,其需要解决其自身的安全缺陷。“我们显然正处于一个拐点,很多企业开始采用Hadoop来投入生产,但更多的企业更是想要扩大其使用。”Hadoop的分销商Cloudera公司的产品营销高级主管克拉克帕特森说。

  “他们想要储存更多的数据,并利用它做更多的工作。”他继续说。“如果他们真的这样做了,那么安全性问题会迅速上升为他们所关注的头号问题。这对于推动Hadoop进入主流企业具有非常显著的意义。”

  和许多新兴技术一样,安全性在Hadoop创作者的关注优先级列表排名中并不高。“其在设计过程中并非特别考虑到安全性的问题。”Hadoop集群管理软件制造商Zettaset公司的总裁兼CEO吉姆沃格特说。“其根植于雅虎和谷歌,因此,其更关注于使非结构化数据发挥其价值意义,而非提供安全性。”

  Hadoop预计也将受到防火墙和其他周边的保护的阻碍。围绕着访问群集本身,Hadoop系统有许多需要被重视的问题。Cloudera的帕特森解释说,但一旦其周边的安全被解决,数据集群还有很多其他方面的问题。”

  相关数据可能成为黑客攻击的目标,因为数据太多了。您企业拥有的数据越多,成为黑客攻击目标的几率也就越大。先进的威胁检测和修复公司ThreatTrack的安全情报和研究实验室高级主管多迪格伦说。

  虽然Hadoop社区能够很快通过软件代码堵住安全漏洞,但其在增加安全功能方面则不够迅速,如文件的访问控制,身份验证和数据加密,需要使程序在企业的黄金时间做好准备。

  “HBase是我们经手的一个较优质的项目。”Coverity公司产品和SaaS的高级主管Zack Samocha说,其所在的公司提供扫描代码来识别安全漏洞的服务。HBase是Hadoop使用的数据库软件。

  “Apache Hadoop是一个非常活跃的项目,”他补充说。例如,通过Coverity扫描,社区已经在HBase发现并解决了220个安全漏洞了。

  而随着开放源码社区开始着手在Hadoop上添加安全功能,例如,像Zettaset,MapR 和Cloudera这样的供应商,就在将这些安全功能添加到他们的软件。该社区在这方面已经探索了很长一段时间了,我们已经提前18个月开始研究这方面的项目了。Zettaset的沃格特说。

  企业希望看到Hadoop的一个安全功能是对文件的访问控制。他们希望有权决定谁可以访问和查看企业的相关文档。 而这一功能自开源的Hadoop诞生以来就一直缺少。

  Zettaset的软件主要设计用于为Hadoop的顶层服务,像Cloudera和Hortonworks等,并借助现有资源,包括活动目录或LDAP服务器执行访问控制管理策略。“人们已经创建了这些政策,所以我们重新创建已经存在的东西看起来有些傻。”Christian解释。

  也许的确是这样,但也有人认为,访问控制需要重新定义,并将其置于深度得Hadoop堆栈。“企业需要将对文件访问的控制维持在该体系结构的最低水平,”MapR的产品管理副总裁Tomer Shiran表示,其所在公司也有一款Hadoop产品。

  “企业不能在高堆栈中进行访问控制,如果企业限制一些人在一个更高的水平的访问,那么他们仍然有机会进行较低的水平的访问,这样企业实际上并未保护到任何东西。”他解释说。这就像锁上前门,却把后门和窗户打开一样。

  企业不仅想要控制谁有权在Hadoop中做什么,他们还想确定这些人的身份。一种方法是通过Kerberos,这是一种广泛使用的认证技术。虽然有些Hadoop产品的发行厂商支持Kerberos,但他们也把他们自己的认证置于其中。“我们的许多客户不想运行Kerberos。”Shiran说。“那太复杂了。简直是操作的噩梦。”

  他继续说,没有一种安全认证的方法,企业不放心将敏感信息存储在Hadoop。”这无疑限制了Hadoop的使用。”他说。“当企业不考虑安全问题时,Hadoop仍然是有用的,但这限制了企业能用它做更大的用途。”

  为了解决这个问题,MapR内置了本地认证方案在其发行的Hadoop产品中,作为Kerberos的替代。类似于SSH,该系统将ActiveDirectory或LDAP查找证书和用户名和密码相结合,用一个安全而简单的方法验证用户。

  Zettaset不是提供Kerberos的替代品,而是选择简化认证软件的安装。“我们可以使得仅仅只需点击几下鼠标就能够设置Kerberos。”沃格特说。这是我们所推出的另一个版本的产品,同时还需要一个小时的培训。”他说。

  加密是企业在将他们的敏感数据信息存储在Hadoop之前,希望其能够具备的另一大安全特性。例如,MapR能够提供所有数据从客户机到Hadoop集群、在集群本身的节点之间、以及集群之间传输过程中的加密,包括被送往灾难恢复系统的数据。

  其他的厂商,如Cloudera和软件程序供应商如Zettaset,也提供在Hadoop集群的数据加密。Cloudera甚至更进一步加密所有集群的元数据——那些属于集群的一部分,但又不属于Hadoop文件系统的数据,如如HBase元数据仓。

  Cloudera的加密方案还解决了企业对于加密可能被应用程序“攻破”的疑虑。“这是透明的静止数据加密。”Cloudera的产品管理总监Sam Heywood解释说。“其不需要对应用程序进行任何修改。”应用程序正常访问文件系统,但在磁盘上的加密数据已经在被送入应用程序之前被转换清晰的文字了。”

  由于转换成文字也会带来安全风险,Cloudera也提供这一过程中的一组访问控制。“对于被允许已被转换为文字的数据的访问还有一个列表。”Heywood说,他曾是Gazzang的前营销副总裁,该公司于日前被Cloudera公司收购。“任何不属于该列表名单上的数据,都将无法访问并,无论以任何方式——即使是根命令或伪命令。”

  随着开源社区和开发商赋予Hadoop更多的企业在内部使用过程中所需要的安全功能,其必将获得更广泛的普及,但Cloudera的帕特森也警告说,对其过渡开发可能伤害该技术市场的应用前景。他解释说,有一些工作负载进入数据集,如SQL在Hadoop批处理的工作负载,机器学习和其他工作负载。每种工作负责都存在一定的风险,最终将需要其自己的安全方法来解决。”他说。

  “我们正在试图做的,”他继续说,“是消除这种分裂并促进以安全为核心的产品可以以一个统一的方式来管理。”

1
3