12.2 对于企业应用, Hadoop安全机制不提供什么？

admin_bigdatas · 发表于 2014-2-19 01:13:30

12.2 对于企业应用, Hadoop安全机制不提供什么？

在本章剩余的部分中的内容以及安全术语中，重要的一点是你需要理解企业安全的某些方面，而这些方面Hadoop自身也不能够提供。当然Hadoop提供了一定级别的认证（Kerberos）、一定程度的授权（ACLs 以及 UNIX级别的文件权限）、以及支持网络加密和完整性的能力。然而，仅仅靠Hadoop，还有很多安全方面不能提供。

12.2.1 面向数据的访问控制
除了在HDFS上面的针对用户和组的ACLs（访问控制列表）以及基于POSIX的文件读写权限，Hadoop自身不会跟踪数据的访问控制策略。正如你在本章学到那样，很多企业机构都会根据不同的策略来限制对数据的访问，而这些策略通常又非常复杂。可能会出现一些情况，Hadoop系统中数据集中的一部分数据不能被数据分析师访问，这些数据分析师可能不能访问MapReduce工作的结果集以及查询的结果。

下面介绍了一些好的例子：
➤一个卫生保健机构可能要求医师只能访问和他的相关病人的数据，并且只能在正常的工作时间（早上9点以及下午5点）访问数据。这就意味着需要对病人的数据提供访问控制，需要一个系统，该系统能够基于角色（医师），以及时间（比如正常的工作时间）来限制数据访问权限，同时还要判断该数据是否属于这个医师的病人。
➤一份政府文件可能要根据一个用户的国籍，以及/或者一个安全检查的要求，该安全检查通常被称为强制访问控制。
➤某公司的金融咨询师不能访问该公司竞争方的计划以及建议。这种情况被称为“利益冲突”或者是“中国长城”策略。
➤一个大学可以搜集各个部门或者子机构的学生信息，可能涉及金融，医疗记录，校园警察。大学可能需要根据部门或者角色（医疗、警察、金融策略）来控制数据的访问。

这里面的每一个例子当中，Hadoop自身的安全机制不能够轻易的实行这些访问控制策略。一些挑战可能是架构方面的，这需要根据MapReduce的算法。导入的数据可能在开始的时候和访问控制策略关联好（比如在数据用安全策略标记的例子当中）。然而，当数据分布在HDFS上面或者和其他数据集连接的时候，这就可能会导致数据和安全策略之间产生裂缝。这可能导致新合成数据上面的访问控制策略就会不那么清晰。

对于需要这种级别的访问控制的机构来说这就是一个问题，本章的后面的内容中会检验该问题。

12.2.2 差异性隐私
对于无意泄露的信息的研究工作已经开展了将近40年，包括统计学数据库，到与数据挖掘有关的安全以及隐私关注。在数据科学当中，微软研究院的Cynthia Dwork博士使用差异性隐私（differential privacy）来定义这一领域。

差异性隐私关注于保护来自不同数据集或者数据库的信息，避免其被泄露。由于Hadoop以及其他数据分析平台能够利用大量计算资源来处理众多不同的大数据集，包含了重要的隐私和法律含义的差异性隐私就变成了热门话题。在诸如美国健康保险携带和责任法案（Health Insurance Portability and Accountability Act 简称HIPAA）等隐私保护数字法当中，差异化隐私显得尤为重要。

即使一个Hadoop数据集的隐私保密信息已经被略去，而该数据集可能只包含（或者配合）其他看起来并不有害的信息，这些看似无害的信息仍然可能被用来泄露个人的身份或者其他敏感信息，这就导致了违背隐私策略。可能会合成来自多个不同的Hadoop工作中提取的数据信息，这样，数据分析师或者Hadoop用户就不能看到这部分公开的信息。然而，Hadoop自身是不提供这种差异性隐私的保护功能的。当然，Hadoop包含了为内部用户提供了访问控制隐含式，对和其他组织共享统计信息以及数据的组织也提供了非常重要的隐含式。

因为被众多组织采用的Hadoop是强大的分析平台，它可以被用来发现你可能不能发现的信息。组织机构需要在向公众或者合作方发布数据之前都需要再三思考。根据你的实际环境，对你的数据可能会有一些内部的控制，要明白，一些Hadoop用户在他们的分析查询当中可能不允许看到某些结果。这也是NSA所关注的一点，NSA开发并发布了Accumulo，Accumulo项目是属于Apache的开源项目，他提供单元级别（cell-level）的安全。

差异性隐私问题举例
最为广泛关注一个差异性隐私的例子发生在Netflix。在2006年，Netﬂix开展了一个奖金为1百万美元的比赛，来给它的电影推荐系统提高10%。为了给参加比赛的开发者在比赛当中有数据可用，Netflix发布了一些的被处理过的匿名训练数据集，其中包含了一百万订阅者的电影浏览历史信息。该数据集中有Netflix用户观看电影的排名，但是没有个人身份信息。

两个研究者，来自于奥斯汀的德克萨斯州大学的Arvind Narayanan博士以及Vitaly Shmatikov将Netflix的数据集和互联网电影数据库（Internet Movie Database，简称IMDB）评论数据，利用新的反匿名话算法（de-anonymization algorithm）。他们发表了一份研究报告，该报告表示他们能够在数学上识别Netflix数据集中的很多用户。基于一个用户的某些电影在IMDB中排名信息，研究者表示他们的算法能够识别在Netflix数据集中相同的用户，从而能够找到Netflix用户在2005之前的所有电影浏览历史，这就导致能够获取用户的有关宗教信仰，性别以及政治主张等潜在的信息。结果，一个Netflix用户起诉Netflix发布的有关他们的数据违反了视频隐私保护法案（Video Privacy Protection Act 简称VPPA），并暴露了她是一个同性恋。为解决这场官司，2010年Netflix支付了9百万美元。

就在同时，出于研究目的，AOL发布了一些“匿名的”搜索引擎日志。一个纽约时报记者利用电话薄对照这个数据集就能够识别一个用户。这份数据集当中包含了AOL用户的三个月的搜索历史，其中一些信息相当令人相当尴尬。该事件直接导致了AOL的CTO的辞职，以及两个AOL雇员被结果，以及一起针对该公司的集体诉讼。

还有其他无数需要注意的例子。比如，MIT的一个研究者能够从一个匿名的州保险数据库中结合公开可用的州选举登记记录识别她主管的医疗记录。

这些例子证明安全问题迫在眉睫，例子显示出数据集是如何能够被组合使用，从而违反隐私法律，法规，以及绕过用户的访问控制限制。通过使用这些相同的原理，如果你并没有进行恰当的控制，内部的Hadoop用户可能能够绕过安全限制。

12.2.3 加密静态数据
由于对存储在磁盘或者终端用户设备上面信息的机密性有太多的威胁，许多拥有敏感信息的的组织机构都需要对静态数据进行加密。这种需求的原因与来自恶意软件的威胁有关、也与数据敏感度和机密性有关，或者是与法律条例有关。例如，HIPAA就包含了对静态加密数据的指导条例，这些静态加密数据与电子受保护的健康信息（ElectronicProtected Health Information简称EPHI）或者其他受法律保护的个人身份信息（Personally Identiﬁable Information简称PII）。

一些组织机构正在努力对存储于HDFS上面的静态数据进行加密，而这种加密是Hadoop自身并不提供的。然而，第三方库以及其他的产品能够配合Hadoop一起来满足这些需求，Rhino项目（在第10章讨论那样）正致力于解决Hadoop当中的这个问题。

12.2.4 企业安全集成
大多数的企业在他们内部都有各式各样的安全基础设施，包括进行身份认证的公钥基础设施（Public Key Infrastructure 简称PKI）组件、活动目录（Active Directory）、安全令牌服务（Security Token Service）、属性服务、用户认证的策略服务器，策略服务器提供了授权特许凭证，并且制定和执行访问控制决策。Hadoop自身的安全功能并不能总是能够嵌入或者集成每一个组织的安全基础设施。当安全需求要求企业应用要和一个组织的安全基础设施进行集成的时候，安全架构师的的职责就是设计出一套解决方案能够利用其它工具将Hadoop与这些安全基础设置进行集成起来。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

12.2 对于企业应用, Hadoop安全机制不提供什么？