152
47
2991
管理员
差异性隐私问题举例 最为广泛关注一个差异性隐私的例子发生在Netflix。在2006年,Netflix开展了一个奖金为1百万美元的比赛,来给它的电影推荐系统提高10%。为了给参加比赛的开发者在比赛当中有数据可用,Netflix发布了一些的被处理过的匿名训练数据集,其中包含了一百万订阅者的电影浏览历史信息。该数据集中有Netflix用户观看电影的排名,但是没有个人身份信息。 两个研究者,来自于奥斯汀的德克萨斯州大学的Arvind Narayanan博士以及Vitaly Shmatikov将Netflix的数据集和互联网电影数据库(Internet Movie Database,简称IMDB)评论数据,利用新的反匿名话算法(de-anonymization algorithm)。他们发表了一份研究报告,该报告表示他们能够在数学上识别Netflix数据集中的很多用户。基于一个用户的某些电影在IMDB中排名信息,研究者表示他们的算法能够识别在Netflix数据集中相同的用户,从而能够找到Netflix用户在2005之前的所有电影浏览历史,这就导致能够获取用户的有关宗教信仰,性别以及政治主张等潜在的信息。结果,一个Netflix用户起诉Netflix发布的有关他们的数据违反了视频隐私保护法案(Video Privacy Protection Act 简称VPPA),并暴露了她是一个同性恋。为解决这场官司,2010年Netflix支付了9百万美元。 就在同时,出于研究目的,AOL发布了一些“匿名的”搜索引擎日志。一个纽约时报记者利用电话薄对照这个数据集就能够识别一个用户。这份数据集当中包含了AOL用户的三个月的搜索历史,其中一些信息相当令人相当尴尬。该事件直接导致了AOL的CTO的辞职,以及两个AOL雇员被结果,以及一起针对该公司的集体诉讼。 还有其他无数需要注意的例子。比如,MIT的一个研究者能够从一个匿名的州保险数据库中结合公开可用的州选举登记记录识别她主管的医疗记录。 这些例子证明安全问题迫在眉睫,例子显示出数据集是如何能够被组合使用,从而违反隐私法律,法规,以及绕过用户的访问控制限制。通过使用这些相同的原理,如果你并没有进行恰当的控制,内部的Hadoop用户可能能够绕过安全限制。
举报
本版积分规则 发表回复 回帖并转播 回帖后跳转到最后一页
版权所有: Discuz! © 2001-2013 大数据.
GMT+8, 2024-11-15 17:54 , Processed in 0.075701 second(s), 24 queries .