搜索
大数据中国 首页 行业资讯 查看内容
【全文】美国白宫”大数据“白皮书——(浙江大学译)
2014-5-30 00:35 | 查看: 5004| 评论: 0

 特别声明:本网站转载此文只为资料参考和分享,内容不代表本网站的态度和立场。翻译来源于浙江大学历史数据研究小组。

大数据:抓住机遇、保存价值

美国总统行政办公室

2014 年 5 月

概述:

“即使大数据技术重塑了我们周围的世界,今天的发言也将帮助我们持续贯彻自身的价值观念。”“这份评估报告本质上被认为是一种对大数据作用范围的调查。在过去的 90 天中,评估小组对学术专家、产业代表、保护个人隐私的倡导者、人权团体、执法者,以及其它政府机构进行了调研。白宫科学与技术政策办公室(White House Office of Science and Technology Policy)与麻省理工大学、纽约大学、加州伯克利大学联合组织了三场大学会议。”“在 2014 年,美国国税局通过一个名为‘Get transcript’的工具将纳税人的信息数据加以共享,纳税人可以通过它获得他们自己最近三年的纳税记录。个人纳税者可以借此下载过去的纳税申报单,这使得居民进行抵押、学生贷款、商务贷款等活动与填写纳税表变得更加便捷。”

“尽管医学技术不断变化,但健康数据仍然是我们生活中非常私密的部分。在大数据使得较之以往任何时候都更为强大的发现成为可能的同时,重新审视相关信息被所有医疗保健机构共享后的隐私保密方式也显得相当重要。医疗保健行业的领导者已经呼吁构建一个更为广泛的信用框架,使得不同来源、不同隐私保密程度的健康数据得以汇聚。这一框架需要附加《健康保险便利和责任法案》与《反基因歧视法》(“Genetic Information Non-Discrimination Act”, GINDA)中的隐私保护条款,并同时设计标准化数据结构以提高
其跨平台适应性。 ”

“大数据正在改变世界。但是它并没有改变美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰。这份调查报告旨在鼓励使用数据以推动社会进步,特别是在市场与现有的机构并未以其他方式来支持这样的进步的领域,与此同时,我们也需要相应的框架、结构与研究,来帮助保护我们的核心价值观念。

给总统的一封信

亲爱的总统先生:

我们正生活在社会、经济与技术革命之中。我们如何通信、交际、度过闲暇时光以及开展业务已经转移到了互联网上。互联网又渗透进入我们的手机,进入蔓延在我们家园和城市中的设备中,进入推动工业经济的工厂中。其导致的数据爆炸和挖掘正改变着我们的世界。

今年一月,你要求我们进行为期 90 天的调查,检验大数据将如何改变我们生活和工作的方式,改变政府、公民、企业家和消费者之间的关系。这次调查的重点在于公共和私营部门如何在将风险最小化的同时,将大数据的价值最大化。 它也为大数据确定了发展我们的经济,改善健康和教育以及使我们国家更加安全和节能的机会。虽然大数据毫无疑问地加大了政府权力累积未经核实的事实的可能性, 但它也提供了增强公众责任、 隐私和权利的方案。如果正确实施, 大数据将成为历史前进的推动力,帮助我们国家保持长期以来成为我国特点的公民和经济活力。

大数据技术将变革生活中的每一个领域。 它们使之成为可能的知识发现提出了我们为隐私保护构架的框架如何在大数据生态系统中应用的重大问题。大数据也引发了其他问题。 这个报告的一个重大发现在于,大数据分析有一定可能使长久存在的公民权利保护黯然失色,特别在于个人信息如何利用于住房、信贷、就业、健康、教育及市场领域上。美国人与数据的关系将扩展他们的机会和潜力,而不是缩减。

我们正在建设我们将继承的未来。 美国比世界上的任何其他国家更适合确保数据革命能够持续地为个人发展和社会良好效力。我们欣然提交本报告,建议我们如何在保护诸如隐私、公正、自决等基本价值的同时拥抱大数据技术。我们致力于这一倡议和改进。我们今天在这发起的对话将帮助我们在大数据重塑我们周围世界的同时,坚持我们自身的价值。

目录

1、大数据与个人

  • 什么是大数据?
  • 大数据有什么不同?
  • 证明我们的价值

2、奥巴马政府在数据开放与隐私保护问题上的发展路径

  • 奥巴马政府关于公开数据的举措
  • 美国隐私法案和国际隐私法框架

3、公共部门的数据管理

  • 大数据与医疗保健服务
  • 对学习的研究:大数据与教育
  • 大数据在国土安全部
  • 在执法过程中贯彻隐私价值观
  • 大数据技术对隐私法的启示

4、私营部门的数据管理

  • 大数据对消费者与企业的益处
  • 广告支撑的生态系统
  • 数据服务业

5、为大数据构建的政策框架

  • 大数据与公民
  • 大数据与顾客
  • 大数据与歧视
  • 大数据与隐私
  • 预测大数据变革的下一篇章

6、结论与建议

  • 保护个人隐私的价值
  • 数字时代负责任的教育创新
  • 大数据与歧视
  • 执法与安全保护
  • 数据公共资源化

美国白宫“大数据”白皮书PDF版本下载:http://vdisk.weibo.com/s/GgQB3axicQgj/1401278850 

1、大数据与个人

什么是大数据?

自从古代有过第一次计数和农作物产量记录以来, 数据收集和分析便成为社会功能改进的根本手段。 17、 18 世纪的微积分、概率论和统计学所提供的基础性工作,为科学家提供了一系列新工具,用来准确预测星辰运动、确定公众犯罪率、结婚率和自杀率。这些工具常常带来惊人的进步。在 19 世纪,约翰·斯诺(John Snow)博士运用近代早期的数据科学绘制了伦敦霍乱爆发的“群聚”地图。霍乱在过去被普遍认为是由“有害”空气导致的,斯诺通过调查被污染的公共水井进而确定了“霍乱”的元凶,并同时奠定了疾病细菌理论的基础。

从数据中撷取洞见以提振经济行为,这也是美国工业的惯常做法。弗雷德里克·温斯洛·泰勒(Frederick Winslow Taylor)在宾夕法尼亚州的米德瓦尔钢铁厂采用秒表和笔记板来分析生产力,这大大增加了车间产量,也铸就了他的信念,即数据科学可以为生活中每一个方面都带来革命性影响。

1911 年,泰勒撰写了《科学管理原理》,以回应西奥多·罗斯福(Theodore Roosevelt)总统有关提升“国家效能”的倡议:

从我们单个人的行动到大型企业的工作,科学管理的基本原理可以应用到一切类型的人类行为中……无论何时,只要正确运用这些原理,必定会产生真正令人惊讶的成果。

今天,数据比以往任何时候都更加深入地与我们的生活交织在一起。我们期待着用数据解决各种问题、改善福利,以及推动经济繁荣。数据的搜集、存储与分析技术不断提升,这种提升看上去正处于一种无限的向上轨迹之中。它们的加速是因为处理器能力的增强、计算与存储成本的降低,以及在各类设备中嵌入传感器的技术的增长。 2011 年,新生成的和复制的信息量估计超过了 1.8 ZB(泽字节);而在 2013 年,这一数字估计可达 4 ZB。

什么是泽字节(ZB 或 Zettabyte)

一泽字节等于 21 字节,或相应的信息单元。想想看,一个字节等于文本中的一个字符。 1ZB 相当于存储 323 兆份列夫·托尔斯泰所著的 1250 页的《战争与和平》所需的容量。6或者想象一下,假定每一个美国人每秒钟拍一张照片并连续拍 1 个月,所有这些照片存储进来容量就相当于 1ZB。

世界上每天大约有 5 亿张照片上传或分享,另外每分钟还有超过 200 小时的视频上传、分享。但是,即使是人们自己产生的信息,即从语音通话、电子邮件、文本到上传的图片、视频、音乐等全方位交流产生的信息,与每天产生的与他们相关的电子记录等数字化信息相比,在数量上都是相形见拙的。

这些趋势还将持续下去。我们只是处在所谓的“物联网”(“Internet of Things”)的相当初级的阶段。在物联网中,我们的各种应用设备、运输工具以及持续增长的“可穿戴”技术产品将可以彼此交换信息。技术的进步将促成创建、捕捉、管理与存储信息的成本降至2005 年的六分之一。自 2005 年以来,人们在硬件、软件、人才与服务方面的商业投资增长了近 50%,达到 4 万亿美元。

“物联网”

“物联网”这个术语用来描述具有可交换信息能力的设备网络。这些设备通常嵌入了传感器,并通过有线或无线网络连接后进行彼此间的信息交换。它们可能包括你的温控器、汽车,甚至是你咽下去的“小药片”,医生可以用它来监控你的肠胃以及消化道的健康状况。这些连接的设备通过互联网传输、编制和分析数据。

关于“大数据”有许多种定义,这种差别取决于你是一位计算机科学家,还是一位金融分析师,抑或是一位为风险投资人推销一个概念的企业家。多数定义都反映了那种不断增长的捕捉、聚合与处理数据的技术能力,而这个数据集在数量、速率与种类上持续扩大。换言之,“现在,数据可以更快获取,有着更大的广度和深度,并且包含了以前做不到的新的观测和度量类型。”7更确切地说,大数据集是“庞大的、多样化的、复杂的、纵深的和/或分布式的,它由各类仪器设备、传感器、网上交易、电子邮件、视频、点击流,以及现在与未来所有可以利用的其他数字化信号源产生” 。就大数据而言,真正重要的是它能做什么。先且不论我们如何把大数据界定为一种技术现象,大数据分析那多元而广阔的潜在用途将面临一些关键性的问题,即我们的法律、伦理与社会规范在大数据时代是不是有足够的能力保护个人隐私和其它价值。前所未有的计算能力与持续的改进能力为我们的生活带来了可能是先前从未预料到的发现、创新与进步。但是,这些能力对于普通消费者来说,多数都是既不可见,也无法得到的,因此, 它们在持有大数据的一方与有意无意地提供着数据的一方之间,形成了一种非对称的力量。

部分挑战也在于如何理解大数据发挥作用的许多不同的应用场景。大数据可以被看成一种资产、一种公共资源,或者一种个体身份的表达; 它的应用或许可以驱动未来的美国经济,也可以是我们所珍视的自由的一种威胁。大数据可能是所有这些事情。就这为期 3 个月的研究而言,评估组并不旨在对大数据的作用做出全面的解答。大数据技术和支撑它的产业都在不断地创新和变化中。相反,我们的研究集中在探讨个人与数据的搜集、利用方之间那些至关重要的问题。

这份评估报告的范围

今年 1 月 17 日, 奥巴马总统在司法部就改革美国信号情报工作的演讲中,责成他的顾问约翰·波德斯塔(John Podesta)就大数据技术正在或将要对经济、社会与政府行为的范围内发生的影响做出全面评价。为此,波德斯塔召集了商务部部长佩尼·普利茨克(Penny Pritzker)、能源部部长欧内斯特•莫尼兹(Ernest Moniz)、总统科学顾问约翰·霍尔德伦(John Holdren)、总统经济学顾问杰弗里·泽恩斯(Jeffrey Zients),以及其他高级政府官员。总统科学和技术顾问委员会(President’s Council of Advisors for Science & Technology, PCAST)组织了一项平行报告,以评估基础技术。他们的成果支持了本报告中的许多技术性判断。

这份评估报告本质上被认为是一种对大数据作用范围的调查。在过去的 90天中,评估小组对学术专家、产业代表、保护个人隐私的倡导者、人权团体、执法者,以及其它政府机构进行了调研。白宫科学与技术政策办公室(White House Office of Science andTechnology Policy)与麻省理工大学、纽约大学、加州伯克利大学联合组织了三场大学会议。白宫科学与技术政策办公室也发放了“咨询请求”,就大数据和个人隐私问题寻求公众意见,并得到了超过 70 起回复。此外,白宫网站平台就公众对于大数据的各类使用及不同类型的大数据技术所持的态度,做了一项粗略的调查。在本报告附录中,可以看到工作组各项工作的列表。

大数据有什么不同?

这章首先界定一下大数据真正新颖和不同的是什么,它得益于总统科学和技术顾问委员会(PCAST)的工作。PCAST 写作了一份平行而独立的报告《大数据与个人隐私:一种技术的视角》。

“3V”: 数量(Volume)、类别(Variety)、速度(Velocity)

为了本项研究,评估小组聚焦的是那些数量巨大、类别繁多且高速运行的数据,而传统的数据采集与分析模式已经难以应对了。我们将其特征通俗地称为“3V”。数据采集、存储与处理成本的下降,连同像传感器、相机、地理位置及其它观测技术提供的新的数据来源,意味着我们生活在一个数据采集几乎无处不在的世界中。采集与处理的数据量是空前的。从基于网络的应用、可穿戴技术与先进传感器到监测生命体征、能源使用状况与慢跑者跑步速度的监测仪,由此带来的数据爆炸将推进人们对于高性能计算技术的需求,并推动针对最复杂数据的管理能力的提升。

不仅是数据的数量正在快速增长,它的格式也越发多样,来源也越发广泛。就像总统科学和技术顾问委员会的报告中所说的,有些数据是“天生数字化的” (“born digital”),意思是说它就是特别创造出来用于计算机和数据处理系统的。 这些例子存在于电子邮件、网页浏览,或 GPS 定位之中。其它数据是“天生模拟的” (“born analog”),这是说它从物理世界中发散出来,但可以不断被转化成数字格式。模拟数据的例子包括手机、相机或摄像设备录制的语音或可视信息,或者还有通过可穿戴设备监测到的身体活动数据,如心率或排汗量。“数据融合”(“data fusion”)能够将分散的数据源整合在一起,随着这种能力的提升,大数据可以带来一些远见卓识。

大数据来源是什么?

数据的来源与格式,连同其类别与复杂程度,都处于持续增长之中。 部分数据来源如下: 公众网络;社交媒体; 移动应用程序;联邦、州和地方记录与数据库;聚集商业交易与公共记录中的个人数据而形成的商业数据库;地理空间数据;各类调查;通过扫描并借助光学字符识别转化而成电子形式的传统离线文献。更多具有上网功能的设备与传感器的出现扩大了从物理实体,包括通过传感器和射频识别(radio-frequency identification, RFID)芯片采集数据的能力。而个人定位数据则来自 GPS 芯片、移动设备蜂窝信号基站的三角测量、无线网络映射,以及个人支付行为。

不仅如此,数据采集与分析的执行速度越来越接近即时时间,这意味对于一个人就其周边环境或生活所做的决定产生即时的影响而言,大数据分析有着越来越大的潜力。高速数据的例子包括记录使用者在线与网页互动活动的点击流数据,即时追踪定位的移动设备获得的 GPS 数据,以及得到广泛分享的社交媒体数据。客户与公司希望通过分析这种数据使其即刻获益的要求越来越高。事实上,如果手机定位应用不能即时准确地确认手机位置,它根本就不会有什么用处,并且,在确保我们的汽车安全运行的计算机系统中,实时操作就至为关键了。

新机会、新挑战

大数据技术能够将大量的数据集以从前不可能的方式分析出有价值的东西。的确,部分大数据所能产生的卓见是研究者过去从未敢想过的。但是,有关大数据的技术能力已然达到了成熟与普及的水平,它要求我们思考如何努力在大数据提供的机遇与这些技术所带来的社会、伦理问题之间做出平衡。

大数据应用的威力与机遇

若使用得当,大数据分析能够提高经济生产率,改善客户与政府服务体验、挫败恐怖分子并且拯救生命。例如:

大数据与不断发展的“物联网”使得人们将产业经济与信息经济进行整合成为可能。喷气式发动机和运货卡车现在能够装配许多传感器以监控上百个数据点,并且在需要维护时自动报警。这就使得整个系统更加扁平化,减少了维护成本,并同时增强了安全性。

医疗保险和医疗补助服务中心(The Centers for Medicare and Medicaid Services, CMS)已经开始在要求支付前用预测分析软件来标示看似报销欺诈的凭据。欺诈预防系统有助于实时甄别高风险医疗保健提供者的欺诈、浪费与滥用行为,它已经终止、阻止或确认了 1.15 亿美元的欺诈性支付,在该程序上头一年花的每 1 美元带来了 3 美元的成本节约。

在阿富汗战争最激烈的那几年,美国国防高级研究计划局(Defense AdvancedResearch Projects Agency, DARPA)派遣了数据科学家团队和可视化技术团队到战地。在一个名为 Nexus 7 的计划中,这些团队被直接派进作战部队,用他们的工具帮助指挥官解决特定的作战计划。在其中一个地区,Nexus 7 的工程师将卫星数据和监测仪数据融合, 观察交通工具是如何在道路网中流动,这使其更容易定位并摧毁简易爆炸装置。

有一个大数据研究综合了通过监测器采集的数百万个来自新生儿重症监护病房的数据样本,以确定哪些新生儿有可能感染了潜在的致命性传染病。通过分析所有数据(不只是医生在他们的巡视中标记的) ,该项目能够识别像体温升高、心率加快这样的因素,以此作为有可能发生了某种感染的早期预警信号。这些早期感染信号并不是经验丰富、工作细致的医生通过传统方式能够了解到的。

大数据技术也具有其它极大的前景,它可以用来更好地管理电网间的调配需求、 改进能效、为发展中国家提高农业生产力,以及预测传染病的传播等许多其它的应用领域。

大海捞针

现在,计算能力要做到“大海捞针”不仅是可能的,而且依然成为现实。过去,搜索多个大数据集既需要合理组织数据,也需要提出特定的研究问题,依赖选择对的查询以返回正确的结果。大数据分析令数据科学家积聚了海量数据,包括非结构化数据,并且使他们能够找出异常点与数据模式。在这种发现的模式中,为了找到针,你得有个大海;为了获得确定的洞见,你需要一定量的数据。而在其中所涉及的巨大数据量内,就隐含了对于个人隐私的关键性挑战。

例如,Broad 研究院的基因研究人员发现,海量的基因数据集在识别遗传变异对疾病的意义中有着关键的作用。在这个研究中,当样本数量是 3,500 时,和精神分裂症有关的遗传变异无法检测出来;当使用 10,000 个样本时,也只能有细微的识别;但是当样本达到 35,000 时,统计学上的意义便突然显示出来。正如一个研究人员所观察到的一样,“当达到某个拐点时,一切都变了。”对于更多数据的获取,尤其是像基因数据等私人敏感的数据,对于研究者来说将会是一个巨大的挑战,这一情况是由以限制其访问的隐私法为主的各种因素造成的。

大数据之下的数据集群与数据的关系可能会出乎人的预料,但同时也很深刻。同时,即使有海量的数据,大数据分析的结果也不一定完美。图像识别并不能识别这个图像是否重要。相关性仍然不等于因果性。利用大数据技术找到的相关性,或许不能为对结果、行为的预测以及其他个人判断提供恰当的基础。与一般数据一样,在大数据中,解释始终是重要的。

完美个性化的福利和后果

融合大量不同类型的数据并实时处理他们,就有可能在消费者开口之前,就提供给他们正确的信息、产品或者服务。少量数据能够被结合在一起,从而创造出某个人的清晰的行为图谱,进而预测他们的偏好与行为。这些详细的私人档案和个性化的经历在消费者市场上很有用,它能够向确定的一类人推送产品与服务,他们中的一员可能是一位酷爱编织的专业会计,也可能是一位喜欢恐怖电影的家庭主厨。

不幸的是,“完美的个性化” (“perfect personalization”)也会在定价、服务与机会方面造成微妙的或是不明显的歧视。例如,一项研究表明,涉及到黑人常用名 (例如,“杰梅因(Jermaine)”)的网络搜索比涉及到白人常用名(例如,“杰弗里(Geoffrey)”)的搜索结果中更容易出现含有“逮捕”意味的广告。这项研究无法确定为什么种族偏见的结果会产生,因为在算法上,广告显示的生成是一个基于多变量的综合决策过程。显然,不同的群体通过不同的信息服务所产生的结果,有可能对个人造成真实的伤害,这种伤害可能发生在他们求职、买房甚至只是简单的搜索信息的时候。

还有一处值得关注:大数据技术能够从意识形态或文化上把人隔离开来,就像泡沫过滤器一样,有效地防止他们接触到一些对他们的偏见与假设构成挑战的信息。一些公司正在搜集并处理大量急剧增长的数据,并煞费苦心地挖掘个人资料与他们的喜好。然而,公众对这些活动的范围与规模的认知是有限的,消费者是很少有机会来控制这些被搜集并且反复使用的数据文件。

模糊与再识别

数据整合等技术在使大数据分析功能日益强大的同时, 也为对目前个人隐私的保护带来了严峻挑战。当数据开始连接到个人或设备时,一些隐私保护技术将设法去除这种链接,或者将个人身份信息“模糊化”(“de-identify”)——但是一些同样有效的技术也可以把这些碎片化的链接复原,并重新确定相应的个人或设备信息。同样,整合不同的数据可能会导致一些分析师所说的“马赛克效应”(“mosaic effect”),即个人身份信息甚至可以从不包括其个人识别码的数据库中得到或者推断出,只要明确包括其爱好等倾向在内的行为图谱即可。

许多技术人员认为, 数据的模糊化处理作为保护个人隐私的一种手段, 其作用也只是有限的。19事实上,对数据进行收集与模糊化处理是基于相关公司不恢复数据的承诺与对应的安保措施的基础上的。对数据进行加密、删除独特标识符、打乱数据使其无法识别个人,或者在其个人资料的控制上给予使用者更多的权限是目前采用的几种技术解决方案。但是有目的的模糊化处理可能使数据丧失其实用性与确保其出处及相应责任的能力。此外,它很难预测再识别技术将如何演变以应对看似匿名的数据。这将导致大量的不确定性,个人该怎样控制他或她的数据?他或她该怎样反对建立在海量数据之上的决策?

数据的保持

在过去,对于个人信息的自然控制的保存技术经常可以保证足够的隐私。数据可以被摧毁,对话可以被遗忘,记录可以被消除。但在数字世界,信息可以被获取、拷贝、分享、精确的翻译并且无限期的保存。从前存储大量数据的成本巨大,现在这些数据可以储存在一粒米大小的芯片里,既简单又实惠。结果是数据一旦被创造出来,就可以在许多情况下永恒的有效。此外,电子数据经常涉及到复杂多样的人群,使得个人的控制难以实现。比如,谁是一张照片的拥有者?是照片的拍摄者,还是照片里表现的人,是第一个邮寄它的人,抑或是邮寄它的地址?这些新科技的发展基本改变了一个人和与他/她相关的数据的关系。

数据自由的分享和复制的确比任何时候都要更多。个人、政府、企业、人际网络、同事、上台控制私人数据的其他政党,他们间的特殊责任仍在彼此区分。然而,技术发展的目标是明确的:越来越多的私人数据会产生,并在他人的控制下保存。保证数据的安全是当务之急。出于这个原因,“公众-个人合作社的各种模型”(“models for publicprivate cooperation”),例如在 2014 年 2 月成立的行政网络安全结构(Administration’s Cybersecurity Framework),是确保该基础设施的安全与可调整性的重要部分,而正是这套基础设施,正在为世界上许许多多的数据库提供服务。

证明我们的价值

无论大数据所带来的问题是多么的严重与重要,政府依然会支持相关电子经济的发展并提供免费的数据流来激发大数据的创造力。科技的进步总是会产生如何权衡我们的隐私与社会价值之间的关系的问题。美国在公共领域内,在国会上,在法庭里,均遭受过这个的问题所引发的争议的挑战。而在历史长河之中,无论科技如何变化,我们一直坚定地保护宪法赋予公民的权力。

奥巴马总统上任伊始,政府就号召公众与私营部门善加利用数据的力量,使其提高生产力,改善生活质量,服务大众社会。这也就意味着,这项研究并不仅仅涉及大数据科技的可行性,还包括了大数据是如何可能挑战一般美国人的价值观与美国当下的法律框架。这份报告集中叙述了联邦政府如何在大数据科技改变消费者与公民的世界观的同时,确保我们价值观的延续与法律的与时俱进。

去年,关于隐私方面的公共争议主要集中于政府,尤其是在情报机构如何收集、储存,并应用数据这一方面。 这份报告在很大程度上搁置了由信号情报领域的大数据使用而引发的问题, 对这一问题的详细处理可以参加总统在 1 月份发布的政策指南。相应地,这份调查报告也同样考虑到了政府通过收集与使用这些大型数据库给公众带来了便利。公众的信任要求政府合理地运行与工作,并要求较之个人, 政府必须以一个更严格的标准来收集与使用个人信息。正如奥巴马总统所明确指出的,“对于一个领导者而言,仅仅说‘相信我们,我们不会滥用我们所收集到的数据’是不够的。”

这份调查报告开阔了我们对于大数据问题的视野, 它将大数据的应用范围远远扩大到情报领域之外。这种新的技术不仅仅只是在考察个人隐私,无论这种隐私是被定义成不被干涉,或者是掌握某人身份等其他权利。在这份调查报告中,一些影响最为深远的挑战主要集中在以下方面:大数据的分析有可能导致新型的不公平待遇,尤其是对于弱势群体; 也可能产生不透明的决策制定环境,以至于个人自治完全迷失于在一堆无法理解的算法之中。

这些都不是不能解决的问题,但是它们都需要更加深入与严肃的思考。 谨记历史学家梅尔文•克兰兹伯格(Melvin Kranzberg)的科技第一定律是非常重要的:“技术既无好坏,亦非中立。” 22科技可以被用来服务群众,但也可以伤害个人。不管科技多么先进,美国公众都保留着一种力量, 即他们能够通过制定政策与法律来管理新技术的使用, 进而在某种程度上保护基本的价值观。

大数据正在改变世界。但是它并没有改变美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰。这份调查报告旨在鼓励使用数据以推动社会进步,特别是在市场与现有的机构并未以其他方式来支持这样的进步的领域,与此同时,我们也需要相应的框架、结构与研究,来帮助保护我们的核心价值观念。

奥巴马政府在数据开放与隐私保护问题上的发展路径

回顾美国历史,技术与隐私法都处于不断交替发展之中。在营造创新环境、促进经济繁荣的同时,美国一直在全球范围内扮演着保护个人隐私的领导角色。

宪法第四修正案保护了“人民的人身、住宅、文件和财产不受无理搜查和扣押的权利”。对实在空间与有形资产的保护体现了尊重、重视人身安全与个人尊严的意识,公民良好的社会行为与民主社会的正常运行依赖于此二者。

在美国,一个保护隐私利益的法律框架已经建立起来, 并覆盖了宪法、联邦、各州等各个层面。“隐私权”不是一个狭隘的概念,而是由一系列概念组成的,它们针对侵害公民隐私权的各种行为,形成了各个样式的有针对性的保护措施。在美国,数据收集与将数据造福大众有着同样长的历史。宪法第二章第一款授权进行十年一度的人口普查,以分配美国众议院议席。在实践中,人口普查从来没有仅仅只进行简单的人数计算,而是收集一些更为具体的以公共利益为目的的人口统计信息。

自从奥巴马总统执政以来,联邦政府采取了史无前例的政策措施,将更多的它所拥有的数据向公众、公司与创新者开放。从 2009 年开始,奥巴马政府将大量资料库向公众开放,并且将许多数据公布在美国政府的中央信息交换库——Data.gov 网站上。这种将政府的信息数据当作一种资产并加以披露,使其易于获取与使用的做法,换句话说,就是信息的公开化。这大大加强了社会民主程度、开拓了经济发展机会、改善了公众生活质量。

奥巴马政府关于公开数据的举措

公开数据计划

根据政府的公开数据,我们凭借口袋里的智能手机就能知道我们所处的位置。几十年前,联邦政府将气象数据与全球定位系统免费对外开放,企业家们得以发明大量的新工具,提供新型服务,天气预报 APP、汽车导航系统等新发明因而不断涌现。

在过去,政府收集数据的方式主要是由政府机构自己进行收集,而奥巴马政府的一系列公开数据的倡议与决策,使得过去在健康、能源、气候、教育、经济、公共安全与全球发展等领域内难以收集的数据变得易于收集,开启了一个新的富有价值的数据宝库。奥巴马在 2013 年 5 月 9 日签署的第 13642 号总统行政令为联邦数据管理工作提出了新的准则:在保护好隐私安全性与机密性的同时,将数据公开化以及可读写化纳入政府的义务范围。扩大公开数据的影响也同样是总统第二期管理工作规划的核心部分,例如管理和预算办公室(Office of Management and Budget, OMB)就已经建议其下属机构公开更多他们决策所依据的政府信息,因此,相信信息公开将可以惠及更多的人。

公众在 Data.gov 网站上可以找到有关联邦消费者金融保护局(Consumer Financial Protection Bureau, CFPB)受到的所有抗议的信息,这些抗议主要针对于阿肯色州学生贷款的 911 个服务领域。这表明每个人可以利用 Data.gov 网站获得他们所需要的公开信息,而不需要对政府机构和这些机构所推动的工作项目有特别多的了解。感兴趣的软件开发者运用一些简单的工具,就能够自动获得这些数据包的信息。

联邦机构在某种程度上应根据公众的要求优先公布它们的数据以扩大数据的影响面,每一个机构都被要求需通过诸如邮件系统或是在线平台等数据反馈机制来征求它们应当收集哪些数据。这样一来,任何倡议者、企业家、研究者就能第一时间联系联邦政府,建议哪些数据应该被公开。为了更进一步的形成反馈并促进政府公开信息的有效使用,政府官员一直在积极召开并参与编码马拉松(code-a-thons)、头脑风暴工作坊(Data Jams)、数据开放运动(Datapaloozas)与其他的一些以数据开放为主题的会议。

根据 2013 年 5 月的总统行政令,管理与预算办公室以及科技政策办公室(Office of Science and Technology Policy, OSTP)发布了一个工作框架方案,为各机构管理运用即时更新的信息资源这一新形式财产提供指导,包括了对保护个人隐私、信息可信度的一系列要求30。政府机构根据开放程度已将信息资产划分为三个种类:开放性、半开放性、非开放性,并且只能出版发行开放性密级的信息。为了增进透明度,一些机构需将一些还没公布到网上的技术性公开数据纳入他们的外部数据财产清单。

“我的大数据”计划

使政府信息更公开透明、更易被机器读写仅仅是政府信息政策的一个组成部分。1974 年颁布的《隐私权法案》授予了公民可接触一些与其有关的个人信息的权利,公民行使这一权利应该变得更加安全高效,从 2010 年开始,奥巴马政府着手采取了一系列主题为“我的大数据”的倡议与措施,使得美国人可以更安全地获取他们的个人数据,用来更好地处理他们私人领域的申请活动和服务。

“我的大数据”计划具体包括以下部分:

“蓝纽扣”计划: “蓝纽扣”允许消费者安全地获取他们的健康信息,使得他们可以更好地管理他们的健康与经济状况,并与信息提供者交换相关信息。在 2010 年,美国退伍军人事务部(U.S. Department of Veterans Affairs, DVA)开始了“蓝纽扣”计划,退伍老兵可以通过该计划下载他们的健康记录。从那时起,540 万退伍军人利用“蓝纽扣”获取他们的健康信息,超过五百家私人公司允诺向“蓝纽扣”计划的参与者提供更多他们所掌握的健康数据,今天,超过 1.5 亿的美国人能够从健康服务提供商、医药实验室、零售药房供应商与州免疫信息数据库获得他们所需的个人健康数据。

创建副本”计划:在 2014 年,美国国税局通过一个名为“Get transcript”的工具将纳税人的信息数据加以共享,纳税人可以通过它获得他们自己最近三年的纳税记录。个人纳税者可以借此下载过去的纳税申报单,这使得居民进行抵押、学生贷款、商务贷款等活动与填写纳税表更加便捷。

“绿纽扣”计划:在 2012 年,美国政府与电力行业合作推出了“绿纽扣”计划,这为家庭与企业提供了便捷的途径来获得他们的能源使用信息, 并且有利于营造良好的消费者环境与电子化模式。今天,为 5900 万家庭与企业提供服务的 48 家电力供应商通过参与“绿纽扣”计划,帮助他们的消费者节约资源。凭借自身掌握的能源数据,消费者可以选择享受何种私人服务,以更好地管理他们的能源消耗状况来达到理财的目的。

“我的学生数据”计划: 教育部将助学金免费申请表与联邦助学情况的一些信息共享,这些信息囊括了借贷、补助金、注册与超额偿付等方面的具体事项,这使得学生与资助人能够上网下载所需信息资源。在这些计划中,信息都是通过“注重使用者体验”、“机器可读写”、“文本信息平面化”的方式实现共享的。

除了为人们提供安全、高效的个人信息,“我的大数据”计划帮助建立了一个有效的个人数据获得性模型,政府也希望将其推广到更多的私人与公众领域。获取个人信息的能力在未来将会变得越来越重要,生活的各个方面都将会逐步卷入到个人、公司与公共组织的信息交换之中。

大数据计划: “数据-知识-行动”

在未来, “大数据”将会成为这个信息交换过程的核心,使得数据转化为知识,并进而转化为行动的过程更加快捷。在 2012 年 3 月 29 日,六个联邦机构加入到“大数据研究和发展计划”(“Big data Research and Development Initiative”)中来,超过两亿的科研经费被用于工具与技术开发以推进对海量数据进行获取、组织与整理并发现有效信息的相关技术发展。

自从“数据-知识-行动”(“Data to Knowledge to Action”)计划实施以来,在 1 亿美金的“XDATA”项目支持下,美国国防部先进项目研究局(Defense Advanced Research Projects Agency, DARPA)创建了一个关于研究出版物与公开化资源软件的“开放目录”,努力发展能够处理分析存在缺陷的、不完整的海量数据的技术32。国家卫生研究院(National Institutes of Health, NIH)也拿出 5000 万美金支持开展生物领域的“数据-知识-行动”计划。国家科学基金会(National Science Foundation, NSF)赞助的大数据研究计划,为人类基因组研究节省了 40%的经费。能源部也宣布向“可扩展数据的管理分析及其可视化协会” (“Scalable Data Management, Analysis, and Visualization Institute”)提供一项 2500 万美元的赞助,这家机构所处理的气候数据信息使得季节性台风预报的准确性提高了 25%以上。还有许多针对大数据的研究支持计划,比如奥巴马总统 2013 年 4 月发布的创新神经技术脑(BRAIN)计划。作为政府大数据计划的组成部分,国家科学基金会为大数据中出现的社会、道德与公共政策问题的相关研究也提供了特别的资金支持。

美国隐私法案和国际隐私法框架

美国《隐私法》的发展

工业革命带来的技术革新浪潮使得社会发生巨大变迁,《隐私法》正是在这一社会背景上发展起来的。隐私权最初由美国学者沃伦(Samuel Warren) 和布兰蒂斯(Louis Brandeis)在 1890 年由两人合著的著名法学论文《隐私权》一文中提出,初代可便携照相机的出现直接促成了他们观点的提出,在论文中,他们指出“最近的发明与商业应用将人们的目光吸引到个人隐私权的保护上来,…这项权利应不受侵犯…很多技术发明威胁到了隐私权,‘窃窃私语被公之于众’的预言可能被实现。”提出建立普遍性的隐私保护法的倡议出现在 20 世纪,这一倡议富有预见性,建立了从政府到个人的涵盖各个方面的公民隐私权。

案例法历经了上个世纪的发展,其中关于宪法第四修正案的解释条目随着时间与技术的发展也在不断进行调整。在 1928 年,联邦最高法院受理了“欧姆斯戴徳诉美国联邦政府”(Olmstead v. United States)一案并宣判在诉讼人屋外设置电话窃听装置并没有违反宪法第四修正案,即使政府以此获得了屋内谈话的内容。但是,欧姆斯戴德案的裁定因为贾斯蒂斯·布兰蒂斯(Justice Brandeis)的抗辩而传播得更广,他写道:“国父们曾经授予公民其隐私不可侵犯的权利以限制政府的行为。”

欧姆斯戴德案的法庭决议一直沿用,直到 1967 年 “卡茨诉联邦政府” (Katz v. United States)一案才被推翻。法庭认为,联邦调查局(Federal Bureau of Investigation, FBI)在没有调查授权的情况下在公用电话亭外安装监听记录装置,侵害了个人使用公用电话时应有的同时也是符合个人期待的隐私权,即使这个装置没有置于电话亭内部,或是身体以及财物上。此后,主观期待的隐私权得到保护,社会也开始将这视为理所当然。

民事法庭并没有立即将隐私权认定为一个公民向他者提起诉讼的正当理由——也就是律师们常说的“诉因”(“cause of action”)。直到 1934 年的《侵权行为法》中,无正当理由地严重侵犯个人隐私才被正式确定为可作为起诉的基本出发点。大多数州的法院这才开始将隐私权认定为诉因,这份规定并不是对民事侵权行为的单独一款规定,而是由 4 款复杂的规定组成的:

  1. 行为侵犯个人私人空间或私人事务
  2. 公开散播个人隐私
  3. 为丑化某人信息而将信息公开
  4. 为了非个人本人目的而挪用了个人肖像

现在许多批评认为这四款并没有很好地解决隐私问题,市场经济下因商业目的而大范围收集、使用、散播个人信息的现象仍很严重。同时一些人声称,自动化的程序应该能减轻隐私问题给公众带来的忧虑,因为它是使用电脑来进行操作并完成一系列任务,而不是像过去一样由人来操作完成。

信息公平实践原则

随着计算技术的发展与它在政府和私人间的应用更加普及,全球的政策制定者们开始重新审视它与隐私的关系。1973 年,美国卫生、教育与福利部发布了一份题为“录音、计算机与公民权利”(“Records, Computers, and the Rights of Citizens”)的报告。报告分析了“自动化个人数据系统可能导致的不良后果”并建议建立信息使用的保障措施。这些措施,也就是如今广为人知的“公平信息实务法则”(FIPPs),成为了当今数据保护制度的奠基石。

尽管这些法则在法律与国际公约中都有不同的表现形式,但本质上, “公平信息实务法则” 清楚地表达了处理个人信息时的基本保护措施。它规定个人有权知道他人收集了那些关于他的信息,以及这些信息是如何被使用的。进一步说,个人有权拒绝某些信息使用并更正不准确的信息。信息收集组织有义务保证信息的可靠性并保护信息安全。这些法则成为了 1974 年《隐私法》的基础,这一法案规范了联邦政府在个人信息的维护、收集、使用与传播等方面的行为。

19 世纪 70 年代后期,几个其他国家也相继通过了隐私法。 1980 年,经济合作及发展组织(OECD)发布了其《关于隐私保护和个人信息跨界流动管理的指导》 (“Guidelines Governing the Protection of Privacy and Transborder Flow of Personal Data”)。基于“公平信息实务法则” 的经济合作及发展组织指导并提供了关于过去三十年里国家隐私法,特别行业隐私法及其实践的信息。1981 年,欧洲委员会通过了《个人信息自动处理中的个人保护公约》(“Automatic Processing of Personal Data”, Convention 108),这一公约采用“公平信息实务法则”的手段来凸显欧洲对于隐私权的保护。

尽管有一些关键的不同,但是美国和欧盟国家关于隐私权保护的框架都是基于 “公平信息实务法则” 。基于隐私权是基本人权这一认识,欧洲国家的保护措施通常包括自上而下的严格法制与对于个人信息的使用的全面限制或是要求信息主体的明确同意。相对的,美国则通常采用在例如医疗保障与信用体系等特别领域实施特别规定来管控特定的风险。这使得美国很少有对于信息使用的全领域普适规则,从而为产品与服务的创新留下空间。但是,但这也为潜在的数据跨领域使用留下了空间“公平信息实务法则” 形成了诸多部门法与国际公约的共同思路。他们被编入 2004年《亚洲太平洋经济合作组织隐私权法则》 (“Asia Pacific Economic Cooperation Privacy Principles”),这一文件由亚洲太平洋经济合作组织(简称亚太经合组织或 APEC)成员国签署通过,并构成美国-欧盟与美国-瑞士的安全港框架基础,这一框架将以对于“公平信息实务法则”的一致观点作为沟通美欧法律的基础。

美国特定行业的隐私法

上世纪七八十年代的美国,特别制定的行业法律开始出现并作为以侵权行为为基础的习惯法的补充。这些法律只对特定的数据提供保护。除了少数例外,大多数州与联邦政府都通过了相应法律。

《公平信用报告法案》(“Fair Credit Reporting Act”, FCRA)最初颁布于 1970 年,这一法案旨在促进消费报告机构所收集的信息的准确性与公平性的同时,推进相关隐私保护。这些信息被用于信用与保险报告、雇员背景调查与租户筛查。这一法案赋予了个人访问与修正个人信息的权利,从而保护了消费者的权利。它要求那些提供消费者报告的公司确保信息的准确与完整;它限制这些信息的使用;它要求这些机构在依据报告进行不利于当事人的措施(例如拒绝贷款)时需尽到告知的义务。

1996 年 的 《 健 康 保 险 携 带 与 责 任 法 案 》 (“Health Insurance Portability and Accountability Act” ,HIPAA)规定个人健康信息只能被特定的、法案中明确的主体使用并披露,法案中也包括了用于帮助个人了解并控制其健康信息使用的标准。49《健康保险携带与责任法案》(HIPAA)的核心原则是“最小化必须”(“minimum necessary”)原则。50国会与卫生部会周期性地升级健康数据的保护。1998 年《儿童在线隐私保护法案》(“Children’s Online Privacy Protection Act”, COPPA) 和联邦贸易委员会 (Federal Trade Commission, FTC)的法令要求用于 13 岁以下儿童的在线服务或要收集儿童个人信息的在线服务需要获得父母的同意才能进行。在金融领域,《金融服务现代化法案》 (“GrammLeach-Bliley Act”, GLBA)要求金融机构尊重客户隐私并保护客户非公共信息的安全与机密。在诸如教育,通信,录像带租借与基因信息等其他领域,也有相应法案保障隐私。

消费者隐私权法案

2012年2月, 白宫发布了一篇名为消费者数据隐私权的报告:在全球数字化经济环境下保护隐私权与促进创新的新体系框架(“Consumer Data Privacy in a Networked World: A Framework for Protecting Privacy and Promoting Innovation in the Global Digital Economy”)。52这种“隐私”蓝图包含四个关键要素:基于信息公平实践原则的消费者隐私权法案;呼吁政府的多方利益相关者在特定的商业环境应用这些原则;对隐私权有效执行与对制定消费者隐私权立法基准的支持;对支持数据跨国流动的国际隐私权制度的承诺。

隐私权蓝图的核心是消费者隐私权利法案,它对消费者保护标准进行明确规定。这些权利是:

个人控制:消费者可以对企业从自己这里收集什么信息,以及如何使用这些信息进行控制
透明:消费者有权简单易懂地获取有关隐私权与安全实践的信息。

相关环境:消费者有权得知企业如何在消费者提供信息的相关环境方面进行收集、使用与披露用户数据

安全:消费者的个人数据必须得到安全与负责任地处理

可修改和准确性:因个人数据的敏感性,以及不准确的数据会对消费者有产生不良后果的风险,消费者有权查阅并更正个人资料

聚焦收集:企业在合理的限度内收集与保存用户数据

问责:拥有个人数据的公司有义务采取适当措施,以确保它们符合《消费者隐私权法案》(“Consumer Privacy Bill of Rights”, CPBR)

《消费者隐私权法案》更加关注消费者而非仅仅是以往用法律术语表达的隐私结构。比如,它根据“易接受性和准确性”(“access and accuracy”)的原则对权利进行描述,与以往对于“数据的质量和完整性”的公式化表达相比,更易为用户理解。同样的,它确保了公司将会尊重从消费者收集与使用数据的背景环境,从而取代“目的说明”(“purpose specification”)。

《消费者隐私权法案》还借鉴了公平信息实践的原则以更好地适应我们所生活的网络环境。

与要求企业遵循一系列专一、严格的条令不同,《消费者隐私权法案》建立了一般原则并提供给企业自由决定如何实施这些条令的权力。《消费者隐私权法案》的相关环境原则与其他六大原则相互间产生作用,确保消费者的数据将以符合他们的期望收集并使用。与此同时,相关环境原则允许了企业在信息的使用与“企业-用户”间的关系以及围绕如何收集数据的环境保持一致时,可以开展新的能够使用个人信息的服务。

互联网的复杂性、全球性与持续的发展需要及时的、可发展的创新扶持政策。为了应对这个挑战,《隐私法》的蓝图呼吁所有利益相关者聚集到一起,制定自愿性的,强制性的行为准则,明确规范如何将《消费者隐私权法案》应用到具体的商业环境中。《消费者隐私权法案》是基于广泛的基准原则与具体的行动守则的结合,能够在支持创新的同时保护好消费者。

提升全球互操作性

在其他国家与国际组织开始复核他们的隐私保护框架时,奥巴马政府发布了 《消费者隐私权法案》 。在 2013 年, 经济合作与发展组织升级了自己的隐私权指导方针,这在机制上补充了公平信息实践原则,帮助落实并加强了隐私保护。在 2013 年发布的亚太经合组织跨境隐私规则系统,也在很大程度上效法了经济合作与发展组织的指导方针。53欧委会正在审核第 108 号协定( 《个人信息自动处理中的个人保护公约》, “Automatic Processing of Personal Data”) 。在这些不同的隐私保护框架之间建立桥梁, 对确保国际贸易的强劲增长是至关重要的。

欧盟也正在推进其数据保护规则的改革进程。现有的欧盟数据保护指令仅允许欧盟公民数据享有 “充分的”隐私保护法案,或向拥有有效的数据安全保护机制的国家(如美国-欧盟安全港协议)流出。在 2014 年 1 月,美国与欧盟开始协商,如何加强安全港协议框架以确保它能继续提供有力的数据保护,并且能使提高其透明度, 得到有效执行与法律上确定性三者成为可能。这些谈判都还在继续,即使像欧洲、美国,也都在磋商这些隐私保护框架将如何适应大数据技术的同时,能够增加计算与存储能力。

在 2014 年 3 月,联邦贸易委员会与欧盟机构的官员连同亚太经合组织一同宣布,欧盟与亚太经合组织将发布共同的计划文件,满足双方在隐私保护框架方面的共同需求。56这项筹划工作将帮助那些在欧盟与亚太经合组织地区同时进行贸易的公司解决在两方隐私保护中的认证问题,避免因双方框架不一致或重叠所带来的困难。这样的努力澄清了公司的义务,帮助在全球隐私框架之间建立起相互间的操作性。

结论

目前最普遍的隐私风险依然是涉及“小数据”——定向妥协的内容,例如,以个人银行信息为目的的金融诈骗。这些风险并不涉及到大量的、急速的数据,或是繁多的信息种类,也没有隐含有与大数据有关的复杂化信息。对于“小数据”的隐私保护在美国已通过公平信息实践原则, 借由特定的部门法律,强有力的执法部门与全球隐私保护机制得到有效的解决。

隐私权方面的学者,政策制定者与技术专家现在正转向大数据的问题,即如何在 “公平信息实务法则”的基础框架下对大数据技术进行有效的管理。这份调查报告的剩余部分就将探索大数据在公共与私营领域的应用,然后将考虑大数据的整体应用对现有隐私保护框架的可能影响。

公共部门的数据管理

国家维护着和平,并同时保障食物的安全,确保空气与水源的干净。为此,它颁布法律法规来规范经济与政治行为,而大数据技术则有望使这些政府所提供的服务得到全面的提升。

本章将探讨大数据是如何帮助政府更好地履行它在医疗、教育、国土安全以及法律执行方面的职责,并指出大数据带来的挑战。自建国起,关于政府应该做什么、不应该做什么的讨论以及如何在科技日益发展的同时保护公民权利的疑问就不曾间断过。当合众国的奠基者们为这个年轻的国家制定法律与规范时,他们就为如何避免私人空间受到政府不恰当的干预而苦苦思索。而今天,大数据带来的改变或许会让他们大吃一惊:摩尔定律和泽字节正与宪法和权力法案一样,在国会的争论中起到举足轻重的作用。

从核心层面上讲,政府机构对于大数据的使用会加剧我们对政府与个人间权力平衡的担忧。公民信息一旦为了某个特定的目的而被编辑整理,它们就很有可能被用于其他目的,这在国家处于紧急状态时将显得尤为突出。政府在二战期间滥用其数据便是其中最为可耻的例子之一:本是在严格的保密条件下搜集的普查数据被用来确定日裔美国人的居住地并以此来将其扣留至集中营直到战争结束。

因为政府在为公众利益行使权利与权威的同时承担着特殊的责任,所以我们必须慎重考虑大数据在公共部门的使用方式以及对政府部门的数据使用的控制与限制方法。如果任其发展,大数据可能成为政府权力凌驾于公民权力之上的工具。而与此同时,大数据也能被用于进一步加强责任制,并设计一套从本质上更尊重个人隐私与公民权利的政治系统。

大数据与医疗保健服务

数据一直是医疗保健服务中的一部分。在过去的几年中,议会出台了相关法案来鼓励医疗保健服务供应商过渡至使用电子病历,这极大地提高了可供临床医生、研究者与病人使用的数据量。随着《患者保护与平价医疗法案》(“Affordable Care Act”, ACA)的制定,医疗保险的偿付机制正开始从相互分隔、具有潜在不协调性的“按服务收费”(“fee-for-service”)模式转变至基于更佳健康状况的付费模式。总而言之,这些趋势正在帮助形成一个“学习型”医疗保健系统,在此系统内,临床数据将迅速反馈给患者并指导治疗有效进行。

大数据可以确定饮食、运动、预防护理和其他生活方式因素对健康的影响,使得人们不必向医生寻求医疗保健意见。大数据分析能够帮助确定临床治疗、处方药剂以及公共卫生干预对于特定或广泛群体的效果,并对传统研究方式提供参考。从支付角度来看,大数据能够保证给患者提供治疗的医生有优秀的临床记录,同时,治疗的费用根据患者的康复效果而非治疗本身的次数确定。

预测医学的新起是大数据在健康领域的终极运用。这项强大的技术可以同时深入解析一个人的健康状况与遗传信息,使医生更好地预测特定疾病在特定个体上是否可能发生,并预测患者对于特定治疗方式的反应。与此同时,预测医学提出了许多复杂的问题。传统意义上,健康数据的隐私政策都力求在临床信息被分享与分析的同时保护相关患者的个人身份信息。而逐渐地,基于特定群体或人群的数据将在临床症状出现前或出现后不久被用于确定疾病的类型。

但是,预测医学挖掘出的信息所带来的风险将超出单一个体,一旦出现差错,不仅遗传信息提供者本人,他的孩子以及未来的后代等拥有与他相似遗传信息的人都将会受到牵连。因此,将基因组数据与医疗保健数据相连接的生物数据库便成为了个人隐私在医学研究与治疗领域中的无法回避的前沿话话题。

目前的隐私框架在不久前才包括了正在使用的健康信息,这一框架或许不能很好地解决上述发展带来的问题并推动相关研究的进行。运用大数据来改善健康状况需要先进的分析模型来摄取包括生活方式、基因组、医疗与财务数据在内的多种信息。生活方式与健康状况之间的紧密关系意味着个人数据与医疗保健数据之间的界限已经开始模糊。而这些类型的数据却收到不同的、有时甚至是相互冲突的联邦和各州政府的监管,其中包括《健康保险便利和责任法案》(“Health Insurance Portability and Accountability Act”, HIPAA)、《金融服务法现代化法案》 (“Gramm-Leach-Bliley Act”, GLBA)、《公平信贷报告法案》(“Fair Credit Reporting Act”, FCRA)与《联邦贸易委员会法案》(“Federal Trade Commission Act”, FTCA)。当数据的来源多种多样时,同时遵守多个法律带来的复杂性随之增加,与此同时,医疗机构还会与不受上述法律约束的许多组织相互勾结,形成一整套利益链条,各种个人健康信息被一系列企业共享,甚至于州政府会违背消费者对个人医疗数据隐私保护的意愿而出售其相关数据。在此情况下,针对医疗保健领域的大数据部门的设立也就成为了迫切之需,此举同时有望进一步降低行业成本并激发发展潜力。

尽管医学技术不断变化,但健康数据仍然是我们生活中非常私密的部分。在大数据使得较之以往任何时候都更为强大的发现成为可能的同时,重新审视相关信息被所有医疗保健机构共享后的隐私保密方式也显得相当重要。医疗保健行业的领导者已经呼吁构建一个更为广泛的信用框架,使得不同来源、不同隐私保密程度的健康数据得以汇聚。这一框架需要附加《健康保险便利和责任法案》与《反基因歧视法》 (“Genetic Information Non-Discrimination Act”, GINDA)中的隐私保护条款,并同时设计标准化数据结构以提高其跨平台适应性。在研究了健康信息技术后,总统科技顾问委员会得出以下结论:国家需要建立统一的数据标准与结构使不同类型的数据记录可以在受到控制的条件下方便访问。

在医疗数据保密框架逐步跟进技术发展的过程中,需要全美医疗保健与保险的供应商之间细致协商,而这份努力,将为未来的国民经济与公民健康的福祉奠定基础。

对学习的研究:大数据与教育

如今,上到大学,下至幼儿园,众多科技帮助并提升了学生在课内外的学习过程。获取学习资料、观看授课视频、评价教学活动、进行团队合作、完成家庭作业、参加课程考试,这一切都可以在互联网上完成。

这些基于科技进步的工具与平台给予了学生与教师更多的可能性。仅需数代的革新,这些工具就能提供实时的评估来使学习资料能够按照学生的接受速度来进行演示。不仅如此,教育技术还能扩大受教育人数、增进学生间的互动并使教学内容的持续性反馈成为可能。

除了个性化的教育,新的数据类型的运用使得研究者对于学习行为的研究能力有了质的飞跃。从大规模开放在线课堂等基于科技的学习平台上获取的数据可以被精确跟踪,借助这些数据,我们能够进行对远超传统教育方式的探索,对学生学习轨迹的移动进行更为准确与广泛的研究。具体包括:深入了解学生在学习活动中的接收效果,根据不同的学习目标,选择合适的学习资料,并进一步地运用这些数据帮助那些处于相似状况的学生。目前,教育部正在研究如何运用这些科技,并已开始整合国家教育技术计划下在线教学平台所产生的数据,并计划成立虚拟学习实验室,为进一步的研究提供方法论上的指导。

教育领域的大数据革命同时也带来了一些亟待解决的问题:随着科技日益深入课堂教学,我们如何最好地确保学生的隐私不受侵犯。一方面,各州与本地社区历来都是教育的主要提供者;另一方面,大量的在线学习工具与课程都是由盈利性企业提供。这就导致了在谁有权获得线上教育平台产生的数据及这些数据应当如何被使用的问题上备受争议。对于这类教育记录,《家庭教育权和隐私法案》(“Family EducationalRights and Privacy Act”, FERPA)、《保护学生权利修正案》(“Protection of Pupil Rights Amendment”, PPRA)和《儿童在线隐私保护法》(“Children’s Online Privacy Protection Act”, COPPA)中的相关条文在使用过程中都会遇到相应的挑战。

在大数据时代保护儿童的隐私

今天的孩子们是从识字前就接触数字设备的第一代人。在美国,青少年是移动应用与社交平台上的活跃用户。当他们使用这些科技时,关于他们的精确数据,其中一些甚至包含敏感信息,就在网络上被存储与处理。这类数据既包含能够大幅度提升孩子的学习效果并为其开启全新机遇的可能性,但同时,也可能在他们成人时形成一份入侵型的消费者个人信息,或通过其他方式对他们之后的生活产生影响。虽然年轻人一般与成年人一样乃至更加清醒地意识到数据会被商业机构与政府部门使用,但他们的数据还是会经常地受到父母、老师、大学招生人员、军队征兵人员与社会工作者的审查。他们中的弱势群体,包括寄养儿童与无家可归的年轻人,他们通常没有得到成年人的指导因而特别容易遭受数据滥用与身份盗窃。在强有力的监视之下,年轻人苦苦寻找保护他们隐私的方法,即使他们无法限制别人对于分享内容本身的获取,许多年轻人仍然尝试着用多种方式将所分享内容的含义变得模糊、晦涩,使得只有特定的对象才能理解其中的意思。

因为年轻人是那么的年轻,他们需要适当的自由来探索与尝试而不至于因一时的疏忽在日后受到挥之不去的侵扰。儿童在线隐私保密法要求网站运营商与移动应用开发者在收集低于13周岁的儿童的个人信息时必须征得其父母或监护人的同意。而现在,我们对于儿童正在遭受什么“伤害”以及怎样的政策框架才能确保他们伴随技术成长是一种促成而不是阻碍都还没能得出一个确定的结论。

与医疗保健一样,青少年在与数字教育平台的交互中表现出的部分数据是极其私密的个人信息,这些数据包括对于特定学习方式的偏好和他本人相对于其他学生的表现。它甚至能够分辨出有学习障碍或注意力无法长时间集中的学生。根据学生在一天内的上线与在线时间,他个人的生活习惯甚至都可以被获知。教育机构应当如何使用这类数据来改善学生的学习机会?对于使用这些平台的,特别是处于基础教育阶段的学生,他们如何能够保证自己的数据是安全的?

为了回答关于这些数据的所有权与恰当使用方式的复杂问题,教育部于2014年2月公布了针对在线教育服务指南。指南明确指出,只有满足《家庭教育权和隐私权法案》与《保护学生权利修正案》中规定的具体要求,学校或学区才可以才能够与第三方机构签订涉及学生数据的协议。随着越来越多的线上学习工具和服务可以为孩子们所使用,州与地区政府也正密切地关注着这些问题。学校与学区以未来合法的教育效益为目的共享受到保护的学生信息,并且在分享的过程中必须对这些信息保持“直接控制”。即使在这新的指导之下,如何在大数据世界中最好地保护学生隐私仍必须是一个持续的议题。

当局正致力于解决这些问题,并通过教育部加以实施,来使得所有的学生在享受大数据在教育与学习上带来的创新效益的同时免于受到其潜在威胁所带来的伤害。正如教育部长阿恩·邓肯(Arne Duncan)所说:“学生数据必须是安全且珍贵的,无论它存储在何处,它都不是一种商品。”这意味着必须确保学生的个人信息与在线活动不受到不恰当的使用,尤其当这些信息是在教育环境下被收集的。

大数据在国土安全部

每一天,有两百万人次乘坐飞机穿梭于美国上空,超过一百万人通过陆路进入国内。验证每一个人的身份并确定他或她是否会构成威胁的工作落到了国土安全部(“Department of Homeland Security”, DHS)的头上,后者必须在数秒内处理大量的数据来完成这项职责。这项工作不仅仅是从一个“草垛”中寻找一根“针头”,保护我们居住的家园往往需要从许许多多的“草垛”中找出那根最为关键的“针头”——一个典型的大数据问题。

确保国土安全部有效而合法地使用它搜集的信息是项艰巨的任务。在“911”恐怖袭击之后,国土安全部已经分离出22个独立的政府机构。如今国土安全部中的许多数据库仍分散各地,运行着陈旧的操作系统,而无法整合不同安全级别的信息。除此以外,国土安全部的职责组合方式多样,而这些职责本身却分别由在法律上独立的部门执行。在任何时候,这些信息必须在保护本国公民和进入或定居于本国的外籍公民的隐私与人身自由的条件下被用于授权过的特定目的,而这确保信息被正确使用的任务,就由国土安全部总部的六个办事处执行。

自 2012 年起,来自首席信息官、政策部门和情报部门的代表与个人隐私、公民自由和法律监督方面的官员一同开始运行第一个跨部门大数据应用试点项目——“海王星”(”Neptune”)与“地狱犬”(“Cerberus”)。“海王星”项目计划将不同来源的未经分类的信息汇聚成一个“数据湖”,并在其内部设置多项安全保障措施,包括添加多条数据标签的权限与精确到“哪些用户可以基于哪些目的使用哪些数据”的访问规则。所有这些数据都依据一套精细的方案贴上标签。在政府使用的过程中,重点关注是否存在经授权的访问目的,访问任务和必要事项以及使用者本身在访问信息时是否具有合适的工作证明和明细。在这种方式下,通过对数据标签、用户属性与访问前后信息的三重定位就能确定哪条信息在何处被谁访问。

数据管理的一个案例

为了在它的大数据试点项目中确定数据标签的统一标准,国土安全部还将数据系统的所有者与来自个人隐私、公民自由与法律监督办公室的代表聚集到一起。对每一领域的数据,他们都共同制定其数据属性并针对不同的用户群体设置了对应的访问权限。在制定出一整套标签来对信息进行编码后,他们又针对特定的使用限制或一些法律法规下的特殊情况设计附加的规则与保护措施。通过这种添加标签的方式,不仅可以完成高精度的数据访问控制,同时也保留了源数据与其原始搜集目的之间的联系,最终形成了一套对数据从哪里来、到哪里去得到进行全程监控的分类规则。

每个数据库中的字段分为三类:核心身份信息:例如姓名,出生日期和公民身份;扩展身份信息:包括地址、电话号码和电子邮箱;具体的随机数据:衍生于国土安全部中国的电子信息与真人信息的匹配过程。随机数据是最为敏感的数据类型,它可能包括执法人员对被访者的观察记录以及对被访者提出的威胁国土安全的指控。此时详细的规则就能借助数据标签来确定哪些人可以以何种目的访问这些信息。在这两个试点项目中,大多数访问权限的规则设计都需要国土安全部内不同部门的数据使用者间的持续协商才完成。例如,许多数据使用者需要核心身份信息访问权限来获得完成相应的任务所需的特定数据,但由于特定的使用限制,一些规则要求这些数据者提供与所确定的标准更为匹配的信息。

“海王星”与“地狱犬”试点项目同时包含对数据使用者能够采用的搜索方式的重要限制。一个基础检查点可能只需要对一个特定的个人进行数据搜索,因为这个检查点仅需核实基本的身份信息。但是,移民局和海关在侦查案件时,就需要对个人基础身份信息和特征信息进行搜索。而国土安全部的情报分析员就可能需要综合身份、特征与行动趋势信息来分析国家安全的潜在威胁。同时,系统管理员也没有系统内部数据的访问权限,因此数据库的框架设计要允许管理员在不访问任何个人记录的同时也能维持整体系统的正常运作。

在这两个试点项目中,数据库以完全不同于国土安全部自2002年沿袭至今的方式进行了重新组织。在这些大数据的相应举措开始之前,跨越不同部门的数据库搜索较为不便,而将这些数据进行汇总更是难上加难。在过去,数据的使用者与系统管理员一旦登陆成功便很有可能获得所有的访问权限,这些访问有时甚至不会受到跟踪、监测。如今,国土安全局有能力精确设计根据任务需求而定的访问权限。最重要的是,在这些先进的数据库中,通过人为地制定标签和数据的重新组织,国土安全局能够在强有力的法律监督下实施新型的事件预测与异常分析。

国家安全局如此细致地设计数据处理系统并不是偶然的结果。国家安全局内部专门设有独立的隐私办公室与公民权利与自由办公室,每一个办公室都配有专业人员来帮助研究处理这一复杂领域的相关事务。每一个试点项目在实施前都会向社会公众公布详细的隐私影响评估报告。国家安全局同时向公众提供各项目的介绍并接受大众对于项目具体措施的问询。经过这一系列的工作,隐私与公民自由办公室的官员不仅批准了这两个试点项目的实施,还同时通过了服务于未来功能扩展的配置建设。所有这一切都将有助于推动国土安全部的计划能在确保隐私和公民自由自始至终得到密切关注的同时得到进一步的发展。

在执法过程中贯彻隐私价值观

在法律执行方面,大数据是一个强有力的工具。近日,美国国防部高级研究计划局(“Defense Advanced Research Projects Agency”, DARPA)的“记忆延伸”(“Memex”)计划下开发的高级网络工具已帮助联邦执法部门在查明美国人口贩运网络的工作上取得实质性进展。这些工具不仅整理众所周知的“表层网络”(“surface web”)信息,还同时收集“深度网络”(“deep web”)下那些不被常用搜索引擎索引的公开信息。通过对网络站点的大范围搜索,这一工具能够发现原本难以获得或需要大量时间才能发现的信息。执法部门现有的数据能够锁定可能的人口贩卖团伙,进而协助干警确认性贩卖与其他犯罪活动的联系。目前,该工具已帮助侦察出一个起源于亚洲并蔓延至美国多个城市的人口贩卖网络。这是大数据能用以帮助世界上部分最脆弱人群的有力佐证。

大数据技术为执法部门等安全保障机构提供了有效的工具,但大数据技术的合理运用也是个难题。整合多种数据源能够让我们更全面地了解嫌疑人在作案期间的相关活动,但同时,在仅有极少甚至没有任何人工干预的情况下,行为模式分析可以揭示犯罪组织的组成或用以预测未来可能发生的犯罪行为。广泛收集数据能够帮助抓捕罪犯,但同时也可能会读取到非调查对象的详细个人信息。具体到法律执行过程中,我们必须谨慎行事,确保大数据技术在用于保护社会安全、公正执法的同时,兼顾对公民自由与公民的合法隐私权益的保障。

大数据将自然而然地以各种形式合理应用于国家安全层面。一套汇集全球数据的强大智能系统将用以侦查恐怖组织网络,提供攻击预警,以及阻止大规模杀伤性武器的扩散,而与此同时,它将运作于各种法律机构的授权和监督之下,较之协助调配警力至高危犯罪区域的执法系统,将提供更多的隐私保护。即使应用于不同领域,在整个执法和情报背景下,维护公民的隐私和权利始终是一致的。隐私保护和执法官员必须确保在系统运行的任何情况下,减少信息持有的最小化原则和控制访问的信息标签技术均能够得以保证实施。

新的工具与新的挑战

新技术的使用已导致过重要的宪法判决,在执法领域更是如此。正如大法官阿托利在 2013 年最高法院关于警方在未收到法院命令的情况下擅自在嫌犯的汽车上安装全球定位跟踪器一案的判决中所指出的:“虽然几乎无法想象,但相似的情况在 18 世纪后期也曾发生过。”“你能够想象一位警官为了掌握马车夫的行程而将自己藏于马车内吗?”阿托利进一步指出,“类似的事或许在 1791 年就已经发生过,只不过现在的‘马车’更大而‘警察’更小了。”

这个“小型警察”(“tiny constable”)却有着巨大的影响。无论是全球定位系统的跟踪、闭路电视的监察还是肉眼无法识别的传感器,这些监视无处不在,这也使得对隐私的合理预期以及对执法技术的约束和合理运用的诉求越来越普遍。

近几十年来,监控器材的体积越来越小,监控成本也越来越低。得益于此,全美超过 70 座城市都配置了音频传感器来确定枪声发出的位置以便快速派遣警员到可能的案发现场。不仅如此,随着数据访问速度的加快与存储成本的降低,各地警方也能够在全市范围内实时获取车牌与其他车辆信息,并加以存储以备后期使用。

这些技术带来的便利是巨大的。从寻找失踪人员到开展复杂的搜捕行动,先进的监察技术使得联邦政府及各州、各地区政府能够对犯罪行为进行更加迅速与有效的反馈。同时,这也使得正义在网络犯罪的侦察中得到更好地贯彻:执法部门能够通过这些技术及时获取电子证据来将这些高科技罪犯绳之以法。

除了监控,大数据带来的预测技术为执法部门提升了更好地准备、干预或彻底阻止某些犯罪行为的潜力。以洛杉矶与孟菲斯警方所使用的程序为例,分析软件能够实施预测进而形成一个地区的“犯罪热点图”(“hotspots”)。许多城市通过加强相应“热点”地区的巡逻警力,有效降低了辖区内财产犯罪的数量。

富有争议的是,预测分析技术如今已能被用于对某一独立个体的犯罪倾向分析。针对一场帮派火拼,芝加哥警方尝试将犯罪预测的侧重点由地理信息转移至身份信息。通过将警方数据与其他数据进行整合,同时加以社会网络分析,芝加哥警方根据与暴力犯罪的相关因素形成了一份涉及约400人的名单。据此,警方能够在已有的指控与犯罪记录证据之外,对一些特定个人提高防范。

预测分析技术也被刑事司法领域的其他方面。在费城,警方正运用软件预测哪些假释犯在出狱后再次犯罪的可能性较大进而需要加强监督。该软件使用二十几类变量,包括年龄、犯罪史及地理位置等。

与此同时,这些新技术应当如何及何时应用的问题引发了巨大的争议。80一方面,这些技术能够帮助执法等其他公共资源得到更加精确地分配并同时减少犯罪的发生;另一方面,《宪法》与《权利法案》所赋予我们的相应权利必须得到捍卫。

警察部门通过运用一系列数据与算法来预测犯罪几率并在犯罪活动开始之前调配警力,这有着重大意义。它要求我们对宪法在监察方面定义的行为——“特别怀疑”(“individualized suspicion”)的含义进行仔细审视。长期以来,我们都信奉着“一个人的行为、运用与个人背景都受到执法部门的监控的局面,会对自由言论与结社的权利产生‘寒蝉效应’”的合理观点。下一节中我们将探讨大数据技术对法律中的哪些特定领域带来了改变。

大数据技术对隐私法的启示

第三方数据的访问权限

至今为止,个人文件与记录经历了由以纸为载体存放在家中,到以电子文档的形式存储于家用电脑的硬盘内,再到以多种文件格式同时储存在本地与可供多台终端访问的云端的三个阶段。随着远程控制技术与云端储存技术在个人电脑与文件管理领域普及,我们必须采取相应的措施以保证法律跟上技术发展的脚步。

什么是值得保护的,我们对于这一问题的思考大部分是建立在这一个体是否期望将这一行为归为自身隐私范畴的基础上的。正如大法官波特·斯图尔特(Potter Stewart)在1967年的卡茨案中所指出的:“第四修正案所保护的是人,而不是地方。当一个人的行为是其自身故意暴露给公众的,即使这一行为是发生在他自己的家里或办公室内,该行为都不适用于宪法第四修正案……但若是他将某一行为视为自己的隐私,即使处于公开场合,这一行为也可能会受到宪法保护。”

两年后,最高法院的判决进一步阐述了宪法第四修正案中对于分享给第三方机构的信息的规定。在 1976 年美国诉米勒案(United States v. Miller)中,法院裁定宪法第四修正案并未禁止政府获取“那些提供给第三方机构并由其转交给政府的信息,即使这些信息是在其本身仅被用于特定目的的,同时要求第三方机构不得将这些数据透露给他人的条件下提供给该机构的”。83三年后,在史密斯诉马里兰州案(Smith v. Maryland)中,史密斯因其自愿向电话公司提供的拨号信息没有得到相应的与基于个人隐私的合理预期相符的保护而进行申述。最高法院重申:“它依然…认为一个人对其自愿转交与第三方机构的信息没有基于隐私的合法预期”。

米勒与史密斯案(Miller and Smith)是经常被引用来说明最高法院所具有的根本性的“第三方主义”(“third-party doctrine”)的案例。几十年来,这一学说始终认定,当个人自愿向诸如电话公司、银行甚至其他个人等第三方提供信息时,政府能够在不触及宪法第四修正案给予的个人权利的前提下,无需个人认可地从这些第三方机构中获取信息。执法部门依然根据“第三方主义”来获取在刑事案件侦破与国家安全调查中发挥重要作用的信息来保证全国居民的安全;而联邦法院则在之后的判决中将该主义广泛运用在实体信息与电子信息之中。

在此背景之下,国会与各州议会颁布法规,为某些类型的信息提供附加的保障。1974年颁布了用以保护联邦政府所持有的个人信息的《隐私法》(“Privacy Act”);1986年通过了用以保护电子通讯记录(对象之一)的《电子通信隐私法》(“Electronic Communications Privacy Act”, ECPA)和保护拨号信息(对象之一)的《禁止监视记录器与/或追踪设置法案》(“Pen/Trap Act”)。这些法案填补了宪法第四修正案在保护第三方机构所持有的信息的不足,为相关隐私信息提供了法律保护。

随着技术的进步,特别是人际交往过程中电子记录的成倍增长,一些评论家呼吁对“第三方主义”进行复审。 2010年,在美国沃夏诉案(United States v.Warshak)的六审判决中,法院判决电子邮件“类似于信件与电话”并属于基于个人隐私的合理预期的范畴,政府不能要求商业网络服务供应商在不事先通知用户预期结果并获得许可的情况下提供用户的电子邮件信息。在近期的最高法院的判决中,大法官索托马约尔(Sotomayor)则表示,“在这个人们将大量的个人信息存储在第三方机构来完成日常工作的电子时代”,当前对于第三方机构的信息流出的监管做法是“不合适”的。

虽然我们未曾获知自沃夏诉美国案后是否有任何法院曾通过下述判决:除非得到用户的同意,其个人的电子通讯信息不得在未经授权的情况下被访问,但是现在“第三方主义”正继续适用于此类通信的元数据,并经调整后应用于基站地址信息与无线网络信号信息上。

这份关于大数据与个人隐私的调查报告还对个人隐私、市场信心与在政府强行迫使第三方机构透露电子数据中涉及的相关法律等方面进行了深入研究。为了跟上科技发展的步伐,我们需要不断检验自身的法律与政策,并考虑如何在隐私保护方面将存储在诸如云端等远程存储器中的内容数据与存储在家庭或办公室的硬盘上的内容数据相联系。在过去的30年里,短信、电子邮件与其他交流平台已经成为了私人通信的重要手段,而这些信息大多储存在远程存储器中。

数据与元数据

从购买商品到上传数码照片,普通的美国人一天内会与企业进行数次形式各异的交易。这些交易会产生记录,而其中像药店票据一类记录还会涉及个人的敏感信息。在日常的行为中,用户也进行着大量的“数字化排放”(“digital exhaust”)或产生许多跟踪信息,留下更多碎片化的信息,手机传输时的地理坐标与服务器日志中的互联网通讯协议地址就是两个很好的例子。借助更加强大的分析工具,部分细小且彼此间毫无关系的数据碎片也能得到识别,进一步加强了第三方机构所搜集与持有的数据被加以合并与分析来揭示更多个人信息的可能性。如何使这些材料与从中挖掘出的信息得到应有的保护是当下一个紧迫的难题。

除此以外,对于关于某些类型的数据——特别是“元数据”(“metadata”)或是较通讯及文档内容之外的其自身的传输记录——他们是否应该收到较现在更为周密的隐私保护也是一个同样重要的问题。“元数据”是用来描述数据自身特征的。其中的一个经典例子来自电信行业。过去,电话拨出与挂断信号,作为一种元数据,较通话内容本身,被认为透露了较少的信息,而被给予了不同的隐私保护等级。如今,随着大数据的到来,无论是服务商的合约,还是机构出台的政策都不会对各种类型的数据进行如此简单的划分。

虽然专家们在元数据的隐私保护问题上存在着分歧,但是当下元数据的敏感性远超昔日的观点已得到充分的认可,并进而推动了对有关政策的重新审视。在情报信息方面,总统已经指示他的情报顾问委员会考虑这个问题,并针对时下关于元数据与隐私问题的设想做出长期可行性规划。这篇调查报告建议政府应该将该问题的范围扩大至情报信息以外,根据数据与信息对个体身份与行为的揭露程度制定相应的法律并实施其他保护。

商业数据服务的政府使用

私营部门强大的分析与数据挖掘技术不仅仅适用于商业领域。从土地管理到行政优化,各州、地方与联邦机构购买了大量私人数据库的访问权限以用于合法的公共服务。这些服务的数据来源有时是不对外披露甚至是作为商业专利而受到保护的。一些法律学者与隐私保护倡导者已经对包括执法与情报机构在内的政府部门使用商业数据服务产品的现象表示担忧。

而财政部一直致力于实施一项计划,具体包括减少支付中出现的对象错误、金额错误与缺少相应书面材料等现象,期望通过这些举措防止联邦支出过程中出现铺张浪费与徇私舞弊的行为。为了向联邦机构提供包括检查多个数据库、确定不合格的收款人与防止欺诈或错误等功能在内的一站式服务,财政部开发了“不付款”门户网站(“Do Not Pay”portal)。尽管目前其所提供的数据库均为政府数据库,财政部预期未来商用数据库也可通过该网站获得访问。

为了协助财政部,国家行政管理与预算局(Office of Management and Budget, OMB)已发行主要指南以确保个人隐私在该项目中得到充分保护。该指南指出商业数据源“也可能带来或增加新的个人隐私风险,诸如数据库提供不准确或过期信息”。该指南进一步要求所有进入“不付款”门户网站的数据库在进行审查与批准前需进行为期30天的公示以征求大众意见。同时,所有数据库都必须是该项目中的不可或缺的相关资料,并且要足够精确以确保数据库涉及的每个人都受到公平对待,同时还严禁涉及任何描述宪法第一修正案保护下的权利行使方式的信息,除非此类数据的使用是得到有关法规的明确授权的。

鉴于通过商业信息源可以获取的个人敏感信息的范围越来越大,这项指南是确保政府决策中使用的私营部门数据的隐私得到保护的重要一步。类似的指南需要普及到更广泛的机构与项目中,使得不论信息的来源如何,民众都能从政府处得到应有的保护。

内部威胁与持续性评估

2013 年华盛顿海军工厂内部发生一起枪击案,尽管一系列的逮捕行动使当局对与处于特殊公职岗位的员工评定更为频繁, 作为一名内部合约工人的嫌犯还是通过了秘密的安全调查。这是包括切尔西· 曼宁(Chelsea Manning)维基解密泄密事件、纳达尔· 马里克·哈桑(Nidal Hasan)的福特胡德军事基地枪击事件与美国情报史上最严重的泄密事件——爱德华· 斯诺登(Edward Snowden)泄露国家安全局(National Security Agency, NSA)内部文件事件在内的一系列国家安全检查的执行者的叛逃或暴力行为中的最新一例。

联邦政府的雇员与承包商都需根据其风险等级、职位敏感程度与访问敏感设施或系统的权限接受相应的不同级别的调查。目前,“绝密”(“top secret”)等级的雇员与承包商每五年需要重新接受调查,而“秘密”(“secret”)等级的调查周期则为十年。相关机构在此之外无法及时获取雇员新的或值得注意的信息。

试点方案的实施结果已经证明,综合适当的官方、商业数据库与社交媒体的自动审核机制来确定对象暴力或违规几率是行之有效的,这些“负面信息”(“derogatory information”)可能会导致相关部门对一位在职人员继续从事敏感职位的能力产生质疑。以国防部为例,近日其进行了一次名为“自动连续评估系统”(“Automated Continuous Evaluation System”)的试点项目。此次试点项目调查了包括陆军服役人员、文职雇员与承包商在内的3370名人员,结果其中21.7%的人员被认定在自上次调查以来产生了未曾报告过的负面信息。其中99名人员在此次试点项目中被发现陷入严重的经济危机、家庭暴力、吸毒或卖淫的指控并最终对他们进行了临时或永久性撤职。

当局在近日公布的一份关于人员的岗位合适性与安全性的调查报告中,呼吁在联邦政府内部扩大持续适应性能力评估的使用范围。尽管该项目中涉及的具体信息类型,尤其是来源于社交媒体的信息仍待确定,当局的调查报告中还是建议将以上措施在各部门及各安全级别中进行普及。

这些改革将会设计一套全新的流程来确保安全调查能够提高我们的安全程度。随着当局在联邦机构中大力推广跨部门持续性评估,雇员与承包商的隐私也需要得到细致的考虑。员工在此过程中必须拥有反驳或纠正调查结果中错误信息的能力来拒绝或撤销安全调查的结果。我们必须确保基于大数据技术的持续评价体系能够以保护社会大众安全与确保社会大众的服务者——联邦政府中的员工的公民自由与隐私权利的方式进行。

结论

当我们被大数据技术在公共部门引起的种种令人烦恼的问题纠缠不休时,我们很容易忽视这些技术在改善公共服务、促进经济增长和改善社区健康与安全方面带来的巨大机遇。这些实实在在的机会必须被置于大数据有关讨论的核心位置。

大数据技术拥有巨大的力量,它能使遍及整个政府行为框架的服务条款更加高效,它能够侦测徇私舞弊与铺张浪费的行为。不仅如此,大数据技术还能创造全新的价值形态。新型高精度气候模式数据源能够为气候变

免责声明: 除非特别声明,文章均为投稿或网络转载,仅代表作者观点,与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果本文内容有侵犯你的权益,请发送信息至ab12-120@163.com,我们会及时删除

最新评论

关闭

站长推荐上一条 /1 下一条

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-12-23 01:15 , Processed in 0.056516 second(s), 23 queries .

返回顶部