人类最大的生物识别数据库正在印度实施-数据库

大数据中国 › 首页 › 大数据技术› 数据库 › 查看内容

人类最大的生物识别数据库正在印度实施

2013-12-27 02:12 |来自: 虎嗅网 | 查看: 15413| 评论: 0

印度实施的唯一身份识别(Unique Identification)项目(也被称作 Aadhar 计划)，本周早些时候完成了人口统计和生物识别数据的收集，总量超过 5 亿印度居民——是目前全球同类生物识别项目规模最大的一个。

该项目实施的几年来一直伴随着来自隐私和安全以及其他方面的争议声音。Aadhar 项目最新的进展又引来了有关其捕获、存储以及管理数据方法的担忧，特别是一家美国创业公司 MongoDB 在其中所扮演的角色。

MongoDB 是一家非关系型数据库(NoSQL database)创业公司，去年从美国中情局资助的 In-Q-Tel 机构中募集了资金。In-Q-Tel 是一家独立的非盈利资本机构，由 CIA 和一些美国其他的情报机构在背后支持。

过去几天，几家印度媒体的报道引述了该国政党和活动人士们的意见，怀疑 Aadhar 项目的隐私数据被盗用，直指该项目的负责人 Infosys 的联合创始人 Nandan Nilekani。

也有一些报道文章将 MongoDB 列入批评对象当中。

全球各国政府都在日益警惕美国国家安全局(NSA)的窃听行动，任何与美国政府情报机构有丝毫联系的事情都会闹得沸沸扬扬。不仅如此，因为印度明年普选在即，该国政治意见的发声更是达到前所未有的程度。

诸如此类指控的时机不能来得再糟糕了，至少对于这个野心庞大的身份识别项目来说是如此，Aadhar 正在等待国会法案的通过，要在今年完全成为宪法承认的机构。

笔者访问了位于班加罗尔(Bangalore)的 Aadhar 项目办公地点，说实话，按照向我介绍信息的工作人员的说法，虽然有人指摘大额合同中包含与 MongoDB 分享数据的内容，其实 Aadhar 使用的是 MongoDB 的开源代码，并不会触及敏感数据。这次会面同样有机会了解到目前地球上最大的生物识别数据库如何运作，如何处理安全和隐私方面的隐患。

不仅如此，印度唯一身份识别局(the Unique Identification Authority of India)反驳了与任何美方机构分享印度国民数据信息的指控。

Aadhar 对于印度来说，意味着什么？

首先要理清谈论 Aadhar 的语境，这个项目对于印度这样的国家来说意味着什么？该国有超过 5 亿人口没有任何正式的身份证明(ID)或诸如此类的凭证，这就导致了许多其他问题，比如没办法领取政府补贴、注册银行账户、申请贷款、考取驾照等等。Aadhar 数据库项目，目前以每天新增 100 万印度国民的速度在记录，预计于明年底注册完成大约 12 亿人口，介时将成为地球上最大的生物识别数据库。

获得 12 位数字长度 Aadhar 编码的最大优势是该国政府能够将银行账户与贫困人口联系起来，直接现金权益和其他补贴做银行转账。目前，印度已经有将近 4000 万个银行账户与 Aadhar 数据建立了匹配。

市场研究机构 CLSA 的报告显示，印度政府总值 2500 亿美元的补贴和其他国民待遇中有超过 40% 是针对该国贫困人口的，但是却将在未来几年浪费在政府腐败当中。Aadhar 计划能够把过程的中间环节去掉，向需要政府补贴的人直接现金转账，用这种方式抑制腐败。

但也有包括位于班加罗尔的互联网和社会中心(Centre for Internet & Society)在内的智库和活动家对于隐私方面的问题始终持怀疑态度，甚至质疑整个项目能够发挥多大的效果。

深入全球最大的生物识别数据库

笔者多方尝试与 Aadhar 项目官员进行会面，了解安全方面的问题，目前的进展，以及他们对于批评使用 MongoDB 技术的反应。

周五 Aadhar 终于同意在班加罗尔南部郊区的总部与我见面，英特尔和思科在印度的总部也位于该地区。从外表来看，存储了全体印度国民数据(目前数据总量 5 Petabytes)的 Aadhar 技术中心一点也不像是个政府建筑——很容易让人以为是附近的英特尔或者思科公司办公楼中的一个。

走进内部，我来到了一间中央位置有十几个电视屏幕的房间，几位二十多岁的年轻工程师兴奋地坐在前面，在各自的电脑键盘上敲击，查询数据包裹传输的存储信息，整个场面很像一个先进的控制中心。他们盯着的电视屏幕显示了这些数据包裹(每个 5MB 左右)的记录，从全国 30000 个录入中心进入开始，经过至少三次信息核实过程。核实过程包裹为每一份档案进行重复性检验，确保同一个人不会被生成两次 Aadhar 号码。

也就是说，每建立一个新数据档，就要针对所有现存的档案运行一次“去重复性”检验，目前这个数字已经超过了 5 亿。

前英特尔工程师 Srikanth Nadhamuni 于 2010 年 9 月帮助设计了 Aadhar 的技术平台，该平台目前在班加罗尔的 Khosla 实验室运行。他告诉我，这些数据包都经过 2048-bit 加密存储处理，一旦有未授权的调用尝试即触发自我销毁(self-destruction)功能。

有关针对 MongoDB 的批评

那么为什么 Aadhar 一开始要与 MongoDB 合作？这种合作关系是否会继续下去呢？

Aadhar 技术中心的助理总干事 Sudhir Narayana 表示，MongoDB 只是最初为数据检索所选择的几种产品之一，其他还包括 MySQL、Hadoop 和 HBase。与只能够存储人口数据的 MySQL 不同，MongoDB 还能够存储图像。

但是后来 Aadhar 逐渐将大部分数据库方面的工作转移到 MySQL 平台上，因为他们意识到 MongoDB 无法处理大规模的数据，也就是上百万的数据包裹。

目前他们已经在使用“数据库分片(database sharding)”技术：将数据包裹存储在不同的机器上，确保系统不会在数据量增加时崩溃。

这种做法帮助 Aadhar 减少了对于 MongoDB 的依赖，而改用 MySQL 存储大部分数据。

Aadhar 技术中心的副总干事 Ashok Dalwai 告诉我，MongoDB 无法调用任何生物识别数据。

“我们认为使用开源技术可以避免过分依赖某一供应商的情况，但是这不代表我们以任何方式在安全方面做出妥协。”Ashok Dalwai 这样说道。

MongoDB 方面的一位发言人在我们联系采访时，建议我们到该公司网站上阅读有关 In-Q-Tel 投资的声明文件。

更重要的是，印度唯一身份识别局(UIDAI)早在这家创业公司从 In-Q-Tel 获得投资之前就开始使用 MongoDB 的开源软件技术。Crunchbase 的数据显示，MongoDB 仅仅在 2012 年从红帽(Red Hat)、英特尔资本(Intel Capital)和 In-Q-Tel 三方募集了总共 770 万美元。

Aadhar 前景如何？

抛开所有的争议不谈，Aadhar 将于 2014 年完成录入超过 12 亿印度国民数据的目标，数据库总量将达到 15 petabytes。目前项目的进展速度是每天 100 万人，从明年开始将会实现每天大约 200 万人的速度，将剩下的 7 亿人纳入此数据库系统当中。

免责声明：除非特别声明，文章均为投稿或网络转载，仅代表作者观点，与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如果本文内容有侵犯你的权益，请发送信息至ab12-120@163.com，我们会及时删除

收藏分享邀请

上一篇：数据控使用Hadoop的三种最常用方式 下一篇：企业NoSQL应用需对症下药