一、大数据与我们的生活 我第一次接触电脑是1982年大学毕业分到中科院理论物理所当研究实习员。所长周光召教授花了250美元从美国带来了一台刚面世的苹果电脑,让我第一次看到了电脑视窗,第一次意识到电脑里的数据是可以看得见、看得懂,而且还可以用来玩游戏。而在此之前的六十年代,周光召、於敏、何祚庥等科学家做核武器的理论设计,使用的还是手摇计算机。 研究生毕业以后,我被分配到新华社做记者,恰好赶上新华社全面采用电脑终端编辑英文新闻,使英文新闻的编发工作实现了电脑化。在此之前,记者要 靠纸笔、打字机、传真机和电传机进行手工作业,编辑部门要把编好的稿件送到发稿部门,由报务人员按稿件先打字作电传孔条,然后再在各条线路的发送机上发出。使用终端机后,编辑记者可以在电脑上直接对稿件进行编辑修改。 我买的第一台个人电脑是中关村的组装机。那台电脑的操作系统是UCDOS,使用的是5.25英寸的软盘,容量是360K。我的第二台个人电脑的软盘已经更新成3.5寸的,容量也增加到1.44M,我的办公室现在还有上百张3.5寸的软盘,可惜现在已经不太容易找到能够读软盘的电脑了。光驱、移动硬盘、U盘打败了软盘,成为数据存储的主流,存储介质的容量也越来越大,几年前的U盘一般都是16M的,而如今64G的U盘都嫌不够用。 过去20年,我每次出国都要逛电子产品商店,看看有没有容量更大的移动硬盘或U盘。我现在使用的是两块1TB(1TB=1024GB)的移动硬盘,分别存储不同的文件。其中一块移动硬盘里存储着Foxmail邮件客户端,数据容量已经达到30GB,存储着我所有的电子邮件,我用Foxmail对邮件信息进行了分类,它就像我的一个私人图书馆一样,随时可以方便地查找资料。 我对“网络数据”的直观感受就是它的增长速度像原子弹链式反应一样,至今仍在加速膨胀。从2010年到现在这3年的时间,就积累了2T的数据,与前15年数据的容量相当。 我的办公室有一面墙的书架都是存放录音带、录像带、光盘和各类软盘的,存储着我从教书以来的所有影像、课件、资料,但是查找文件就像大海捞针一 样。现在许多软件对数据分类和查找都支持得很好,如果能在一张移动硬盘上集中存储这些数据,自然要方便很多。但移动硬盘也不安全,既有被盗的风险,也担心使用中损坏。所以最终的解决方案还是要依靠云存储,所有的文件都存储在虚拟空间里,随时可以通过互联网找出来。 作为一名研究人员,我从事研究工作的基础是文献检索和综述,离不开数据的收集、分类、综述、摘要,这些工作在过去都是依靠纸质的报刊、图书文 献,工作的方法是“剪报”,我从小学三年级开始剪报,一直到读研究生还保持着这个习惯。后来到新华社当记者,查找文献还是依靠剪报。再后来出现了电脑,的确给文献的收集和使用带来了方便,但由於太相信电脑,一旦系统崩溃了或硬盘坏了,数据就没了。 云计算的发展不仅使得通过互联网获取个人信息更加容易、可获取的内容也更多,而且在云技术环境下,大量用户的数据不再存放於个人电脑或移动硬盘 中,而是存储在远在天边的云储存器提供商的服务器里。越来越多的像百度、腾讯、新浪微博、谷歌提供的网络信息服务,正在变成超级信息工厂和仓库。由於智能手机、平板电脑、社交媒体网站、电子邮件和其他形式的数字通讯的广泛使用,全球每天产生250亿字节的新数据。据IBM估计,在全球现存数据中,有90%是过去两年中产生的。据国际数据公司(International Data Corporation)预计,从现在起到2020年,数字世界的规模将每两年翻一番,和爆炸性的数据增长相伴随的,是大数据技术的快速发展。 大数据技术是指运用搜索引擎、社交媒体、各类网络数据库,实时聚集数以百万本书那麽厚的文本和图像,用一种搜索、分类、分析的软件,通过高速的 计算机运算和业内专家的研判,精确描绘现状并预测未来。比如,利用谷歌、腾讯、百度、微博提供的数据预测今年的流感、预测社会舆论的趋势。大数据正在彻底改变我们对政治、新闻、商业、健康、教育的认识。 大数据技术使对规模巨大的数字信息进行自动及瞬时的分析变成可能。而掌握这种技术的公司,就会成为别人数字资产的事实上的拥有者,这些公司运用 大数据软件,跟踪分析社交媒体或搜索引擎,就有可能跟踪世界上几乎任何地方的人的活动和往来。运用大数据分析事物,其最大的特点,是帮助我们发现两个看上去毫不相关的事或人之间暗藏的关联。数据挖掘技术的提高使得目标信息能够被还原得更加准确。近年来,以微博、微信为代表的社交媒体受到热捧。人们热衷於在这些社交媒体上发布自己的照片、心情、行踪等各类信息。与此同时,服务器还会记录下用户的登录时间、信息消费习惯、地理位置等大量后台数据。以这些信息为基础进行数据挖掘,便能够准确地掌握需要的个人信息。目前为止,位置数据的使用者多是第三方——程序开发员,知名品牌和广告公司﹔“第二方”(电信商和设备管理者)拥有这些数据,而“第一方”,即我们每个人既无法得到数据也无法支配这些信息。中国移动推出的手机地图服务,通过你或朋友的手机号吗,即可找到你自己的位置或你好友的位置,体验大数据拥有者的概念,发现电信或网络公司是如何利用大数据对你的日常生活进行跟踪、监测和控制的。例如,美国国家情报局花更多的钱去挖掘元数据,而不再是窃听和偷听通讯内容。元数据指的是关於谁在打电话或发邮件的信息。美国法律和美国政策把通讯内容视为最为私密且最有价值的,但这在今天已经过时了。美国情报和执法部门使用大数据技术,能从手机蜂窝塔得到的数据跟踪一个人所在的海拔高度,精度足以确定该人在某栋建筑的某一层,甚至能够通过分析手机数据,寻求预测一个人最可能采取的路线。 当不同的数据流被整合到大型数据库中后,例如把使用手机的时间和地点与信用卡购物、银行卡电子收费系统的数据相匹配,数据分析师能获得一个人生 活的不同侧面,而在过去,仅靠偷听他们的谈话绝对无法得到这麽多。《自然》杂志发表的报告显示,打一次移动电话的地点、时间和内容等数据,足以在95%的情况下确定打电话者的身份。通过大数据,数据分析可以发现各种各样的关联。 英国《卫报》在2011年英国伦敦暴乱事件中成立了“解读暴乱”团队,广泛使用大数据,帮助读者更好地理解事态进展和背后原因。与此同时,《卫 报》还与学界进行合作,邀请曼彻斯特大学的Rob Procter带领的学术团队一起研究社交媒体在暴乱中的作用。后者一共分析了260万条关於暴乱的推特(Twitter),观察谣言如何在推特上传播,不同的用户在宣传和散布信息中的功能,以确定推特和其他组织是否煽动了暴乱。《卫报》的“解读暴乱”数据团队使用简单的地图,显示暴乱发生地点的贫困程度,让“暴乱与贫困没有关系”的主流政治话语不攻自破。他们还制作了一段视频,将暴乱发生地和参与群众的家庭住址联系起来,显示出“暴乱通勤路线”,建模预测暴乱者最有可能采取的路线。此外,他们还展示出网络流言的传播途径。研究者按照话题将关於暴乱的推特分类,编码为重复、驳斥、质疑和评论,然后进行可视化处理。该研究发现了主流媒体在流言传播中的明显角色以及推特在矫正流言中的作用。 通过大数据的应用程序,人们可发掘大数据的意义。国外已经开发出软件查询所处地区的犯罪趋势,社区医生的安全执业记录,或是为他们选出的候选人的政绩。 |