如今,有很多人都在谈论大数据。他们说大数据其实就是指数据规模大,指我们收集数据的速度快,指我们分析数据会更容易。他们是对的。但是他们的说法却仅仅是描述这一现象,其实这场大数据革命的真相很是复杂。 在《大数据时代》这本书中,我们探讨了让大数据时代与众不同的三个方面。首先,我们现在收集了多于以往任何时候的数据;其次,我们现在需要的数据量大但对精确度的需求较低;第三,因为有了数量充足而精确度相对较低的数据,我们可以通过相关关系而非因果关系来进行数据分析。 这意味着什么呢?又该如何应用呢?请允许我来举几个例子。 如
今我们掌握着多于以往任何时候的数据量,可以就某一现象收集到更多数据。想想看,在过去,医院的护士会一天三次来收集病人的生命体征数据,包括体温、血
压、心跳。而在数字化的大数据时代,我们每天能收集的关于病人每分钟生命体征、官能的数据点达1200个,可以得到更多的数据和细节来判断病人的康复进
程,从而更好地确定他们之后的治疗重点。 再来看看科学方面,十年以前,用最新型的望远镜观察星空,投入使用的头一年能观察到的信
息数量比之前天文学家所观察到的信息总量还要大。那是极大量的数据。然而四年之后,又有新的望远镜问世了,这个望远镜5天观察到的数据量要比之前2000
年出产的望远镜一年内观察到的都要多。 或者再来看看这个事实,谷歌每天都要收集处理巨大量的数据,这些量甚至要比整个国会图书馆
——世界最大的图书馆所有存书的信息量还要大。这就是我们现在拥有的数据量,也是我们对某一现象能收集到的复杂的数据。正因为拥有大量细节,我们现在能接
受这些信息中有一部分不那么准确,即有一定的不精确性。 设想你有一个葡萄园,为酿酒种植葡萄。在过去,你会用一个传感器来测量温 度,但如今,你可以为每棵葡萄树都安装一个传感器,为每一棵生长葡萄的树都配备一个传感器。这意味着什么呢?这意味着我们总共有成百上千个数据收集点,为 我们提供关于湿度、温度、水量的精确数据,由此我们可以完美地、有针对性地对待每一棵葡萄树,从而最大化的地提高酿酒质量。但同时,并不是所有传感器都能 收集到绝对准确的数据,比如有时候阳光会正巧照射在某一传感器上,使得指针稍有变化,而其他的传感器可能在暗处,所以有些数据可能不是完美的,但是因为我 们掌握超大量的数据,所以这一点是可以被接受的。 在大数据时代,一定程度的不精确性是可以被接受的,这跟以往的小数据时代是非常不同的。在小数据时代,我们拥有的数据量非常少,很少的数据点让我们
陷于数据饥荒中,我们生活在信息匮乏中,因此我们要求每个数据点都是精确的,也必须极精确地、高质量地来处理以及呈现它们。而如果我们拥有足够的数据,我
们就不需要那么做了,我们可以更宽容地对待它们,用不那么精确的态度来对待它们。 这就提供了我们重新分析数据的能力。人们分析数
据已有几个世纪的历史,人们尝试通过数据来探索事物的缘由,所有科学家都是这么做的。在商场,人们试图探索现象背后的原因:为什么有的产品就比其他的卖得
好呢?但是也许我们无须这么做。在大数据时代,我们认为可以放弃追寻原因;相反,去利用丰富大量的数据,用相关关系进行分析。相关关系分析法非常简单,它
就是说跟另一件事物相比,这一件事物有无价值,如果其中一者的价值上升或下降,而另一者也会随之变化,那我们就知道这两件事物之间存在关联,因此我们就可
以利用一个去预测另一个的发展。 举例来说,亚马逊利用用户过去的点击记录和购物信息来预测顾客未来可能会想买什么。这样一来,亚马逊就能向我们推荐我们可能会买的书籍、光碟及其他东西。亚马逊在这项服务上做得非常出色,以至于其收入的三分之一都来自于这个推荐服务。这是一个极其简单而又极其有效的技术。 像
Decide.com这样的公司是如何运作的呢?它们所做的就是自动浏览各种网页,抓取几十万不同商品的价格信息,从相机到电脑到洗衣机……以目前的价格
信息为基准,再继续抓取此类价格信息。如今,他们拥有500亿价格信息。当他们进行相关关系分析时,可以看到某一商品在未来一到两周内价格变动的可能性,
这一服务对顾客的用处是极大的,他们可以登录decide.com搜索某一产品,比如相机,就可以看到相机目前价格怎样,变化趋势是什么,在接下来一周将
要增长还是下降,以此决定是现在就购买还是再等三天或一周。decide.com在这一方面也做得非常不错,100次中能有77次,帮助每位顾客平均节省
了100美元。他们不需要知道价格为什么变化,他们在这一方面也没有研究,但是只知道“什么”,知道价格会不会改变就足够了。 这就是大数据的未来,通过相关关系收集更多数据点,接受不精确性,我们可以更好地预测未来,更好地理解和洞察社会、世界和生活。这使我们不仅比现在做得更好,还让我们可以去做那些我们认为永远不可能做到的事,这就是大数据的发展前景。 在
大数据时代,拥有数据的公司无疑将取得巨大的成功。因为他们具有洞察力,大数据会提供他们全新的洞察力。但是为了使大数据的价值彰显出来,这些公司需要清
楚这其中最根本的改变。过去,在前大数据时代,数据不被认为是商品,而是追求结果的工具。更有效的生产需要数据,在商场中找到合适的买家需要数据,提高生
产工艺需要数据,但数据本身并不被认为是可以贩卖的商品,并不被认为是创造收入的资源。而这一观点将会改变。未来,数据将成为重要的资源,就像资金、劳动
力一样的资源。 但是第二点,也是更重要的一点,在小数据时代,也就是在过去,我们只为了单一、直接的目的来使用数据,比如账单数
据是为了付款,市场数据是为了推销新产品,生产数据是为了提高生产力。一旦这些直接目的达成了,这些数据就会被弃掉。但在大数据时代,这将会非常非常的不
同,因为在大数据时代,数据的价值并不体现在达成直接目的,而是体现在间接目的上,体现在那些我们甚至在收集数据时都没想到、而在后来才想出的无与伦比的
用途上。 让我来给你们举一个例子,谷歌每天都要接受很多搜索请求,事实上,谷歌每天要接受30亿个搜索请求。对待这些数据的原始
方法是处理搜索请求、找到搜索结果、呈现搜索结果,然后把之前的搜索请求抛到脑后。但是谷歌不是这样做的。谷歌将每个搜索请求另做他用。比如,他们会用搜
索请求数据来提高他们的拼写检查功能,这样他们可以在你输入单词时快速查错。他们还用搜索请求数据来提高关联搜索功能,在你输入搜索关键词时自动联想出相
关搜索。如此以来,他们从已有的数据中得到了更大价值,并应用于不同目的。 某种程度上,在大数据时代来临之前,数据的价值只是部
分地体现了出来,就像冰山一角,就像只啜饮一小口,就把一瓶上好的葡萄酒扔掉一样。然而在大数据时代,我们会喝掉并享受整瓶酒。因此,有了这能量巨大的价
值资源,商业以及社会的哪些方面将会发生改变呢?方方面面都将发生改变。生活的方方面面都会改变。 以卫生保健为例,目前我们都是以以往病人的平均情况来为每个人用药,有了大数据,我们可以为每位病人定制针对其个人的治疗计划,从而保证治疗是最高效及最有效的。 以教育为例,在教育方面,我们可以利用大数据收集学生们读书、理解程度的信息,将结果反馈给老师,而教学效果也将因此而得到提升,学习效果会得到提升,知识将得到更好的传播。 在
商业方面我们能做的也是令人惊异的,大数据可以为顾客提供更高的透明度。在顾客得到实惠的同时,商家也将从中获得丰厚的利益。在这个系统中,低效率被改变
了,我们对于事物的作用机制有了更深了解。而从社会这个大方面上看,我们可以提升我们的生活方式、生活质量、和谐程度,从而降低个人在群体中所面临的风
险。 |