大数据到底是什么？发源地大数据带你了解真正的大数据

1340230589 · 发表于 2017-11-21 14:19:01

作为一个父母老师眼中的乖宝宝，第一次接触互联网已经是在我高中生涯结束之后的事了，也就是2013年。那一年被称为大数据元年。作为一个从来不接触互联网的人，也不知移动互联的人，从那年开始就接触了大数据。大数据在我的第一印象中就是海量的数据，就是“高大上”的代名词。相信很多人至今对于大数据依旧是一头雾水。下面就让我们一同从一些故事与段子中由简入繁的去一窥大数据的面貌。

01

首先给大家分享一个买披萨的故事：
某必胜客店的电话铃响了，客服人员拿起电话。
　　客服：必胜客。您好，请问有什么需要我为您服务？
　　顾客：你好，我想要一份……
　　客服：先生，烦请先把您的会员卡号告诉我。
　　顾客：16846146***
　　客服：陈先生，您好！您是住在泉州路一号12楼1205室，您家电话是2624***，您公司电话是4666***，您手机号是1391234****。请问您想用哪一个电话付费？
　　顾客：你为什么知道我所有的电话号码？
　　客服：陈先生，因为我们联机到CRM系统。
　　顾客：我想要一个海鲜披萨……
　　客服：陈先生，海鲜披萨不适合您。
　　顾客：为什么？
　　客服：根据您的医疗记录，您的血压和胆固醇都偏高。
　　客服：您可以试试我们的低脂健康披萨。
　　顾客：你怎么知道我会喜欢吃这种的？
　　客服：您上星期一在国家图书馆借了一本《低脂健康食谱》。
　　顾客：好。那我要一个家庭特大号披萨，要付多少钱？
　　客服：99元，这个足够您一家六口吃了。但您母亲应该少吃，她上个月刚做了心脏搭桥手术，还处在恢复期。
　　顾客：那可以刷卡吗？
　　客服：陈先生，对不起。请您付现款，因为您的信用卡已经刷爆了，您现在还欠银行4807元，而且还不包括房贷利息。
　　顾客：那我先去附近的提款机提款。
　　客服：陈先生，根据您的记录，您已经超过今日提款限额。
　　顾客：算了，你们直接把披萨送到我家吧，家里有现金。你们多久送到？
　　客服：大约30分钟。如果您不想等，可以自己骑车来。
　　顾客：为什么？
　　客服：根据我们的CRM全球定位系统的车辆行驶自动跟踪系统记录，您登机有一辆车号为SB-748的摩托车，而且目前您正在解放路东段华联商场右侧骑着这两摩托车。
　　顾客当即晕倒。
这个故事中间或许侵犯了很多个人的隐私数据，但是我今天只是拿他来作为一个大数据的直观展示。

02

啤酒与尿布
全球零售业巨头沃尔玛在对消费者购物行为分析时发现，男性顾客在购买婴儿尿片时，常常会顺便搭配几瓶啤酒来犒劳自己，于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今，“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例，被人津津乐道。

上面这个案例，出自于涂子沛先生的所著的大数据畅销书《数据之巅》，在这个案例中，要情节有情节，要数据，有数据，誓言旦旦，不容你置疑。但是，这个故事虽经典，但是让你意想不到的是：

案例是编造的

这个经典的“啤酒和尿布” (Beer and Diapers)的案例，不仅是《大数据》类图书的常客，事实上，它更是无数次流连于“数据挖掘”之类的书籍中，特别是用来解释“关联规则（Association Rule）”的概念，更是“居家旅行，必备之良药（周星驰语）”。当前，基本上所有讲大数据应用，都会捎带讲上这个经典案例，要求大家多研究“相关性”，少研究因果关系！但实在扫兴的是，这个案例仅是一碗数据分析的“心灵鸡汤”——听起来很爽，但信不得！

实践是检验真理的唯一标准。如果这个故事是真的，按理说，应该给超级市场以无限启发才对，可实际上，不管是中国，还是在美国，在超市里面观察一下，就会发现，根本没有类似的物品摆放，相近的都很少。
故事性强，事出有因。据吴甘沙先生透露，它是Teradata公司一位经理编出来的“故事”，目的是让数据分析看起来更有力，更有趣，而在历史上从没有发生过，感兴趣的读者可以自己参阅文献。但公平地讲，这个故事对数据挖掘的普及意义重大，仅从教育意义上看，仍不失为一个好故事。

03

Google成功预测冬季流感
2009年，Google通过分析5000万条美国人最频繁检索的词汇，将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较，并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。

2009年2月，谷歌公司的工程师们在国际著名学术期刊《自然》上发表了一篇非常有意思的论文【11】：《利用搜索引擎查询数据检测禽流感流行趋势》，并设计了大名鼎鼎的流感预测系统（Google Flu Trends，GFT，访问网址为：www.google.org/flutrends/）。
GFT预测H1N1流感的原理非常朴素：如果在某一个区域某一个时间段，有大量的有关流感的搜索指令，那么，就可能存在一种潜在的关联：在这个地区，就有很大可能性存在对应的流感人群，相关部门就值得发布流感预警信息。
GFT监测并预测流感趋势的过程仅需一天，有时甚至可缩短至数个小时。相比而言，美国疾病控制与预防中心（Center for Disease Control and Prevention，CDC）同样也能利用采集来的流感数据，发布预警信息。但CDC的流感预测结果，通常需要滞后两周左右才能得以发布。但对于一种飞速传播的疾病（如禽流感等），疫情预警滞后发布，后果可能是致命的。

GFT一度被认为是大数据预测未来的经典案例，给很多人打开了一扇未来的窗口。根据这个故事，大数据的布道者们给出了4个令自己满意的结论：

由于所有数据点都被捕捉到，故传统的抽样统计的方法完全可以被淘汰。换句话说，做到了“n=All”；
无需再寻找现象背后的原因，只需要知道某两者之间的统计相关性就够用了。针对这个案例，只需知道“大量有关流感的搜索指令”和“流感疫情”之间存在相关性就够了。
不再需要统计学模型，只要有大量的数据就能完成分析目的，印证了《连线》主编Chris Anderson 提出的“理论终结”的论调。
大数据分析可得到惊人准确的结果。GFT的预测结果和CDC公布的真实结果相关度高达96%。

但据英国《财经时报》（FT）援引剑桥大学教授David Spiegelhalter毫不客气的评价说 [3]，这四条 “完全是胡说八道（complete bollocks. Absolute nonsense）”。

针对前3条观点的不足之处，前文故事已经涉及到了，不再赘言。针对第4条，我们有必要再解析一下——GFT预测是如何失效的？

谷歌工程师们开发的GFT，可谓轰动一时，但好景不长，相关论文发表4年后，2013年2月13日，《自然》发文指出，在最近（2012年12月）的一次流感爆发中谷歌流感趋势不起作用了。GFT预测显示某次的流感爆发非常严重，然而疾控中心（CDC）在汇总各地数据以后，发现谷歌的预测结果比实际情况要夸大了几乎一倍。
研究人员发现，问题的根源在于，谷歌工程师并不知道搜索关键词和流感传播之间到底有什么关联，也没有试图去搞清楚关联背后的原因，只是在数据中找到了一些统计特征——相关性。这种做法在大数据分析中很常见。为了提高GFT的预测准确性，谷歌工程师们不断地微调预测算法，但GFT每一次算法微调，都是为了修补之前的测不准，但每次修补又都造成了另外的误差。

谷歌疫情之所以会误报，还因为大数据分析中存在“预测即干涉”的问题。量子物理创始人之一维尔纳?海森堡（Werner Heisenberg），曾在1927年的一篇论文中指出，在量子世界中，测量粒子位置，必然会影响粒子的速度，即存在“测不准原理”。也就是说，在量子尺度的微距世界中，“测量即干涉”。如今，在媒体热炒的“大数据”世界中，类似于“测不准原理”，即存在“预测即干涉”悖论。

这个“预测即干涉”悖论和“菜农种菜”的现象有“曲艺同工”之处：当年的大白菜卖价不错（历史数据），预计明年的卖价也不错（预测），于是众多菜农在这个预测的指导下，第二年都去种大白菜（采取行动），结果是，菜多价贱伤农（预测失败）。

进一步分析就可发现，GFT预测失准在很大程度上是因为，一旦GFT提到了有疫情，立刻会有媒体报道，就会引发更多相关信息搜索，反过来强化了GFT对疫情的判定。这样下去，算法无论怎么修补，都无法改变其愈发不准确的命运。

对GFT预测更猛烈的攻击，来自著名期刊《科学》【13】。2014年3月，该杂志发表由哈佛大学、美国东北大学的几位学者联合撰写的论文“谷歌流感的寓言：大数据分析中的陷阱（The parable of Google Flu: traps in big data analysis）”，他们对谷歌疫情预测不准的问题做了更为深入地调查，也讨论了大数据的“陷阱”本质。《科学》一文作者认为：大数据的分析是很复杂的，但由于大数据的收集过程,很难保证有像传统“小数据”那样缜密，难免会出现失准的情况，作者以谷歌流感趋势失准为例，指出“大数据傲慢(Big Data Hubris)”是问题的根源。

《科学》一文还认为，“大数据傲慢(Big Data Hubris)”还体现在，存在一种错误的思维方式，即误认为大数据模式分析出的“统计学相关性”，可以直接取代事物之间真实的因果和联系，从而过度应用这种技术。这就对那些过度推崇“要相关，不要因果”人群，提出了很及时的警告。毕竟，在某个时间很多人搜索“流感”，不一定代表流感真的暴发，完成有可能只是上映了一场关于流感的电影或流行了一个有关流感的段子。

果壳网有一篇对《科学》一文深度解读的文章：“数据并非越大越好：谷歌流感趋势错在哪儿了？”，感兴趣的读者可以前去围观。

苏萌、柏林森和周涛等人合著的《个性化：商业的未来》【14】，他们强调，“个人化”服务是未来最有前途的商业模式。可这里有个问题，提供“个人化”服务，就需要了解顾客的“个性化信息”，如果顾客许可使用个人信息的，那么这种个性化服务是贴心的，如果没有许可呢？

在希腊神话中，伊卡洛斯是个自负的天神，他是代达罗斯的儿子，一天，在与父亲代达罗斯使用蜡和羽毛制造的羽翼逃离克里特岛时，由于他过分相信自己的飞行技，故而飞得太高，双翼上的蜡在太阳照射下融化，羽翼脱落，最终导致自己葬身大海。大数据亦是如此~~

发源地-领先的大数据交易平台。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

大数据到底是什么？发源地大数据带你了解真正的大数据