本帖最后由 行云流水2016 于 2017-4-1 11:26 编辑
在愚人节这个莫名其妙、来历不明却全民狂欢的日子里,不来点段子,仿佛就对不起这个日子!
大数据火起来的这两年,段子也着实出来不少——云途君搜罗了一些着实有意思的,分享给大家,搏一个乐也了解了解大数据领域的那些坑儿! 以下正文(来源:CSDN.net;编辑:云途君)
1.大数据都是骗人的啊——大数据预测得准吗?
从前,有一头不在风口长大的猪。自打出生以来,就在猪圈这个世外桃源里美满地生活着。每天都有人时不时地扔进来一些好吃的东西,小猪觉得日子惬意极了。
高兴任性时,可在猪圈泥堆里打滚耍泼。忧伤时,可趴在猪圈的护栏上,看夕阳西下,春去秋来,岁月不争。“猪”生如此,夫复何求?
根据过往数百天的大数据分析,小猪预测,未来的日子会一直这样“波澜不惊”地过下去,直到它从小猪长成肥猪……在春节前的一个下午,一次血腥的杀戮改变了猪的信念:什么大数据都是骗人的啊……惨叫嘎然而止。 这则“人造寓言”是由《MacTalk·人生元编程》一书作者池建强先生“杜撰”而成的。池先生估计是想用这个搞笑的小寓言“黑”一把大数据。
我们知道,针对大数据分析,无非有两个方面的作用:
1)面向过去,发现潜藏在数据表面之下的历史规律或模式,称之为描述性分析。 2)面向未来,对未来趋势进行预测,称之为预测性分析。
把大数据分析的范围从“已知”拓展 到了“未知”,从“过去” 走向 “将来”,这是大数据真正的生命力 和“灵魂” 所在。
那头“悲催”的猪,之所以发出“大数据都是骗人的啊”呐喊,是因为它的得出了一个错误的“历史规律”:根据以往的数据预测未来,它每天都会过着“饭来张口”的猪一般的生活。但是没想到,会发生“黑天鹅事件”——春节的杀猪事件。
其实,我们不妨从另外一个角度来分析一下,这个搞笑的小寓言在“黑”大数据时,也有失败的地方。通过阅读知道,舍恩伯格教授在其著作《大数据时代》的第一个核心观点就是:大数据即全数据(即n=All,这里n为数据的大小),其旨在收集和分析与某事物相关的“全部”数据,而非仅分析“部分”数据。
那头小猪,仅仅着眼于分析它“从小到肥”成长数据——局部小数据,而忽略了“从肥到没”的历史数据。数据不全,结论自然会偏,预测就会不准。
那么,问题来了,大数据等于全数据(即n=All),能轻易做到吗?
2.故事:颠簸的街道——对不起,“n=All”只是一个幻觉
波士顿市ZF推荐自己的市民,使用一款智能手机应用——“颠簸的街道”。
这个应用程序,可利用智能手机中内置的加速度传感器,来检查出街道上的坑洼之处——在路面平稳的地方,传感器加速度值小,而在坑坑洼洼的地方,传感器加速度值就大。
热心的波士顿市民们,只要下载并使用这个应用程序后,开着车、带着手机,他们就是一名义务的、兼职的市政工人,这样就可以轻易做到“全民皆市政”。
市政厅全职的工作人员就无需亲自巡查道路,而是打开电脑,就能一目了然的看到哪些道路损坏严重,哪里需要维修,如图中所示。 颠簸的街道 (图片来源:作者截图)
波士顿市ZF也因此骄傲地宣布,“大数据,为这座城市提供了实时的信息,它帮助我们解决问题,并提供了长期的投资计划”。
然而,从一开始,“颠簸的街道”的产品设计就是有偏的,因为使用这款App的对象,“不经意间”要满足3个条件: (1)年龄结构趋近年轻,因为中老年人爱玩智能手机的相对较少; (2)使用App的人,还得有一部车。虽然有辆车在美国不算事,但毕竟不是每个人都有; (3)有钱,还得有闲。前面两个条件这还不够,使用者还得有“闲心”, 想着开车时打开“颠簸的街道”这个App。
想象一下,很多年轻人的智能手机安装的应用程序数量可能两位数以上,除了较为常用的社交软件如Facebook或Twitter(中国用户用得较多的是微博、微信等)记得开机运行外,还有什么公益软件“重要地”一开车就记得打开?
“颠簸的街道”的理念在于,它可以提供 “n=All(所有)”个坑洼地点信息, 但这里的“n=All(所有)”也仅仅是满足上述3个条件的用户记录数据,而非“所有坑洼点”的数据,上述3个条件,每个条件其实都过滤了一批样本,“n=All”注定是不成立的。
在一些贫民窟,可能因为使用手机的、开车的、有闲心的App用户偏少,即使有些路面有较多坑洼点,也未必能检测出来。 “n=All”,梦想很丰满,但现实很骨感。
3.啤酒和尿布:经典故事是伪造的,你知道吗?这是一个关于零售帝国沃尔玛的故事。 在一次例行的数据分析之后, 研究人员突然发现: 跟尿布一起搭配购买最多的商品,竟是啤酒。
尿布和啤酒,听起来风马牛不相及,但这是对历史数据进行挖掘的结果,反映的是数据层面的规律。这种关系令人费解,但经过跟踪调查,研究人员发现,一些年轻的爸爸常到超市去购买婴儿尿布,有30%-40%的新爸爸,会顺便买点啤酒犒劳自己。随后,沃尔玛对啤酒和尿布进行了捆绑销售,不出意料,销售量双双增加。
上面这个案例,出自于涂子沛先生的所著的大数据畅销书《数据之巅》,在这个案例中,要情节有情节,要数据,有数据,誓言旦旦,不容你置疑。但是,这个故事虽经典,但是让你意想不到的是:
案例是编造的! 这个经典的“啤酒和尿布”的案例,不仅是《大数据》类图书的常客,事实上,它更是无数次流连于“数据挖掘”之类的书籍中,特别是用来解释“关联规则”的概念,更是“居家旅行,必备之良药(周星驰语)”。
当前,基本上所有讲大数据应用,都会捎带讲上这个经典案例,要求大家多研究“相关性”,少研究因果关系。但实在扫兴的是,这个案例仅是一碗数据分析的“心灵鸡汤”——听起来很爽,但信不得。
4.你的一夜情我知道——大数据的隐私之痛
Uber(优步,著名的打车软件服务公司,乘客可以通过发送短信或是使用移动应用程序来预约车辆,利用移动应用程序时还可以追踪车辆的位置)曾在官网上发布一篇题为“荣耀之旅”的博客。
文中写到,“我知道,我们不是你们生命中唯一的爱人,我们也知道,你们会在别的什么地方寻找爱情。” Uber称作的“荣耀之旅”——实际上就是所谓的一夜情代名词。
Uber利用数据分析技术,专门筛选出那些在晚上10点到凌晨4点之间的用车服务,并且这些客户会在四到六小时之后(这段时间足够完成一场快速的RoG),在距离上一次下车地点大约1/10英里(约160米)以内的地方再次叫车。 根据对这些数据的分析,Uber推断出那些发生一夜情的时间和地点,并将这些地点在纽约(NYC)、旧金山(SF)、波士顿(Boston)以及其他美ㄈ国城市的地图上进行标注,得出一夜情频繁的高发区。 当然,Uber此处虽多为开玩笑之举,但也确实严重侵犯了用户的隐私,在遭到用户和媒体抗议以后,Uber迅速删除了这篇博客,但在这个数字时代,一旦上网,“侯门一入深似海”,踏雪无痕梦难成”。
所以,大数据技术就犹如那 “蜡和羽毛”做的翅膀,它可以助我们飞得更高,但倘若过分依赖它,就有葬身大海的风险。我们要学会如何让大数据为我所用,而不是成为大数据的奴隶。
最后的最后,祝大家愚人节快乐!
扫描二维码加入壹看板体验群,一起欢渡节日吧
关注“云途数据”公众号(ID:yuntudata),登录kb.37degree.com/blog.html了解更多大数据趣闻哟~
|