本帖最后由 博文视点 于 2016-12-26 11:37 编辑
不知道从什么时候开始,“大数据”作为一个概念就火热了起来,很多连数据都没搞清楚是怎么回事的人也开始张口闭口“大数据”。就如同段子里说的,连算命的都改称大数据了。
要更清晰地了解大数据,让我们先从几只被毒死的麻雀说起:
【请看新闻】
“很多麻雀抢食大米后死了。” 6 月 29 日上午,一位居民报警称,一艘货船停靠在夜明珠码头处装运大米,其间有不少大米散落在了地上,很多麻雀都飞来抢食地上的大米,可不久后却开始相继死亡,不知什么原因。接到报警后,宜昌市政府高度重视,立即安排工作人员和市公安局、食品药品监督管理局稽查分局工作人员一起赶至夜明珠码头。工作人员赶到现场时,货船正在装运大米,地上确实散落有不少米粒,现场四周还有 20 余只死亡麻雀的尸体。技术人员经过连夜抽检化验, 4 批大米均无任何质量问题,货船于 30 日上午离开夜明珠码头驶往重庆。而对于麻雀的死亡,技术人员分析说,它们可能是抢食大米过多导致撑死,也可能是在其他地区食入不健康食品后,恰好在此抢食大米时出现死亡。
一篇“码头散落大米麻雀抢食成批死亡,官方:吃撑死的”的微博近日引发网民热议。湖北省宜昌市政府 7 月 3 日发布消息称,死亡麻雀已被送检,初步发现麻雀体内含有杀虫剂呋喃丹成分,并称从未有技术人员说过“麻雀被撑死”。宜昌市政府部门表示,事发后,有关方面迅速将死亡麻雀送检,公安部门对死亡麻雀进行检验,发现麻雀胃内有杀虫剂呋喃丹成分。 7 月 2 日下午,三峡食品药品检验检测中心、宜昌市土肥站对码头装卸现场散落物及土壤继续取样检验分析。为得出更加权威的结论,宜昌市已将部分死亡麻雀送湖北省级权威机构进行化验,并邀请相关专家赶赴宜昌,对麻雀死亡原因做进一步的分析。
这件事后来变成了罗生门,似乎,毒大米和死麻雀之间的大数据
逻辑是这样的:
据说, 20 只麻雀吃了散落的大米,死了。
有人传言说,麻雀是吃了有毒大米,中毒死的。
后来,有人说:专家认为麻雀可能是吃多了,撑死的。
再后来,有人又辟谣说:没有人说过麻雀是撑死的。
再再后来,有人又辟谣说,大米没有毒。
再再再后来,有人又辟谣说,大米还没有卖出去,卖出去的都追回来了。
再再再再后来,有人又辟谣说,还有一部分大米没追回来,但大米确实没检测出有毒。
我们不再说后来了,因为这个故事还没有结束。而且,即便被人为地确定终结,好事者也不会就此认为事情结束了。
这次的毒大米与死麻雀的事件,看似传言绕来绕去,实际上却是一次典型的大数据分析的实践,从中可以看出,盲目的所谓大数据分析是多么容易误导公众。
(1)我们找到了所有的麻雀了吗?
我们不知道谁在现场数数了,可以肯定当时贪吃了大米的就是 20只,如果是很多很多只,那些麻雀去哪里了,为何那些麻雀没有死?
我们做大数据分析,往往号称拿到了所有的数据,但实际上仅仅是能够拿到的那部分而已,也许恰恰是那些我们没有能力拿到或者没准备却拿到的部分,将大大影响我们最终的分析结论。当年,美国总统大选,那么有名的《文学文摘》拿到了 240 万份的读者投票意向,最终却预测失败,相反,盖洛普凭借5000 个很小的样本就预测成功,也是这个道理。
(2)这 20 只麻雀就是那吃了大米的麻雀吗?
麻雀是否吃了大米,应该比较好检验,但是否正好是吃了这一堆大米,却有点难度。当然,如果是时间比较短,检验起来也应该可以确认。总之,我们要确认大米与麻雀之间的相关性。
大数据分析首先要确认事物之间的相关性,而且要密切相关,一对一的直接相关,如果我们仅仅是把毫不相关的或者可能有一点关联的事物放到一起分析,最终的结论可能很无聊。比如,有人连续看到中央电视台的《新闻联播》结束的时候太阳就落山了,由此得出结论,太阳落山与新闻联播结束相关。
(3)麻雀之死是因为吃了大米导致的吗?
麻雀死了,这是事实;麻雀死之前吃了大米,也是事实。那我们是否就可以说,麻雀之死与大米有关联呢?也不能下结论。我们需要在麻雀的死亡与吃大米之间构建确切的因果关系,也就是说,我们需要找到麻雀之死的死因,而且这个死因是大米之毒。
大数据分析非常关注相关性,甚至对因果关系不予理睬,但这种相关性却往往需要因果关系的支撑。只要是关联密切的直接相关,一定会找到某种因果关系,或者排除某种因果关系。我们做大数据分析,不能仅仅就凭借简单的相关性来下结论,必须通过严谨的因果论证,才能被严肃地使用。
(4)麻雀之死是因为吃了毒大米导致的吗?
严格来说,麻雀确实有可能是吃大米太多而“撑死”的,我们并不能完全排除这种可能性,所以,专家的话实际上说得在理。即便认定麻雀之死是毒大米造成的,还要分析这毒是如何来的,是大米生产过程中还是有人投毒?当然,这就是公安部门的职责了。
我们只有发现了大米有毒,且大米之毒足以致死麻雀,而麻雀也确实是吃进了这些大米,这样才可以下结论“大米毒死了麻雀”,可事实上舆论早已经抛开了这些逻辑,自顾自地开始从中国的食品安全惯性来考虑。
大数据分析中可能发现很多关联,这些看似可贵的发现却多数都可能是无用的,而且,有些可能是毫无意义的。我们需要对其进行深入分析,特别是要建立起一系列的可证逻辑,由此才可能发现对于我们非常重要的线索,但是,我们却往往不愿意采用“ MECE”方法,不想把所有的可能性都考虑到,更愿意先入为主地自以为是,而这往往是误判的主要来源。
对于大数据(BigData),研究机构 Gartner 给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
有一个经典的大数据应用案例。来自微软纽约研究院的一名经济学家,利用大数据分析,成功预言了 2012 年美国大选选举结果和 2013年奥斯卡颁奖礼奖项归属,准确性高于 98%。
2014 年 3 月 2 日,第 86 届奥斯卡颁奖典礼如约在杜比剧院举行。提名入围者谁能最终捧得小金人,是各界热议的焦点,也成为各大博彩公司的热门盘口。然而早在 2013 年,第 86 届奥斯卡颁奖礼的悬念已被提前揭晓了,做到这一点的就是大数据的分析。大卫·罗斯柴尔德是微软纽约研究院的一名经济学家,他率领的团队通过对入围影片的相关数据进行分析,成功预测出第 86 届奥斯卡颁奖礼 13 项大奖的结果。而且早在 2012 年美国总统选举中,大卫·罗斯柴尔德就曾经使用一个通用的数据驱动型模型,准确预测了美国 50 个州和哥伦比亚特区共计 51 个选区中 50 个地区的选举结果,准确性高于 98%。
大卫说,“我预测奥斯卡金像奖得主的方法与预测其他事情的方法完全相同,其中包括政治。科学是相同的,但证明哪些数据最有用却存在千差万别。”大卫团队的工作方法是,首先关注最有效的数据,然后创建不受任何特别年份结果干扰的统计模型,在建模时要非常谨慎,确保模型能够正确预测将来的样本结果,而不仅仅是过去发生的结果。投票数据、预测市场数据、基本数据和用户产生的数据,这四种不同类型的数据是关注的重点。大卫表示,在预测奥斯卡时,“我更关注的是预测市场数据,这是主要因素,同时采用部分用户产生的数据,这有助于理解电影内部和不同类别之间的相关度。”大卫团队的实践充分证明了大数据分析成为“预测帝”的能力。人们可以通过较为完善的建模,进行快速地数据处理和分析,并让这一分析结果用于商业用途。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。
内容提要
数据分析不在于你掌握了多少先进的软件工具,也不在于你拥有多么高智商的头脑,而是要靠更大视野、更宽角度和更具有逻辑性的思维。本书不是一本介绍大数据概念的流行读物,也不是开讲编程工具高深理论的专业教材,而是立足于大数据之上的思维模式的普及。读者不需要任何统计学知识,也没必要掌握复杂的公式与算法,在最通俗易懂的案例介绍和娓娓道来中就可以轻松理解大数据分析的基本模式与方法。
作为读者,你可以是大中专院校的数据分析专业学生,也可以是企事业单位的经营分析人员,或者是任何行业任何职业中喜欢“头头是道”的分析爱好者。开卷有益,即便你从来不需要大数据,也可以从本书中领悟到思维魔力,因此让工作与生活更充满智慧与乐趣。
推荐语
读者不需要任何统计学知识,也没必要掌握复杂的公式与算法,在最通俗易懂的案例介绍和娓娓道来中就可以轻松理解大数据分析的基本模式与方法。
|