搜索
查看: 4873|: 0

[其他] 没有分析的数据,和咸鱼有什么区别!

[复制链接]

252

主题

2

回帖

2291

积分

金牌会员

积分
2291
发表于 2017-3-8 10:19:54 | 显示全部楼层 |阅读模式

大数据时代与大数据相关的话题不绝于耳,但很多人其实并不理解大数据真正的价值是什么,哈佛大学加里·金(Gary King)教授在讲座《大数据,重要的不是数据》(Big Data is Not About the Data)中用大数据研究案例告诉你:有数据固然好,但是如果没有分析,数据的价值就没法体现。

Gary King是哈佛大学政治系教授,以实证研究而闻名,擅长量化研究


以下是Gary King 教授演讲实录(有删减):

我工作的领域叫做量化社会科学(Quantitative Social Science),有时,它有一个别称,叫大数据。“大数据”这个词最早是媒体发现的,它试图向大众解释我们是做什么的,目前看来解释的效果还不错。

然而,大数据的价值不是在数据本身,虽然我们需要数据,数据很多时候只是伴随科技进步而产生的免费的副产品。比如说,学校为了让学生能更高效地注册而引进了注册系统,因而有了学生的很多信息,这些都是因为技术改进而产生的数据增量。

大数据的真正价值在于数据分析。数据是为了某种目的存在,目的可以变,我们可以通过数据来了解完全不同的东西……有数据固然好,但是如果没有分析,数据的价值就没法体现。

Gary King 教授为我们带来了一个大数据在公共政策层面运用的案例

我们曾经做过一个评估研究,发现2000年以后美国社会保障管理总署(U.S. Social Security Administration,简称“SSA”)对于美国社保账户及人口寿命的预测有系统性偏差。

请点击此处输入图片描述

大背景是,美国的社会保障平台是美国最大的单一政府平台,它的资金是跨代流动的——当前退休者的养老金供给来自于他们的下一代,也就是现在工作的人交的税金。

所以SSA需要预测这个信托基金项目里的资金流,以及人的寿命,正确预测这两点很重要,如果人们比SSA预期的更长寿——虽然这是好事——就很可能导致信托基金里就没有足够的钱给他们养老了。

我们研究发现,SSA的预测在2000年以后出现了系统性偏差——发生偏差的原因之一是SSA使用的模型本质上是定性分析的模型,且多年来几乎没有调整。由于一些药物的使用和癌症早期发现,美国人开始比模型预测地更长寿了。

我们通过分析得出的结论是,美国社保信托基金至少存在8千亿美元的缺口。

虽然结论有点不幸,但是政府需要提前知道。这样政府就可以有空间在税率、退休年龄等方面进行调整。这是公共政策层面的话题。

关于定性分析和定量分析,其实不是泾渭分明的。做分析全靠定性分析(由人主导)是不够的,因为你有很多数据不知道该怎么处理。 全靠定量分析(由机器主导)也不行,这就像一张巨大的excel表,但是表中没有行、列的标签。所以,大数据分析需要的是人来主导,计算机技术来辅助(we need computer-assisted, human-led technology)。

我们还做过一个计算机辅助阅读的实验。我们开发了一套计算机辅助、自动化阅读的技术,这项技术能帮助人们从非结构化的文字中提取、组织并且处理大量信息。

我们曾用该技术处理了64000篇国会议员发布的新闻稿,想通过这项技术帮我们作分类,看国会议员在新闻稿中都说了些什么。

结果我们发现,居然有高达27%的议员发布的新闻稿内容只是单纯地想抨击对方(Partisan Taunting),而不是想要平衡预算或停止战争,或解决问题。

大数据时代,我们可以通过量化过去不能量化的信息,使用精妙的统计学方法,使得分析这些信息成为可能。

请点击此处输入图片描述

这,就是数据分析的强大力量。

------------------------------------------------------------------------------

你是不是拥有海量的数据

却不知道该怎么利用

以及如何去分析他们

云途数据拥有“自助式大数据分析平台”为企业提供:

实时整合数据,用于客户分析+市场渠道分析

销售分析用于获得行动洞察

产品优化分析,用于优化业务结果


查看完整版《Big Data is Not About the Data》,点击链接:http://kb.37degree.com/blog/detail/id/88.html



您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2025-1-9 04:24 , Processed in 0.083613 second(s), 24 queries .

快速回复 返回顶部 返回列表