搜索
查看: 2095|: 0

数据分析 之数据源的重要性

[复制链接]

4

主题

0

回帖

75

积分

注册会员

积分
75
发表于 2015-1-7 17:45:37 | 显示全部楼层 |阅读模式
如今,数据分析在企业应用的地位越来越重要,同时,在介绍大数据和云计算的文章中,几乎都会提出足够多的数据是实现技术的前提,并且数据越多越全面,得出的分析结果也就越准确。说到这里,小编就不敢苟同了!在当前现有的技术不能保证数据来源准确度的情况下,大量的数据反而会加大分析的难度,反而会降低决策的准确性。最典型和著名的一个例子就是谷歌预测流感趋势失败的案例。
谷歌公司发现流感疫情的发展状态可以和某些关键词被搜索的频率很好的联系起来,因此建立了“谷歌流感趋势”(GFT)模型,GFT将大量关于流感的谷歌搜索数据进行统计汇总,经过分析之后与美国疾病防控中心的监测数据进行比对,其分析结果与美国疾病防控中心的监测数据相差近两倍。尽管谷歌不断调整算法,但仍不能保证结果的准确性。这就说明一个重要问题:数据源问题。谷歌是基于搜索引擎上的搜索词来分析的,许多搜索词都是无效的,没有任何意义的,所以它们不能真的代表流感趋势,但它们同样被计算在内。这就造成了结果的严重偏差。
所以在做预测等项目的数据分析的项目数据分析师们,要特别注意在做数据分析时一定不要盲目的去追求数据量的大,对大量不能保证准确来源的数据进行分析很可能会出现偏颇!

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-23 09:33 , Processed in 0.064902 second(s), 25 queries .

快速回复 返回顶部 返回列表