搜索
查看: 14222|: 0

[其他] 处理“坏数据”的5个简单方法

[复制链接]

252

主题

2

回帖

2291

积分

金牌会员

积分
2291
发表于 2017-1-16 11:18:07 | 显示全部楼层 |阅读模式
本帖最后由 行云流水2016 于 2017-1-16 11:30 编辑

无论您是一个记者、营销人员或者商务人士,我们的世界都充满了数据。通过数据分析和可视化,可以分享优质的故事或者为公司的重大决策提供支撑。问题是所有数据集的创建不一定都可以使用,那些不能使用的数据通常被称为“坏数据”。

“坏数据”是指那些缺少重要信息、未正确输入、格式错误或者不准确的数据。一些不良数据需要专家或者程序员来解决,但是有些不良数据可以由您来处理。


以下是修复“坏数据”的5种简单方法:

数据采用PDF格式

大量数据,特别是政府数据,只能以PDF格式提供。如果PDF中有真实的文本数据,有几个很好的方法来提取数据。

解决方案:使用好用又免费的工具——Tabula。或者,如果您有Adobe Creative Cloud,您还可以访问Acrobat Pro,它具有将PDF表格导出到Excel的出色功能。这两个方案都可以从PDF中提取大多数的表格数据。

数据划分太细

这种情况与数据太粗糙相反,你有细分到县的数据,但是你想要国家的数据,或者,你有细分到月的数据,但是你想要年的数据。还好,这种问题很好解决。
解决方案:可以使用Excel或Google文档的数据透视表功能,通过使用SQL数据库或通过编写自定义代码来汇总数据。 数据透视表是每个商务人员都应该学习的一个神话般的工具,不过也有它的局限性。

对于超大数据集或异常组的聚合,这个问题可以由程序员来解决,他们可以制定一个更容易验证和重复使用的解决方案。

人为错误——人工输入和手动编辑

手动输入是一个很常见的问题。没有比手动输入更坏的方法来搞砸数据了。通常手动编辑数据,导致的错误都是无意识的。事实上,试图通过手动编辑来修复最初由人工输入的数据时,编辑人员是不完全了解数据原始情况的,这时候问题就出现了。

解决方案:解决手动编辑的问题是,您要确保您的数据具有详细的记录,缺乏数据操作记录不是一个好的现象,因为有人可能已经破坏了数据。
学者经常从政府获得数据,随意处理了之后,重新分配给记者。而学者对数据的处理没有任何的记录,我们根本无法知道他们对数据的处理是否正确。我们只有获得最原始的数据或者是最早版本的数据,然后才能做出客观的分析。

忽略误差或误差过大

有时候,没有人想到误差,这本身就是一个问题,因为这不是一种科学的调查方法。没有计算误差,我们不可能知道结果的准确性。

另一个问题是使用具有非常大的误差的数据。误差与调查数据相关联,我们遇到的最常见的情况是投票数据或者人口普查数据。


解决方案:通常情况下,只要您能获得调查数据,都需要要求对方计算误差。如果源数据不能给出,那这些数据最好不要用于分析那些重大的项目。

当误差太大时,如果没有一个规则来规定如何使用不够准确的数据时,按照以往经验,应该谨慎使用误差超过10%的任何数据。

时间帧或参考帧被操纵

可能有人无意识地或故意地在原始数据的基础上筛选特定时间段的数据来歪曲事实。比如将犯罪统计数据与犯罪率很高的这一年进行比较,这通常是为了达到政治目的。通过这种手段可以体现一种趋势(自2004年以来下降了60%)或指数(今年的指数是40,而2004年的指数是100)。在这两种情况下,2004年可能并不适合作为比较的年份,因为这一年可能是一个犯罪率特别高的年份。

当比较地点时也会发生这种情况。如果有人想让一个国家看起来不太好,他们可以很容易的将它与一些好的国家的数据进行比较来达到目的。
解决方案:如果您的数据涵盖有限的时间范围,请尝试避免在数据的第一个时间段开始计算。如果您抽取数据的一部分(几年、几个月、几天)进行分析,那么您需要确保您没有将这些数据进行比较,因为这种比较会通过另外一个数据点使之无效。
对时间帧的操作倾向于人们对某个对象有强烈的偏见的时候。我们需要尽可能地尝试对几个不同的起点的数据进行分析,看看数字是如何变化的。无论你做什么,也不要用这种手段来表达即使是你认为很重要的观点。

云途数据市场
(http://mall.37degree.com/),更多大数据干货文章,海量免费数据报告和api



您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-23 03:18 , Processed in 0.082703 second(s), 25 queries .

快速回复 返回顶部 返回列表