搜索
查看: 3196|: 0

大数据是敌是友?

[复制链接]

153

主题

3

回帖

479

积分

中级会员

积分
479
发表于 2014-9-23 11:45:50 | 显示全部楼层 |阅读模式
       读过《福尔摩斯探案》的朋友可能会记得,在“铜山毛榉案”中,福尔摩斯不耐烦地嚷道:“我需要数据!数据!数据!巧妇难为无米之炊!”
与福尔摩斯有着相同想法的还有澳大利亚司法部长乔治-布兰迪斯。布兰迪斯最近建议电信公司将消费者的电话通话和网上活动的相关数据保留两年时间,让执法部门需要的时候查看。
       借助于当前的技术,满足布兰迪斯的要求并非难事,武器便是所谓的“大数据”。现在,大数据革命正处在进行时,这场革命究竟是敌是友?
大数据是敌是友?
       数据是研究的“生命之血”,现在对商业和工业来说,也同等重要。传感器网络等技术能够让我们以惊人的速度收集海量数据,这种数据的收集通常以非常复杂的方式进行。研究用数据一度是小心翼翼测量的点的集合,例如在一项农业实验中,现在可能是实时获取的一系列图像或者视频。大数据与传统的数据收集和分析方式完全不一样。这种方式由20世纪初罗森斯特农业站的罗纳德-费希尔和他的同事研发。他们研发了复杂而先进的数据收集方式,确保在精心设计的实验中不会出现系统性偏差。在20世纪的大部分时间里,这些统计学方法和工具主导着很多学科的实验计划。
       所有测量都存在不确定性或者实验误差。数据收集是一项昂贵的业务,所研发的相关工具允许实验人员以一种能够有效收集数据并在考虑不确定性情况下对数据进行分析的方式设计他们的实验。大数据世界发生的变化带来了研究和工业应用方面一系列新的可能性。直到最近,质量检验员在监视一条非纺织织物的生产线时还不得不停止生产,剪下一点检验抗张强度和孔隙率等性能。现在,质量检验员可以借助摄像头拍摄连续视频,而后利用相关算法对视频数据进行分析,检验这些参数。与少量数据相比,采用大数据技术对织物品质进行评估无疑拥有更大优势,在更大程度上确保产品质量。
类似地,连锁超市也在每一家超市的每一个付款处实时收集数据。这些数据对母公司拥有巨大价值。同一款产品在马里克维尔、圣艾夫斯和帕拉玛塔的销售情况如何?公司需要从供应商那里获得哪些信息,以满足自己需要?如何在正确的时间向正确的消费者推销正确的产品?所有这些问题都可借助大数据技术加以解答。
       从大数据集中提取信息的过程通常被称之为“数据挖掘”,整个过程就像从废料中搜寻宝贵的矿石。这种数据挖掘和分析能够让公司获得巨大优势,帮助他们更好地满足消费者的需求。《悉尼先驱晨报》最近刊登了一篇文章,标题为“澳大利亚联邦银行行长纳雷夫将大数据视为保持竞争力的巨大机遇”。
数据分析就是要钻进消费者的脑袋,了解他们的想法,以更好地满足他们的需要。10年时间里,消费者对银行的满意度不断提高,对澳大利亚联邦银行的满意度从不到65%提高到85%。满意度的提高主要归功于各种应用程序的出现,帮助消费者方便快速地完成一度繁琐的银行业务。此外,这些应用程序还允许银行监视消费者的数据,为他们量身打造产品,满足他们的需求。
       亚马逊和谷歌等信息服务提供商依靠先进的算法对大数据进行分析,例如根据消费者过去的购买行为准确预测图书、DVD等产品的销售前景。有效利用大数据的公司能够从中受益,做出正确的重要商业决策。也就是说,不拥抱大数据革命的公司可能品尝苦果。
       大数据革命的受益者不仅仅是大公司。借助于获取和分析海量数据的能力,医疗卫生、环境保护、交通管理和很多科学研究领域都能成为受益者。医疗领域出现一门名为“生物信息学”的新学科。生物信息学技术允许研究人员在越发清晰的人类基因组图谱中搜寻,确定与特定基因构成和疾病有关的形态。在所谓的生物标记中锁定有害形态有助于医生更早预测疾病的产生,进而更早地采取对策,防止疾病形成。从这个意义上说,大数据技术能够扮演生命拯救者的角色。
       不过,分析和利用大数据也存在自身问题。大数据分析需要采用严格的统计学方式,但分析技术的进步速度并没有跟上“数据海啸”的增长速度。对大数据的分析可能产生徒有其表的结果,例如亚马逊通过大数据分析认为你可能对一本书感兴趣,而实际情况却是,你对这本书没有丝毫兴趣。
如果仅限于此,问题也不是特别严重,但是,当类似这样具有欺骗性的联系导致不恰当的医疗诊断或信贷限制,或者一种算法错误地将你的电话或者网上活动与恐怖主义联系在一起,那就真的是个问题了。
       对于大数据的使用,发起者应负起责任,解释收集数据的目的、过程以及用途。对于大数据的收集、存储、检索和分析,仍有很多东西有待我们去了解和学习。尽管用于数据挖掘的“机器学习”算法不断取得进步,但我们尚不十分清楚如何应对大数据的不确定性。也就是说,我们需要一种新的统计学方法,用于大数据的分析。没有新的统计学方法,我们便永远无法十分肯定我们可以相信并控制结果。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-25 00:25 , Processed in 0.161344 second(s), 24 queries .

快速回复 返回顶部 返回列表