|
数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。
1.2 大数据定义
目前,主流的大数据定义包括:
(1)百度知道:大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume、Velocity、Variety、Veracity。
(2)互联网周刊:大数据的概念远不止大量的数据(TB)和处理大量数据的技术,或者所谓的“4个V”之类的简单概念,而是涵盖了人们在大规模数据的基础上可以做的事情,而这些事情在小规模数据的基础上是无法实现的。换句话说,大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力。
(3)研究机构Gartner:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,大数据指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。研发小组对大数据的定义:“大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱”。Kelly说:“大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数据的极限”。大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。
(4)麦肯锡是研究大数据的先驱,在其报告《Big data: The next frontier forinnovation, competition, andproductivity》中给出的大数据定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定TB值的数据集才能算是大数据。
(5)国际数据公司(IDC)从大数据的四个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。
(6)亚马逊(全球最大的电子商务公司)的大数据科学家John Rauser给出了一个简单的定义:大数据是任何超过了一台计算机处理能力的数据量。
(7)维基百科中只有短短的一句话:“巨量资料(bigdata),或称大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯”。
上述定义,无一例外地都突出了“大”字。诚然“大”是大数据的一个重要特征,但远远不是全部。大数据是“在多样的或者大量数据中,迅速获取信息的能力”。大数据的核心能力,是发现规律和预测未来。
1.3 大数据特点
中国评测认为,要理解大数据这一概念,首先要从“大”入手,“大”是指数据规模,大数据一般指在10TB规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Volume、Variety、Value和Velocity),即体量大、多样性、价值密度低、速度快。
(1)数据体量巨大。从TB级别,跃升到PB级别。
(2)数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。
(3)价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
(4)处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的“大数据”不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。
2 大数据相关技术
2.1 大数据技术
(1)数据采集:负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
(2)数据存取:关系数据库、NOSQL、SQL等。
(3)基础架构:云存储、分布式文件存储等。
(4)数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguageUnderstanding),也称为计算语言学(ComputationalLinguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, ArtificialIntelligence)的核心课题之一。
(5)统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。
(6)数据挖掘:分类(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinitygrouping or association rules)、聚类(Clustering)、描述和可视化、Descriptionand Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
(7)模型预测:预测模型、机器学习、建模仿真。
(8)结果呈现:云计算、标签云、关系图等。
2.2 大数据处理流程
大数据处理方法确实有很多,总结了一个普遍适用的大数据处理流程,可将整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。
(1)大数据采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
(2) 大数据预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
(3)大数据统计与分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
(4)大数据挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。
大数据挖掘过程的主要特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
3大数据应用案例
3.1 医疗行业
(1)SetonHealthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。
(2)在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。
3.2 能源行业
(1)在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。
(2)维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。
3.3 通信行业
(1)XO Communications通过使用IBMSPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM新的Netezza网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。
(2)电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。
(2)中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。
(3)NTTdocomo把手机位置信息和互联网上的信息结合起来,为顾客提供附近的餐饮店信息,接近末班车时间时,提供末班车信息服务。
3.4互联网企业应用
(1)淘宝指数:淘宝指数是淘宝官方的免费的数据分享平台,于2011年年底上线,通过它,用户可以窥探淘宝购物数据,了解淘宝购物趋势。产品不仅仅针对淘宝卖家,还包括淘宝买家及广大的第三方用户。同时承诺将永久免费服务,成为阿里巴巴旗下一强大精准的数据产品。
买家:淘宝指数可作为购物决策的参谋,了解当下流行趋势,了解同一类人的购物倾向及特点,与其他类人有什么不一样。
卖家:淘宝指数就是一个免费的市场行情参谋,他可以从中看到什么东西卖得最火,自己家店铺经营的商品的主流消费者人群面貌是怎样的,便于更加精准地营销方案。
第三方:包括是媒体、行业专家、数据爱好者,可借助淘宝指数这个开放的淘宝数据信息共享平台,获取到当下流行购物趋势,或研究作参考作佐证。
(2)百度指数是以百度海量网民行为数据为基础的数据分享平台,是当前互联网乃至整个数据时代最重要的统计分析平台之一,自发布之日便成为众多企业营销决策的重要依据。百度指数能够告诉用户:某个关键词在百度的搜索规模有多大,一段时间内的涨跌态势以及相关的新闻舆论变化,关注这些词的网民是什么样的,分布在哪里,同时还搜了哪些相关的词,帮助用户优化数字营销活动方案。
截至2014年,百度指数的主要功能模块有:基于单个词的趋势研究(包含整体趋势、PC趋势还有移动趋势)、需求图谱、舆情管家、人群画像;基于行业的整体趋势、地域分布、人群属性、搜索时间特征。
百度指数的理想是“让每个人都成为数据科学家”。对个人而言,大到置业时机、报考学校、入职企业发展趋势,小到约会、旅游目的地选择,百度指数可以助其实现“智赢人生”;对于企业而言,竞品追踪、受众分析、传播效果,均以科学图标全景呈现,“智胜市场”变得轻松简单。大数据驱动每个人的发展,而百度倡导数据决策的生活方式,正是为了让更多人意识到数据的价值。
(3)互联网舆情系统
互联网舆情监控系统依托搜索引擎技术和文本挖掘技术,通过网页内容的自动采集处理、敏感词过滤、智能聚类分类、主题检测、专题聚焦、统计分析,实现各单位对自己相关网络舆情监督管理的需要,最终形成舆情简报、舆情专报、分析报告、移动快报,为决策层全面掌握舆情动态,做出正确舆论引导,提供分析依据。
|
|