当今,信息产业发达国家,如美、英、德、日等此前已将 大数据作为国家核心竞争力提升为了国家战略。数字主权将是继边防、海防、空防之后,又一个大国博弈的空间。 一、大数据的定义和特征 大数据并非现在才出现。中国东汉时期人口已达6千多万,这显然是一个大数据,但不是今天讨论的大数据。维基百科对大数据的定义为:“大数据意指一个超大、难以用现有常规的数据库管理技术和工具处理的数据集。”大数据研究的目的是将数据转化为知识,探索数据的产生机制,进行预测和政策制定。 大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Volume、Variety、Value和Velocity),即体量大、多样性、价值密度低和处理速度快。大数据的“大”没有精确的定义,不同的时代对应着不同的大数据规模。二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。三是价值密度低。 大数据分析犹如“大海捞针”。四是处理速度快。 二、解读大数据的主要成因 大数据的背后推手有哪些?以下三大因素是大数据的主要成因: 第一,人类保持数据的能力增强。 预计2020年,1太硬盘的价格将下降到3美元,相当于一杯咖啡的价格。一所普通大学的图书馆,其馆藏量大约就一两个太。 第二,人类生产数据的能力增强。 从2004年起,以脸谱网(Face book)、推特(Twitter)为代表的社交媒体相继问世,拉开了互联网的崭新时代—2.0时代。随着社交媒体的问世,带来以下三大变化: 一是社交媒体把交流和协同的功能推到了一个登峰造极的高度。在此之前,互联网的主要作用是信息的传播和分享,其最主要的组织形式是建立网站,但网站是静态的。进入Web2.0时代之后,互联网开始成为人们实时互动、交流协同的载体。 二是社交媒体推动数据总量骤然增加。由于社交媒体的横空出世,人类自己开始在互联网上生产数据,例如发推特、微博和微信,记录各自的活动和行为,全世界的网民都是数据的生产者,每个网民都犹如一个信息系统、一个传感器,不断地制造数据,这引发了人类历史上迄今为止最庞大的数据爆炸。 三是社交媒体使人类的数据世界更为复杂。数据包含两类数据:结构化数据和非结构化数据。在大家发的微博中,你的带图片、他的带视频,大小、结构完全不一样。因为没有严整的结构,在社交媒体上产生的数据,也被称为非结构化数据。目前全世界的数据大约75%都是非结构化数据。这部分数据的处理,远比结构严整的数据困难。 第三,人类使用数据的能力增强。 大数据之大,不仅在于其大容量,更在于其大价值。最根本的原因,是人类使用数据的能力取得了重大突破和进展。 三、大数据应用 主要有以下四个方面: 第一,对大数据的处理分析正成为新一代信息技术融合应用的结点。 移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。 第二,大数据是信息产业持续高速增长的新引擎。 大数据时代,面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,将催生一体化数据存储处理服务器、内存计算等市场。 第三,大数据利用将成为提高核心竞争力的关键因素。 各行各业的决策正在从“业务驱动” 转变“数据驱动”。对大数据分析可以使零售商实时掌握市场动态并迅速做出应对;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据在促进经济发展、维护社会稳定等方面的重要作用已开始得以发挥。 第四,大数据时代科学研究的方法手段将发生重大改变。 抽样调查是社会科学的基本研究方法。但在大数据时代,不需要通过抽样,而是通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。
|