人类自跨入了大数据时代,许多同我们生活息息相关的仪器都步入了智能化。而在数据中生活的我们在制造数据的同时也在通过数据加快经济发展速度,提高社会文明。因此,数据的战略意义已经同人力资源、自然资源相同。 所谓大数据,是信息化到一定阶段之后必然出现的现象,是由于信息技术的不断廉价化,以及互联网及其延伸所带来的无处不在的信息技术应用所带来的自然现象。基本上,大数据有四个驱动力,即摩尔定律所驱动的指数增长模式;技术低成本化驱动的万物数字化;宽带移动泛在互联驱动的人机物广联连接; 云计算模式驱动的数据大规模的汇聚。 大数据提供了人类认识复杂系统的新思维、新手段,已成为提升国家综合能力和保障国家安全的新利器。从信息技术视角来看,云计算、物联网、大数据、移动互联网、人工智能等都属于互联网时代的信息新技术。从制造业视角,移动互联网、物联网、GPS作为互联网的延伸,更强调在制造业全价值链的提升与整合中信息的应用;而在互联网眼中,则更强调对传统产业的影响、改造和升级,构造新产品、新业务、新生态的力量。 数据无处不在,且大数据能够超越“物联网”、“云计算”开创自己的时代,这与其自身的特征密不可分。第一,种类多。随着社会进步,传感器的种类与日增多且社交网络、智能设备被更多人认可,数据类型也相对增多。目前,数据除去传统的关系数据还包括视频、网页、文档、音频以及邮件等尚未处理、不具备结构模式或者半结构模式的数据。第二,高速流动。传统的数据流动速度是指对数据撷取、存数及分析具有价值信息的速度。然而,大数据因为其数据量的巨大,快速变动的数据形成数据流的特点,传统的处理方式已经无法处理这样高速流动的数据,进而数据处理已经由TB级上升到PB级。第三,数据量巨大。一般,大数据指的是超过10TB规模的数据量。 数据挖掘是大数据时代的关键技术,是指从非完整的、海量的、有噪音的、模糊且随机的数据中挖掘隐含在内且人们未提前得知的有用信息的过程。一般,数据挖掘的功能有两类,即描述和预测。描述性挖掘用于展现集体数据的一般特性,而预测性挖掘用于推算处理数据,完成预测目的。数据玩具功能同目标数据的类型有关,有些功能适用于不同类型的数据,有些功能则只适用于某种特定数据。数据挖掘功能能够让人得知未知信息,提升数据价值,从而应用到了不同领域。 北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。 NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。 数据挖掘技术及其应用是目前国际上的一个研究热点,并在许多行业中得到了很好的应用,尤其是在市场营销中获得了成功,初步体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。
|