随着大数据的兴起,隐藏在大数据背后的相关技术也逐渐被揭开神秘的面纱,其中, 数据挖掘即是大数据应用过程中非常重要的环节。 数据挖掘(Data mining,简称DM)从狭义上是指从数据库中提取知识。具体的说是在数据库中,对数据进行一定的处理,从而获得其中隐含的、事先未知的而又可能极为有用的信息。这些信息通常是以知识、规则或约束等形式来表现。在其他文献中有许多类似的提法,例如: 数据分析,知识获取,知识萃取,数据构成等。 而现阶段数据挖掘及利用所存在着一些问题,主要问题是: 一、数据收集来源单一 目前数据新闻面临的首要问题就是缺乏可收集的数据信息源,或者数据库信息过于单一,缺乏全面、结构性的数据源数据库。从我国的情况来看,作为常用来源的商业数据库中的数据,通常只集中在某一个方面,其所能描述的用户特征也只是片面和单一角度的认识。 二、数据处理能力有限 除了数据来源单一以外,数据新闻目前存在的第二个问题是,处理数据能力有限。而数据处理和分析能力是决定数据挖掘的关键环节。目前,我们所使用的数据处理工具和算法都还比较传统,不适用大数据规模大、体量大的特点。 三、数据可视化表达程度有限 数据挖掘的第三个环节是数据展示,即可视化表达数据处理结果。数据可视化,在今天已经是一个固定的概念,指的是将数据信息的“量值”或“关系”等转变为直观的图形。数据的可视化加工,目前主要包括将数值型、文本型的数据及其关系用视觉化手段,例如图片、动画等形式呈现出来。 随着大数据的发展和创新,对数据处理的能力越来越来强,可以对大量的数据进行精确的分析和挖掘,其中NLPIR文本搜索与挖掘系统是针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。 NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。 数据挖掘技术随着大数据时代的到来已变幻出更强的功能特征,而在大数据服务商的精耕细作下,也必将为各行业带来进步的动力。
|