互联网、物联网急速发展,万物互联的时代,也是大数据从概念更多投入应用的时代,数据资源已成为国家战略资源,我们急需在挖掘数据资源这个关键点上取得突破。 大数据的价值是显而易见的。当样本的数据量“达到某个拐点时,一切都变了”,统计学上的意义便凸显出来。但是,对于更多数据的获取,进行精准的语义 数据挖掘,由于各种原因,对于这些被研究者来说已经成为一个巨大的挑战。知识挖掘、机器学习、人工智能等技术的研究和应用使得大 数据分析的能力越来越强大,但对自然语言非结构化的语义分析挖掘也是一件不小的挑战。 NLPIR文本搜索与挖掘系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。 NLPIR文本搜索与挖掘系统的数据挖掘功能主要步骤: 1.数据收集 大量全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从作起。因此,数据收集是数据挖掘的首要步骤。数据可以来自于现有事务处理系统,也可以从数据仓库中得到。 2.数据整理 数据整理是数据挖掘的必要环节。由数据收集阶段得到的数据可能有一定的“污染”,表现在数据可能存在自身的不一致性,或者有缺失数据的存在等,因此数据的整理是必须的。同时,通过数据整理,可以对数据做简单的泛化处理,从而在原始数据的基础之上得到更为丰富的数据信息,进而便于下一步数据挖掘的顺利进行。 3.数据挖掘 利用各种数据挖掘方法对数据进行分析。 4.数据挖掘结果的评估 数据挖掘的结果有些具有实际意义,而另一些没有实际意义,或是与实际情况相违背,这就需要进行评估。评估可以根据用户多年的经验,也可以直接用实际数据来验证模型的正确性,进而调整挖掘模型,不断重复进行数据挖掘。 5.分析决策 数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等。 数据挖掘技术的目标是从大量数据中,发现隐藏于其后的规律或数据间的关系,从而服务于决策。NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。
|