文本挖掘或者文档挖掘是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程文本挖掘涵盖多种技术,包括信息抽取,信息检索,自然语言处理和 数据挖掘技术。它的主要用途是从原本未经使用的文本中提取出未知的知识,但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术。 Nlpir Parser智能语义分析系统是灵玖软件经过多年的研发成果,针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。 Nlpir Parser智能语义分析系统是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。Nlpir Parser系统在传统的技术的基础上,重点在一下技术方法上做了重大升级,使文本挖掘效率得到了很大的提高: 1、可训练的自然语言处理和理解方法 自然语言处理(NLP)是一个计算量非常大的领域,而且目前还没有发现它在文本挖掘中能起到什么巨大的作用.然而,复杂的NLP方法将是有效地进行信息抽取的方法,而信息抽取是文本挖掘中的重要环节. 2、神经网络方法 人工智能神经网络能够很好地在自然语言文本中识别高维度结构。神经网络极适合使用在含有噪声、并且有着难以理解的结构和不断变化的属性的数据上,而这些正是文本信息中普遍存在的现象.神经网络方法使用层次化自组织图来对文本进行关键信息抽取.一个自组织图(SOM)是一个无监督的人工神经网络。由许多层神经元构成,开始于输入层,向输出层推进.因为SOM是无监督的,它们拥有自学习的能力.神经网络特别适合用于文本分类.作为以神经网络为基础的系统,不再需要样本的训练。该方法表明:有许多人工智能的数据挖掘的技术可以被结合起来应用于文本的挖掘. 文本挖掘最大的动机是来自于潜藏于电子形式中的大量的文本数据。利用数据挖掘技术处理公司大量的文本数据,将给企业带来巨大的商业价值。另外人们对于文本挖掘的感兴趣的原因还在于:人们有时候并不知道他们到底要找什么,而挖掘能够从数据库中抽取出许多有用的信息。
|