文本挖掘(Text Mining)是一个从结构化或非结构化文本信息中获取用户感兴趣或者有用的模式的过程。文本挖掘的主要目的是从非结构化文本文档中提取有趣的、重要的模式和知识。可以看成是基于数据库的 数据挖掘或知识发现的扩展。 文本挖掘是从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:文档本身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。 灵玖软件Nlpir Parser数据智能平台文本挖掘系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。其主要流程是: 一、全文精准检索获取文本 一般来说网络文本的获取,主要是网页的形式,就是获取一个文本数据库(数据集)。利用一个 爬虫技术,抓取到网络中的信息。爬取的策略有广度和深度爬取;支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。 二、对文本进行预处理 我们获取了文本数据,我们还需要对文本中的信息进行筛选 。针对事先指定的规则和示例样本,系统自动从海量文档中筛选出符合需求的样本。 三、分词系统 经过上面的步骤,我们会得到比较干净的素材。我们知道,文本中起到关键作用的是一些词,甚至主要词就能起到决定文本取向,肯定是对文章中的中心词进行分析得到的结果。而在找出中心词之前,首先得在每个文本中得到所有词。这里就会用到一个分词系统或者说分词工具。现在针对中文分词,出现了很多分词的算法 ,有最大匹配法、最优匹配法、机械匹配法、逆向匹配法、双向匹配法等等。现在使用比较的是ICTCLAS /Nlpir汉语分词系统,该算法经过众多科学家的认定是当今中文分词中最好的,并且支持用户自定义词典,加入词典,;对新词,人名,地名等的发现也具有良好的效果。 四、统计分析与术语翻译 针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自动给出相应的英文解释。 五、大数据聚类及热点分析 经过上面的步骤,我们基本能够得到一些词。但不是所有的词都有意义的,有些词会在这个文本集中大量出现,有些只是出现少数几次而已。他们往往也不能决定文章的内容。使用改进后的 TF*IDF 往往起到的效果是最好的。能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。 文本挖掘是应用驱动的。它在商业智能、信息检索、生物信息处理等方面都有广泛的应用;例如,客户关系管理,自动邮件回复,垃圾邮件过滤,自动简历评审,搜索引擎等等。
|