随着计算能力、存储、网络的高速发展,人类积累的数据量正以指数速度增长。对于这些数据,人们迫切希望从中提取出隐藏其中的有用信息,更需要发现更深层次的规律,对决策,商务应用提供更有效的支持。为了满足这种需求, 数据挖掘技术的得到了长足的发展。新媒体时代,要真正的找到目标受众,就要确定受众的精准方向,保证他们长期的忠诚度和深度卷入,因此,基于文本的精准智能挖掘就表现的非常重要了。 数据挖掘中的文本挖掘与我们的生活息息相关,比如说,百度上的新闻,当然,他少不了编辑人员的作用,但是在众多网络信息中,寻找到热点,离开机器的作用几乎是不可能完成的。 灵玖软件NLPIR/ICTCLAS文本搜索与挖掘系统是针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。 NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。 文本数据挖掘的主要步骤: 一、文本采集 我们把网络中的文本获取形成一个文本数据库(数据集)。利用一个 爬虫 (这是另外一个知识点),抓取到网络中的信息。爬取的策略有广度和深度爬取;根据用户的需求,爬虫可以有主题爬虫和通用爬虫之分,主题爬取主要是在相关站点爬取或者爬取相关主题的 文本 。 二、对文本进行预处理 通过上面的步骤,我们已经获得了采集数据,网页中存在很多不必要的信息,比如说一些广告,导航栏,html、js代码,注释等等,我们并不感兴趣的信息,可以delete掉。所以,我们还需要对 文本中的信息进行筛选 。 三、分词系统 经过上面的步骤,我们会得到比较干净的素材。然后,就会用到一个分词系统或者说分词工具。现在针对中文分词,出现了很多 分词的算法 ,有最大匹配法、最优匹配法、机械匹配法、逆向匹配法、双向匹配法等等(可以参考各类文献)。 四、特征选择 经过上面的步骤,我们基本能够得到有意义的一些词。但是这些所有的词都有意义吗?显然不是这样的,有些词会在这个文本集中大量出现,有些只是出现少数几次而已。他们往往也不能决定文章的内容。还有一个原因就是,如果对所有词语都保留,维度会特别高,矩阵将会变得特别特别稀疏,严重影响到挖掘结果。那么对这些相对有意义的词语选取哪一本分比较合理呢?针对特征选择也有很多种不同的方式,但是改进后的 TF*IDF 往往起到的效果是最好的。tf-idf 模型的主要思想是:如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则认为词w具有很好的区分能力,适合用来把文章d和其他文章区分开来。 五、利用算法进行挖掘 经过上面的步骤之后,我们就可以把文本集转化成一个矩阵。我们能够利用 各种算法 进行挖掘,比如说如果要对文本集进行分类,我们可以利用 KNN算法,贝叶斯算法、决策树算法 等等。
|