灵玖软件基于文本的精准智能挖掘

大数据分析 · 发表于 2017-3-30 15:06:55

　　随着计算能力、存储、网络的高速发展，人类积累的数据量正以指数速度增长。对于这些数据，人们迫切希望从中提取出隐藏其中的有用信息，更需要发现更深层次的规律，对决策，商务应用提供更有效的支持。为了满足这种需求，数据挖掘技术的得到了长足的发展。新媒体时代，要真正的找到目标受众，就要确定受众的精准方向，保证他们长期的忠诚度和深度卷入，因此，基于文本的精准智能挖掘就表现的非常重要了。

　　数据挖掘中的文本挖掘与我们的生活息息相关，比如说，百度上的新闻，当然，他少不了编辑人员的作用，但是在众多网络信息中，寻找到热点，离开机器的作用几乎是不可能完成的。灵玖软件NLPIR/ICTCLAS文本搜索与挖掘系统是针对互联网内容处理的需要，融合了自然语言理解、网络搜索和文本挖掘的技术，提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成，各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。

　　NLPIR是一套专门针对原始文本集进行处理和加工的软件，提供了中间件处理效果的可视化展示，也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。

　　文本数据挖掘的主要步骤：

　　一、文本采集

　　我们把网络中的文本获取形成一个文本数据库(数据集)。利用一个爬虫 (这是另外一个知识点),抓取到网络中的信息。爬取的策略有广度和深度爬取;根据用户的需求，爬虫可以有主题爬虫和通用爬虫之分，主题爬取主要是在相关站点爬取或者爬取相关主题的文本。

　　二、对文本进行预处理

　　通过上面的步骤，我们已经获得了采集数据，网页中存在很多不必要的信息，比如说一些广告，导航栏，html、js代码，注释等等，我们并不感兴趣的信息,可以delete掉。所以，我们还需要对文本中的信息进行筛选。

　　三、分词系统

　　经过上面的步骤，我们会得到比较干净的素材。然后，就会用到一个分词系统或者说分词工具。现在针对中文分词，出现了很多分词的算法，有最大匹配法、最优匹配法、机械匹配法、逆向匹配法、双向匹配法等等(可以参考各类文献)。

　　四、特征选择

　　经过上面的步骤，我们基本能够得到有意义的一些词。但是这些所有的词都有意义吗?显然不是这样的，有些词会在这个文本集中大量出现，有些只是出现少数几次而已。他们往往也不能决定文章的内容。还有一个原因就是，如果对所有词语都保留，维度会特别高，矩阵将会变得特别特别稀疏，严重影响到挖掘结果。那么对这些相对有意义的词语选取哪一本分比较合理呢?针对特征选择也有很多种不同的方式，但是改进后的 TF*IDF 往往起到的效果是最好的。tf-idf 模型的主要思想是：如果词w在一篇文档d中出现的频率高，并且在其他文档中很少出现，则认为词w具有很好的区分能力，适合用来把文章d和其他文章区分开来。

　　五、利用算法进行挖掘

　　经过上面的步骤之后，我们就可以把文本集转化成一个矩阵。我们能够利用各种算法进行挖掘，比如说如果要对文本集进行分类，我们可以利用 KNN算法，贝叶斯算法、决策树算法等等。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

灵玖软件基于文本的精准智能挖掘

浏览过的版块