Nlpir Parser灵玖智能挖掘平台文本聚类

大数据分析 · 发表于 2017-6-7 14:36:59

　　聚类分析是一种无指导的机器学习方法，在机器学习、统计分析、模式识别、数据挖掘、生物学等许多领域得到了广泛的研究与应用。聚类的基本目的是将数据对象按照一定的标准分成若干个簇，使得同一个簇中的对象之间相似度较大，不同簇之间的对象相似度较小。文档的聚类分析与一般的聚类分析类似，往往包括如下5个步骤：

　　(1). 模式表示，往往包括特征抽取和特征选择，把数据对象表示成适合于算法可计算的形式;

　　(2). 根据领域知识定义模式之间的距离测度公式;

　　(3). 聚类或者分组;

　　(4). 数据抽象表达;

　　(5). 评价输出结果。

　　文本聚类分析首先要考虑的是文本表示问题，即如何从一个电子文本的符号和文字中抽取出特征，通过这些特征来表示相应的文本，利用这些特征数据进行聚类分析。

　　Nlpir Parser灵玖智能挖掘平台文本聚类是基于相似性算法的自动聚类技术，自动对大量无类别的文档进行归类，把内容相近的文档归为一类，并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。

　　在文本聚类中，除了将文本进行表示外，还必须对于文本进行相似度度量。Nlpir Parser灵玖智能挖掘平台文本聚类解决了以下技术：

　　(1). 文本与文本之间的相似度度量;

　　(2). 文本簇与文本簇之间的相似度度量;

　　(3). 文本与文本簇之间的相似度度量。

　　灵玖基于文章集合核心语义理解技术，不仅聚类速度快，而且准确率高，并能自动得到类别间的演化趋势。

收藏本站