搜索
查看: 3261|: 0

大数据语义分析:灵玖中文文本关键词提取系统

[复制链接]

215

主题

13

回帖

2181

积分

金牌会员

积分
2181
发表于 2016-9-26 16:01:13 | 显示全部楼层 |阅读模式
  关键词提取就是在全面把握文章的中心思想的基础上从文本里面提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。除了这些以外,关键词还可以在文本聚类、分类、摘要等领域中有着重要的作用。
  关键词提取从方法来说大致有两种:第一种叫做关键词分配,就是有一个给定的关键词库,然后来一篇文章从词库里面找到几个词语作为这篇文章的关键词。另外一种就是关键词抽取,就是来一篇文章,从文章中抽取一些词语作为这篇文章的关键词。目前大多数领域无关的关键词抽取算法(领域无关算法的意思就是无论什么主题或者领域的文本都可以抽关键词的算法)和它对应的库都是基于后者的。从逻辑上说,后者比前着在实际使用中更有意义。
  另外,从结果上看关键词抽取也可以分两种。第一种就是仅仅把词语抽取出来,这个非常简单实现也比较多,比如FudanNLP、jieba、SnowNLP。另外一种则是基于语义的连词和短语一起抽取出来,这个还需要增加短语抽取这一个步骤,这一类的实现包括ICTCLAS、ansj_seg等,可以把类似于“智能手机”、“全面深化改革”、“非公有制经济”这些短语抽取出来。对于聚类或者分类来说,很明显短语比词语更有参考价值。
  灵玖软件中文文本关键词提取系统采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。
  文本关键词提取组件的主要特色在于:
  1、速度快:可以处理海量规模的网络文本数据,平均每小时处理至少50万篇文档;
  2、处理精准:Top N的分析结果往往能反映出该篇文章的主干特征;
  3、精准排序:关键词按照影响权重排序,可以输出权重值;
  4、开放式接口:文章关键词提取组件作为LJParser的一部分,采用灵活的开发接口,可以方便地融入到用户的业务系统中,可以支持各种操作系统,各类调用语言。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-14 14:26 , Processed in 0.113647 second(s), 24 queries .

快速回复 返回顶部 返回列表