Nlpir Parser大数据挖掘平台智能新词发现

大数据分析 · 发表于 2017-5-23 14:29:42

　　中文资料在进行自然语言处理时，我们长长会遇到很多其他语言不会有的困难，例如分词——汉语的词与词之间没有空格，那例如“教育局长”，语义上理解为“教育局之长”，但切成“教育/局长”、“教育局/长”、“教育/局/长”或不予切分，都会有人提出异议。

　　这就是所谓的分词歧义难题。不过，现在很多语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里，还有一个比分词歧义更令人头疼的东西—— 未登录词。中文没有首字母大写，专名号也被取消了，这叫计算机如何辨认人名地名之类的东西?更惨的则是机构名、品牌名、专业名词、缩略语、网络新词等，它们的产生机制似乎完全无规律可寻。最近十年来，中文分词领域都在集中攻克这一难关，自动发现新词成为关键的环节。

　　新词自动发现技术能够识别出词典中没有出现过的词汇、短语、命名实体、流行用语，是语言文献分析方面的一把利器。新词发现脱胎于语言自动分词技术，又是对分词技术的有效提升和补充。

　　灵玖采用基于语义的统计语言模型，所处理的文档不受行业领域限制，能够有效地挖掘出新出现的特征词汇，所输出的词汇可以配以权重。

　　Nlpir Parser大数据挖掘平台新词发现系统的主要特色在于：

　　1、速度快：可以处理海量规模的网络文本数据，平均每小时处理至少60万篇文档;

　　2、处理精准：Top N的分析结果往往能反映出当时的时事流行语和热点实体，适合于舆情热点计算;与国际上著名厂商的技术相比，各项指标远远领先，或许是灵玖更懂中文吧;

　　3、精准排序：新词汇按照影响权重排序，可以输出权重值;

　　5、开放式接口：新词发现组件作为Nlpir Parser大数据挖掘平台的一部分，采用灵活的开发接口，可以方便地融入到用户的业务系统中，可以支持各种操作系统，各类调用语言。

　　新词发现组件可以应用于文本挖掘、知识管理、词典编辑、舆情监测等多种应用中。

　　Nlpir Parser大数据挖掘平台是网络搜索、自然语言理解和文本挖掘的技术开发的基础工具集，开发平台由多个中间件组成，各个中间件API可以无缝地融合到客户的各类复杂应用系统之中，可兼容Windows，Linux，FreeBSD等不同操作系统，可以供Java，C，C#等各类开发语言使用。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

Nlpir Parser大数据挖掘平台智能新词发现