搜索
查看: 4276|: 0

Nlpir Parser大数据挖掘平台智能新词发现

[复制链接]

215

主题

13

回帖

2181

积分

金牌会员

积分
2181
发表于 2017-5-23 14:29:42 | 显示全部楼层 |阅读模式
  中文资料在进行自然语言处理时,我们长长会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那例如“教育局长”,语义上理解为“教育局之长”,但切成“教育/局长”、“教育局/长”、“教育/局/长”或不予切分,都会有人提出异议。
  这就是所谓的分词歧义难题。不过,现在很多语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个比分词歧义更令人头疼的东西—— 未登录词。中文没有首字母大写,专名号也被取消了,这叫计算机如何辨认人名地名之类的东西?更惨的则是机构名、品牌名、专业名词、缩略语、网络新词等,它 们的产生机制似乎完全无规律可寻。最近十年来,中文分词领域都在集中攻克这一难关,自动发现新词成为关键的环节。
  新词自动发现技术能够识别出词典中没有出现过的词汇、短语、命名实体、流行用语,是语言文献分析方面的一把利器。新词发现脱胎于语言自动分词技术,又是对分词技术的有效提升和补充。
大数据语义分析开启“智能预测客户”时代.png
  灵玖采用基于语义的统计语言模型,所处理的文档不受行业领域限制,能够有效地挖掘出新出现的特征词汇,所输出的词汇可以配以权重。
  Nlpir Parser大数据挖掘平台新词发现系统的主要特色在于:
  1、速度快:可以处理海量规模的网络文本数据,平均每小时处理至少60万篇文档;
  2、处理精准:Top N的分析结果往往能反映出当时的时事流行语和热点实体,适合于舆情热点计算;与国际上著名厂商的技术相比,各项指标远远领先,或许是灵玖更懂中文吧;
  3、精准排序:新词汇按照影响权重排序,可以输出权重值;
  5、开放式接口:新词发现组件作为Nlpir Parser大数据挖掘平台的一部分,采用灵活的开发接口,可以方便地融入到用户的业务系统中,可以支持各种操作系统,各类调用语言。
  新词发现组件可以应用于文本挖掘、知识管理、词典编辑、舆情监测等多种应用中。
  Nlpir Parser大数据挖掘平台是网络搜索、自然语言理解和文本挖掘的技术开发的基础工具集,开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux,FreeBSD等不同操作系统,可以供Java,C,C#等各类开发语言使用。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-24 12:49 , Processed in 0.076806 second(s), 28 queries .

快速回复 返回顶部 返回列表