中文资料在进行自然语言处理时,我们长长会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那例如“教育局长”,语义上理解为“教育局之长”,但切成“教育/局长”、“教育局/长”、“教育/局/长”或不予切分,都会有人提出异议。 这就是所谓的分词歧义难题。不过,现在很多语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个比分词歧义更令人头疼的东西—— 未登录词。中文没有首字母大写,专名号也被取消了,这叫计算机如何辨认人名地名之类的东西?更惨的则是机构名、品牌名、专业名词、缩略语、网络新词等,它 们的产生机制似乎完全无规律可寻。最近十年来,中文分词领域都在集中攻克这一难关,自动发现新词成为关键的环节。 新词自动发现技术能够识别出词典中没有出现过的词汇、短语、命名实体、流行用语,是语言文献分析方面的一把利器。新词发现脱胎于语言自动分词技术,又是对分词技术的有效提升和补充。 灵玖采用基于语义的统计语言模型,所处理的文档不受行业领域限制,能够有效地挖掘出新出现的特征词汇,所输出的词汇可以配以权重。 Nlpir Parser大 数据挖掘平台新词发现系统的主要特色在于: 1、速度快:可以处理海量规模的网络文本数据,平均每小时处理至少60万篇文档; 2、处理精准:Top N的分析结果往往能反映出当时的时事流行语和热点实体,适合于舆情热点计算;与国际上著名厂商的技术相比,各项指标远远领先,或许是灵玖更懂中文吧; 3、精准排序:新词汇按照影响权重排序,可以输出权重值; 5、开放式接口:新词发现组件作为Nlpir Parser大数据挖掘平台的一部分,采用灵活的开发接口,可以方便地融入到用户的业务系统中,可以支持各种操作系统,各类调用语言。 新词发现组件可以应用于文本挖掘、知识管理、词典编辑、舆情监测等多种应用中。 Nlpir Parser大数据挖掘平台是网络搜索、自然语言理解和文本挖掘的技术开发的基础工具集,开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux,FreeBSD等不同操作系统,可以供Java,C,C#等各类开发语言使用。
|