大数据文本分析：自然语言挖掘NLPIR分词系统

大数据分析 · 发表于 2016-9-7 15:12:55

　　随着 Internet 中信息的迅速膨胀，自然语言处理方面的需求是逐年的增加。而在自然语言处理方面用的比较好的是汉语词法分析系统NLPIR 分词。汉语词法分析系统 NLPIR 分词(ICTCLAS2013) (Institute of Computing Technology, Chinese Lexical Analysis System)，主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。目前已经升级到了 NLPIR 分词(ICTCLAS2013)。

　　NLPIR 分词(ICTCLAS2013)的五大特色：

　　1.综合性能最优

　　分词系统能否达到实用性要求主要取决于两个因素：分词精度与分析速度，这两者相互制约，难以平衡。大多数系统往往陷入“快而不准，准而不快”的窘境。NLPIR 分词完善里面 PDAT 大规模知识库管理技术，在高速度与高精度之间取得了重大突破，该技术可以管理百万级别的词典知识库，单机每秒可以查询 100 万词条，而内存消耗不到知识库大小的 1.5 倍。基于该技术，NLPIR 分词(ICTCLAS2013)分词速度单机 996KB/s，API 不超过 200KB，各种词典数据压缩后不到 3M，是当前使用技术比较好的汉语词法分析器。

　　2.统一的语言计算理论框架

　　汉语分词牵涉到汉语分词、未定义词识别、词性标注以及语言特例等多个因素，大多数系统缺乏统一的处理方法，往往采用松散耦合的模块组合方式，最终模型并不能准确有效地表达千差万别的语言现象，而 NLPIR 分词(ICTCLAS2013)采用了层叠隐马尔可夫模型 (Hierarchical Hidden Markov Model)，将汉语词法分析的所有环节都统一到了一个完整的理论框架中，获得好的总体效果。

　　3.全方位支持各种环境下的应用开发

　　NLPIR 分词(ICTCLAS2013)全部采用 C/C++编写，支持 Linux、FreeBSD 及 Windows 系列操作系统，支持 C/C++/C#/Delphi/Java 等主流的开发语言;

　　4.应需而变，量身定做

　　所有功能模块均可拆卸组装,NLPIR 分词(ICTCLAS2013)有 GB2312 和 BIG5 版本，可分别处理目简繁体中文;支持当前广泛承认的分词和词类标准;用户可以直接自定义输出的词类标准，定义输出格式;用户可以根据自己的需求，进行量身自助式定做适合自己的分词系统。

　　5.国内和国际权威的公开评测、五万客户的认可

　　有些公司为了商业目的，关门自测，自称准确度很高。NLPIR 分词(ICTCLAS2013) 1.0 在国内 973 专家和国际中文处理研究机构 SigHan 组织的评测认可。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

大数据文本分析：自然语言挖掘NLPIR分词系统