随着 Internet 中信息的迅速膨胀,自然语言处理方面的需求是逐年的增加。而在自然语言处理方面用的比较好的是汉语词法分析系统NLPIR 分词。汉语词法分析系统 NLPIR 分词(ICTCLAS2013) (Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。目前已经升级到了 NLPIR 分词(ICTCLAS2013)。 NLPIR 分词(ICTCLAS2013)的五大特色: 1.综合性能最优 分词系统能否达到实用性要求主要取决于两个因素:分词精度与分析速度,这两者相互制 约,难以平衡。大多数系统往往陷入“快而不准,准而不快”的窘境。NLPIR 分词完善里面 PDAT 大规模知识库管理技术,在高速度与高精度之间取得了重大突破,该技 术可以管理百万级别的词典知识库,单机每秒可以查询 100 万词条,而内存消耗不到知识库 大小的 1.5 倍。基于该技术,NLPIR 分词(ICTCLAS2013)分词速度单机 996KB/s,API 不超过 200KB,各种词典数据压缩后不到 3M,是当前使用技术比较好的汉语词法分析器。 2.统一的语言计算理论框架 汉语分词牵涉到汉语分词、未定义词识别、词性标注以及语言特例等多个因素,大多数系 统缺乏统一的处理方法,往往采用松散耦合的模块组合方式,最终模型并不能准确有效地表达 千差万别的语言现象,而 NLPIR 分词(ICTCLAS2013)采用了层叠隐马尔可夫模型 (Hierarchical Hidden Markov Model),将汉语词法分析的所有环节都统一到了一个完整的 理论框架中,获得好的总体效果。 3.全方位支持各种环境下的应用开发 NLPIR 分词(ICTCLAS2013)全部采用 C/C++编写,支持 Linux、FreeBSD 及 Windows 系列操作系统,支持 C/C++/C#/Delphi/Java 等主流的开发语言; 4.应需而变,量身定做 所有功能模块均可拆卸组装,NLPIR 分词(ICTCLAS2013)有 GB2312 和 BIG5 版本,可分别处理目简繁体中文;支持当前广泛承认的分词和词类标准;用户可以直接自定义输出的词类标准,定义输出格式;用户可以根据自己的需求,进行量身自助 式定做适合自己的分词系统。 5.国内和国际权威的公开评测、五万客户的认可 有些公司为了商业目的,关门自测,自称准确度 很高。NLPIR 分词(ICTCLAS2013) 1.0 在国内 973 专家和国际中文处理研究机构 SigHan 组织的评测认可。
|