搜索
查看: 3340|: 0

大数据文本分析:自然语言挖掘NLPIR分词系统

[复制链接]

215

主题

13

回帖

2181

积分

金牌会员

积分
2181
发表于 2016-9-7 15:12:55 | 显示全部楼层 |阅读模式
  随着 Internet 中信息的迅速膨胀,自然语言处理方面的需求是逐年的增加。而在自然语言处理方面用的比较好的是汉语词法分析系统NLPIR 分词。汉语词法分析系统 NLPIR 分词(ICTCLAS2013) (Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。目前已经升级到了 NLPIR 分词(ICTCLAS2013)。
  NLPIR 分词(ICTCLAS2013)的五大特色:
  1.综合性能最优
  分词系统能否达到实用性要求主要取决于两个因素:分词精度与分析速度,这两者相互制 约,难以平衡。大多数系统往往陷入“快而不准,准而不快”的窘境。NLPIR 分词完善里面 PDAT 大规模知识库管理技术,在高速度与高精度之间取得了重大突破,该技 术可以管理百万级别的词典知识库,单机每秒可以查询 100 万词条,而内存消耗不到知识库 大小的 1.5 倍。基于该技术,NLPIR 分词(ICTCLAS2013)分词速度单机 996KB/s,API 不超过 200KB,各种词典数据压缩后不到 3M,是当前使用技术比较好的汉语词法分析器。
  2.统一的语言计算理论框架
  汉语分词牵涉到汉语分词、未定义词识别、词性标注以及语言特例等多个因素,大多数系 统缺乏统一的处理方法,往往采用松散耦合的模块组合方式,最终模型并不能准确有效地表达 千差万别的语言现象,而 NLPIR 分词(ICTCLAS2013)采用了层叠隐马尔可夫模型 (Hierarchical Hidden Markov Model),将汉语词法分析的所有环节都统一到了一个完整的 理论框架中,获得好的总体效果。
  3.全方位支持各种环境下的应用开发
  NLPIR 分词(ICTCLAS2013)全部采用 C/C++编写,支持 Linux、FreeBSD 及 Windows 系列操作系统,支持 C/C++/C#/Delphi/Java 等主流的开发语言;
  4.应需而变,量身定做
  所有功能模块均可拆卸组装,NLPIR 分词(ICTCLAS2013)有 GB2312 和 BIG5 版本,可分别处理目简繁体中文;支持当前广泛承认的分词和词类标准;用户可以直接自定义输出的词类标准,定义输出格式;用户可以根据自己的需求,进行量身自助 式定做适合自己的分词系统。
  5.国内和国际权威的公开评测、五万客户的认可
  有些公司为了商业目的,关门自测,自称准确度 很高。NLPIR 分词(ICTCLAS2013) 1.0 在国内 973 专家和国际中文处理研究机构 SigHan 组织的评测认可。
QQ截图20160907141631.png

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-24 16:12 , Processed in 0.066500 second(s), 27 queries .

快速回复 返回顶部 返回列表