NLPIR语义智能系统可以文本多语言处理

大数据分析 · 发表于 2018-3-1 15:20:14

　　随着Internet上文档信息的迅猛发展，文本挖掘成为处理和组织大量文档数据的关键技术。存储信息使用最多的是文本,所以文本挖掘被认为比数据挖掘具有更高的商业潜力. 当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本数据挖掘. 事实上,最近研究表明公司信息有80 %包含在文本文档中。

　　数据挖掘(Data Mining)，就是从存放在数据库，数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘，在人工智能领域，习惯上又称为数据库中知识发现，也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成：(1) 数据准备，(2)数据挖掘，(3) 结果表达和解释。数据挖掘可以与用户或知识库交互。

　　文本挖掘不但要处理大量的结构化和非结构化的文档数据，而且还要处理其中复杂的语义关系，因此，现有的数据挖掘技术无法直接应用于其上。对于非结构化问题，一条途径是发展全新的数据挖掘算法直接对非结构化数据进行挖掘，对于数据非常复杂，导致这种算法的复杂性很高;另一条途径就是将非结构化问题结构化，利用现有的数据挖掘技术进行挖掘，目前的文本挖掘一般采用该途径进行。对于语义关系，则需要集成计算语言学和自然语言处理等成果进行分析。

　　在对文档进行特征提取前, 需要先进行文本信息的预处理, 对英文而言需进行Stemming 处理, 中文的情况则不同, 因为中文词与词之间没有固有的间隔符( 空格) , 需要进行分词处理。

　　NLPIR分词系统是经过多年研究工作积累，主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码(GBK编码、UTF8编码、BIG5编码)、多种操作系统、多种开发语言与平台。

　　NLPIR/ICTCLAS2018分词系统主要功能介绍

　　1)中英文混合分词功能

　　自动对中文英文信息进行分词与词性标注功能，涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能。

　　2)关键词提取功能

　　采用交叉信息熵的算法自动计算关键词，包括新词与已知词，

　　3)新词识别与自适应分词功能

　　从较长的文本内容中，基于信息交叉熵自动发现新特征语言，并自适应测试语料的语言概率分布模型，实现自适应分词。

　　4)用户专业词典功能

　　可以单条导入用户词典，也可以批量导入用户词典。如可以定“举报信敏感点”，其中举报信是用户词，敏感点是用户自定义的词性标记。

　　NLPIR/ICTCLAS2018分词系统是对汉语语言进行拆分处理，是中文信息处理必备的核心部件。采用条件随机场(Conditional Random Field,简称CRF)模型，分词准确率接近99%，具备准确率高、速度快、可适应性强等优势;特色功能包括：切分粒度可调整，融合20余部行业专有词典，支持用户自定义词典等，具备准确率高、速度快、可适应性强等优势。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

NLPIR语义智能系统可以文本多语言处理