搜索
查看: 599|: 0

NLPIR语义智能系统可以文本多语言处理

[复制链接]

215

主题

13

回帖

2181

积分

金牌会员

积分
2181
发表于 2018-3-1 15:20:14 | 显示全部楼层 |阅读模式
  随着Internet上文档信息的迅猛发展,文本挖掘成为处理和组织大量文档数据的关键技术。存储信息使用最多的是文本,所以文本挖掘被认为比数据挖掘具有更高的商业潜力. 当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本数据挖掘. 事实上,最近研究表明公司信息有80 %包含在文本文档中。
灵玖NLPIR中文分词系统.jpg
  数据挖掘(Data Mining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现,也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成:(1) 数据准备,(2)数据挖掘,(3) 结果表达和解释。数据挖掘可以与用户或知识库交互。
  文本挖掘不但要处理大量的结构化和非结构化的文档数据,而且还要处理其中复杂的语义关系,因此,现有的数据挖掘技术无法直接应用于其上。对于非结构化问题,一条途径是发展全新的数据挖掘算法直接对非结构化数据进行挖掘,对于数据非常复杂,导致这种算法的复杂性很高;另一条途径就是将非结构化问题结构化,利用现有的数据挖掘技术进行挖掘,目前的文本挖掘一般采用该途径进行。对于语义关系,则需要集成计算语言学和自然语言处理等成果进行分析。
  在对文档进行特征提取前, 需要先进行文本信息的预处理, 对英文而言需进行Stemming 处理, 中文的情况则不同, 因为中文词与词之间没有固有的间隔符( 空格) , 需要进行分词处理。
  NLPIR分词系统是经过多年研究工作积累,主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码(GBK编码、UTF8编码、BIG5编码)、多种操作系统、多种开发语言与平台。
  NLPIR/ICTCLAS2018分词系统主要功能介绍
  1)中英文混合分词功能
  自动对中文英文信息进行分词与词性标注功能,涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能。
  2)关键词提取功能
  采用交叉信息熵的算法自动计算关键词,包括新词与已知词,
  3)新词识别与自适应分词功能
  从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。
  4)用户专业词典功能
  可以单条导入用户词典,也可以批量导入用户词典。如可以定“举报信 敏感点”,其中举报信是用户词,敏感点是用户自定义的词性标记。
  NLPIR/ICTCLAS2018分词系统是对汉语语言进行拆分处理,是中文信息处理必备的核心部件。采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等,具备准确率高、速度快、可适应性强等优势。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-24 14:05 , Processed in 0.092250 second(s), 27 queries .

快速回复 返回顶部 返回列表