搜索
查看: 3256|: 0

大数据中文分词:NLPIR大数据挖掘系统

[复制链接]

215

主题

13

回帖

2181

积分

金牌会员

积分
2181
发表于 2016-9-21 15:03:21 | 显示全部楼层 |阅读模式
   词法分析是自然语言处理的基础与关键。灵玖软件在多年研究工作积累的基础上,研制出了NLPIR分词挖掘系统,主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。
    NLPIR文本搜索与挖掘开发平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可支持多种编码(GBK编码、UTF8编码、BIG5编码)、多种操作系统(Windows, Linux, FreeBSD等所有主流操作系统)、多种开发语言与平台。
    NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。
NLPIR分词挖掘系统主要功能介绍
1)中英文混合分词功能
自动对中文英文信息进行分词与词性标注功能,涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能;
2)关键词提取功能
采用交叉信息熵的算法自动计算关键词,包括新词与已知词;
3)新词识别与自适应分词功能
从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。
4)用户专业词典功能
可以单条导入用户词典,也可以批量导入用户词典。如可以定“举报信 敏感点”,其中举报信是用户词,敏感点是用户自定义的词性标记。
5)微博分词功能
对博主ID进行nr标示,对转发的会话进行自动分割标示(标示为ssession),URL以及Email进行自动标引。
图片1.png

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-24 15:20 , Processed in 0.145460 second(s), 27 queries .

快速回复 返回顶部 返回列表