灵玖大数据NLPIR挖掘平台解决文本需求

大数据分析 · 发表于 2017-2-22 15:17:08

　　Internet技术的发展与成熟，使得人们可获得的信息越来越多。面对海量信息，人们已经不能简单地靠人工来处理所有的信息，需要辅助工具来帮助人们更好地发现、过滤和管理这些信息资源。

　　与拉丁语系的文本不同，中文并不使用空格作为词语间的分隔符。比如当我们说“We love coding.”，这句英文使用了两个空格来分割三个英文词汇;如果用中文做同样的表述，就是“我们爱写代码。”，其中不包含任何空格。因而，处理中文数据时，我们需要进行分词，而这恰恰时中文自然语言处理的一大难点。由于自然语言处理里不断发展，灵玖软件的文本处理技术得到了提高，大数据NLPIR挖掘平台成为客户文本挖掘的有效平台。

　　灵玖大数据NLPIR挖掘平台中文处理的主要技术：

　　1. 中文分词

　　汉语词法分析软件能对汉语语言进行拆分处理，是中文信息处理必备的核心部件。灵玖综合了各家所长，采用条件随机场(Conditional Random Field,简称CRF)模型，分词准确率接近99%，具备准确率高、速度快、可适应性强等优势;特色功能包括：切分粒度可调整，融合20余部行业专有词典，支持用户自定义词典等。

　　2. 中文词性标注

　　词性标注是中文处理的另一大难题。我们用大数据NLPIR挖掘平台可以对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中，导入用户定义的词典。

　　3.全文精准检索

　　支持文本、数字、日期、字符串等各种数据类型，多字段的高效搜索，支持AND/OR/NOT以及NEAR邻近等查询语法，支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。

　　4. 文本聚类及热点分析

　　能够从大规模数据中自动分析出热点事件，并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

灵玖大数据NLPIR挖掘平台解决文本需求