搜索
查看: 4254|: 0

智能语义分析灵玖NLPIR大数据挖掘平台

[复制链接]

215

主题

13

回帖

2181

积分

金牌会员

积分
2181
发表于 2017-3-9 14:50:20 | 显示全部楼层 |阅读模式
  语义技术实际上是把已有的数据加上语义。 可以把它想象成在现有结构化或者非结构化的数据库上的一个语义叠加层。语义分析技术大致包含三个层面:词法分析、句法分析、语义分析,三者之间既递进又相互包含。
  词义消歧是自然语言处理技术的最大瓶颈。机器在切词、标注词性、并识别完后,需要对各个词语进行理解。由于语言中往往一词多义,人在理解时会基于已有知识储备和上下文环境,但机器很难做到。虽然系统会对句子做句法分析,可以在一定程度上帮助机器理解词义和语义,但实际情况并不理想。
灵玖软件经过多年的研究和总结,开发出来NLPIR大数据挖掘平台。该平台是针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,是一套集语义解析、垂直搜索和业务接入于一体的技术接入平台。 同时,还自主研发知识图谱和千万级熟语料库,为精准专业的中文语义自动分析提供坚实基础。
NLPIR大数据挖掘智能平台的主要功能:
  1 汉语智能词法分析功能
  汉语智能词法分析功能能对汉语语言进行拆分处理,是中文信息处理必备的核心部件。灵玖综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
  词性标注能对汉语语言进行词性的自动标注,它能够真正理解中文,自动根据语言环境将词语诸如“建设”标注为“名词”或“动词”。
  2新语自动发现功能
  新词自动发现技术能够识别出词典中没有出现过的词汇、短语、命名实体、流行用语,是语言文献分析方面的一把利器。新词发现脱胎于语言自动分词技术,又是对分词技术的有效提升和补充。
  灵玖采用基于语义的统计语言模型,所处理的文档不受行业领域限制,能够有效地挖掘出新出现的特征词汇,所输出的词汇可以配以权重。
  3 文本内容去重功能
  文本内容去重中间件能够对文本进行查重处理,同时能找出所有的重复文件。能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录。灵玖采用高效的文章指纹算法,能够在极短的时间内与历史指纹库进行对比,从而发现重复记录。
  4 文本分类智能过滤功能
  文本分类中间件能够根据文献内容进行类别的划分,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多应用。
  灵玖采用基于内容的文本自动分类过滤和基于规则的文本分类过滤两种方式,并支持两种方式的混合分类。能够进行多级分类,分类速度每秒100篇以上,平均准确率90%以上,能够进行中英文分类和中英文的混合分类。
  5 文本聚类功能
  文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。灵玖基于文章集合核心语义理解技术,不仅聚类速度快,而且准确率高,并能自动得到类别间的演化趋势。
  6 文档关键词智能提取功能
  文章关键词功能提取中间件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。
  采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新出现的新词语,所输出的词语可以配以权重。
  7 文本摘要功能
  自动文本摘要中间件能够实现文本内容的精简提炼,从长篇文章中自动提取关键句和关键段落,构成摘要内容,方便用户快速浏览文本内容,提高工作效率。
  8 网页正文提取功能
  网页正文提取中间件能够实现HTML格式的精确分析,自动分辨出网页是属于索引页面还是内容页面。对于内容页面,能够高效剔除HTML标签和导航、广告等干扰性文字,返回实际有价值的正文内容。
  9 全文智能搜索功能
  全文智能搜索中间件内核经过精心设计,具有高扩展性和高通用性。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-24 13:48 , Processed in 0.069557 second(s), 25 queries .

快速回复 返回顶部 返回列表