搜索
查看: 3216|: 0

大数据挖掘:灵玖非结构化语义分析系统

[复制链接]

215

主题

13

回帖

2181

积分

金牌会员

积分
2181
发表于 2016-11-16 15:35:41 | 显示全部楼层 |阅读模式
  非结构化数据是相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据。
  随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大。这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而,数据库技术相应地进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代。整理、组织并分析非结构化数据,能够为企业带来更多的竞争优势。每一个数据元素都有它的意义,尽管有些是和你不那么相关的。
  非结构化数据包括以下几个类型:
  文本:在掌握了元数据结构时,机器生成的数据,如传感器等就一定能够进行解译。当然,流数据中有一些字段需要更加高级的分析和发掘功能。
  交互数据:这里指的是社交网络中的数据,大量的业务价值隐藏其中。人们表达对人、产品的看法和观点,并以文本字段的方式存储。为了自动分析这部分数据,我们需要借助实体识别以及语义分析等技术。你需要将文本数据以实体集合的形式展现,并结合其中的关系属性。
  图像:图像识别算法已经逐渐成为了主流。此外,这些技术也会产生实体,尽管获取关系以及舆情分析更加具有挑战性。
  音频:目前有许多研究是针对于解译音频流数据的内容,并能够判断说话者的情绪。然后在利用文本分析技术对这部分数据进行分析。
  视频:毫无疑问,视频是最具挑战性的数据类型。图像识别技术可以对每一帧图像进行抽取,当然,要真正做到对视频内容进行分析还需要技术的进一步发展。而视频中又包括音频,可以用上述的技术进行解译。
  根据上述内容,我们需要一些新的数据处理与分析功能,来获得这些数据类型的价值,而灵玖软件的 NLPIR文本搜索与挖掘系统是主要针对非结构化中文文本语义分析的分析技术,下面就是其主要功能:
  动态元数据发现:该技术主要针对文本数据,它能够动态地将元数据从结果集中抽取出来,比如新的REST结束点。在持续基础上维护和控制元数据。在运行时间,从大量可用选项中,选择适当的最佳匹配的元数据集。
  分类设置:你需要能够针对其他分析层捕获并表现你的业务及其实体,以对输入的数据进行注释和参考。由于业务元素的加入,这一分类将变得更加普遍。
  实体提取和语义分析:它能够将分类利用到任何数据流当中,并将数据流中表达的实体和关系进行提取。这种分析可以存储在一个关系型数据库当中,也可以以图表的形式进行存储。
  全文精准检索:支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。
  分词标注:对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。
  关键词提取:能够对单篇文章或文章集合,提取出若干个代表文章中心思想的词汇或短语,可用于精化阅读、语义查询和快速匹配等。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-15 01:14 , Processed in 0.084048 second(s), 24 queries .

快速回复 返回顶部 返回列表