搜索
查看: 4291|: 0

语义大数据NLPIR平台深度挖掘

[复制链接]

215

主题

13

回帖

2181

积分

金牌会员

积分
2181
发表于 2016-12-19 16:06:01 | 显示全部楼层 |阅读模式
  当前互联网的发展速度极为惊人,整个网络正在形成一个前所未有的超级信息数据库,成为人们获得信息、取得服务的重要渠道之一。但是上过网的人都知道, 互联网搜索和挖掘中存在两个问题: 目前的网络搜索引擎平均只能检索25%的可获取信息, 其返回结果经常会包含大量的无用信息。另一方面,传统数据挖掘技术对进行web挖掘的效果总是不尽如人意。存在这些问题的原因在于万维网现在采用的是超文本标记语言(简称HTML ) , 把网页上的内容设计成专供人类浏览的, 而非供计算机理解和处理的, 因此, 无法为网民提供自动处置网上数据的功能。
  此外,万维网是按“网页的地址”而非“内容的语义”来定位信息资源的, 相同主题的信息分散在全球众多不同的服务器上,又缺少有效工具能将不同来源的相关信息综合起来。因此形成了一个个信息孤岛, 查找自己所需的信息就像大海捞针一样困难。为了改善当代万维网信息不利于计算机自动处理的现状,灵玖软件研发了一套语义大数据深度挖掘的系统-NLPIR大数据搜索与挖掘发平台。NLPIR系统可以进行人工特定设置,还可以机器可理解的语义深度挖掘,也就是说可以被机器自动地处理、集成和重用。
  对于传统结构的web页面, 可以通过先抽取语义, 然后利用语义进行网络挖掘。当然, 也可以直接挖掘现成的NLPIR大数据搜索与挖掘发平台与挖掘传统网络一样, 可以把NLPIR大数据搜索与挖掘共享开发平台分为三类语义网内容挖掘、语义网结构挖掘和语义网使用记录挖掘。
  NLPIR系统内容和结构挖掘
  在NLPIR系统中, 内容和结构是紧密相连的, 因此内容挖掘和结构挖掘之间的界限也很模糊。NLPIR系统内容/结构挖掘中采用的一个重要的技术叫做归纳逻辑编程(ILP)。归纳逻辑编程在关系数据库中寻找涉及多个关系的模式,它包括了分类、回归、聚类和关联分析等多项技术。它能够直接地转化算法,因此能够处理用RDF或本体表示的数据在这方面有两个间题需要考虑,第一是被处理的数据的尺寸,也就是算法的可伸缩性第二是数据分布在整个NLPIR系统。
  NLPIR系统使用记录挖掘
  如果通过参考本体中的概念使语义被显示地包含在页面中, 使用挖掘就可以得到很大的提高。NLPIR系统使用记录挖掘可以在基于本体创建的日志文件上进行。挖掘这样的日志文件能够有效地建立相同兴趣用户的聚集, 从而为用户提供基于本体的个性化视图。
  NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-15 01:16 , Processed in 0.076464 second(s), 24 queries .

快速回复 返回顶部 返回列表