语义大数据NLPIR平台深度挖掘

大数据分析 · 发表于 2016-12-19 16:06:01

　　当前互联网的发展速度极为惊人，整个网络正在形成一个前所未有的超级信息数据库，成为人们获得信息、取得服务的重要渠道之一。但是上过网的人都知道, 互联网搜索和挖掘中存在两个问题: 目前的网络搜索引擎平均只能检索25%的可获取信息, 其返回结果经常会包含大量的无用信息。另一方面，传统数据挖掘技术对进行web挖掘的效果总是不尽如人意。存在这些问题的原因在于万维网现在采用的是超文本标记语言(简称HTML ) , 把网页上的内容设计成专供人类浏览的, 而非供计算机理解和处理的, 因此, 无法为网民提供自动处置网上数据的功能。

　　此外，万维网是按“网页的地址”而非“内容的语义”来定位信息资源的, 相同主题的信息分散在全球众多不同的服务器上，又缺少有效工具能将不同来源的相关信息综合起来。因此形成了一个个信息孤岛, 查找自己所需的信息就像大海捞针一样困难。为了改善当代万维网信息不利于计算机自动处理的现状，灵玖软件研发了一套语义大数据深度挖掘的系统-NLPIR大数据搜索与挖掘发平台。NLPIR系统可以进行人工特定设置，还可以机器可理解的语义深度挖掘，也就是说可以被机器自动地处理、集成和重用。

　　对于传统结构的web页面, 可以通过先抽取语义, 然后利用语义进行网络挖掘。当然, 也可以直接挖掘现成的NLPIR大数据搜索与挖掘发平台与挖掘传统网络一样, 可以把NLPIR大数据搜索与挖掘共享开发平台分为三类语义网内容挖掘、语义网结构挖掘和语义网使用记录挖掘。

　　NLPIR系统内容和结构挖掘

　　在NLPIR系统中, 内容和结构是紧密相连的, 因此内容挖掘和结构挖掘之间的界限也很模糊。NLPIR系统内容/结构挖掘中采用的一个重要的技术叫做归纳逻辑编程(ILP)。归纳逻辑编程在关系数据库中寻找涉及多个关系的模式,它包括了分类、回归、聚类和关联分析等多项技术。它能够直接地转化算法,因此能够处理用RDF或本体表示的数据在这方面有两个间题需要考虑,第一是被处理的数据的尺寸,也就是算法的可伸缩性第二是数据分布在整个NLPIR系统。

　　NLPIR系统使用记录挖掘

　　如果通过参考本体中的概念使语义被显示地包含在页面中, 使用挖掘就可以得到很大的提高。NLPIR系统使用记录挖掘可以在基于本体创建的日志文件上进行。挖掘这样的日志文件能够有效地建立相同兴趣用户的聚集, 从而为用户提供基于本体的个性化视图。

　　NLPIR是一套专门针对原始文本集进行处理和加工的软件，提供了中间件处理效果的可视化展示，也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

语义大数据NLPIR平台深度挖掘