搜索
查看: 459|: 0

NLPIRr智能挖掘平台运用全新人工智能语义技术

[复制链接]

215

主题

13

回帖

2181

积分

金牌会员

积分
2181
发表于 2019-1-14 11:52:18 | 显示全部楼层 |阅读模式
  随着网络时代的到来和普及,现在大量的信息扎堆,在给人们代理快捷方便的同时也给我们带来一个难题,就是大量的数据如何消化以及真假的辨别,其次是这些信息的安全性如何保证,再就是他们的统一处理方式方法。这时一个新的名词出现了——数据挖掘技术。数据挖掘是一项比较新的数据库技术,存在广泛的实际应用需求。
  数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法以及科学计算可视化技术,以数据库为研究对象,形成的数据挖掘的方法和技术。数据挖掘是数据和信息系统及其应用的学科前沿,是综合了数据库、专家系统和可视化等领域的相关技术的多学科和多种网络技术交叉结合的新领域,在商业利益的强大推动下,每年都有新的数据挖掘方法和模型的出现,数据挖掘的方法和技术可以分为六大类。
  (一)关联分析(Association Analysis)。在数据处理中,随着大量数据不停的收集、存储和处理,关联规则在数据挖掘中发现大量数据项集之间有趣的关联和相互联系,因此许多业界人士对于通过关联规则从相关数据库中挖掘有用的信息,并从中组织和处理这些有用的数据是越来越感兴趣。
  (二)聚类方法(Clustering Approach)。在数据处理中,按一定的规则(参照距离或相似尺寸等)将数据分成一系列相互区别的数据组或数据集,这种操作不需要用户的事先提示相关操作和背景知识而去直接挖掘、发现有意义的数据结构或数据模式的方法。
  (三)决策树方法(Decision Tree Approach)。该方法是一种常用于预测模型的算法,具有信息描述简单、查找速度快的特点,适合于大规模的数据挖掘。建立决策树的过程:首 先根据信息论中的信息增益寻找数据库中具有最大信息量的字段,从中找到潜在的、有价值的信息,然后建立决策树的节点,再根据字段的不同取值建立树的各个分枝,然后在每个分枝子集上分别递归上述过程,即可。
  (四)神经网络方法(Neural Network Approach)。神经网络由于本身的特性适合解决数据挖掘问题,因此,近年来越来越被关注。以HEBB学习规则和MP模型为基础的模拟人脑神经元方法,建立了三大类多种神经网络模型:反馈式网络模型、前馈式网络模型和自组织网络模型。
  (五)遗传算法(Genetic Algorithms)。遗传算法是模拟生物自然选择与遗传机理的(进化过程)随机的算法,由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成的仿生全局优化方法。遗传算法所具有的特有性质已在数据挖掘中发挥了显着作用。
(六)可视化方法(Visualization Approach)  可视化方法增强人们认识能力,拓宽了传统的图表展示功能,增强了用户对数据反馈的感知度,使用户对数据的剖析更加清楚。例如,在数据库表中,将多维数据变成多种线性图形(如线图、柱图),增加直观性,使用户更好、更快速的理解和掌握,并充分揭示数据的内涵、内在本质及规律起了很大的作用。
  北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR-Parser大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
  NLPIR-Parser大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
  随着云计算、移动互联网以及物联网等技术的发展和完善,相信大数据在各个领域的应用会越来越广泛和深入,相关的研究也会越来越全面和深入,在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2025-1-8 10:47 , Processed in 0.062725 second(s), 24 queries .

快速回复 返回顶部 返回列表