数据挖掘(或知识发现)就是从大量的数据中抽 取以前未知并具有潜在可用的模式。然而数据挖掘领域还缺之独立性,数据挖掘是人工智能(AI)技术与数据库技术的结合。它的核心概念是AI领域中的机器学习。数据挖掘系统所采用的主要算法是 AI中知识发现技术的应用。 目前数据挖掘研究和开发表明数据挖掘需 要覆盖各种各样不同的应用任务,从数据的预处理到关联规则、聚类分析、数据分类、偏差检查、序列模式等等特定的模式。因此,这一技术应用是一个极富挑战性的任务。 近年来出现的数据挖掘技术之所以被目前认为具有令人兴奋的研究前景,是因为它能够获得广泛的应用。如用于支持企业关键性决策,市场策略的制定等等。面对汹涌而来的大量数据,企业对数据挖掘应用形成极大的需求,将使这一技术迅速得到发展和完善。在大型商业、金融业、保险业、民航等 大型企业都开始得到应用。 数据挖掘技术从一开始就是面向应用领域,它不仅是面向特定数据库的简单检索查询调用,而且,要对数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指定实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测.数据挖掘技术具有以下特点: 1. 处理的数据规模十分庞大,达到GB、TB数量级,甚至更大。 2. 查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴趣的东西。 3. 在一些应用(如商业投资等)中,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以随时提供决策支持。 4. 数据挖掘中,规则的发现基于统计规律.因此,所发现的规则不必适用于所有数据,而是当达到某一临界值时,即认为有效.因此,利用数据挖掘技术可能会发现大量的规则。 5. 数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。 北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。 NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。 数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。
|