近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现了新的技术—— 数据挖掘(Data Mining)技术便应用而生了。 数据挖掘从本质上说是一种新的信息处理技术。数据挖掘技术把人们对数据的应用,从低层次的联机查询操作,提高到决策支持、分析预测等更高级应用上。它通过对这些数据进行微观、中观乃至宏观的统计分析、综合和推理,发现数据的关联性、未来趋势以及一般性的概括知识等。数据挖掘作为一门数据处理的新兴技术,它具有的特征是处理海量数据,并且即使这些数据是不完全的、冗余的、随机的、复杂数据结构的、维数大的,都可以通过数据清洗来选择有用数据,建立知识模型。数据挖掘是多学科交叉,涉及计算机科学、统计学、数学等学科的技术。 数据挖掘中使用的方法和技术是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法以及科学计算可视化技术,并以数据库、数据仓库为研究对象。 数据、数据挖掘任务和数据挖掘方法的多样性,给数据挖掘提出了许多挑战性的课题。数据挖掘语言的设计,高效而有用的数据挖掘方法和系统的开发,交互和继承的数据挖掘环境的建立,以及应用数据挖掘技术解决大型应用问题,都是目前数据挖掘研究人员、系统和应用开发人员面临的主要问题。为应对这些问题,研究和应用开发人员进行了多方面的尝试和研究。此外,数据挖掘的理论基础和挖掘算法还有很大的空间有待发展和完善。 北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。 其中KGB(Knowledge Graph Builder)知识图谱引擎是我们自主研发的知识图谱构建与推理引擎,基于汉语词法分析的基础上,采用KGB语法实现了实时高效的知识生成,可以从非结构化文本中抽取各类知识,并实现了从表格中抽取指定的内容等。KGB同时可以定义不同的动作,如抽取动作,并能自定义各类后处理程序。利用KGB知识图谱引擎可以抽取到产品的详细报价信息,方便进行下一步的数据挖掘与图谱构建。 数据挖掘技术及其应用是目前国际上的一个研究热点,并在许多行业中得到了很好的应用,尤其是在市场营销中获得了成功,初步体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。
|