随着信息技术的迅速发展,数据库的规模不断扩大,从而产生了大量的数据。为了给决策者提供一个统一的全局视角,在许多领域建立了数据仓库,但大量的数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data  Mining)技术由此应运而生,数据挖掘技术也正是伴随着数据仓库技术的发展而逐步完善起来的。 数据挖掘是一个以数据库、人工智能、数理统计、可视化四大支柱技术为基础,我们知道,描述或说明一个算法设计分为三个部分:输入、输出和处理过程。数据挖掘算法的输入是数据库,算法的输出 是要发现的知识或模式,算法的处理过程则设计具体的搜索方法。 数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘是知识发现(KDD)过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns),它并不是用规范的数据库查询语言(如SQL)进行查询,而是对查询的内容进行模式的总结和内在规律的搜索。传统的查 询和报表处理只是得到事件发生的结果,并没有深入研究发生的原因,而数据挖掘则主要了解发生的原因,并且以一定的置信度对未来进行预测,用来为决策行为提供有利的支持。 北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。 其中KGB(Knowledge Graph Builder)知识图谱引擎是我们自主研发的知识图谱构建与推理引擎,基于汉语词法分析的基础上,采用KGB语法实现了实时高效的知识生成,可以从非结构化文本中抽取各类知识,并实现了从表格中抽取指定的内容等。KGB同时可以定义不同的动作,如抽取动作,并能自定义各类后处理程序。利用KGB知识图谱引擎可以抽取到产品的详细报价信息,方便进行下一步的数据挖掘与图谱构建。 例如KGB语法: Knowledge: { [/LE;/w]+[采购方;甲方;发包方; 需方]} +1+{[-(/LE;/w)]20}s+{[(/LE;/w)]} Action: Extract Argument:甲方单位 表示的是: 如果 句首或者标点后,跟了{采购方;甲方;发包方};后面1步内跟的不是标点也不是是句尾,20个单元内的部分,将选中的词抽取为甲方单位。 数据挖掘技术及其应用是目前国际上的一个研究热点,并在许多行业中得到了很好的应用,尤其是在市场营销中获得了成功,初步体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。
|