1 引 言 目前,数据挖掘(Data Mining,简称DM)已成为国内学术界研究的热点内容,其研究大多建立在数据仓库之上,针对具体应用选择使用特定的数据挖掘算法进行自动的数据挖掘,缺少与用户的交互性和灵活性。而联机分析处理(On Line Analysis Processing,简称OLAP)需要用户预先设计好问题和假设,这样便限制了数据查找的范围和深度。因此,DM和OLAP各有优势,也各有缺陷。 联机分析挖掘模型(On-LineA nalysisM ining,简称OLAM)是将两者结合的较好模型,它集成了OLAP和DM的功能,综合了OLAP多维分析的在线性、灵活性和DM的智能化特点,提高了传统模型的灵活性和智能化程度。 2 基于数据立方体的数据挖掘 在经典的OLAM模型基础上,以下模型完善了对于数据基础的处理,将数据仓库和其他各种形式的数据文件表示为以Data Cube为基本逻辑结构的工作仓库,并在工作仓库中添加了元数据模块和知识库模块,使得在工作仓库上进行的数据挖掘将比直接在数据仓库等数据文件之上进行的操作要更加灵活,功能更加丰富,系统集成化程度更高。 2.1 基于Data Cube的OLAM的体系结构 该OLAM模型指定了必须执行的功能以及这些功能之间的关系,是OLAM系统的一种简要描述,它在一个较高的层次上解释了OLAM系统的功能和流程。OLAM系统从现有的各个运行系统中提取数据,并将其加载到结构化和规划良好的数据仓库中,以提供满足应用需求的关键信息。由于决策分析任务所需的数据对象的组织形式各异,数据仓库中基于多维数据模型的数据组织形式不能满足所有决策分析任务的需要,因此要求OLAM系统能够设计新的面向决策任务分析的数据基础。工作仓库就是完成这个功能的系统部件,在其中存储不同任务的不同数据模型及其数据集合。工作仓库中数据的添加是根据OLAM任务的具体特点,在元数据的指导下从数据仓库的多维结构化数据向工作仓库中多种不同数据模型的结构化数据的转换过程。在工作仓库之上,OLAP和数据挖掘引擎集成在一起,根据决策分析任务的要求访问工作仓库,在某些问题的分析上结合各自的功能优势进行互相访问,以更好地解决决策分析任务的问题。在做完数据挖掘或联机分析处理以后,需要将结果以可视化的形式传递到客户端。 OLAM的体系结构如图1所示。 图1 OLAM模型系统结构图 2.2 模型系统各部分功能介绍 (1)数据仓库:大部分数据挖掘工具需要在集成、一致和清洁的数据上工作。一个通过数据清洁、数据转换和数据集成这些预处理步骤建立的数据仓库可以作为OLAP的有价值的数据源。同样,这个数据源也适用于数据挖掘。数据仓库中的数据是很少变化的,但当运行系统和相关外部数据源的数据发生变化时,按照数据管理规划方案定期地对数据仓库中的数据进行添加和更新。在这个过程中,数据要经过一系列的整合加工步骤才能进人数据仓库。进入数据仓库中的数据通常还要进行进一步的处理,以产生部分常用的聚合数据,以便减少数据计算时间。 (2)其他各种类型文件:为全面处理企业内的各种决策支持应用,系统应支持多种异构数据类型的融合。一方面,决策分析的数据对象来自现有各个分立开发的应用系统。由于开发环境和开发目的可能各不相同,数据的管理方法和数据结构也可能各不相同。这就要求OLAM在数据方面有很强的包容性。另一方面,不同的数据挖掘方法要求不同的数据结构来支撑。尽管OLAM系统是建立在数据仓库基础上的,异构数据库的访问和不同数据类型的综合可以通过数据仓库技术来解决,但OLAM系统在决策分析过程中依然有对多种数据类型和数据组织方式的支持的需求。 (3)工作仓库:是建立在数据仓库的基础上面对特定应用、特定分析方法的数据集合。OLAM中多种数据分析和挖掘算法数据基础的多样性决定了工作仓库的数据组织形式和数据类型的多样性。工作仓库是决策分析任务的数据基础,其中存储工作对象集合,它具有针对于不同OLAM分析任务、不同数据容量、数据组织形式和存储结构而不同的特点。工作仓库是在数据仓库基础上对数据对象进行特征化组织,并且这个组织过程是由用户来完成的,这就要求系统提供数据访问和转换的工具,支持方便、灵活、自动化程度较高的数据重组任务。工作仓库的存储方式、数据组织形式、索引方法是OLAM的系统核心问题之一。 (4)元数据和知识库:两者是OLAM系统的粘结剂,OLAM系统的每个操作环节均离不开元数据,成功的元数据管理是OLAM系统成功的保障。从广义上来讲,知识也是一种元数据。所以,元数据库和知识库实际上为一个主体。需要解决的主要问题包括元数据的描述、元数据的交换、元数据的存储、元数据的访问等内容。
|