本帖最后由 mavisfine 于 2014-12-24 21:53 编辑
之前谈过商业智能和大数据,数据仓库和数据集市,还有一个令人容易混淆的概念就是商业智能和数据挖掘。因为很多人认为商业智能之所以可以将数据转换为信息,就是因为它具有数据挖掘的功能,于是乎觉得商业智能实质上就是数据挖掘了。这个认知其实是很不对的。
首先,我们要再来仔细看一下商业智能的定义,尽管这个我们已经重复过很多次了:
商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的BI工具。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。
从这个定义里,我们就可以看出,数据挖掘只是实现商业智能系统的综合技术之一,也可以说数据挖掘是商业智能的前提。
那么如何实现数据挖掘技术呢?数据挖掘技术又需要哪几种技术的支持呢?数据挖掘技术又有哪些黄金定律呢?
数据挖掘,顾名思义,要有很大的数据量,才可以开始“挖”,才可以从足够多得样本中发现规律。因此,它首先需要海量数据收集存储技术的支持。在收集存储好海量数据之后,就要开始计算了。但是由于数据量级之大,使得普通计算机根本无法承受,很容易死机崩溃。因此,支持数据挖掘的第二项技术就是强大的计算机集群和分布式计算技术。最后,数据准备好,工具准备好,就可以开始挖掘了。但是,怎么挖?于是,这就带出了数据挖掘算法的技术需求。没有一个合适科学的算法,再多的数据,再优秀的硬件,也没法挖掘出丁点价值。
综上,海量数据收集和存储技术,强大的计算机集群和分布式计算技术,以及数据挖掘算法是进行数据挖掘的三项基础技术支撑。
看完三大技术支撑,再看数据挖掘通用流程CRISP-DM的缔造者之一Tom Khabaza总结的数据挖掘九大定律:
(1)每个数据挖掘解决方案的根源都是有商业目的的。
(2)数据挖掘过程的每一步都需要以商业信息为中心。
(3)数据挖掘过程前期的数据准备工作要超过整个过程的一半。
(4)对于数据挖掘者来说没有免费的午餐,数据挖掘的任何一个过程都是来之不易的。
(5)在数据的世界里,总是有模式可循的。您找不到规律不是因为规律不存在,而是因为您还没有发现它。
(6)数据挖掘可以把商业领域的信息放大。
(7)预测可以为我们增加信息。
(8)数据挖掘模式的精准和稳定并不决定数据挖掘过程的价值,换句话说技术手段再精妙,没有商业意义和合适的商业应用是没有价值的。
(9)所有的模式都会变化。
不过,归根结底,数据挖掘的核心还是商业,就像商业智能的核心是业务而不是数据。在实现数据挖掘过程中,不能为了追求技术而本末倒置。
以上,我们看到了数据挖掘的价值和技术希望,但我们也该了解数据挖掘可能会遭遇的困境。
1、数据挖掘的算法有很多,但是需要根据具体问题来选择最佳算法。
2、数据污染。市场中的数据噪声太多,会导致数据源收到污染,降低数据的价值,加大了数据清洗的难度。
3、国内决策层对数据挖掘的不信任,导致很多企业仍然靠经验决策。
4、数据挖掘有时导出的结果是不完善的,每次导出的结果和应用的数据集直接相关。如果数据集发生变化,就需要重新进行挖掘。
|