著名统计学者谢邦昌数据挖掘访谈

IT市场 · 发表于 2014-8-6 09:17:28

1.记者：Data Mining包含哪些主要功能？
谢邦昌：Data Mining实际应用功能可分为三大类六分项来说明：Classification和Clustering属于分类区隔类；Regression和Time-series属于推算预测类；Association和Sequence则属于序列规则类。
Classification是根据一些变量的数值做计算，再依照结果作分类。（计算的结果最后会被分类为几个少数的离散数值，例如将一组数据分为 "可能会响应" 或是 "可能不会响应" 两类）。
Classification常被用来处理如前所述之邮寄对象筛选的问题。我们会用一些根据历史经验已经分类好的数据来研究它们的特征，然后再根据这些特征对其他未经分类或是新的数据做预测。

这些我们用来寻找特征的已分类数据可能是来自我们的现有的客户数据，或是将一个完整数据库做部份取样，再经由实际的运作来测试；譬如利用一个大型邮寄对象数据库的部份取样来建立一个Classification Model，再利用这个Model来对数据库的其它数据或是新的数据作分类预测。
Clustering用在将数据分群，其目的在于将群间的差异找出来，同时也将群内成员的相似性找出来。Clustering与Classification不同的是，在分析前并不知道会以何种方式或根据来分类。所以必须要配合专业领域知识来解读这些分群的意义。
Regression是使用一系列的现有数值来预测一个连续数值的可能值。若将范围扩大亦可利用Logistic Regression来预测类别变量，特别在广泛运用现代分析技术如类神经网络或决策树理论等分析工具，推估预测的模式已不在止于传统线性的局限，在预测的功能上大大增加了选择工具的弹性与应用范围的广度。
Time-Series Forecasting与Regression功能类似，只是它是用现有的数值来预测未来的数值。两者最大差异在于Time-Series所分析的数值都与时间有关。Time-Series Forecasting的工具可以处理有关时间的一些特性，譬如时间的周期性、阶层性、季节性以及其它的一些特别因素（如过去与未来的关连性）。
Association是要找出在某一事件或是数据中会同时出现的东西。举例而言，如果A是某一事件的一种选择，则B也出现在该事件中的机率有多少。（例如：如果顾客买了火腿和柳橙汁，那么这个顾客同时也会买牛奶的机率是85%。）
Sequence Discovery与Association关系很密切，所不同的是Sequence Discovery中事件的相关是以时间因素来作区隔（例如：如果A股票在某一天上涨12%，而且当天股市加权指数下降，则B股票在两天之内上涨的机率是 68%）。

2.记者：目前业界有哪些常用的Data Mining分析工具？

谢邦昌：Data Mining工具市场大致可分为三类：
（1）一般分析目的用的软件包：
      SAS Enterprise Miner
      Microsoft SQL Server 2005 – 2008
      IBM Intelligent Miner
      Unica PRW
      SPSS Clementine
      SGI MineSet
      Oracle Darwin
      Angoss KnowledgeSeeker
      Statistica
（2）针对特定功能或产业而研发的软件：
      KD1（针对零售业）
      Options & Choices（针对保险业）
      HNC（针对信用卡诈欺或呆帐侦测）
      Unica Model 1（针对营销业）
（3）整合DSS（Decision Support Systems）/OLAP/Data Mining的大型分析系统：
      Cognos Scenario and Business Objects
3.记者：对于刚刚接触Data Mining的人来说，想把它学好，您有什么好的建议？

谢邦昌：先从问题着手,Domain Knowledge 是很重要的具体应重视三方面的问题：
（1）强调需求，重视过程和结果。虽然统计学和数据挖掘一样，都是在寻求实际数据解决方案的过程中成长起来的，然而统计学家更关注模型，运用数据仅仅是为了发现新的模型，而数据挖掘则更强调知识的价值，模型是用来发现知识的工具。强调需求，重视过程和结果才能实现统计创新。

（2）借鉴机器学习的特点，提炼方法，以算法的形式体现方法。统计学早已脱离正态的传统框架发展方法。但是，由于统计最新的可以被直接使用的成果太少，不仅阻碍了人们对统计方法的运用，甚至造成对先进统计方法的不甚了解。数据挖掘的兴起，为统计学与信息技术的结合带来了发展的契机。计算机技术将成为继数学之后，又一推动统计学发展的强大工具。

（3）发挥统计软件的优势。许多“傻瓜”统计软件的设计，更适合统计学家研究使用，任何一个初通统计的数据分析员要想通过软件来进行数据分析，都极有可能由于对数据涵义的不求甚解，导致脱离实际的统计模型的滥用，数据挖掘软件也是如此；Clementine、SQL Server 2005及SAS和S-plus被设计为可以通过编程来调节软件的默认属性，用这样的软件工作可以增强统计研究者的算法意识；最后，统计软件为统计研究的目的，在图形和可视化方面的互动操作，应该在数据挖掘的软件中体现这一思想，因为它可以帮助数据分析员理解高维数据复杂的结构。
从数据挖掘在国际上的发展来看，数据挖掘的研究重点已从提出概念和发现方法，转向系统应用和方法创新上，研究注重多种发现策略和技术的集成，以及多种学科之间的相互渗透，数据挖掘技术迫切需要系统、科学的理论体系作为其发展的有力支撑。
最近，由经验统计方法和人工智能相结合而产生的衍生技术，如分类回归树（Classification And Regression Tree, 简称CART），卡方自动交互探测法（Chi-square Automatic Interaction Detector，简称CHAID）等前沿方法，以算法的形式展示了统计和信息技术结合发展的新方向。这些都预示着数据挖掘技术与统计学的集成已成为必然的趋势。
我们坚信，随着统计学与现代信息技术的融合，在方法上不断进行新的探索，一定会为统计学和数据挖掘未来的发展开辟一片新的天地。

4.记者：Web Mining 和Data Mining有什么不同？

谢邦昌：如果将Web视为CRM的一个新的Channel，则Web Mining便可单纯看做Data Mining应用在网络数据的泛称。
该如何测量一个网站是否成功？哪些内容、优惠、广告是人气最旺的？主要访客是哪些人？什么原因吸引他们前来？如何从堆积如山之大量由网络所得数据中找出让网站运作更有效率的操作因素？以上种种皆属Web Mining 分析之范畴。

Web Mining 不仅只限于一般较为人所知的log file分析，除了计算网页浏览率以及访客人次外，举凡网络上的零售、财务服务、通讯服务、政府机关、医疗咨询、远距教学等等，只要由网络连结出的数据库够大够完整，所有Off-Line可进行的分析，Web Mining都可以做，甚或更可整合Off-Line及On-Line的数据库，实施更大规模的模型预测与推估，毕竟凭借因特网的便利性与渗透力再配合网络行为的可追踪性与高互动特质，一对一营销的理念是最有机会在网络世界里完全落实的。
整体而言，Web Mining具有以下特性：1. 资料收集容易且不引人注意，所谓凡走过必留下痕迹，当访客进入网站后的一切浏览行为与历程都是可以立即被纪录的；2. 以交互式个人化服务为终极目标，除了因应不同访客呈现专属设计的网页之外，不同的访客也会有不同的服务；3. 可整合外部来源数据让分析功能发挥地更深更广，除了log file、cookies、会员填表数据、在线调查数据、在线交易数据等由网络直接取得的资源外，结合实体世界累积时间更久、范围更广的资源，将使分析的结果更准确也更深入。
利用Data Mining技术建立更深入的访客数据剖析，并赖以架构精准的预测模式，以期呈现真正智能型个人化的网络服务，是Web Mining努力的方向。

5.记者：Data Warehousing（资料仓储）和 Data Mining的关系为何？

谢邦昌：若将Data Warehousing比喻作矿坑，Data Mining就是深入矿坑采矿的工作。毕竟Data Mining不是一种无中生有的魔术，也不是点石成金的炼金术，若没有够丰富完整的数据，是很难期待Data Mining能挖掘出什么有意义的信息的。
要将庞大的数据转换成为有用的信息，必须先有效率地收集信息。随着科技的进步，功能完善的数据库系统就成了最好的收集资料的工具。「数据仓储」，简单地说，就是搜集来自其它系统的有用数据，存放在一整合的储存区内。所以其实就是一个经过处理整合，且容量特别大的关系型数据库，用以储存决策支持系统（Design Support System）所需的数据，供决策支持或数据分析使用。从信息技术的角度来看，数据仓储的目标是在组织中，在正确的时间，将正确的数据交给正确的人。
许多人对于Data Warehousing和Data Mining时常混淆，不知如何分辨。其实，数据仓储是数据库技术的一个新主题，在数据科技日渐普及下，利用计算机系统帮助我们操作、计算和思考，让作业方式改变，决策方式也跟着改变。
数据仓储本身是一个非常大的数据库，它储存着由组织作业数据库中整合而来的数据，特别是指从在线交易系统OLTP（On-Line Transactional Processing）所得来的数据。
将这些整合过的数据置放于数据仓储中，而公司的决策者则利用这些数据作决策；但是，这个转换及整合数据的过程，是建立一个数据仓储最大的挑战。因为将作业中的数据转换成有用的的策略性信息是整个数据仓储的重点。综上所述，数据仓储应该具有这些数据：整合性数据（integrated data）、详细和汇总性的数据(detailed and summarized data)、历史数据、解释数据的数据。
从数据仓储挖掘出对决策有用的信息与知识，是建立数据仓储与使用Data Mining的最大目的，两者的本质与过程是两码子事。
换句话说，数据仓储应先行建立完成，Data Mining才能有效率的进行，因为数据仓储本身所含数据是干净(不会有错误的数据参杂其中）、完备，且经过整合的。因此两者关系或许可解读为「Data Mining是从巨大数据仓储中找出有用信息的一种过程与技术」。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

著名统计学者谢邦昌数据挖掘访谈