搜索
查看: 3226|: 0

精准分析前如何保障数据质量

[复制链接]

165

主题

5

回帖

1123

积分

金牌会员

积分
1123
发表于 2014-7-15 21:10:54 | 显示全部楼层 |阅读模式
 从2011年麦肯锡首次提出大数据的概念,到今天,已进入大数据盛行的时代。数据成为一种全新的资产类别,数据的有效管理和顺畅分析成为企业与组织成功的关键。零售业可以利用大数据提高运营利润,医 疗业使用大数据,可保障医 疗系统安全有效运行,服务业利用大数据机分析个人行为信息可以刺激消费。随着大数据技术的成熟和应用的发展,企业开始真正重视如何有效利用这些数据来产生更大的智慧和价值。
  大数据时代,数据不再是单纯的存放在关系数据库中的交易记录,包括文档、位置、社交等各种形式的外部信息都是数据,都可能对企业的发展产生影响。这一切对企业来说既是机遇,更是挑战。机遇在于催生了更多的业务机会,将促进企业发展的跨越;挑战则在于管理和运用大数据,企业IT部门积累的传统数据管理和治理经验将完全无法满足需要。关于企业面临的挑战,大家都关注到了存储管理、集成整合、分析计算,而且在这些方面,基本都已经有了一些相关的产品和技术。但是这一切的前提是—你的数据必须可靠、可信、可用,这就是说,首先要保证数据的质量。数据质量是所有数据处理和分析的前提,否则,基于一个不可靠数据的分析结果必将是南辕北辙。
  企业需警惕的五大数据质量问题
  目前市场大多数数据质量产品,都是在数据集成产品套件中,开发了一些数据清洗规则校验的工具 ,并宣称为数据质量产品。这在很大程度上误导了大家对数据质量管理的认识,认为数据质量管理就是修改数据中的错误、并对错误数据和垃圾数据进行清理。这的确是数据质量要解决的问题,但跟全面数据质量管理还有相当大的差距。导致企业数据质量问题的原因是涉及企业信息技术和管理的多个方面,要想全面系统的解决企业数据质量问题,仅凭数据清洗和校验处理是远远不够的。实际上,数据质量管理,是指对数据从建模、采集、存储、共享、管理、应用、归档整个生命周期的每个阶段里的各类数据质量问题,进行综合管理的活动。
  对企业来说,数据质量问题主要反映在以下几个方面。
  一,数据缺失:这个问题典型的情形是在进行数据分析和挖掘时,突然发现某些重要的属性,数据记录值缺失,导致分析建模和分析结果误差较大。比如对客户购买预测分析其中年龄是一个重要的分析变量,但是原始客户记录数据的年龄字段绝大多数记录为空。这类问题产生的由于业务系统数据模型设计或者应用校验做的不到位导致,比如数据模型没有对该字段进行强制约束或者数据采集应用未做校验。
  二,数据不完整:比如在户购买分析中,发现有的客户没有产品购买记录,有的客户的购买记录找不到对应的客户信息。这类问题产生的原因在于业务系统数据模型没有进行外建约束设计,或者应用校验做的不到位导致。比如数据模型没有对该字段进行强制约束或者数据采集应用未做校验。
  三,数据不合理:比如客户年龄200岁,省份证号码位数不正确,造成这类数据质量问题的主要原因是数据采集应用程序没有进行合法性校验。
  四,数据冗余:同一数据有多个版本和入口。这既浪费了存储同时产生了不一致。产生这个问题的主要原因是数据模型设计不合理。
  五,数据冲突:同一数据有多个系统中有多个不同的内容,莫衷一是,产生混乱。造成这类数据质量问题的主要原因是没有一个统一的规划和冲突解决方案。
  深究影响企业数据质量的两大因素
点击图片分享到上海滩微博
  上面的种种问题,都是企业数据质量问题的具体表现,究其原因,影响数据质量的因素概括来说有两个方面:技术和管理。其中,技术又可分为定义、采集、和应用三个部分;管理又可分为标准、流程、机制。
  首先来看技术因素:
  定义因素:数据定义就是规划建模,就是产生元数据,由于这部分因素导致的数据质量问题的原因主要有:元数据描述及理解错误、元数据的规格无法保证统一等。
  采集因素:主要是指由于具体数据采集环节造成的数据质量问题。比如信息系统应用程序录入校验不完善导致的数据质量问题,数据录入关系约束不当产生的数据质量问题,手工采集产生的数据质量问题等。
  应用因素:主要是指由于数据应用过程中,由于处理的各技术环节的异常而产生的数据质量问题。比如数据获取、传输、装载、使用等方面的异常导致的数据质量问题。
  然后再看管理因素:
  标准因素:数据质量标准体系是企业数据质量管理的基础。标准因素是指由于企业数据标准缺失或不当导致的数据质量问题。比如客户信息,在企业中有多个产生渠道和方式,如果没有统一标准,则会导致大量的数据质量问题。
  流程因素:是指由于各种各样产生数据的系统作业流程和人工操作流程设置不当造成的数据质量问题。比如数据交换流程,业务流程等。
  机制因素:是指由于人员技能及管理机制方面的原因造成的数据质量问题。如人员培训、人员管理操作规范等。
  因此,要持续改进企业的数据质量,必须按照一个循环的闭环数据质量管理过程推进工作,最终使企业通过可靠高质量的数据进行精准分析,为企业创造经济效益。数据质量管理,不仅包含技术方面的因素,同时还包含管理方面的改进。从技术方面来说,主要包括探索、识别、评估、检核、处理、监控、预警等;从管理方面来说,主要包括制定企业数据质量标准规范,确定数据质量改进目标,制定数据质量评估组织流程,制定企业数据共享交换规则和流程,明确数据冲突处理方案,制定审核机制等多个方面。
  数据质量管理是一套完整的解决方案
  在一个组织中,数据质量管理不是一个孤立的系统和平台,而是要和企业其他专业领域的技术和产品配合,共同完成企业数据质量的管理。比如有的公司有数据标准管理系统,数据质量标准及其规则放在数据标准管理系统进行管理。另外,数据质量管理的落地主要是基于元数据技术进行,所以企业数据质量管理需要元数据管理的支持,目前,一些信息化水平较高的企业也有专门的元数据管理系统,所以数据质量管理企业也要与企业元数据管理系统协同工作。
点击图片分享到上海滩微博
  用友UAP结合其在企业数据处理和治理方面的经营积累,形成了一整套完善的数据质量管理解决方案,并形成了一套体系完备,行之有效的管理流程,为企业进一步的精准分析奠定基础。
  定义,指定义数据质量目标,以指导整个数据质量管理工作;检核,指按照设定的规则检查捕获数据质量问题;评估,指按照评估的方案的评估指标,并对数据质量进行评估;分析,指详细分析数据质量对业务产生的影响;定位,指确定引起数据质量问题的原因;整改,指对数据质量问题制定解决定方案,并从数据和管理两方面进行整改;预防,指建立数据错误预防方案,并检查执行;管理,指通过改进管理流程,全面管理数据质量问题;监控,指对数据和管理实施监控,维护已改善的效果。以上九个方面循环往复,反复执行,持续改进,形成一个良性循环。由于数据质量涉及企业的各个系统、各个业务和各级组织,上面的九个步骤必须在所有相关方面的有效沟通和充分协同的基础上才能真正的发挥效用。
  用友UAP为满足企业数据质量管理需求,提供了一些列的产品和技术,解决企业数据从定义、产生到应用的全生命周期的数据质量管理能力。首先提供统一建模产品套件,从数据定义阶段保证数据质量,一个产品涵盖从业务模型创建到关系数据库模型再到数据仓库模型和分析模型,并可定义各种数据质量规则;另外用友UAP还可提供数据标准管理、元数据管理、数据清洗等产品和解决方案,满足企业数据质量管理的全面需求。
  用友UAP数据质量管理方案,可帮企业探索识别隐藏在企业各个地方的数据质量问题,并汇总分析,直至清洗处理完成,使企业的数据保持清洁;用友UAP数据质量管理方案可改进企业的业务工作,使企业中的每个人都可以完全信赖满足各类业务用途的数据。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-23 00:26 , Processed in 0.091318 second(s), 24 queries .

快速回复 返回顶部 返回列表