3.从管理到运营,DataOps释放数据中台价值数据中台的意义在于连接数据底层与数据应用,提供一个企业级的数据能力共享和复用的平台。近来大火的DataOps方法论,其目标是提高数据分析质量、实现数据应用敏捷开发,DataOps将成为提升数据中台能力的重要途径。 3.1数据应用多元化导致数据应用开发效率低随着企业风险控制、精准营销等数据应用场景越来越丰富,背后需要关联分析、归因分析、预测分析多元化数据分析能力支撑。这意味着企业从依靠BI报表,被动式分析、集中式展现为主的传统数据分析阶段,正在进入去中心化、主动分析、智能分析为特征的数据分析新阶段。数据应用的多元化同样带来数据质量、数据应用交付以及数据用户协同等方面的挑战和困难。
业务影响:数据来源的业务系统不规范更新表结构;数据口径不一致;数据填报不规范等 技术影响:ETL过程中字段变更导致数据加工出错;系统服务异常导致调度任务执行失败;数据存储架构调整如上云引发数据源的超预期改变;
企业中的数据用户类型复杂,如IT部门的系统工程师和数据库管理员,BI团队中的数据工程师、数据管理员和报表开发人员,以及数据分析师、数据科学家以及业务部门的数据消费者等,协调所有数据用户及各自的工具耗费大量人力物力。这也导致原本从业务提出数据需求,实现数据建模、数据开发到数据应用的线性流程协作变得更加困难,交付周期长,效率低下。 数据应用问题可能出现在数据采集、存储、计算、融合、建模、开发、运维等多个环节。为满足多元化的数据应用需求,企业需要以数据为主角,统筹数据全链路,协调数据相关多角色,以持续快速交付为目标打通数据流。 3.2DataOps方法论实现数据应用高质量、持续交付DataOps是人、流程和技术的高效组合,用来管理代码,工具,基础架构和数据本身,从而实现数据领域应用的敏捷开发和持续集成应用,优化和改进数据管理者(生产者)和数据消费者的协作,持续交付数据流生产线。DataOps能力构建包含数据工程、数据融合、数据安全和隐私、数据质量四个方面。而一个成熟的DataOps体系应具有持续性、敏捷性、全面性、可信性、自动性等五个特征。 图 6: DataOps能力构建 图 7: 成熟的DataOps特征 目前,DataOps实践尚不成熟,如何将DataOps方法论融入数据中台、充分发挥效能,仍待持续探索。
4.实时数据平台支撑爆发中的高时效场景4.1实时数据应用场景爆发随着物联网和大数据技术的深入发展,企业通过物联网设备或线上系统可以收集到大量的实时数据。与此同时,实时数据的应用场景也被迅速挖掘,如精准营销、风控管理、工业制造等场景中,对实时数据的分析处理、应用将有效为企业避免损失、提升效益,企业对于实时数据从产生、收集、处理、存储到产出分析结果的全链路时延需求已经从过去的T+1天发展到到小时级、分钟级甚至秒级,实时数据平台也因此获得极大关注。 但是传统的数仓或数据平台难以支持海量实时数据处理和分析的需求,企业急需针对实时数据的收集、管理和分析技术以及基础设施进行优化升级,可以将实时数据端到端地管理起来,并将实时数据转化为能够帮助业务提升的工具,利用实时数据提升业务价值。 4.2构建端到端的实时数据解决方案要支撑实时数据应用的需求,需要一套从导入(采集和同步)、存储、处理到查询实时数据的端到端解决方案。 图 10: 端到端的实时数据解决方案 可以采集多种类型数据:实时数据来源众多,包括线上数据(订单、交易等)、IoT设备数据和日志数据等,实际业务场景中的实时数据类型也包括结构化数据、视频、音频、文本等,因此实时数据采集需要支持多源异构数据的处理需求,同时由于不同的业务场景中的数据协议不一致,实时数据平台还需要包含丰富的通信协议接口。 高可用、低成本的数据同步方案:实时数据同步过程主要是针对流式数据的处理,在可用性方面,数据同步解决方案需要保证企业级应用的场景下海量实时数据同步的完整性和高可用;在运维方面,数据同步解决方案要具备监控预警和自动运维等配置化的运维方案,降低开发和管理成本。 统一的数据存储和查询:由于一般实时数据平台多采用离线数仓和实时数仓同步运行的方式会导致开发成本翻倍、数据管理体系复杂等问题,使用以数据湖为基础的流批一体的方式来替代原有的离线数仓和实时数仓,可以解决传统架构中的存在的问题。通过流批一体的方式可以将流计算和批计算的存储都统一到数据湖中,使得数据血缘关系、数据质量管理、元数据都可以统一在相同的数据管理体系下,系统代码也可以统一进行开发和维护。在数据查询方面,因为同样采取分层架构和数据湖可以支持OLAP查询引擎,依然可以在不同的中间层支持OLAP的实时查询。 金融作为数字化程度最高的行业之一,其在实时数据平台方面的探索和需求相较于其他行业更为领先,金融机构由于传统的批处理数据量大,基础实施架构复杂且业务场景众多,在实时数据平台的建设方面最好基于原有的批处理基础上进行批处理的升级和流处理的新建,优先选取重点业务场景进行实时数据处理和分析的试点,获得成功经验再逐步推广到全机构中运行。
|