搜索
大数据中国 首页 热点综合 人工智能 查看内容
2022爱分析·数据智能应用实践报告
2022-9-7 20:08 | 查看: 3507| 评论: 0

3.从管理到运营,DataOps释放数据中台价值

数据中台的意义在于连接数据底层与数据应用,提供一个企业级的数据能力共享和复用的平台。近来大火的DataOps方法论,其目标是提高数据分析质量、实现数据应用敏捷开发,DataOps将成为提升数据中台能力的重要途径。

3.1数据应用多元化导致数据应用开发效率低

随着企业风险控制、精准营销等数据应用场景越来越丰富,背后需要关联分析、归因分析、预测分析多元化数据分析能力支撑。这意味着企业从依靠BI报表,被动式分析、集中式展现为主的传统数据分析阶段,正在进入去中心化、主动分析、智能分析为特征的数据分析新阶段。数据应用的多元化同样带来数据质量、数据应用交付以及数据用户协同等方面的挑战和困难。

  • 数据质量难保证

业务影响:数据来源的业务系统不规范更新表结构;数据口径不一致;数据填报不规范等

技术影响:ETL过程中字段变更导致数据加工出错;系统服务异常导致调度任务执行失败;数据存储架构调整如上云引发数据源的超预期改变;

  • 数据用户类型复杂,数据应用交付缓慢

企业中的数据用户类型复杂,如IT部门的系统工程师和数据库管理员,BI团队中的数据工程师、数据管理员和报表开发人员,以及数据分析师、数据科学家以及业务部门的数据消费者等,协调所有数据用户及各自的工具耗费大量人力物力。这也导致原本从业务提出数据需求,实现数据建模、数据开发到数据应用的线性流程协作变得更加困难,交付周期长,效率低下。

数据应用问题可能出现在数据采集、存储、计算、融合、建模、开发、运维等多个环节。为满足多元化的数据应用需求,企业需要以数据为主角,统筹数据全链路,协调数据相关多角色,以持续快速交付为目标打通数据流。

3.2DataOps方法论实现数据应用高质量、持续交付

DataOps是人、流程和技术的高效组合,用来管理代码,工具,基础架构和数据本身,从而实现数据领域应用的敏捷开发和持续集成应用,优化和改进数据管理者(生产者)和数据消费者的协作,持续交付数据流生产线。DataOps能力构建包含数据工程、数据融合、数据安全和隐私、数据质量四个方面。而一个成熟的DataOps体系应具有持续性、敏捷性、全面性、可信性、自动性等五个特征。

图 6: DataOps能力构建

图 7: 成熟的DataOps特征

目前,DataOps实践尚不成熟,如何将DataOps方法论融入数据中台、充分发挥效能,仍待持续探索。

案例2:九州通建设数据中台打通数据壁垒、挖潜数据价值

九州通医药集团股份有限公司(以下简称“九州通”)为科技驱动型的全链医药产业综合服务商,立足于医药流通、物流服务及医疗健康等大健康行业,主营业务包括数字化医药分销与供应链服务、总代品牌推广服务、医药工业及贴牌业务、数字零售、智慧物流与供应链解决方案、医疗健康与技术增值服务六大方面。九州通连续多年位列中国医药商业企业第四位,领跑中国民营医药商业企业。

IT架构复杂、数据分散阻碍数据跨平台共享协作,数据价值难展现

早在2015年,九州通集团就开启了数字化转型之路。随着集团规模持续扩大,市场竞争愈加激烈,九州通迫切需要发挥数据价值支持经营分析、经营决策以及服务上下游客户。但在数据应用过程中,九州面临IT架构和数据层面的痛点。

数据孤岛严重。一方面,九州通集团业务线复杂,包含中西成药、中药、医疗器械、零售等多业态,各业态又分为集团、地市、区域三级结构。九州通以业务为主导,各业态、各层级分别依据各自需求建设数据平台,造成数据平台架构各异,数据共享协作效率慢。另一方面,同一公司内不同业务单元也会引入不同业务系统,系统之间难打通,造成数据分散。因此,九州通虽储存有海量数据,但数据难流动难使用,数据价值难实现。

数据标准体系不完善,数据质量差。目前九州通未对数据进行分层管理、未建立完善的指标体系且缺乏药品标签;同时数据存在不及时、不准确、不完整、关联性差等质量问题,造成数据难使用,不能有效支持经营分析应用。

数据模型复用度低,不足以支持业务应用需求。目前九州通单个数据平台内的数据模型仅支持对应系统应用,复用度低,导致应用重复开发,浪费资源。同时数据应用在下钻深度、关联广度、数据呈现丰富度等方面都不足以支持经营分析需要,数据模型有待完善。

建设数据中台,盘活数据资产,数字化提质增效

数字化转型大背景下,九州通迫切需要盘活数据资产、发掘数据价值,推动降本增效、营销创新。九州通曾先后尝试自建Oracle数仓以及Hadoop数仓来统一储存集团数据,虽然投入大量资源,但效果有限。为打通集团各业态各层级数据平台,为业务赋能,九州通决定通过招标建设集团数据中台。通过综合考虑技术集成能力、数据开发工具便捷性以及厂商最佳实践经验等因素,最终九州通决定与网易数帆合作。

网易数帆是网易集团旗下To B数字化转型技术与服务提供商,为客户提供国产软件基础平台产品及相应技术服务,业务覆盖云原生基础软件、数据智能全链路产品、人工智能算法应用、低代码应用开发平台四大领域,致力于帮助客户搭建无绑定、高兼容、自主可控的创新基础平台架构,快速应对新一代信息技术下实现数字化转型的需求。目前已服务金融、零售、制造、能源、通信等各领域头部客户三百余家。

在网易数帆协助下,九州通历时8个月完成了数据中台规划以及数据中台初始化部署,包含建设数据仓库、实现数据开发及运维以及数据治理。

图 8: 九州通数据中台架构示意图

1)建设统一的数据仓库平台,打通集团跨平台数据,提升数据利用率

建立数据仓库及分层模型:数据仓库分为数据运营层(ODS)、明细数据层(DWD)、汇总数据层(DWS)、应用层(ADS)共四层。将不同类型数据根据数据模型需要进行分层存放,避免不同业务部门因对数据利用方式不同,而需要对模型进行重复开发,提升数据利用率。

数据汇集:借助网易数帆丰富的Hadoop大数据平台组件,九州通将多种架构数据平台的数据集成到数仓平台的数据运营层(ODS),并对数据进行清洗、汇聚、加工和计算。

数据建模:在网易数帆的咨询规划协助下,九州通在不同数仓层建模,其中在明细数据层(DWD)拉通商品、客户、人员、供应商、岗位及组织架构维度数据,搭建主数据公共域模型;在汇总数据层(DWS)建立采购、销售、供应链、营销、财务等主题模型;在应用层(ADS)建立各业务报表需要的业务数据模型。

2)实现数据便捷开发和运维,提升工作效率

利用网易数帆提供的一套便捷可视化数据开发工具,九州通数据研发团队可快速实现离线开发、实时开发、权限管理、资源管理等功能。通过数据运维平台实现任务的监控和报警推送,预估任务实例的产出时间、展示实例对下游报表影响范围,实现任务高效运维。

3)对多源数据进行统一治理,降低工作量和资源成本

九州通建设数仓平台汇聚各业态各层级的多源数据,包括不限于各中西成药、中药、医疗器械、零售等业态版块中,集团、区域以及子公司各级的采购、库存、人力、营销等系统数据。之后通过数据治理平台对多源数据进行统一治理,包括建设数据地图使业务人员能在海量数据中快速找到所需数据,通过数据血缘关系展示表的上下游表动态追溯、表的下游任务等;搭建数据指标体系实现跨部门指标定义统一和指标定义管理;建立数据质量管理体系,业务人员可预设多场景下的质量监控规则,并设置邮箱、电话等多种告知形式;建立数据资产管理体系,评估数据资产的成本、价值、质量,优化存储成本,节约计算资源,实现精细化的数据生命周期管理等。

数据中台赋能业务应用,经营效率再提升

通过数据中台,九州通实现集团复杂组织架构下跨业态、跨层级、跨系统的数据打通,成功消除数据孤岛;并通过统一的数据架构、模型开发、数据治理等功能盘活数据资产,建立通畅、标准化的数据链路,持续为前台业务应用和分析提供数据服务,推动营销创新、提升经营效率。

消除数据孤岛,实现数据共享共通。九州通通过数据中台对旗下各业态各层级数据进行汇聚,由数据中台提供统一数据出口,实现全集团跨平台数据分享调用。

搭建统一的数据指标体系,实现数据科学管理和快速响应。本次项目共建设8个主题域,落地213个业务指标,全部指标统一口径、统一管理,能有效避免因指标定义模糊和逻辑混乱而导致的数据质量问题,大大减少无效、重复工作,同时能快速提高数据响应速度,如采购分析体系中,所有采购分析数据需求,均实现秒级响应,平均5秒出结果。

健全客户标签体系,支撑精准客户洞察。本次项目开发客户标签共计6大分类,共100+个标签,覆盖基本信息、行为属性、交易属性、企业信用及风险信息等,组成标签工厂,对数据进行更精细的分类管理,支撑精准营销决策和风险控制。

利用数据中台灵活快速开发业务应用,实现降本增效。如通过数据中台开发供应商画像,综合资金周转、供货预期、付款周期、销售情况等信息,为供应商付款审批提供数据支撑;针对业务员开发业务员画像,跟进业务员成单率、拜访计划、拜访效果等实现精准考核等;针对药店拜访开发药店画像,提高业务员拜访成功率等。

深挖数据价值,从数据支撑到数据赋能。相较于传统数仓,大数据平台提供了更强的算力支撑,在通过中台整合了各系统数据资源,利用项目完成数据的集中化标准治理的基础上,九州通深挖数据价值,尝试通过AI算法模型在业务前侧,包括采购体系、销售体系、获客体系等方面实现数智化。例如:零售门店的销售预测、活动商品的精准营销、采购智能AI补货、中药生产供应链优化等。

厂商数据集成和咨询能力是传统企业搭建数据中台关键

回顾本项目实施全过程,厂商的选型对九州通数据中台建设以及成功应用具有关键影响。对于有同类数据中台建设的企业,在选择数据中台厂商时可借鉴以下两点经验。

针对具有复杂组织架构的传统企业,应选择具有深厚底层数仓开发以及数据集成能力的厂商。对于复杂架构的集团型企业,在数字化进程中,各子公司及各业务常根据业务需要分别建设数仓,造成数仓架构不统一。因此厂商需要具备扎实的组件开发以及数据集成能力,以灵活适配多种数据库环境,实现多源数据高效、稳定集成。

针对技术团队开发能力较弱的传统企业,应选择具有咨询能力的厂商。尤其对于虽有技术团队,但尚未成功建立数仓平台,且数据应用意识较弱的企业,应选择具有咨询能力的厂商,在厂商协助下开展梳理业务、制定指标体系、搭建数据模型、管理数据权限、开发数据应用等活动,快速建立起数据中台,并最终通过厂商知识转移,快速提升企业数据中台使用能力和数据建模能力,挖潜数据价值。



案例3:某高速行业信息化公司建设数据中台,打造高效智慧高速系统

十四五以来,随着我国开启全面建设社会主义现代化新征程、转向高质量发展阶段,公路交通也进入高质量发展新阶段,发展重心由原来的交通运输网络建设转向交通运输供给有效性和适配性、以及出行服务品质等。发展数字交通,尤其以5G、物联网、大数据、云计算、人工智能技术为代表的新基建与交通运输深度融合,成为深化交通供给侧改革、提升运输服务效能、促进综合交通高质量发展的重要推动力。

高速行业数据缺乏融通和应用,相关高速单位提升运营效率存在困难

近年来,随着信息化的发展,高速领域的相关单位已具备多个信息化系统,如视频监控系统、交通流管控系统、收费站管控系统、应急指挥系统等,但由于信息系统相互独立,在高速运营中仍会面临以下数据问题:

数据孤岛:高速数据来源于导航系统、ETC、龙门架、路网卡口、摄像头、毫米波雷达、车载终端等形色各样的系统和终端设备,数据类型复杂,且分属于高速公路建设、管理、养护以及运营等四个阶段,导致不同系统的数据无法互通互联形成数据孤岛。

数据质量不稳定:由于高速数据的采集来源于不同的感知设备,存在数据不稳定、数据空包、丢漏数据的现状。原有系统缺乏数据质量管理体系,导致采集的数据中存在大量缺失信息或无效数据。

缺乏数据标准:当前高速公路业务数据尚未形成国家或是行业标准规范,尤其不同地域、不同供应商产品的数据格式、模型、表结构千差万别,导致上级单位在进行数据收集汇总时需花费大量人力物力。

难以有效支持多元应用:高速领域包含多元的服务应用及对象,诸如视频监控、交通流管控、收费站管控、应急指挥、绿通查验等服务,现有数据系统存在数据难调用、难使用的问题,不能支持业务应用体验升级需求。

为了更好地赋能各地域的高速公司,提升各地高速交通的运营效率,某高速行业信息化公司基于高速行业的发展现状和系统基础,提出建设数据中台解决上述问题。通过多方考察,该公司综合考虑行业经验、产品功能、产品体验以及公司规模等因素,最终决定与国内专业的数据智能服务商每日互动股份有限公司(以下简称“每日互动”)合作建设数据中台。

每日互动成立于2010年,是专业的数据智能服务商,为企业客户及政府单位提供丰富的数据智能产品,便捷、稳定的技术服务与智能运营解决方案,服务行业涉及互联网运营、用户增长、品牌营销、金融风控等领域客户以及政府部门。同时,基于强大的数据积累能力和丰富的数据治理经验,每日互动构建了数据中台——“每日治数平台”,将数据挖掘、萃取和治理能力向各行各业输出,用数据智能帮助客户解决其实际业务中所遇到的痛点难题。

建设数据中台,实现智慧高速

每日互动在城市大脑、智慧交通、应急管理等公共服务领域具有丰富实践,积累了对人、车、道路、时间、空间等多要素数据进行关联计算和分析洞察的能力。依托于“每日治数平台”一站式数仓搭建、可视化数据资产管理、零代码模型构建、低代码机器学习等特色功能,每日互动和该高速行业信息化公司共同建设数据中台,包括构建数据标准、管理数据资产以及制定数据质量管理体系等,实现了数据资源的统一整合和数据治理,主要运用于支持高速公路的高效运营和高质服务。

图 9: 相关高速单位数据中台架构图

数据接入和集成:依托于每日互动的技术支持,某高速行业信息化公司可将相关高速单位的多个自有信息平台如高速管控平台、设备维修管理平台、隧道管控平台的异构数据,以及可靠第三方数据统一接入数据中台。

构建数据标准,建立统一的数据仓库模型:每日互动与该公司组织的多个业务专家一起深入高速业务一线,理清当前数据现状以及数据使用过程中的痛点,根据数据源不同,建立相应的业务主题库,构建起一套完整的数据标准体系,形成统一、整合的数据仓库模型。

数据资产管理和可视化:基于每日互动提供的数据勘探、数据血缘、元数据采集、建表/分区管理等工具,该公司可进一步帮助相关高速单位完善数据资产;并且对数据资产进行可视化呈现,如数据资产目录层级结构展示,相关单位可便捷地从不同视角检索和管理数据资产。

制定数据质量管理体系:基于数据标准,制定数据质量校验规则,实时对数据质量进行智能监测和预警;结合AI算法,定期对数据质量进行稽核,如系统根据数据缺失情形,参考历史数据进行补充或是对严重缺损数据进行剔除,保证高速数据可用、可信。此外,通过数据血缘功能可定期对数据流转过程进行追溯和梳理,实现数据全生命周期的智能管理。

数据应用:多源异构数据经数据中台清洗、融合治理后形成共享数据,通过API以服务目录的形式供各部门调用,消除应用部门对数据质量、数据来源的担忧,专注提升应用体验。

数据中台有效提升高速运行效率和服务品质

在本项目数据中台建设过程中,每日互动梳理建立起一套完善的高速数据标准体系,运用于高速行业多个场景的效率提升,相关单位的高速交通应急处置效率、运行效率和服务品质等多个方面均有显著提升,具体表现如下。

打通数据孤岛,实现数据高效高质共享:通过数据中台,某高速行业信息化公司将相关高速单位系统内多个渠道数据进行集成、清洗、融合治理,形成高质量数据,赋能各业务部门。

实时可视化,提升应急处置效率:依据每日互动数据中台的图像智能和可视化等功能,该公司实现了对高速交通全局态势的实时感知以及对局部路段路况的实时查询、分析,并通过大屏监控车祸、拥堵、抛锚等突发状况,能对突发状况实现快速定位和救援。该公司将此可视化功能应用到道路救援时,救援时间缩短了60%至80%,救援效率得到大幅提升。

数据融合,促进路网通畅:通过对ETC、服务区卡口、高速路网等数据融合,业务人员对停靠超时的车辆进行精准引导,缓解夜间服务区的大流量痛点,提高服务区的服务质量。

AI算法预判,提升通行效率:针对高速匝道等事故多发以及易拥堵路段,业务人员可基于每日互动数据中台AI算法进行提前预判和事前预警,为相关高速单位进行道路拥堵疏导提供科学依据和有效支撑,也为民众合理规划错峰出行路径提供引导,促进路网流量合理分布,提升高速通行效率。

数据中台厂商综合数据能力为数据中台建设、数据中台应用良好体验提供坚实保障

回顾数据中台建设前期、建设中期以及建设后期应用的全过程,数据中台能成功发挥效用、提升高速交通运营能力有两点关键因素。

1)选择优质厂商事半功倍:某高速行业信息化公司在进行数据中台厂商选型时,应考虑厂商在特定行业已积累丰富案例,形成完善数据治理方法论,其中行业不限于高速行业。该厂商应具备数据资产管理、数据分析、数据可视化、数据标签等数据治理专业能力以及丰富的数据治理输出经验,具备成熟的久经市场验证的数据产品引擎与提效工具,能将以往行业经验迁移到高速行业中,服务高速行业。在本项目中基于“每日治数平台”丰富的行业客户和相关政府单位解决数字化转型难题经验,每日互动已经沉淀出可复用的数据能力、业务能力、效率工具等,因此能快速为该公司建设数据中台,服务于高速公路建设、管理、养护、运营四个阶段。此外,厂商还应具有算法建模、机器学习、图像智能等综合数据能力,在实现数据整合、数据治理等基本功能基础上,能为数据在多元场景应用提供支持。在本项目中,每日互动的数据中台产品“每日治数平台”具备多元完善的AI算法、图像智能等技术,操作便捷、轻量、易上手,可实现路况实时查询分析并可视化呈现、对路况预判提升通行效率等功能,为客户的数智化创新赋能提效。

2)建设执行团队落地生花:除厂商选型外,为使数据中台真正落地、发挥最大效用,某高速行业信息化公司在明确数据中台规划、践行数据中台建设的过程中,还需搭建岗位配置齐全的团队,包括但不限于中台建设、中台运维、数据产品经理、数据资产管理、数据运营等岗位来支持中台建设及运维,实现跨组织协同,实现数据驱动。



4.实时数据平台支撑爆发中的高时效场景

4.1实时数据应用场景爆发

随着物联网和大数据技术的深入发展,企业通过物联网设备或线上系统可以收集到大量的实时数据。与此同时,实时数据的应用场景也被迅速挖掘,如精准营销、风控管理、工业制造等场景中,对实时数据的分析处理、应用将有效为企业避免损失、提升效益,企业对于实时数据从产生、收集、处理、存储到产出分析结果的全链路时延需求已经从过去的T+1天发展到到小时级、分钟级甚至秒级,实时数据平台也因此获得极大关注。

但是传统的数仓或数据平台难以支持海量实时数据处理和分析的需求,企业急需针对实时数据的收集、管理和分析技术以及基础设施进行优化升级,可以将实时数据端到端地管理起来,并将实时数据转化为能够帮助业务提升的工具,利用实时数据提升业务价值。

4.2构建端到端的实时数据解决方案

要支撑实时数据应用的需求,需要一套从导入(采集和同步)、存储、处理到查询实时数据的端到端解决方案。

图 10: 端到端的实时数据解决方案

可以采集多种类型数据:实时数据来源众多,包括线上数据(订单、交易等)、IoT设备数据和日志数据等,实际业务场景中的实时数据类型也包括结构化数据、视频、音频、文本等,因此实时数据采集需要支持多源异构数据的处理需求,同时由于不同的业务场景中的数据协议不一致,实时数据平台还需要包含丰富的通信协议接口。

高可用、低成本的数据同步方案:实时数据同步过程主要是针对流式数据的处理,在可用性方面,数据同步解决方案需要保证企业级应用的场景下海量实时数据同步的完整性和高可用;在运维方面,数据同步解决方案要具备监控预警和自动运维等配置化的运维方案,降低开发和管理成本。

统一的数据存储和查询:由于一般实时数据平台多采用离线数仓和实时数仓同步运行的方式会导致开发成本翻倍、数据管理体系复杂等问题,使用以数据湖为基础的流批一体的方式来替代原有的离线数仓和实时数仓,可以解决传统架构中的存在的问题。通过流批一体的方式可以将流计算和批计算的存储都统一到数据湖中,使得数据血缘关系、数据质量管理、元数据都可以统一在相同的数据管理体系下,系统代码也可以统一进行开发和维护。在数据查询方面,因为同样采取分层架构和数据湖可以支持OLAP查询引擎,依然可以在不同的中间层支持OLAP的实时查询。

金融作为数字化程度最高的行业之一,其在实时数据平台方面的探索和需求相较于其他行业更为领先,金融机构由于传统的批处理数据量大,基础实施架构复杂且业务场景众多,在实时数据平台的建设方面最好基于原有的批处理基础上进行批处理的升级和流处理的新建,优先选取重点业务场景进行实时数据处理和分析的试点,获得成功经验再逐步推广到全机构中运行。

案例4: 某股份制银行搭建实时应用支撑平台,通过实时数据赋能业务价值提升

随着金融数字化时代的来临,金融业务正在发生深刻的变化。国内某股份制银行结合市场趋势变化和自身情况,将大数据技术作为企业数字化战略目标的基础。该银行目前处于业务发展的新阶段,资产规模持续扩大,经营实力不断增强,同时积极推进金融创新,而新业务模式的创新离不开数据的支持,也对核心数据能力提出了新要求。

传统的数据处理时效性和灵活性无法满足业务发展需求

在传统的批处理方式下,通过T+1的全量或增量数据更新和处理可以满足银行内各部门对于经营情况和内部管理等数据分析的需求,但是随着精准营销、风险监控和内控管理等场景对于数据时效性的要求越来越高,银行内现有的批量式、准实时式数据处理效率无法满足所有的业务场景,未来需要实现对交易、日志等流式数据的毫秒级实时采集、处理和计算能力。

数字经济时代下,银行需要收集和管理的数据量也将持续高速增长,现有的数据基础设施从性能和处理方式层面都难以满足PB级海量、混合数据的存储、整合、加工以及完成实时流式新增场景接入的要求,需针对现有的数据基础设施进行维护和升级。

在业务支撑方面,当前的数据交付方式复杂且低效,无法满足快速变化的业务需求,需要提升快速、自主、迭代式平台的交付能力。

该股份制银行综合考虑自身业务情况和当前技术能力,提出了搭建实时应用支撑平台来满足海量数据的实时处理和分析,对于实时应用支撑平台具体的需求如下:

1.流处理接入和批处理升级

  • 实时应用支撑平台需完成实时流式新增场景接入,需要以现有的flink方式,进行实时数据感知和获取以及相关任务的下发;针对批处理任务场景,为配合完成实时需求,需针对配套的批量任务完成开发和改造,对于现有的批量任务要进行维护和升级。

2.系统组件优化升级

  • 完成传统大数据服务平台应用支撑集群流式平台的系统升级和版本升级。应用支撑集群很多是自研和开源组件,新的实时应用支撑平台需要在现有基础上进行资源整合和优化升级,包括集成自动化测试功能、集成门户查询功能、优化ES存储索引等。
  • 监控方案制定和实施。统筹建立实时应用支撑平台整体监控方案,并完成相关指标的制定以及开发优化,在现有的监控指标基础上完成系统、组件、应用、批、流全方位的监控系统升级,保障系统稳定运行和对外提供服务。

3.集群扩容升级

  • 数据完整性保证。为保障数据完整性,配合实时应用支撑平台扩容计划,在承接更多实时场景的情况下,继续保障集群可以在实时数据消费的同时进行数据备份,并且在集群出现重大问题或流消费有问题时,可以保障数据不丢失。
  • 数据安全保证。为配合平台中实时数仓的建立,丰富目前的实时、准实时数据接出模式,需要建立配套的安全权限管理模式,进行数据安全管控。

为满足上述需求,该股份制银行在实时应用支撑平台搭建中,综合技术能力、产品成熟度和过往经验等多种考虑因素,最终选择与九章云极DataCanvas展开合作。

九章云极DataCanvas成立于2013年,是一家数据智能基础软件供应商,专注于自动化数据科学平台的持续开发与建设,提供自动化机器学习分析和实时计算能力,为政府及企业智能化升级和转型提供全面配套服务。

通过开源产品搭建实时应用支撑平台,利用低代码环境提升数据开发效率

在项目中,该银行的IT团队与九章云极DataCanvas共同合作,对全行的实时业务场景做了全面梳理,作为构建实时应用支撑平台的基础。在落地层面,借助九章云极DataCanvas成熟的企业分布式流数据实时处理,分析和决策产品(以下简称“DataCanvas RT实时决策中心“),依托主流互联网大数据生态圈,引入开源社区软件框架,采取自主和合作研发相结合,完成某银行实时应用支撑平台的搭建和基础数据的准备,以此开展各业务应用工作。

图 11: 某股份制银行全行级实时应用支撑平台架构图

实时应用支撑平台通过对批量数据和实时数据的处理、计算、分析,尤其是通过机器学习模型对实时数据进行分析获取业务洞察,进而为下游的业务系统提供多样化的数据服务。在实时数据应用支撑集群中,九章云极运用DataCanvas RT实时决策中心为该银行提供实时指标引擎、模型引擎、数据资产管理、数据作业管理(算子作业、SQL作业、JAR作业)、数据服务、日志管理、多租户及租户资源、UDF管理功能等众多模块和功能。

图 12: 算子作业开发示意图

其中UDF的全称为User Definition Function,是DataCanvas RT实时决策中心作为一个平台级的产品基于Flink的框架下开发的低代码数据开发功能,结合预置的算子,让用户可以用可视化拖拽的方式把算子在画布中连接,组成数据开发任务。在实时应用支撑平台项目中,该银行IT人员利用UDF可以极大减少流式数据开发任务的难度,提升开发任务效率,使得实时场景的数据开发上线周期大大缩短。

本次实时应用支撑平台项目历经初建、扩容和推广三个阶段:

  • 初建阶段:初建阶段主要是在该银行原有的批处理架构基础上,搭建以Hadoop为基础的系统架构,结合多种开源大数据组件搭建具备实时数据处理和实时交易感知的系统,并在部分试点场景中上线运行。
  • 扩容阶段:扩容阶段在初建阶段的系统基础上融入DataCanvas RT实时决策中心,并扩容集群规模,在上线时即形成50台节点的系统集群,线上运行20多类业务场景,并在后续逐步扩容至100台节点的系统集群和80多个实时业务场景。
  • 推广阶段:推广阶段基于前期的系统建设基础,遵照规范管理流程,接入更多业务场景,提供及时的数据服务,提升业务洞察能力。

实时应用支撑平台除了一般的技术和功能需求外,九章云极DataCanvas还针对该银行的特殊需求对于DataCanvas RT实时决策中心进行定制化开发,包括:

  • 高可用流作业:在DataCanvas RT实时决策中心中添加高可用流作业功能,有效解决流作业重启情况下导致的数据延迟问题,以及双作业流场景中的基于第三方缓存Redis做的状态一致性保障UDF,本次项目中研发的高可用流作业功能也已经和九章云极一起申请专利。
  • 多租户需求:通过逻辑隔离和在预置算子外开发UDF算子如Redis状态计算、去重算子、Hbase维表关联等算子的方式满足该银行实时风险管理系统租户、报表与信息服务平台系统租户、营销管理系统租户和标签管理系统租户的多租户需求。

实时应用支撑平台优化数据服务,提升业务洞察

该股份制银行通过九章云极DataCanvasRT实时决策中心搭建的实时应用支撑平台,在投产后已实现无间断运行近四年,并且可以有效应对海量数据处理和实时业务场景应用需求:

1.实现了海量实时数据的处理和分发。该银行在上线实时应用支撑平台后,每日实时报文采集量和准实时数据日采集量有了显著提升。类似于大额资金变动预警的实时场景中,实时数据经平台规则处理后可以在0.2秒内输出预警,目前日预警量达到千万条,实时动帐交易日预警量约百万条。

2.极大提高了实时场景开发和上线的效率。随着实时应用支撑平台项目的实施,平台上支撑的总体业务场景不断增加,平均每2周就能上线一个实时业务场景,截止2022年3月已经上线了80多个实时业务场景,总体的需求提出部门达到了15个,包括运营管理部、信用卡中心、信息科技部、网络金融部等,共涉及3种业务类型,包括营销类、监控类、监管类,平台在对用户需求的支持上得到了显著提升。

3.适用业务发展需要的流数据计算架构。实时应用支撑平台上线后,实现了十万级以上的TPS峰值报文配对处理量,每日全行总线报文采集量加足迹数据采集量达到20亿以上。并且随着业务不断发展,九章云极DataCanvas RT实时决策中心也对平台架构进行持续优化,例如最新版本的RT产品支持Flink SQL,可以有效提升实时数据的开发效率。

流批一体的数据处理能力和低代码环境可显著提升实时数据处理平台的落地效果

实时数据平台的数据处理能力和开发效率是决定其是否能够满足企业需求的核心要素,总结该股份制银行的实时应用支撑平台建设经验,其他银行在选择实时数据平台产品时应注意关注以下两点:

流批一体的数据处理能力。在选择实时数据平台产品时,能够承载企业的流批一体数据处理工作,具备方便的横向扩展能力,并且可以对产品架构持续优化改进,不断引入新的技术和功能,才可以保证该产品可以长期稳定的满足业务发展需求。

低代码开发环境提升开发效率。基于DataCanvas RT实时决策中心的低代码开发环境,由成熟的测试团队完成工作流的配置和测试。对于复杂业务场景则通过大数据开发工程师通过UDF算子开发的形式,完成部分数据处理难点的实现,后续将UDF算子交由测试团队,通过可拖拽的方式构建数据开发工作流。


免责声明: 除非特别声明,文章均为投稿或网络转载,仅代表作者观点,与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果本文内容有侵犯你的权益,请发送信息至ab12-120@163.com,我们会及时删除

最新评论

关闭

站长推荐上一条 /1 下一条

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-12-27 19:14 , Processed in 0.053576 second(s), 23 queries .

返回顶部