搜索
大数据中国 首页 热点综合 人工智能 查看内容
2022爱分析·数据智能应用实践报告
2022-9-7 20:08 | 查看: 3475| 评论: 0

报告编委

主创团队

黄勇

爱分析合伙人&首席分析师

武宇

爱分析高级分析师

孟晨静

爱分析分析师

李冬露

爱分析分析师

兰壹凡

爱分析分析师

外部专家(按姓氏拼音排序)

陈玉奇

斗象科技首席安全架构师

方正

数说故事产品总监

郭振强

科杰科技副总裁

孔德明

网易数帆流通行业大数据实施交付总监

刘诚忠

衡石科技CEO

乔昕

深睿医疗联合创始人/CEO

孙妍

观远数据副总裁

王申

九章云极银行BU总经理

王爽

锘崴科技创始人、董事长

王一刚

中科闻歌数智媒宣事业部总经理

特别鸣谢(按拼音排序)

报告摘要

湖仓一体强化全域数据管理效能

为解决数据类型丰富、数据体量倍增带来的存储问题,同时满足人工智能、机器学习在趋势预测、探索分析等方面的应用需求,同时配置数据仓库、数据湖成为企业的普遍选择。然而企业逐渐发现多架构的配置并不完美,解决既有问题的同时带来新的架构问题,如数据流通低效、数据冗余以及存储成本高。

湖仓一体能有效解决复杂架构问题。湖仓一体通过元数据层在数据湖上实现全局数据统一管理,支持流批一体简化系统架构,以及云原生、存算分离的特征成为数据架构新一代进化方向。

从管理到运营,DataOps释放数据中台价值

当前,数据中台的功能主要体现在为企业打通数据孤岛、建立指标体系、实现数据质量管理、资产管理等方面,重点解决企业“有数据可用”的问题。随着数据应用场景的丰富,数据应用的多元化,数据开发运维的压力骤增,数据不可信、数据应用交付缓慢等问题频发。解决“数据好用”的问题成为数据中台实现数据能力复用和共享的关键。

DataOps是一套以数据为中心的数据管理及运维开发方法论。融合DataOps方法论,数据中台将显著提升数据质量、实现数据应用持续敏捷交付、降低数据管理成本。DataOps实践尚不成熟,但已经成为数据中台进一步释放数据价值的关键路径。

高时效场景爆发,实时数据平台支撑热数据价值释放

物联网使得海量实时数据触手可及,进而推动以金融、工业行业为代表的实时数据应用的创新,如精准营销、风控管理、故障预警等。企业需要对数据架构进行升级,实现实时数据和离线数据融合,充分利用实时数据价值。

实时数据平台支持多源数据采集、提供高可用、低成本的数据同步方案,并通过流批一体的方式实现离线数据和实时数据统一存储和查询,提升企业实时场景开发和上线效率。

政策合规要求推动隐私计算平台快速渗透

以金融、政务、医疗为代表的行业需要通过数据跨机构协作及共享提升服务价值、控制风险、提升效益。然而数据跨机构的流通阻力极大,一方面,随着《数据安全法》及《个人信息保护法》的颁布,国家对数据流通监管加强;另一方面,数据资产等同于企业的命脉,使得企业对数据流通持十二分谨慎态度。

隐私计算能为企业实现数据跨机构的流通共享。隐私计算通过联邦学习、多方安全计算、可信执行环境以及同态加密等一种或多种技术组合,实现数据流通过程中的“可用不可见”,已经为越来越多的行业采用。

属于业务人员的数据分析时代来临

随着数据应用的深化,企业数据分析场景正在发生三个“转变”:1、平民化:数据分析平台的服务对象从传统财务人员及管理人员向一线业务人员转变;2、场景化:数据分析平台的应用场景也从财务及业绩呈现向具体业务分析转变;3、智能化:企业对数据分析平台的功能需求从传固定式的呈现形式向智能、个性、灵活自助的形式转变。这对数据分析平台的定位和功能提出了挑战。

数据分析平台也在与时俱进,可以看到,市场中已经快速出现多种应对方案。如部分技术厂商通过融合NLP、机器学习、低代码等技术使数据分析平台具备满足智能化、自助化的特点,使产品具备通用性;部分厂商在原本针对垂直业务场景的体系化产品中增加数据分析功能,为企业实现业务小闭环。企业可灵活根据自身业务需求选择相应数据分析平台产品及服务。

数据智能行业应用从监测、诊断性分析走向智能决策

传统的大数据和人工智能技术建模和分析只能识别现状和问题,企业若想进行业务决策仍需大量人工介入,严重依赖专家经验,影响决策速度,不能适应快速变化的市场环境。企业希望通过人工智能技术实现根因分析、数据关系挖掘和决策支持,从而提高决策速度。

智能决策技术持续迭代更新,融合大数据以及机器学习、深度学习、强化学习、运筹优化、知识图谱等人工智能技术,能够深度挖掘数据价值,构建数据知识网络,持续优化模型精准度,快速输出优质的决策方案,支持企业各部门实现高效决策。

目录

1. 综述:多种因素推动,数据智能全链路升级

2. 湖仓一体强化全域数据管理效能

3. 从管理到运营,DataOps释放数据中台价值

4. 实时数据平台支撑爆发中的高时效场景

5. 政策合规要求推动隐私计算平台快速渗透

6. 属于业务端的数据分析时代来临

7. 数据智能行业应用从监测、诊断性分析走向智能决策

8. 展望

1. 综述:多种因素推动,数据智能全链路升级

数据智能是指以数据为生产要素,通过融合大规模数据处理、数据分析与挖掘、机器学习、可视化等多种大数据和人工智能技术,从数据中提炼、发掘具有揭示性和可操作性的信息,从而为企业提供数据驱动的分析与决策。

当前,数据智能已经成为企业实现数字化转型的核心方式。一方面,在实现初步数字化的基础上,企业希望把数据分析扩展到更多的应用场景,以在业务发展与运营中实现降本增效,或构建创新性的业务模式;另一方面,数据规模的持续膨胀,与分析场景的更加多样化,也对数据存储、处理和分析等方面的能力提出了更高的要求,因此企业需要对数据基础设施进行持续的升级与优化。

本次报告将数据智能市场划分为应用解决方案和数据基础设施两大部分,其中应用解决方案是指通过数据智能解决方案在垂直行业或通用职能领域直接赋能业务价值提升的最佳实践;数据基础设施指利用云计算、人工智能、隐私计算等新兴信息技术构建的为企业赋能的平台类解决方案,主要包括数据的采集、存储、计算、管理等内容,进而为上层应用提供数据服务。

图 1: 数据智能市场全景地图

随着数字化转型进入深水区,各行各业中的数据形态和应用端需求正在发生变化,传统的以结构化数据为主的管理和分析已经远远不能满足当前市场中企业对于数据的需求,对于多源异构数据的管理和更加智能化的数据应用是每一个企业在数字化时代必须构建的能力。

与此同时,政策对于数据安全和隐私安全的合规要求也越来越严,未来更加业务友好、更加智能化、更具性价比且满足合规要求的数据智能解决方案将成为数据智能市场发展的主流趋势。

图 2: 数据智能应用趋势

2.湖仓一体强化全域数据管理效能

2.1数据存储异构阻碍数据高效流通

随着数据类型的丰富、数据体量的快速扩张,以及企业希望利用人工智能、机器学习解决趋势预测、探索分析的需求增长,数据湖与数据仓库同时部署成为企业的普遍选择,同时也带来数据架构复杂、数据流通效率低的问题。

图 3: 数据仓库、数据湖共存带来的挑战

数据架构复杂:企业普遍有数据仓库、数据湖以及其他多种类型的专业数据仓库如时间序列、图形和图像数据库等,导致企业数据架构复杂,为技术人员运维带来巨大困难。

  • 数据流通低效:数据仓库、数据湖两种数据架构在集群层面割裂导致数据不能自由流通。如机器学习中数据来源于数据仓库或数据湖,难以跨架构进行数据融合分析,增加了数据流通和计算开发成本。
  • 数据冗余,存储成本高:数据仓库、数据湖的同时存在也会造成数据冗余,且随着数据量增长,存储成本将持续攀升,超大规模体量数据的计算性能也将持续下降。

企业寻求一种数据架构,可以兼具数据仓库成长性和数据湖灵活性的同时,提供一套共同的数据标准,提高数据流动灵活性,提升数据效能。针对此需求,湖仓一体应运而生,是继数据仓库、数据湖之后数据架构的最新解决方案。

2.2湖仓一体引领数据架构迭代更新

图 4: 湖仓一体架构示意图

湖仓一体在技术架构、功能和性能层面主要具备以下主要特征:

通过元数据层在数据湖上实现数据管理功能。智能湖仓使用标准文件格式(如Parquet)将数据存储在对象存储中,并在对象存储上构建元数据层,从而在元数据层实现诸如ACID事务处理、版本控制等数据管理功能,使得多种计算引擎可以共享统一的数据存储。同时,通过对缓存、辅助数据结构(如索引、统计信息)和数据布局进行优化,智能湖仓也具备了良好的SQL性能。

流批一体,简化系统架构。智能湖仓可以实现批处理与流处理的统一,通过CDC(Change Data Capture)将业务系统数据实时抽取到数据湖,实时加工后传输至OLAP系统中对外服务,实现端到端过程的分钟级时延。与此同时,系统架构得到简化,大幅降低了系统维护以及数据开发工作的难度。

云原生、存算分离。基于云原生架构,智能湖仓存储和计算资源得到有效分离,企业可以基于需求灵活地对存储和计算资源进行分别扩展,且扩展需求几乎没有限制,从而实现对大规模数据查询与分析的高性能,并显著降低TCO(Total Cost of Ownership)。

案例1:某跨国零售集团建设统一数据底座,全面提升数据管理运营效率

某海外跨国综合零售及服务集团为世界500强企业,主营商业零售、地产、金融、健康、游戏娱乐5大主要业态,旗下包含数百家成员公司,在日本、中国、东南亚等地区具有广泛影响力。

旧架构难服务新零售,数据开发管理应用全流程能力需提升

近年来,“新零售”的崛起为零售行业持续带来巨大变革,该零售集团也希望借助其商超和供应链优势开辟线上——线下到家业务,并通过逐步构建完善的线上零售体系,实现传统零售业务的全面转型。

经过多年数字化建设,该集团陆续在本地和云上建成多个数据仓库,并面向整个集团建立了统一的CDP平台,沉淀了丰富的数据资源。然而线上业务的开展引发了数据量激增,底层数据架构混乱、端到端数据运营分析能力落后的问题暴露无疑。具体而言:

1. 烟囱式建设,数据资产不统一。该集团数据存、算基础设施均是以需求为导向进行阶段性单点建设而成,建立在离线、微软云、亚马逊云之上的结构化、非结构化数据存储及数据调度、实时计算工具等纵横交织,底层技术栈混乱,这直接导致了集团数据标准、数据口径不统一,数据开发格式和数据开发工具相互独立,难以形成统一数据资产。

2. 业务稳定性、即时性不达标。该集团数据仓库层次结构不清晰,数据域、主题设计不合理,导致数据重复开发和计算问题严重,数据分析低效且耗费大量资源。在数据分析需求激增的情况下,原有云资源算力和存储都达到瓶颈,一项数据分析需求的响应往往需要2-3天,大大影响了任务稳定性和即时性,无法满足业务需求。

3. 数据全流程运营管理方法不健全,服务能力差。该集团分别采购海外供应商抽取、集成、调度、监控、服务等数据开发管理工具,但这些工具之间彼此割裂,不仅导致数据全流程运营效率低,通过代码开发出的数据能力无法复用,影响对外开放赋能,同时导致数据分析师、数据科学家、业务人员、管理人员等不同角色之间无法有效协作。

该集团经内部评估规划,决定面向整个集团当下及未来5-10年数字化转型需要,统一数据存、算基础设施,并通过全方位数据治理统一全域数据资产,健全数据开发、管理、运营全流程体系,从而支持智能化应用,统一开放赋能,并最终将整套成功经验推广复制到该集团的全球市场。

通过长时间细致地对众多国内外优秀厂商及其客户进行实地调研和技术验证,以及对各厂商产品的开放式体验,该集团发现,国外厂商工具能力较强,但不同数据开发管理工具彼此独立,无法形成有机串联,导致数据工具和数据治理体系“两张皮”,无法实现该集团构建统一数据资产管理运营体系的需求。而科杰科技在工具能力与国外厂商旗鼓相当的基础上,将数据资产管理运营全流程的方法论和最佳实践融入数据工具设计中,使客户能够使用科杰科技全套产品构建统一、可持续的企业级数据资产运营管理体系。因此该集团最终选择科杰科技作为合作伙伴。

北京科杰科技有限公司(简称“科杰科技”)是领先的数据能力构建商,核心技术团队拥有丰富的头部互联网企业大数据平台建设和运营经验,针对多业态、多场景的大型复杂组织的数据底座建设运营,沉淀出了一套成熟的实施方法论。现已服务能源、汽车、零售、制造等多个行业头部企业。

建设湖仓一体数据底座,统一数据存储和管理,支持对上开放赋能

该集团在科杰科技的帮助下,梳理现有数据能力,规划设计了满足未来5-10年的数据能力建设蓝图,以科杰云原生数据底座,统一纳管底层数据基础设施,建立数据标准规范和管理体系统一全域数据资产,并最终实现对组织统一开放赋能。

1. 搭建湖仓一体数据底座,实现资源统一纳管。

该集团利用云原生湖仓一体数据底座良好的兼容适配性,实现跨云数据集成,统一集团主数据、元数据,同时支持多租户。云原生架构带来的资源弹性扩缩容能力使该集团能够便捷、灵活为二级单位进行资源调配,满足其个性化的资源使用需求,同时其良好的扩展性也能够支持集团未来数年的数字化发展。

2. 统一全域数据资产,构建数据资产管理体系。

首先,该集团在科杰科技帮助下进行了数据治理工作,完整重构数据仓库体系,设计核心数据指标模型,制定数据标准,规范数据质量,构建起全域统一的数据资产。

其次,通过一系列工具平台落实数据资产管理框架、标准、制度和流程,形成数据资产管理体系。建立统一的数据开发管理平台,与统一系统认证系统集成,集离线、实时开发能力于一体,实现全域数据的接入、加工及任务维护和管理;创建数据资产目录,对数据指标、标签进行分类管理,形成数据地图和血缘关系图谱,面向业务构建商品、店铺、交易、利润、会员、营销等主题,方便数据查询调用。

3. 开展数据资产服务化运营,实现统一开放赋能。

搭建数据服务平台,提供数据API、标签服务、实时服务、报表服务和大屏服务。如对于面向用户画像、个性化推荐等智能应用的特征指标,能够通过指标平台,以及API发布数据服务方式,直接提供给业务人员使用。同时,平台将数据管理体系进一步贯穿组织架构和业务主题,面向不同角色和不同业务场景,进行数据能力的整合,支撑团队协同开发,实现数据资产的共享交换。

融入DataOps理念,通过平台多个数据开发管理工具的有机串联,实现数据开发运维一体化。数据科学平台支持托拉拽的方式编排算法组件,辅以对数据应用模型算法构建方式和流程的指导,大大缩短数据分析模型开发上线的速度,同时支持复用,算法和业务过程快速交互形成闭环,优化结果能快速传递到业务端,实现数据反哺业务。

图 5: 湖仓一体数据智能平台

打造统一开放的数据协作体系,持续稳定赋能业务发展和创新

通过集团统一大数据底座建设,该零售集团全方位完善了从底层基础设施到上层数据应用能力,具体而言:

1. 资源统一纳管,高效稳定支撑上层业务开展。通过基础设施统一纳管和灵活的资源调度,减少系统风险,提升上层业务稳定性,同时降低了总体拥有成本。

2. 统一数据资产体系,为企业数据资产持续开放共享打好基础:打通消费者在WEB、APP、小程序、门店系统的数据,以及各业务系统会员、门店、电商、供应链、财务等全域数据,进行全链路数据血缘关系数据资产沉淀,并形成公司内统一的数据门户,提升企业数据资产的使用效率。

3. 数据资产服务化运营,实现组织规模化数据协作。数据研发人员通过数据中台实现大规模项目跨团队协同开发的能力,极大地提高了研发人员工作效率;业务和运营人员在平台内实现数据需求在线提报并自动流转,并通过高度可视化的功能实现业务数据自助分析和分发,极大地提升了数据在企业内流转和使用的效率,完成由传统的被动数据研发模式到基于统一数据资产之上进行高度复用的开发模式升级转变。


免责声明: 除非特别声明,文章均为投稿或网络转载,仅代表作者观点,与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果本文内容有侵犯你的权益,请发送信息至ab12-120@163.com,我们会及时删除
1234下一页

最新评论

关闭

站长推荐上一条 /1 下一条

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-26 11:28 , Processed in 0.116055 second(s), 23 queries .

返回顶部