报告编委 主创团队 黄勇 爱分析合伙人&首席分析师 武宇 爱分析高级分析师 孟晨静 爱分析分析师 李冬露 爱分析分析师 兰壹凡 爱分析分析师 外部专家(按姓氏拼音排序) 陈玉奇 斗象科技首席安全架构师 方正 数说故事产品总监 郭振强 科杰科技副总裁 孔德明 网易数帆流通行业大数据实施交付总监 刘诚忠 衡石科技CEO 乔昕 深睿医疗联合创始人/CEO 孙妍 观远数据副总裁 王申 九章云极银行BU总经理 王爽 锘崴科技创始人、董事长 王一刚 中科闻歌数智媒宣事业部总经理 特别鸣谢(按拼音排序) 报告摘要 湖仓一体强化全域数据管理效能 为解决数据类型丰富、数据体量倍增带来的存储问题,同时满足人工智能、机器学习在趋势预测、探索分析等方面的应用需求,同时配置数据仓库、数据湖成为企业的普遍选择。然而企业逐渐发现多架构的配置并不完美,解决既有问题的同时带来新的架构问题,如数据流通低效、数据冗余以及存储成本高。 湖仓一体能有效解决复杂架构问题。湖仓一体通过元数据层在数据湖上实现全局数据统一管理,支持流批一体简化系统架构,以及云原生、存算分离的特征成为数据架构新一代进化方向。 从管理到运营,DataOps释放数据中台价值 当前,数据中台的功能主要体现在为企业打通数据孤岛、建立指标体系、实现数据质量管理、资产管理等方面,重点解决企业“有数据可用”的问题。随着数据应用场景的丰富,数据应用的多元化,数据开发运维的压力骤增,数据不可信、数据应用交付缓慢等问题频发。解决“数据好用”的问题成为数据中台实现数据能力复用和共享的关键。 DataOps是一套以数据为中心的数据管理及运维开发方法论。融合DataOps方法论,数据中台将显著提升数据质量、实现数据应用持续敏捷交付、降低数据管理成本。DataOps实践尚不成熟,但已经成为数据中台进一步释放数据价值的关键路径。 高时效场景爆发,实时数据平台支撑热数据价值释放 物联网使得海量实时数据触手可及,进而推动以金融、工业行业为代表的实时数据应用的创新,如精准营销、风控管理、故障预警等。企业需要对数据架构进行升级,实现实时数据和离线数据融合,充分利用实时数据价值。 实时数据平台支持多源数据采集、提供高可用、低成本的数据同步方案,并通过流批一体的方式实现离线数据和实时数据统一存储和查询,提升企业实时场景开发和上线效率。 政策合规要求推动隐私计算平台快速渗透 以金融、政务、医疗为代表的行业需要通过数据跨机构协作及共享提升服务价值、控制风险、提升效益。然而数据跨机构的流通阻力极大,一方面,随着《数据安全法》及《个人信息保护法》的颁布,国家对数据流通监管加强;另一方面,数据资产等同于企业的命脉,使得企业对数据流通持十二分谨慎态度。 隐私计算能为企业实现数据跨机构的流通共享。隐私计算通过联邦学习、多方安全计算、可信执行环境以及同态加密等一种或多种技术组合,实现数据流通过程中的“可用不可见”,已经为越来越多的行业采用。 属于业务人员的数据分析时代来临 随着数据应用的深化,企业数据分析场景正在发生三个“转变”:1、平民化:数据分析平台的服务对象从传统财务人员及管理人员向一线业务人员转变;2、场景化:数据分析平台的应用场景也从财务及业绩呈现向具体业务分析转变;3、智能化:企业对数据分析平台的功能需求从传固定式的呈现形式向智能、个性、灵活自助的形式转变。这对数据分析平台的定位和功能提出了挑战。 数据分析平台也在与时俱进,可以看到,市场中已经快速出现多种应对方案。如部分技术厂商通过融合NLP、机器学习、低代码等技术使数据分析平台具备满足智能化、自助化的特点,使产品具备通用性;部分厂商在原本针对垂直业务场景的体系化产品中增加数据分析功能,为企业实现业务小闭环。企业可灵活根据自身业务需求选择相应数据分析平台产品及服务。 数据智能行业应用从监测、诊断性分析走向智能决策 传统的大数据和人工智能技术建模和分析只能识别现状和问题,企业若想进行业务决策仍需大量人工介入,严重依赖专家经验,影响决策速度,不能适应快速变化的市场环境。企业希望通过人工智能技术实现根因分析、数据关系挖掘和决策支持,从而提高决策速度。 智能决策技术持续迭代更新,融合大数据以及机器学习、深度学习、强化学习、运筹优化、知识图谱等人工智能技术,能够深度挖掘数据价值,构建数据知识网络,持续优化模型精准度,快速输出优质的决策方案,支持企业各部门实现高效决策。 目录 1. 综述:多种因素推动,数据智能全链路升级 2. 湖仓一体强化全域数据管理效能 3. 从管理到运营,DataOps释放数据中台价值 4. 实时数据平台支撑爆发中的高时效场景 5. 政策合规要求推动隐私计算平台快速渗透 6. 属于业务端的数据分析时代来临 7. 数据智能行业应用从监测、诊断性分析走向智能决策 8. 展望 1. 综述:多种因素推动,数据智能全链路升级 数据智能是指以数据为生产要素,通过融合大规模数据处理、数据分析与挖掘、机器学习、可视化等多种大数据和人工智能技术,从数据中提炼、发掘具有揭示性和可操作性的信息,从而为企业提供数据驱动的分析与决策。 当前,数据智能已经成为企业实现数字化转型的核心方式。一方面,在实现初步数字化的基础上,企业希望把数据分析扩展到更多的应用场景,以在业务发展与运营中实现降本增效,或构建创新性的业务模式;另一方面,数据规模的持续膨胀,与分析场景的更加多样化,也对数据存储、处理和分析等方面的能力提出了更高的要求,因此企业需要对数据基础设施进行持续的升级与优化。 本次报告将数据智能市场划分为应用解决方案和数据基础设施两大部分,其中应用解决方案是指通过数据智能解决方案在垂直行业或通用职能领域直接赋能业务价值提升的最佳实践;数据基础设施指利用云计算、人工智能、隐私计算等新兴信息技术构建的为企业赋能的平台类解决方案,主要包括数据的采集、存储、计算、管理等内容,进而为上层应用提供数据服务。 图 1: 数据智能市场全景地图 随着数字化转型进入深水区,各行各业中的数据形态和应用端需求正在发生变化,传统的以结构化数据为主的管理和分析已经远远不能满足当前市场中企业对于数据的需求,对于多源异构数据的管理和更加智能化的数据应用是每一个企业在数字化时代必须构建的能力。 与此同时,政策对于数据安全和隐私安全的合规要求也越来越严,未来更加业务友好、更加智能化、更具性价比且满足合规要求的数据智能解决方案将成为数据智能市场发展的主流趋势。 图 2: 数据智能应用趋势 2.湖仓一体强化全域数据管理效能2.1数据存储异构阻碍数据高效流通随着数据类型的丰富、数据体量的快速扩张,以及企业希望利用人工智能、机器学习解决趋势预测、探索分析的需求增长,数据湖与数据仓库同时部署成为企业的普遍选择,同时也带来数据架构复杂、数据流通效率低的问题。 图 3: 数据仓库、数据湖共存带来的挑战 数据架构复杂:企业普遍有数据仓库、数据湖以及其他多种类型的专业数据仓库如时间序列、图形和图像数据库等,导致企业数据架构复杂,为技术人员运维带来巨大困难。
企业寻求一种数据架构,可以兼具数据仓库成长性和数据湖灵活性的同时,提供一套共同的数据标准,提高数据流动灵活性,提升数据效能。针对此需求,湖仓一体应运而生,是继数据仓库、数据湖之后数据架构的最新解决方案。 2.2湖仓一体引领数据架构迭代更新图 4: 湖仓一体架构示意图 湖仓一体在技术架构、功能和性能层面主要具备以下主要特征: 通过元数据层在数据湖上实现数据管理功能。智能湖仓使用标准文件格式(如Parquet)将数据存储在对象存储中,并在对象存储上构建元数据层,从而在元数据层实现诸如ACID事务处理、版本控制等数据管理功能,使得多种计算引擎可以共享统一的数据存储。同时,通过对缓存、辅助数据结构(如索引、统计信息)和数据布局进行优化,智能湖仓也具备了良好的SQL性能。 流批一体,简化系统架构。智能湖仓可以实现批处理与流处理的统一,通过CDC(Change Data Capture)将业务系统数据实时抽取到数据湖,实时加工后传输至OLAP系统中对外服务,实现端到端过程的分钟级时延。与此同时,系统架构得到简化,大幅降低了系统维护以及数据开发工作的难度。 云原生、存算分离。基于云原生架构,智能湖仓存储和计算资源得到有效分离,企业可以基于需求灵活地对存储和计算资源进行分别扩展,且扩展需求几乎没有限制,从而实现对大规模数据查询与分析的高性能,并显著降低TCO(Total Cost of Ownership)。
|