报告编委 特别鸣谢(按拼音排序) 报告摘要 随着近几年整个产业数字化进程的深入,数据库的应用场景变得更多、更复杂,导致数据库需要应对相比以往急剧增长的数据规模,处理更加多样的数据类型,以及具备更加复杂的场景化能力。 因此,近年来,高性能、非关系型数据支持、简化使用和运维,场景化解决方案等能力成为企业应用数据库的关键考量因素,多种新一代的数据库也逐渐在企业中落地。 分析型数据库释放业务数据潜在价值 分析型数据库作为数据基础设施的核心,需要提供高效的数据查询和计算服务支撑业务运转。然而企业现有的大数据引擎逐渐暴露出了即席查询不够敏捷、大数据量高并发响应慢、固定报表运算效率低下的性能缺陷。此外,多数据源存储系统的分散独立使得数据联通查询分析遇到困难。 针对现有数据分析引擎的性能缺陷和多数据源无法联通的问题,分析型数据库着重提升了即席查询、大规模数据高并发查询、固定报表运算效率,并且提供联邦的功能支持跨多数据源进行查询和分析,打破了企业数据孤岛,释放业务数据价值。 图数据库助力挖掘数据关联关系 在进行业务数据分析时,识别数据间的关联并对其特点进行研究是一项重要的工作,例如在社交网络、金融风控、营销等场景都需要从海量数据中发掘出单体之间的隐藏关系。但由于传统的关系型数据库对关联关系的查询能力有限,以及相关分析工具和解决方案的缺失,关联关系的挖掘成为企业面临的难题。 图分析解决方案为了应对企业在数据关系探索上的难题,利用图数据库的存储和关系计算能力,支持用户使用图算法对海量数据进行挖掘并对其关系特点进行分析。此外,知识图谱平台具备图谱构建和知识推理计算能力,将图的关联关系转化为知识,实现业务洞察。 超融合数据库支撑企业多元化业务快速发展 中大型企业在复杂多样的业务场景中沉淀了海量数据,而且由于业务持续扩张增长的趋势,企业需要不断加强数字化基座的能力来匹配海量数据规模和业务发展速度。然而企业现有的的数据库承载数据类型有限并且性能表现不足,难以满足企业对数据库服务的需求。 为了解决在业务快速发展过程中遇到的承载数据类型限制和性能表现欠佳的问题,超融合数据库部署了针对不同数据类型的专有引擎,技术架构的简易化不会为企业增加过多的运维管理成本。同时,超融合数据库具备与常见的专用数据库或大数据引擎同等或更好的性能表现。 目录 1. 报告综述 2. 分析型数据库 3. 图数据库 4. 超融合数据库 5. 结语 作为承载各类数据存储和处理需求的基础设施,数据库在企业数字化转型的过程中起到了关键的支撑作用。但随着近几年产业数字化进程的深入,数据库的应用场景比以往更多、更复杂,导致数据库需要应对以下几点关键变化和挑战。 首先,企业内的数据规模在急剧增长。无论是企业寻求通过数字化转型实现数据驱动业务决策,还是一些新兴行业企业业务的快速扩张,都让企业的数据量从原先的几十TB,迅速增长至几百TB,甚至是PB级。然而传统的数据库在性能方面,很难应对如此大规模数据量的查询分析。 其次,企业需要存储和处理的数据类型变得更多样。关系型数据占主导地位的时代已经过去,现在,企业在很多新兴应用场景中为了提高数据存储和分析效率,采用了新的数据模型。例如,营销、风控中用于关联关系分析的图数据,制造业中用于记录生产过程的时序数据,以及文档、健值、GIS等各种数据模型。如何处理多种类型数据,成为企业在数据库层面需要首先解决的问题。 最后,企业越来越需要数据库具备场景化的解决方案。通常,企业已经建有一定的数据基础设施,且不同行业企业的数据应用场景往往有一些特殊要求,为了减少数据迁移和加载,并加速数据分析,企业需要数据库具备相应场景化的功能和解决方案。例如,在大数据量固定报表场景,企业需要数据库具备预计算能力;在企业有多套业务系统需要联合分析的场景,企业需要数据库具备联邦查询能力;在工业企业需要不断收集数据做预测性维护的场景,企业需要数据库具备库内机器学习的能力。 图 1: 数据库应用面临的三大挑战 面对这些变化和挑战,数据库业内一直在升级或推出新的数据库产品,以满足企业的需求。为了提升数据库性能,企业可以采用基于分布式、内存存储,以及多种技术优化的新一代数据库;为了处理多种类型数据,企业可以选择各种专用数据库,如图数据库、时序数据库、搜索引擎等,而当企业部署了多套数据库系统,运维难度大,且又需要做联合分析时,在内核层融合多类型数据处理能力的超融合数据库,则是最佳选择;为了实现场景解决方案,具备预计算、联邦查询、库内机器学习等其中一种或多种能力的数据库,逐渐成为企业重点关注的因素。 为了帮助企业更好地理解如何应用合适的数据库解决企业面临的这些普遍问题,本报告选取了分析型数据库、图数据库和超融合数据库市场的4个典型的数据库应用案例,对每个案例中的企业需求、解决方案和落地效果进行详细分析,并总结提炼案例背后体现的共性价值。 2.分析型数据库2.1分析型数据库多方位优化性能,高效提供数据服务在数字化转型的驱动下,各行业均呈现出数据量爆发式增长、数据应用场景多样化拓展的趋势。面对海量数据,如何从中发掘出有效信息来支持决策,成为企业业务运转和实现转型增长的关键。分析型数据库作为数据基础设施的核心,不仅要为各系统输送数据查询和分析的能力,而且要保证自身服务的高效性来满足及时用数的需求。 然而,在业务场景不断拓展、数据规模持续增长的压力下,企业传统使用的查询分析引擎性能表现严重不足,无法支持实时业务决策,具体表现在:
针对现有数据库在性能上的欠缺,分析型数据库厂商着重提升了即席查询、大规模数据高并发执行、固定报表等方面的性能来满足企业用数需求。具体从以下方面着手解决问题: 图2: 优化分析型数据库性能加速服务响应
2.2高效联通多数据系统,联邦查询跨源提供数据查询随着数据来源的拓展,以及数据存储系统相对独立,企业难以将多数据源进行打通,造成数据联通查询分析困难的问题。当分析人员需要结合其他业务数据或站在全局视角进行决策时,会遇到系统间数据流转不畅、数据加工繁琐、用数口径不一致等问题,难以保证决策的准确性。 此外,Hadoop大数据解决方案需要大量数据搬迁,将多源数据整合成内表进行统一查询,企业在已经具备成熟的大数据存储引擎的情况下通常进行大规模数据迁移的成本会很高。 图3:联邦功能跨多数据源查询 针对企业多数据源的情况,一些分析型数据库提供联邦查询的功能,支持查询多源数据。外表联邦查询功能通过只保存表对应的元数据,并直接向所在数据源发起查询,避开了数据迁移工作,并且实现了数据层面的整合分析。
|