陈纯院士:大数据将进入实时智能分析处理时代
2019-10-23 21:35 |
查看: 1403|
评论: 0
“数据中所蕴藏的价值就在于分析的过程。随着移动互联网、物联网,尤其是5G的到来,带有时间序列的大数据将具有无与伦比的价值,是最近几年研究的重点。大数据分析处理技术将进入实时智能时代。” 2019年10月21日,中国工程院院士、浙江大学陈纯教授在第六届世界互联网大会上提出的观点。当天,陈纯院士做了题为“时序大数据实时智能处理技术及网络安全应用”的报告,分析了时序大数据实时智能处理技术需要突破的技术难点,并介绍了该项技术目前的应用情况。 何为时序大数据? 大数据时代使领域和行业边界愈加模糊,数据作为一种资产为企业带来新的商业价值,数据开放让政府治理和个人福祉都面临着机遇和挑战。 在互联网以前,我们只有人类社会和物理世界,然后才有了数据产品及信息空间。在信息空间,包括云计算、人工智能、VR/AR都非常重要,产生了很多数据。但大数据并非仅“大”有价值,与普通数据相比,最大特点是带有时间戳,即时序大数据。 举个例子: 我们把数据当做水库的话,水库里的存在的水就是批式大数据,进来的水是流式大数据,即实时的大数据。 时序大数据就是以前的历史数据,加上实时的数据,是带有时间标签(按照时间的顺序变化,即时间序列化)的数据。此外数据会形成关系图谱、关联图谱,就像社交,以前的关联图谱不带有时间。而基于时序大数据,不仅把历史数据都留下来,现在的数据也时刻流进来。数据刚产生时价值最好,及时分析处理,最能体现它在应用上的价值。 如何通过实时数据打造智能分析处理平台? 大数据实时智能平台是基于实时计算和人工智能,集知识产生和知识应用为一体的集中式技术平台体系。以实现热数据价值最大化为基础理念,支撑不同业务场景价值的高效挖掘与应用为核心目标。 在这套完整的技术体系里,需要融合实时指标计算、智能学习、智能决策、关联图谱四大平台子系统,来提供全方位的知识产生与知识应用能力。实时指标平台需要解决从原始的流水到指标的实时计算和指标的快速存储、快速读取问题;同时,也要有底层技术来解决实时的指标采集和清洗问题。 只要是智能的平台,一定会有智能模型,智能学习平台中,智能模型不仅仅指深度学习,深度学习最大的贡献之一是能利用大数据进行训练,从而获得多层次的数据特征,利用这些特征可以大大提升模型对数据的分类精度。 现实社会织起了一个庞大而复杂的关系网,比起传统的关系型数据库,关联图谱更擅长建立复杂的关系网络。在复杂的关系网络中,当我们涉及到多层次关联查询时,基于关联图谱的查询效率可高出几千倍甚至上万倍。关联图谱平台通过数据抽取工具,多维度的数据挖掘,计算图谱中各实体间关系,从而实现秒级数据运算与匹配,并通过图谱的可视化方式展示出来。 分析计算结合智能模型,便构成了时序大数据实时智能技术架构,可以进行实时采集、实时加工、实时分析、实时决策,也即智能决策平台的实时决策。 时序大数据实时智能分析技术需要突破哪些难题? 陈纯表示,研发具有快速、高效、智能且自主可控的时序大数据实时处理技术与平台,面临诸多技术难点。 关键技术一:复杂统计指标的增量计算。大数据的分析,一些统计指标特征计算是非常重要的,均值、方差等。简单算法、静态取数、容器类算法、复杂算法、CEP等分别如何实现?增量计算中如何进行退单等常见场景的逆向计算?事件乱序抵达如何确保增量计算的结果一致?这些数理统计算法中的增量计算、可逆计算、乱序计算等问题需要考虑。 关键技术二:时序数据处理的动态时间窗口。时间窗口需提供滚动、滑动的漂移能力,支持长周期时间窗口的动态精度控制,支持基于弹性时间窗口的实时ADHoc查询。 关键技术三:基于流的事件序列识别(复杂事件处理 CEP)。事件模式的增量匹配、叠加通用算法的增量统计等支持CEP的增量匹配及数理统计问题。 关键技术四:动态时序图谱的实时分析计算。大规模时序图谱如何提供百万tps的建图能力;时序图谱的分布式处理,10亿顶点,100亿边(10亿时序复杂边)的前提下,3层以上查询如何控制在秒级;大规模时序图谱如何秒级的图搜索(最短路径、Page Rank、Louvain、LPA等)能力;面向时序图谱的查询语言,支持动态时序图谱的时间维度Ad Hoc查询分析能力? 目前陈纯院士及团队,在大数据实时智能处理领域研究中已突破多项业界难题,取得多项科研成果。依托浙江大学,浙江邦盛科技有限公司等一批产学研平台都在致力于实时智能技术的研究,自主研发的大数据实时智能处理平台“流立方”,已经投入到多家金融机构及政府公共服务部门等的实际应用中。 时序大数据在哪些领域能发挥价值? 陈纯表示,目前基于“流立方”的时序大数据实时智能处理平台已经在近400家大中型单位成功应用,行业涵盖金融、交通、政务、电信、公安等领域。 以金融风控反欺诈场景为例,部署“流立方”风控系统仅需在交易前端增加风控探头,将实时交易数据旁路接入系统。“流立方”风控系统根据融合了专家知识和机器学习结果的几千条规则对每笔交易进行风险评估,判断是否允许进行该笔交易。 在网络自动化攻击防御场景中,基于“流立方”的实时机器防御系统通过多服务器访问流水关联决策、长周期数据决策、复杂规则爬虫识别、设备维度爬虫识别、人机识别等技术,实现了微秒级(400~800μs)的识别时延,能够拦截业务系统中占原有访问总流量80%~90%的来自网络机器人的访问流量,使得其业务系统服务器的压力降为原来的10%。 陈纯表示,数字经济建设中,采用“事中”甚至“事前”模式实现感知、分析、判断、决策等功能的智能系统都需要大数据实时智能处理平台的支撑。 |
免责声明:
除非特别声明,文章均为投稿或网络转载,仅代表作者观点,与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果本文内容有侵犯你的权益,请发送信息至ab12-120@163.com,我们会及时删除
最新评论
最新新闻
最新新闻
要闻推荐
要闻推荐
今日视点
今日视点