摘要:在云计算和大数据时代,集群规模和数据量爆发式增长,如何管理好云计算平台、如何提供高质量的服务,是云计算的核心问题之一。通过平台化的思路来降低云计算运维复杂度、提升自动化能力之后,百度尝试基于运维大数据的分析和挖掘,提升预测、发现和自动决策。 在第六届中国云计算大会云计算数据中心与运维论坛上,百度运维部总监刘超向与会者介绍了百度云计算和大数据迅猛发展的态势,重点分享了百度利用大数据推进云计算运维向智能化演进的创新思路和实践案例。 据刘超介绍,近年来百度在服务器规模、数据规模、单集群规模等方面出现爆发式增长。百度服务器的规模近5年来增长了15倍以上,达到数十万台; 数据规模在过去两年已达到EB级别,数据总量接近两个EB,日志更新量每天超过1PB;最大单集群离线计算规模超万台,达到10万核的计算能力。互联网的 特征之一就是『快』,快速迭代是常态。百度每天有400多个上线,比5年前增长4倍。而与此同时,云计算平台出现的各类故障和异常与一年前相比增长了 200%,给运维带来巨大的挑战。 在云计算和大数据时代,集群规模和数据量爆发式增长,如何管理好云计算平台、如何提供高质量的服务,是云计算的核心问题之一。百度运维为迎接云 计算和大数据应用带来的需求和挑战,正在从以解决运维复杂度为目标的自动化向以预测和自动决策为目标的智能化转变。百度已经建立起了六大数据仓库之一的运 维数据仓库,囊括了服务器、网络、系统、程序、变更等各个方面的实时及历史状态数据,每天更新数据量接近100TB,基于对这些数据的分析和挖掘,百度开 展了多个项目和应用,包括智能流量调度决策、流量分析与趋势预测、故障根源定位系统等,在智能运维方面做了有益探索,取得了良好进展。 刘超指出云计算运维的目标就是用尽可能低的成本、提供足够好的服务质量和用户体验。网络带宽、服务器、维护人力等是云计算平台的主要成本来源, 百度通过对运维大数据分析,实现对硬件故障的预测和自动化管理,对机器的管理实现了零投入;通过智能混部技术,动态感知、实时分析、全局调度,合理分配计 算、存储、内存等不同类型的任务,精细化分析、“消峰填谷”的方式来最大化地利用资源,减低预算开销。据刘超介绍,业界大部分公司的服务器在流量高峰时段 的CPU利用率使用较好,但全天平均下来日均利用率大约在5%-10%的水平,做到20%-30%已经很少了。而百度大规模集群的CPU日均利用率已经达 到50%以上,离线集群的利用率甚至达到了90%以上。仅仅在过去2013年,为公司节省了24万核的计算资源,折合节省数亿元的成本。 在提供高质量的搜索服务方面,百度同样利用大数据技术,把在线服务运维转向智能化管理模式,并走在了行业的前列。基于对运维大数据的挖掘、对历 史数据的学习和异常模式识别来实现对流量数据的预测;通过对包括访问速度、系统容量、带宽、成本等在内的10多个因子的实时自动分析,实现了在众多数据中 心间的流量自动调度,决策时间由人工判断的10几分钟也大幅缩短到1分钟。这个系统的实际效果在最近的一次故障中得到很好的检验,系统在没有人工介入的情 况下智能地把流量调度到另外的数据中心,拒绝流量仅有几千个,而几年前发生的类似故障却造成了数千万的流量损失。 刘超介绍百度运维团队是一个研发型的团队,40%以上的工程师从事自动化平台和基础组件的研发工作,他们的一个理念是“进攻是最好的防守”,积极思考、主动出击,率先利用大数据分析的方法来提升预测、发现和自动决策的能力,积极推动云计算运维向智能化演进。 |