搜索
查看: 4628|: 0

百度基础架构部高级总监刘炀:开放云是大数据的基石

[复制链接]

322

主题

0

回帖

1208

积分

网站编辑

积分
1208
发表于 2014-10-6 11:49:20 | 显示全部楼层 |阅读模式

2014百度世界大数据论坛在北京大饭店举行,百度基础架构部高级总监刘炀对百度在开放云这个领域的进展情况进行了介绍。


以下为百度高级总监刘炀演讲实录

刘炀:各位嘉宾下午好,非常高兴今天有机会在这里给大家汇报一下百度在开放云这个领域的一些进展。大家都知道,今天有几个特别热的词语:创新,互联网,大数据,这些几乎是所有公司今天都在追求的,不管是创新公司还是传统企业,都在追求这样的创新:怎么样跟互联网进行结合,怎么样跟大数据结合,运用大数据来提升整个公司的能力。这也是我们为什么要做开放云的原因。

三个热词

首先我们来看”创新”,创新有什么烦恼?创新是每个人都想要的东西,但是说实话创新不容易,创新往往需要很多的投入:要买机器,要买软件,要进行大规模的投入,IT成本非常高。钱还是小事情,时间才是大问题。也就是Time to marketing。现在有个讲法,idea is cheap,他有一个idea,我有一个idea,谁快谁成功。互联网一定是快速的试错,快速的迭代。我怎么样减少投入,怎么样快速迭代,成为了一个至关重要的问题。

第二个热门的词“互联网”,今天大家都在想做互联网。为什么?互联网将你的商业和用户直接联系起来。就像陈总刚刚讲的,过去可能要通过渠道商或者各种各样的方法接触用户,今天看来这种方法是低效的,所以必须要打破瓶颈,去第一时间直接接触用户,了解用户想要什么。互联网帮你直接接触客户。这个商业模式需要非常多的技术做支撑,我列了一堆名词,都是互联网技术。大家说互联网技术很简单,搞一个LAMP就是互联网了,但是今天并非如此,需要非常多的技术,而这些技术恰恰是小公司面临的难题。

第三个热门词是“大数据”,大数据首先是大流量。今天促销,站点流量可能是平时的几十倍几百倍,但这样的大流量可能并没有得到好的技术支撑,我们看到facebook早期的很多竞争对手都失败了,为什么?当流量太庞大进而扛不住的话,用户就会离开。同时流量意味着数据,所以还会有非常多的数据产生出来,往往是PB的数量规模,这些数据有没有好的技术架构存下来?存下来还不够,关键是你怎么把有价值的数据提炼出来,没有提炼的数据就只是一个负债,是死数据。怎么样把死数据变成活数据,变成资产,这就需要非常强大的数据处理能力。

我们看到的创新、互联网、大数据,其实都面临非常大的挑战,不是拍脑袋想一想就能做出来,这里面的技术难度是非常高的。这也是为什么百度要去做开放云。百度开放云希望为客户提供开放的云服务和完整的解决方案,只需要点一下按钮,即可部署,而且是按需付费,不用一次性投入太高的成本。另外开放云提供丰富且有特色的服务,可以把这些服务像积木一样搭建起来,同时搭配百度自动化的智能运维工具,提供了完整的解决方案,帮助企业在竞争获得更大的优势。

开放云结合大数据

今天的主题是开放云和大数据,那开放云怎么样和大数据结合?不管是什么业务一定有大数据存储,数据存储在开放云里,涉及非常多的业务,可以是互联网应用,可以是一个mobile App,可以是后台的数据处理,以及后台的ERP流程。当所有的业务和数据都跑在云上的时候,可以让数据存储更容易,跟大数据能力进行更好地对接,同时把大数据处理结果进行应用也更容易。所以这是我们为什么做开放云的原因。

百度一直坚持走开放的道路,在SaaS服务上面我们提供高级服务,比如地图导航,应用统计,语音识别,人脸识别,视频转码等等,在PaaS层也在提供BAE,轻应用等很多服务。百度在未来会开放更多的服务。

今天百度将推出“百度开放云-云引擎beta版”。刚刚说SaaS/PaaS都是上层服务,今天我们推出的“云引擎”,将覆盖IaaS – Infrastructure as a Service,也就是我们将要开放出来的新能力。百度为什么要开放这个IaaS?很重要的一点,今天大家都知道我们的企业其实需要的不仅仅是高大上的东西,也需要完整的IT解决方案,这个解决方案既包括上层的服务应用,也包括基本的网络存储等基础设施服务。从我们跟很多企业的沟通来看,他们就有非常多的类似需求,我们希望借助百度开放平台,为客户提供一个完整的云到端的解决方案。大家看到,今天的百度在不断地创新和开放新的东西,从设备端到云端,在云端更是从SaaS到PaaS再到IaaS。百度云引擎,大家今天就可以开始注册试用。

百度云引擎

提到百度云引擎,提到百度基础架构技术,我们有非常多的技术积累。百度为什么成为这么大的搜索引擎?大家知道百度1999年开始做搜索引擎,在2003年我们已经将搜索技术全部换到了最先进的分布式计算系统,真正系统自动地进行分布式的调度,能做到这一点靠的是不断的技术沉淀。从2008年开始,我们在基础架构技术的投入加速,不断推出更多的新成果。比如,刚刚余老师提到,我们的机器学习模型支持百亿级的特征量;我们的数据中心能够做到中国最好的PUE1.32;我们在做整机柜;我们的集群规模过万台;等等。通过这些大家可以看到百度在基础技术方面积累非常多,未来百度会一个一个逐步开放,让大家享受到百度最底层的技术所带来的便利。

今天,百度的规模已经非常大,所有规模数字下面都是非常多的机器,非常多的系统,非常多的研发人员的汗水。今天百度总容量已经达到千P,每天新增的数量级都有1个P,每天处理的数据超过50个P,峰值处理每秒达50个GB,更重要的是,百度的业务非常复杂,各种类型的应用,各种各样的数据,都在我们的系统上跑。所以我们有信心,在座各位的复杂业务也一定可以在我们开放云上面跑起来。

用百度云引擎你可以做什么呢?这是我下面要介绍的。百度云引擎有非常多的特点,今天因为时间关系我不可能一一介绍,下面主要讲三个特点:安全可靠,高性能,高扩展性。

我们先来看看安全可靠。百度开放云上将会使用百度云安全作为安全防护的系统。百度云安全提供WEB防火墙,百度业务都在百度云安全的保护之下,所以在百度云里面会非常安全。同时我们使用了非常高可靠的安全认证系统,所有的行为都会需要认证,审计和应用也都非常严格。百度开放云的内容分发网络也是全中国部署,可以支撑百G量级的DDoS攻击,当有攻击来的时候可以灵活调动化解攻击。百度开放云还提供数据库服务,大家知道云应用都离不开数据库,百度内部数据库应用非常广,有超过1万个database的实例。开放云上的数据库服务主从实时同步,可进行秒级的快速切换,而且系统会定时自动备份,所以是一个非常可靠的环境。

当然光要安全可靠还不够,还需要高性能的环境。百度对性能一直放在非常重要的优先级,比如我们的云磁盘,我们在需要性能的地方使用SSD技术,速度非常快。不但快,我们的云磁盘都是三副本存储,不会出现磁盘出了问题数据就丢掉的情况,一个磁盘坏了,还有存储在别的磁盘的副本。而且既使是云磁盘它可能比你本地磁盘速度还是要快很多,可以保证有更高读写速度服务的需求。百度的云磁盘可以挂在云主机上,也就是云服务器。我们百度的云服务器是非常快的,我们对虚拟机一直通过深度的内核优化来提高速度。刚刚也提到百度内网,我们使用万兆的交换机,内网是非常非常快的,在开放云中访问百度的服务非常快,你自己的机器或服务之间访问也非常快。开放云的外网是公网高速的BGP,你也不用再担心南北互联的问题。所以这些都是几个例子都说明我们在性能上非常地关注。

如果你有好的系统,你有好的数据,你怎么获得业务扩展?我们相信在互联网时代,流量变动非常大,互联网时代要想活的好,一定是要有非常好的可扩展性。大家知道百度有云网盘,百度在云网盘是里面有几百P的数据,开放云使用相同的存储技术,所以在开放云存储方面我们是具有非常高的可扩展性,支持EB级别的存储。百度MapReduce兼容Hadoop,你以前的程序不需修改就可以跑在百度开放云上,同时百度MapReduce也有非常好的可扩展性。我们的负载均衡也有非常好的横向水平伸缩能力。当你的流量大时,我们可以帮你增加资源,当你流量小的时候,我们可以帮你释放资源。

未来百度还会提供更多的产品在百度云引擎上面。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-25 00:59 , Processed in 0.113452 second(s), 24 queries .

快速回复 返回顶部 返回列表