2014百度世界大数据论坛在北京大饭店举行。百度研究院副院长,大数据实验(BDL)主任张潼给我们带来了“大数据价值探索和展望”的主题分享。 百度每天的搜索量有60亿,还有一些其他的产品线,都有非常大的数据。从大数据智能分析到实现大数据智能系统,要有非常强大的基础设施和最前沿的技术来支撑。面对海量数据,有能力使用高维特征、建立大规模线性模型、并做到实时更新的公司,放眼全球,只有百度和Google。而在模型的复杂度上,百度做的比Google更复杂。百度所具有的这种全球领先的超大规模机器学习能力,这让百度非常自豪。 百度希望通过开放这种大数据智能技术,将最前沿的技术延伸到各个产业,并把数据思维引入,助力产业的升级。百度也在积极探索如何将大数据技术更多的应用于社会公益事业上,比如用大数据解决全球性问题,推动全球可持续的发展。 以下为演讲实录: 张潼:很高兴今天跟大家来分享,大家都是来自不同行业的人士,像我有学校背景,所以我会讲的更加偏技术一点,下面我会和大家分享大数据智能分析技术现状和对未来的展望。 首先大家知道百度是一个大数据公司,有非常大的数据量。每天的搜索量有60亿,另外还有一些其他的产品线,都有非常大的数据。我们的大数据能产生价值,这个价值对于百度来讲,以前是要连接人和信息,现在我们不光是连接信息,更重要的是连接人和服务,包括移动互联网,怎么样连接人和服务,就需要数据系统,这个系统是指前面讲的开放云,云计算,云处理能力,还有数据工厂,数据库,还有一个比较大的能力就是大数据智能分析能力,这个智能分析能力是通过机器学习的方法来实现的,包括刚刚提到的比如深度学习等等,都是机器学习的范畴。 我谈到的智能系统是包括用户体验、商业变现和最终决策三个方面。一般互联网公司都特别强调用户体验,对百度来讲,最重要的用户体验就是搜索体验,通过广告系统实现商业变现,最后还希望影响决策,比如百度能提供智能的自动问答,还可以跟你自动对话。 那么智能化具备什么样子?比如说你是初创公司,想要智能化,一般来讲是把系统搭起来,在这种情况下首先是没有什么数据,也没有分析数据的能力。如果你的公司发展到一定阶段,你才知道你的人工规则,你拍脑袋想出来的不见得最好。所以你一定要做一些更强悍的智能分析系统。但这个智能系统需要一定的数据量,来让数据系统自动的找出规则,这就是机器学习。 从智能技术的发展来看,一开始能力不强,可以做小规模数据,或者规模别太大,模型可以从简单到复杂。再下一步,如果我们要是技术能力足够高,有足够大的数据,就可以做大的数据了。这里头也可以从简单到复杂。目前百度已经实现了大规模、复杂模型的机器学习能力。大规模的能力包括我们可以处理千亿级的数据,拥有千亿级的特征,甚至现在我们也可以处理上万亿的参数,这些技术是有很高的门槛。百度实现了全球最大的人工神经网络,拥有最复杂模型。 百度是一个搜索公司,一般来讲你搜索一个词机器会反馈一个网页,这个对用户不收钱。盈利是靠广告,广告是企业来打个广告,他打出来的广告真的是你所要的。这就需要非常好的技术可以来匹配你的需求,获得点击。这里头百度有非常大的用户画像,百度用户画像的功能就可以作为一个输入来支持你这个预测,它有非常好的个性化的方法。另外一个预测点击的用户场景是用户想要什么,就是说用户的意图是什么。比如用户刚刚搜索就是一个搜索词,他要表达他的意图,你就从搜索词理解他的意图。这时候你推荐这个广告,准确预测出这个用户是不是会点这个广告,这就体现出百度的技术优势了。 从技术上讲,首先这个是非常大的系统工程,来管理智能的广告系统,因为百度有大量的用户,所以它的数据数量是千亿级的,还有特征数也达到千亿级。很多公司做不了这么大规模,唯一能做的除了百度就是Google,当然Google做的是相对比较简单的模型,而百度做到的是非常大的规模,这个规模世界上没有非常强的公司在做。百度不但实现了复杂模型,还可以实时更新,能达到这么快的实时更新也是需要非常高的技术。 关于大数据点击率预测技术,从百度的发展历史来看,包括与其他的互联网公司对比,我们会有什么样的技术优势呢。很早的时候,只能依靠人工来预测,这时候成本非常大。进入第二阶段,利用简单特征和小规模非线性模型,将点击率提升了30%以上;发展到如今第三个阶段,面对海量数据,使用高维特征、大规模线性模型和实时更新的最前沿技术,又将点击率提升了10%以上,这是非常不容易的。放眼全球,只有百度和Google有能力做到,在处理大规模的技术上我们和Google是差不多的,但是我们有能力做更复杂的模型。你们看百度股票最近涨的很多,所以在座的各位也可以多买点百度的股票,我们的商业能力还是非常强的。 再举一个利用百度智能分析技术的案例---赛事预测,今年世界杯预测,我们和其他几家巨头相比更加准确,有越来越多的机构找过来,希望和百度合作。百度能做到预测最准,有两点很关键,一个是预测能力,一个是数据模型。从百度来讲,我们使用了海量的数据,比如有上万场历史比赛的数据,还有搏彩公司的数据,我们把各种各样的数据进行融合,然后你还需要从数据里抽出各个实例,建一些模型能够来满足这些实例。 展望大数据技术的未来,我的体会是首先要看清现状,从某种意义上说,百度和其他几家巨头处在同一起跑线上,在某些领域比如大规模的核心技术上,百度做的规模更大,目前全球只有百度和Google有能力把规模做的比较大,而且在有些技术上百度比Google做的更加领先。 现在我们已经有这个大数据技术的能力,但是我们还有很多细节去完善,百度的千亿个神经元还没有实现全连接,从某种意义上讲,我认为在接下来的两年,我们是完全有能力做到的。我们还将把规模做得更深,模型做得更好。从技术应用的广度来讲,我们将把大数据技术不光是用在百度,还会开发给全行业,比如可以用到医疗、金融等更多的行业,帮助企业可以实现更好的效果。 如何开放技术能力呢?可以通过百度大数据引擎来实现。百度大数据引擎包括百度大脑,数据工厂和开放云三个组件。我今天主要讲的和百度大脑有关的,百度大脑具有世界领先的超大规模机器学习的能力,这让我们感到非常自豪。 这里,我想和大家分享一个百度大数据如何和行业结合的具体案例。最近百度和联合国签署协议,建立大数据联合实验室。这个联合实验室发布的第一个产品----百度回收站是一个关于环境保护的产品,对环保行业具有创新的意义。该产品是用互联网思维改变传统行业思路,用户会产生很多的电子垃圾,但回收商他不见得能够接触到用户,通过百度的这款产品,实现了回收商和用户的智能连接。另外这个产品还可以搜集数据,这些数据可以用来做智能分析,帮助用户和回收商做出最明智的决策,比如告诉回收商应该在什么地方设回收点。 百度还在积极探索将大数据智能技术更多的应用于社会公益事业上。百度和联合国建立的联合实验室的初衷就是探索如何用大数据解决全球性问题,推动全球可持续的发展。百度在社会公益方面走到了前面,当然我们希望和在座的各位一起,在大数据方面探索更多的可能性。谢谢大家!
|