搜索
查看: 4292|: 0

大数据智能分析技术现状和展望

[复制链接]

142

主题

3

回帖

492

积分

版主

积分
492
发表于 2014-9-13 10:53:36 | 显示全部楼层 |阅读模式
       2014百度世界大数据论坛在北京大饭店举行。百度研究院副院长,大数据实验(BDL)主任张潼给我们带来了”大数据智能分析的现状和展望“的演讲。

       百度是天然的大数据公司,个个产品线都在产生大数据,每天的搜索请求有60亿。一般互联网公司都要发展用户体验,在百度最主要的用户体验产品就是搜索系统,接下来的需求是商业变现,在百度就是广告系统。另外还有一系列决策系统。这些系统都需要智能分析技术的支持。百度在智能分析技术的很多积累尤其是应用于广告的超大规模机器学习技术在世界上是领先的。百度大力投入发展智能分析技术,并希望开放数据处理能力,把数据思维引入、渗透到传统行业来促使产业升级。

       以下为演讲实录:

       张潼:很高兴今天有机会和大家分享,我演讲的主题是大数据智能分析技术现状和对未来的展望。

       大家知道百度是一个大数据公司,每天的搜索量有60亿,另外百度还有众多产品线,每天都会有海量的数据产生。基于数据,利用智能分析技术来挖掘其产生价值。对于百度来讲,这个价值体现在百度自主研发的智能系统,并且依赖于智能系统,百度实现了连接人和信息,连接人和服务。这个智能系统就包括了,如前面嘉宾讲过的开放云,数据中心,数据工厂等,还包括了大数据智能分析能力,也就是我这里谈到的机器学习。

       互联网公司都特别强调用户体验,对百度来讲,最重要的用户体验就是搜索体验;另一方面就是商业变现,对于百度来说,变现主要是通过广告来实现;最后还希望能影响用户决策。百度是做搜索起家的公司,通过智能系统实现的自动问答功能,这样用户在搜索的过程中,不但可以提供用户需要的答案,还可以和用户自动对话,大大提升了用户体验。再比如推荐系统、广告系统都会有智能化,那么实现这个智能化的技术究竟是什么样呢?

       智能技术发展历史可以分为三个层次。最简单的是通过人工规则和系统工程来实现的。对于一家初创公司,想要实现智能化,一般来讲是做一个最简单的系统,但这个过程中会遇到很多挑战,首先就是没有什么数据,其次也欠缺分析数据的能力,再者人工规则不是由数据来驱动而是自己拍脑袋想出来的,这个规则不见得最好。这个时候就需要第二个层次,即数据驱动加上小规模机器学习,这样实现的智能分析系统可以处理小数据或者对模型规模要求不大的情况,比如使用小规模神经网络,简单的机器模型比如可以使用线性模型。目前很多公司都在使用这样的方式来做自己的智能系统。那么再下一步,当我们具备了足够大的数据,具备了足够强的计算能力时,就可以实现大数据加大规模机器学习的智能系统。目前百度就是使用这样的智能系统来服务于公司业务的。百度不但可以处理千亿级的数据,而且具有千亿级的特征、百亿级的参数。百度构建起世界上最大的深度神经网络,具有超大规模机器学习的能力,因此百度大数据智能分析能力做到了业界领先水平。

       超大规模机器学习的能力具体体现为三方面:一是大规模计算能力,二是复杂机器模型,三是有很强的系统工程。具有了这样的能力,才有可能实现智能系统。智能分析中,最重要有两点,一是如何使用数据,二是数据分析的技术。有了数据和智能分析技术就可能从数据中找到价值。这里我想分享两个基于百度大数据智能技术的实践案例,一个是广告点击行为预测,另一个是世界预测。从这两个例子,大家可以体会一下百度的智能技术有什么特点,有哪些优势。

       第一个例子是广告点击行为预测。用户在搜索的时候,如何预测并准确推荐个性化的广告来提高用户对广告的点击率呢?这就依赖于智能系统。从数据来讲,数据来源是什么?首先就是用户。通过海量数据和智能分析,百度可以精确的为用户画像,这个用户画像就可以作为智能系统的一个输入用于预测。另外就是结合具体的搜索场景,理解用户的意图是什么。比如搜索的关键词就能表达用户的意图。有了这些数据,智能系统通过机器学习从系统出选择出最合适的广告推荐给用户,不但满足了用户个性化的需要,还实现了用户和服务的准确对接,从而提升了广告的点击率。

       那么百度在技术上是怎么实现这个预测的呢?首先这是一个非常大的系统工程来管理智能广告系统,因为百度的数据数量是千亿级的,特征数也达到千亿级,就要求上万台机器来做数据存储和管理。很多公司做不了这么大规模,现在唯一能做的除了百度就是Google。Google做的是相对比较简单的模型,而百度做到的是复杂规模,这个规模的复杂度在世界上也只有百度做到了。百度不但实现了复杂模型,还可以支持分钟级别的实时更新。

       谈到这里,大家可以对比我们刚刚讲过的智能技术发展历史,对比来看大数据点击率预测技术的发展历史。第一代的预测技术只能依靠人工规则,这时候效率是非常低的,点击率也不高。进入第二阶段,利用简单特征和小规模非线性模型,将预测的点击率提升了30%以上,目前很多公司还停留在这个技术阶段;从小特征到大特征,从小规模到大规模,并有很好的实时更新能力,这就发展到第三个阶段,放眼全球,只有百度和Google有能力做到。面对海量数据,使用高维特征、大规模线性模型和流式计算在线模型更新等最前沿技术,又将点击率提升了10%以上,做到这一点是非常不容易的。在处理大规模的技术上我们和Google是差不多的,但是我们有能力做更复杂的模型,因此我们的点击率又有20%以上的提升。所以大家可以看到,百度新一代模型在技术上是具有全球领先性的。

       再举一个关于赛事预测的案例。今年世界杯预测,我们和其他几家巨头都做了赛事预测,结果百度的预测结果与谷歌、微软等相比更加准确。在这场公平的竞赛中,外界也充分认识到百度大数据的技术实力。国内外的媒体都做了大量的报道,所以有越来越多的机构找过来,希望和百度合作。百度能做到预测最准,有两点很关键,一个是数据,一个是复杂机器学习模型。我们使用了海量的数据,比如有上万场历史比赛的数据,还有博彩公司的赔率数据,我们把各种各样的数据进行融合,构建出多维度球队实力隐形变量模型和多数据融合模型等模型,这样有了数据和匹配的模型,才有可能获得准确的预测效果。

       展望大数据技术的未来,我认为首先要看清现状,大家可以看到百度在技术上是领先的,从某种意义上说,百度和其他几家巨头处在同一起跑线上,尤其在规模上、一些核心技术上,全球可能只有百度和Google做到了,而百度在某些领域上,比如在大规模上,百度已经超越Google,更加领先。那么下一步,百度希望在深度和广度来进一步完善。在深度上,我们还有很多细节去完善,将把规模做得更大,模型做得更好,有能力解决更为复杂的问题。从技术应用的广度来看,我们希望大数据技术不仅仅是用在百度,还希望服务于更多的行业,比如可以用到医疗、金融等更多的行业,希望能给企业带来更多的价值。最后,百度希望把技术的能力开放出来,促进行业升级。这也是我们这次会议的主要目的。

       如何开放技术能力呢?就可以通过百度大数据引擎来实现。百度大数据引擎包括百度大脑,数据工厂和开放云三个组件。我今天主要讲的和百度大脑有关的,特别分享了世界领先的超大规模机器学习的能力,这也是让我们感到非常自豪的。

       这里,我想和大家分享一个具体的行业应用案例。这个例子是关于环境保护的,这个产品叫百度回收站,这个App也是用互联网思维改变传统行业的典型案例。现实生活中,用户会产生很多的电子垃圾,亟待回收;而回收商这边却不知道该去哪里、找谁回收。通过百度的这款产品,就实现了回收商和用户的智能连接,满足了双方的需求,有效的解决了行业困境。另外这个产品还可以搜集大量数据,这些数据可以用来做智能分析,帮助用户和回收商做出最明智的决策,比如告诉回收商应该在什么地方设回收点,如何优化回收的流程,对于用户,我们可以了提供更好的服务,比如提供收购价格指导等,帮助用户更好的决策。这个例子就充分说明了运用大数据技术,做到了很多过去做不到的事情,帮助传统行业升级和创新。

       百度大数据技术还用在社会公益事业上。最近,百度和联合国签署协议,建立大数据联合实验室。这个实验室的目标就是利用百度大数据技术、互联网的思维方式,希望能解决一些全球性的问题。联合国找到百度,也是因为看好中国互联网企业,看好百度的技术实力,尤其是在创新能力上的先进性。而百度也希望不仅能立足国内,对各行业上有所帮助,也希望把这个能力应用到更大的范围,探索如何用大数据解决全球性问题,推动全球可持续的发展。最后,我们希望和在座的各位一起,在大数据方面探索更多的可能性,把百度的技术能力输出,更好的帮助大家。谢谢!

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-12-23 23:55 , Processed in 0.062009 second(s), 24 queries .

快速回复 返回顶部 返回列表