搜索
大数据中国 首页 大数据技术 数据挖掘 查看内容
淘宝、腾讯、豆瓣、支付宝、大数据分析与BI实战
2013-10-14 23:10 |来自: IT专家网| 查看: 13896| 评论: 0
2013大数据豆瓣网易淘宝腾讯CSDNSDCC摘要:2013中国软件开发者大会于8月30-31日在北京新云南皇冠假日酒店盛大开幕。作为年度最具实战的技术盛会,大会云集了来自国内外一线互联网和企业级软件公司的顶级专家,就大数据等话题和参会者进行了深入分享与探讨。
  【CSDN报道】2013中国软件开发者大会(以下简称SDCC)于8月30-31日在北京新云南皇冠假日酒店举办。作为CSDN和《程序员》杂志倾力打造、千人规模以上的顶级技术盛会,今年SDCC 2013以“软件定义未来”为主题,来自于国内外一线的技术精英,就大数据分析与BI、架构实践、研发管理、IT基础设施与运维、产品与设计、开放平台等专题和参会者进行了深入的分享和探讨。此外,32小时编程马拉松、CTO论道论坛等量身定制的特色环节也受到了参会者的强烈关注。
  在第二天开放平台“大数据分析与BI专题论坛”里,我们邀请到了豆瓣网首席科学家兼副总裁王守崑、淘宝广告算法负责人王勇睿、网易杭州研究院技术经理吴一男、腾讯数据中心数据挖掘研究员肖磊以及支付宝平台数据部数据仓库技术专家严奉化(丁奉)。


  大数据时代兴趣图谱和社交图谱融合
  豆瓣网首席科学家兼副总裁王守崑表示,大数据具有以下的几个特性:(1)大数据应该是超线性增长的。(2)大数据需要有非常复杂的数据结构,或者说是相对复杂的内部结构。(3)低成本。
  大数据时代豆瓣是怎么做兴趣图谱的?王守崑给出了这样的总结:
  逐步把兴趣图谱的信息和社交图谱的信息融合在一起。
  抓住时效性、系数性,通过各种各样的特性来衡量这种推荐效果。
  使用各种各样的模型,通过Boosting去分析问题。
  社交图谱在语义上也是有非常高的复杂性,整个自然元素的领域对于语义也非常好,因为语义的复杂性更增加了这样的困难程度。另外,数据太大是一个很大的问题,豆瓣把IO Bound转化成CPUBound,相对完美的解决了数据太大所带来的问题。
  王守崑在演讲结尾时说,个性化推荐是前所未有的好机会,有成熟的技术准备,接触大数据的成本非常低,有非常好的数据源和基础服务。除此之外,移动互联网让用户有更大的兴趣分享私人数据,所以从技术和数据的准备上来说都是非常成熟的。
  淘宝广告算法负责人王勇睿为大家分析了解决算法问题的细节,从产品的主要的特点来说包括这样几个主要的信息源:
  创意的信息,创意指的是广告或者我们推荐的商品。
  浏览者的信息,就是谁在看这个网页,构成了个人在站内留下的所有行为信息。
  场景的信息,这个场景在淘宝的矩阵里面比较丰富,目的是给用户推荐恰当有序的结构。
  王勇睿讲到,定向的技术包含不同的定向维度,还有不同的技术。而定向技术中为何采用多种维度来分析数据呢?原因不外乎以下几点:1)非搜索场景的意图模糊。2)意图选择路径并不唯一。3)意图稀疏的时候需要多种维度的补充。4)疲劳问题等等。

                                            图为定向算法架构
  最后他还说到,因为没有负反馈的产品和数据,所以在未来的设计里要增加负反馈。人为的控制正反馈负反馈的数据比例,这是难度很大的工程。
  网易通用搜索优化之道——系统实现与数据分析
  吴一男表示这个产品经过了通用搜索、云服务和数据应用这几个历程。通用搜索系统主要的关注目标是系统的实现功能。云服务关注的点是整个产品在使用和运维过程的应用型式和运维成本。接着就是关注搜索数据,这主要是为了满足真正的产品业务的要求。
  网易内部的互联网产品其实各个产品有自己的一些独立的需求,或者业务上的一些不同,内部有一个专门的通用搜索这块的东西,能够支撑网易的其他的互联网产品。相关的产品像开源Solr Elastic Search。亚马逊和阿里也都有了云搜索,通用搜索淘宝近期也推出了TSearcher搜索技术,和网易的Solr Elastic Search差不多。


  吴一男最后透露,网易通用搜索在未来的发展方向和目标是:
  完善服务化/云平台建设。
  数据可视化,基于数据驱动的改进。
  搜索个性化,与用户数据的结合。
  加强移动端搜索应用。
  扩展应用领域,提高用户体验标准。
  腾讯个性化推荐系统设计及实现
  肖磊说,腾讯去年的个性化推荐主要在两个领域,一个是搜索广告的推荐,另外一个是微博上的推荐。另外在电商方面也做了推荐。他还表示,腾讯不管做视频的推荐、广告的推荐还是电商的推荐,本质上都是基于用户做的推荐。
  他说,推荐实际上主要涉及三个元素(称之为3P):用户、ITEM和场景。这三个元素和用户的反馈数据之间的关系是非常紧密的。(用户的反馈数据包括用户的点击数据和曝光数据。)解决的办法(称之为3S)从三方面入手:数据、系统和算法。
  肖磊最后总结说,腾讯个性化推荐系统的设计基于两大核心平台:腾讯分布式数据仓库(TDW)、实时推荐平台(APOLLO)。这两个平台主要服务于不同的推荐,分类完成推荐任务。
  支付宝风控BI模型的发展之路
  BI模型的发展之路是从2009年T+1的时候开始的,当时针对机器码注册现象,就做了识别。后来模型发展起来的时候,整个防控是以规则为主,模型为辅。到了2011年的时候,严奉华团队在线上做了模型平台。BI模型大规模布置之后,对整个模型平台的运转起到了很大的作用。 未来的目标是模型为主,规则为辅。


  支付安全和用户体验之间是有冲突的,业务增长和运维增长也是有冲突的。为了解决模型上的弊端,实现业务上的增长,化解冲突的办法就是加入一层可信体系,这样的话用户体验也好了,运维上的困难也解决了。

免责声明: 除非特别声明,文章均为投稿或网络转载,仅代表作者观点,与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果本文内容有侵犯你的权益,请发送信息至ab12-120@163.com,我们会及时删除

最新评论

关闭

站长推荐上一条 /1 下一条

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-12-23 16:43 , Processed in 0.041170 second(s), 23 queries .

返回顶部