搜索
查看: 3074|: 0

【大数据千人会微信群20140827期交流纪要】傅志华-大数据如何在企业落地

[复制链接]

75

主题

0

回帖

299

积分

中级会员

积分
299
QQ
发表于 2014-9-3 15:07:59 | 显示全部楼层 |阅读模式
【大数据千人会微信群分享】20140827期:傅志华-大数据如何在企业落地
中国互联网协会大数据工作委员会(筹)推出“大数据千人会”论坛,每周三晚8点30分开始,在“中国大数据千人会”微信群进行交流与探讨。本期我们特别有幸邀请到美国互联网上市公司数据中心副总经理傅志华为大家带来《大数据的开放式创新》的演讲。




演讲主题:大数据如何在企业落地
演讲嘉宾:傅志华美国互联网上市公司数据中心副总经理、中国信息协会大数据分会理事
执行主席:夏明武(专注工作于商业智能BI9年)主办单位:中国互联网协会大数据工作委员会(筹)
交流时间:2014年08月27日 20:30(周三)




演讲嘉宾介绍
    傅志华先生在互联网行业、产品与营销研究有超过十年的经验,谙熟数据分析数据挖掘方法。曾为腾讯社交网络事业群数据中心总监以及腾讯公司数据协会会长。专注于移动互联网、社交网络、开放平台、APP、网络游戏以及网络会员服务的深度研究,并通过数据分析和数据挖掘支撑互联网产品精细化营销。在腾讯前,曾就职于艾瑞市场咨询、易观国际、中国互联网协会,并任DCCI互联网数据中心副总裁,在此期间,傅志华先生曾对互联网主流二十多个细分领域进行研究,并对移动互联网、电子商务、网络游戏、社会化媒体以及网络广告等领域进行深入的跟踪研究,并在多家IT类杂志发表文章。
    傅志华先生现任一家美国互联网上市公司数据中心副总经理,中国信息协会大数据分会理事,同时积极致力于推动大数据支撑企业运营和大数据经验交流。

演讲内容:
傅志华大数据千人群分享2014.8.27
    先自我介绍下。我是傅志华。一直做互联网数据研究和数据挖掘有十年了。今天要分享的内容基本上是我经历的一些经验总结。也希望各位专家多多指教。今天我要分享的主题是大数据如何在企业落地。大数据的应用有很多方向,我主要是比较关注这个方向。
    我总结过一个数据价值金字塔在企业运营中的应用模型。该模型对应的是企业运营中的不同层面的数据需求,今天我们简要的对这个模型一起探讨。


    先看最底层:数据基础平台层。
    数据基础平台层是金字塔的最底层也是整个金字塔的基础层,如果基础层搭建不好,上面的应用层也很难在企业运营中发挥效果。没有数据或者没有高质量的数据,所有的分析都是误导,所有的数据挖掘都是错误的引导。这一层的目标是把企业的所有用户(客户)数据用唯一的ID串起来,包括用户(客户)的画像(如性别、年龄等)、行为以及兴趣爱好等,以达到全面的了解用户(客户)的目的。这一层的目标要做好有一个前提和三个关键:
关键1.企业需要确定打通数据的唯一ID,有的企业是用会员注册号,有的是手机号或者身份证号等等。
关键2.跨部门整合数据的问题。有大数据的企业通常部门都比较多,用户(客户)的各种行为和兴趣爱好数据散落在不同部门,需要企业有意识强有力的去整合;我见过很多银行内部各个部门的数据都没打通,数据打通才有产生更大的价值。
关键3.通过技术手段和规范手段把数据管理起来,这里解决的问题是存在数据仓库里面的数据具体的含义是什么,以及如何高效的存储和计算,涉及到数据接入系统、元数据管理系统和计算任务调度等系统。
我看到有很多企业都是用数据字典的方式来管理数据但这种方式有很多问题理想的做法是用元数据管理系统,大家有任何字段的更新、增加、定义的更改等,都要用技术系统的方式来记录和沉淀。
我刚才说做好这一层有三个关键和一个前提。以上说的是三个关键。前提是什么?前提是企业高层的重视。因为数据部门是成本部门,前期很难有比较多的产出。老板要有耐心和对数据价值的理解及长期的规划。
我们再看这张图的第二层,业务运营监控层。

    按我的经验,做BI分析,至少有三分之一时间在解决一个问题。这个问题就是:为什么我的某某数据跌了?活跃为什么跌了,用户数为什么跌了,收入为什么跌了?我统计过我们的BI人员大致有20-30%的时间在解决这种问题。但是,我发现,有很多分析思路是比较相似的,为什么不考虑用数据产品工具去解决这种问题呢?有很多分析下跌原因的思路是一致的。这也是老板使用数据做多的场景。如果这里面做出彩了,比较容易受到老板认可。所以,我们首先要做的是清晰的梳理业务运营的关键数据体系,在此基础上通过智能化模型开发出来的数据产品,监控关键数据的异动,并可以快速定位数据异动的原因,辅助运营决策,如果企业构建了实时计算的能力,那么很多业务运营中问题就能过及时的发现。这个逻辑要和业务人员一起制定。
我们自己开发过一个异动监控工具,是这样的:

    大家可以看这张图,大家应该用过mindmanager这种头脑风暴用的工具吧,我们找了一个开源的脑图工具,直接封装在BI系统里面,把某kpi数据封装在这个脑图里面,通过这个脑图可以把kpi数据不断的下钻或者关联分析,大家仔细看这个脑图,图上的节点是有不同颜色的,红色表示跌的比较厉害的点。每个节点上会封装这些数据:该节点占母节点的占比(表示这个节点的重要性)、环比、同比、节点名称、节点具体的量值。腾讯云分析大家可以用qq号登陆看看,http://mta.qq.com/

    业务监控层 我认为最重要的是要梳理好不同的专题分析模板,然后把每天的数据灌进去这个模板,每天更新和监控。方便定位不同类别的问题。
    第三层。用户/客户体验优化层。

    这一层面主要是通过数据来监控和优化用户/客户的体验问题。这里面既运用了结构化的数据来监控,也运用非结构化的数据(如文本)来监控体验的问题。前者更多的是应用各种用户(客户)体验监测的模型或者工具来实现,后者更多的是通过监测微博、论坛和企业内部的客户反馈系统的文本来发现负面的口碑,以及时的优化产品或服务。
    先看结构化数据方面的应用:

    比如,我们通过漏斗模型监控业务关键环节的转化率。重点是要按天监控不同环节的转化率的异动,一旦发现明显的异动,便要通过告警的方式通知相关运营的团队,及时发现体验的问题。如下图:

    每种业务,不一定是电商,都有他的业务关键转化漏斗,一旦发现某个环节的转化率有突变,一定是用户体验出了问题。
非结构化部分我们是通过爬虫和文本挖掘的手段实现。业内叫舆情监控或口碑监测。即通过爬虫技术抓论坛、微博等社交媒体上用户对产品的讨论,以及时发现产品体验的问题。企业一般最重视的负面评价,我研究过很多国内外的舆情监控或者口碑监测工具,感觉都还有待优化。
    我认为完整的口碑监测应该是这样的:

大家看这张图,但很多企业除了看负面,删帖之外,很少企业用来做产品改进,我听说宝洁等一些大品牌会做这种事情,看用户网上尤其是电商里面的评论,来改进产品。
舆情监测维度有几大关键:信息所在的圈子、所述信息是否与消费者关键购买因素相关、信息诱发的因素以及谈论着的影响力。但业务的监测往往是集中在正负面,比较少分析这些因素。

    除了对舆情信息模型和应用价值的理解外,还有整个舆情监测面临的问题,就是语义判断的准确度的问题,整个行业最高的准确度最高也就60-70%吧。
先小结下了:业务运营监控层和用户/客户体验优化层最终希望实现企业运营的智能化医生。这两层面做出的工具好比是体温计、血压计、B超、CT等工具,我们用这些工具就能快速透视企业运营中那一模块产生问题。我个人的理想是能够为不同行业不同企业,设计出能够对企业运营不同环节进行深度体检,及时甚至是提前发现问题的智能化数据工具。
    第四个层面了:精细化运营和精细化营销层。

    这层面有四方面事情:
    1.构建基于用户/客户的数据提取和运营工具。运营和营销人员通过简单的条件配置(如选择男性、18-24岁以及特定兴趣爱好),便可把数据(用户/客户)提取出来,对数据背后的用户/客户进行营销或运营活动;
    2.通过数据挖掘的手段提升客户对活动的响应(如点击率),常见的算法有决策树、逻辑回归等等;
    3.通过数据挖掘的手段进行客户生命周期管理。我们可以可做到实时对不同生命周期的客户进行实时标记和预警,并把有效的活动当成商品一样及时的推送给不同生命周期阶段的客户;
    4.客户个性化推荐。主要是用个性化推荐算法实现根据用户不同的兴趣和需求推荐不同的商品或者产品,以实现推广资源效率和效果最大化。
     由于时间关系,我这里面里重点分享一下第3个,即客户生命周期管理:

    什么叫客户生命周期管理?《王永庆传》里面讲到,米店老板每天收集客户用米的情况,了解家里有几个人,每天吃多少米,他这样计算家里的米大概什么时候要吃完了,待客户的米快吃完的时候,提前给客户打电话了解是否要继续买米,这样他的营业额有大大超过了同行的商家。这是很典型的一个数据采集、挖掘,然后产生效果的过程,这就属于用户生命周期管理。
    再看一个案例,这是一个端游的生命周期情况。

    这是端游(大型网游)的生命周期,我相信每个行业的客户都是这样的,它到了一定阶段以后,要么就保持,要么就掉下来。我们发现这个游戏的生命周期大概是在20周左右,这还是比较长的,如果是网页游戏或者手机游戏,它可能会更短一些。客户所处不同的生命周期需要做的事情是不一样的,我相信研究过生命周期管理(CLM)的人都很清楚。客户潜伏期需要做客户识别,发展期和成熟期要做关联交叉销售,成熟期还要做客户防流失。我们今天重点分析客户生命周期的两个阶段,用大白话就是拉新和防流失。
    关于拉新:

    比如说我要买车,买车之前一个月你突然会对汽车类的论坛、网站浏览量上升很多,你之前可能是随便看一看,甚至根本不看,在你快买之前,你的浏览量突然上升了。这个特征就相当于他的行为突然飞速的上升,它的斜率变得很高的时候,我们认为这种人转换成买车的客户的概率是很高的。因此,如果我们能把这些特征通过各种特征挖掘的算法找出来以后,我们就可以定位这个高潜用户。但是前提是说,你有没有汽车网站的浏览信息,如果没有你就做不到。所以你就不能谈什么数据挖掘。有很多企业是由于数据不够,所以效果很差。所以出现了数据交易,数据开放的趋势,不知可行性如何。由于没有数据,或者没有足够的数据去理解用户,很难做出一个效果好的数据挖掘。所以有一些先进理念的企业会愿意和DMP平台交换数据。
    我们看一个具体的应用的案例。以下是这款应用的生命周期、活跃度和流失率情况。

    对于这款应用,我们要进行潜在付费用户识别,或者叫拉新(如上图的阶段“1”)。比如,我们的目标是要预测用户这周会不会付费,我可以看上周已经付过费的用户,反过来看他前几周有什么样的特征。即我用过去几周周的数据去建模,通过机器学习的方法(如罗吉斯特回归、决策树等)识别高概率付费用户的特征,对于高概率用户,我们每周都有一个预测的概率给他打分,概率高的用户我们把他自动标识出来,然后给到运营人员去做活动。
而对于用户防流失,我们建议重点研究新用户的流失预警。还是上面这个例子,某付费应用,在用户即将付费前,用户的活跃行为是非常高的,付费以后它的活跃度继续增长,但是付费了一段时间以后,由于用户的产品体验和之前的预期差距越来越大(因为他原来付费的时候觉得这个东西非常好玩),也许他有一些产品的功能点没有体验到,他就对这个产品的失落感越来越明显,活跃度就会下降。这就是新用户阶段的一个常见的现象,我观察了大量的应用和游戏,新用户磨合期的用户流失率比较高,常常是比成熟期的用户流失率还高。所以,用户防流失的重点常常是放在新手用户磨合阶段。

用户流失预警的思路和高潜客户识别的思路类似。即我用过去几周周的数据去建模,通过机器学习的方法识别高概率高概率流失用户,我们每周都有一个预测的概率给他打分,概率高的用户我们把他自动标识出来,然后给到运营人员去做活动。
    我们发现,互联网业务的客户防流失预警效果最好是在新用户磨合阶段。所以做客户生命周期管理的数据挖掘,少碰成熟期的客户防流失。要跟运营人员说清楚原因,通过大数据,我们可以每天定位我的用户情况,给每个用户打上高潜付费标签或者是新手用户高流失风险标签。我们还可以通过算法去计算,不同类别标签的客户对哪类活动更感兴趣,利用个性化推荐算法的思路,把活动推给不同标签的客户。这样,活动就可以像商品一样推荐给不同状态的客户了。
在客户生命周期方面,我再简单提一下:还有一种客户生命周期是人的生命周期。生命周期有很多种,人也有生命周期,比如说怀孕,这是很关键的生命周期,如果我知道她怀孕的话,我就知道给她推荐什么。或者说我知道她小孩要上小学,我就知道她要买什么;我知道一个大学生要毕业,我也知道他要准备买什么。这些人生的重要生命周期也可以作为一个标签打到我们的数据库里面,作为我们推荐的时候用的很重要的纬度。





2.jpg

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-23 20:04 , Processed in 0.090617 second(s), 28 queries .

快速回复 返回顶部 返回列表