十年前自己还是一个取数工作者,正如我以前说的,取数是数据从业者的基本功,但成就不了一个职业。你总得想办法转型成数据架构师、平台工程师、数据产品师、算法工程师、数据运营师亦或数据分析师。 今天就来谈谈自己的一次数据分析的实践。 基于业务人员想法来取数,最多只是”60分工作”。即便你的需求来源是业务部门老总,也就值60分。何为”60分工作”?就是刚刚满足温饱的工作,让你能赚这份工资,但无法凸显你的价值。 取数让你拥有了从系统中快速获取数据的能力,但如果你还能从数据中发现企业经营活动中的一些异动并且分析出来个所以然来,那价值就大了。 十三年前自己刚进公司二年,很幸运,在经历漫长的取数锻炼后,开始有机会跟同事写一些简单的数据分析报告。今天就以做过的一个2006年4月的话费异动分析报告为例,来谈谈数据分析的套路。 2006年那会儿运营商的话费还是语音为主,每天的语音话单中批价出来的费用基本就是当天的收入了。一般来讲,用户每天的通话量是比较平稳的(除了节假、双休日等特殊时间)。 因此,哪天发现话费波动很大就值得重点关注了,每天发给领导的KPI中,日话费收入是当时最重要的一个监控指标。 一般数据分析报告的结构包括当前现状,问题剖析,分析结论三大部分,当然如果还能针对结论给出后续的解决方案甚至推进计划那就非常好了。 这里的报告原始报告内容用斜的粗体字显示,其它则是自己的思考,希望于你有所启示,资深的数据分析师可以一笑而过,大家都懂的。 一、现状分析 进入4月份以来,虽然日通话用户数持续发展,但全省语音话费和3月份同期比较略显偏低,4月初日均话费比3月初日均话费下降1.6%,这个现象较为异常。 很多分析报告只要能给出现状分析就可以了,也叫形势判断,能够点出问题本身就很有价值。大量的企业经营分析报告就是问题报告,至于怎么解决,那是后续的事情。 那么怎么发现问题? 这个考验数据分析师的基本功,一般有两个要点,一个是选择合适的监控指标,另一个是选择合适的比较维度。 1、选择合适的监控指标 每个企业都有一套KPI指标体系,围绕KPI指标还有一系列的执行监控指标,比如4G用户数是KPI指标,4G飞享套餐的定购量则是执行监控指标,前者是果,后者是因,没有后者,前者就缺乏执行中的抓手。 理解概念是掌握知识的基本功,很多人在追求某个东西的时候,可能连那个东西的定义都不清楚。如果脑子里的一个概念不准确,或者没有准确、正确的定义,那么必然没办法准确、正确的继续思考下去,进而产生的连锁反应是,因为定义的不准确,所以思考范围模糊,选择依据缺失,进而行动错误…….。 作为数据分析师一定要对企业的核心指标体系有深入的理解,这是做数据分析的人要搞懂的基本概念。 要掌握指标的具体口径,比如电信通话用户数净增该怎么理解。 要理解指标之间的关系,比如通话用户数和通信用户数有什么关系。 要能指出指标之间的差异,比如4G使用用户数和4G到达用户数的具体差别等等。 还要熟悉指标的各种表达形式,有的指标要关注绝对值,有的要关注比例值,更有的要关注比例的比例值。比如针对用户发展情况,你既可以用绝对指标“新增用户数”,也可以用比例指标“新增用户增长率”,还可以用份额指标“新增用户市场份额”,甚至用比例的比例“新增用户增长率的增长率”,全赖于业务的重点是什么,一般都会跟着考核大旗。 大量的报表和取数有利于你熟悉这些概念,只有对指标有透彻的理解,数据分析师才有资格、更有可能挑选出合适的指标或者组合来监控业务的异动。 各个行业的指标体系差异很大,因此,数据分析师往往都带有强烈的业务背景,比如互联网公司关注的是基于流量的漏斗指标体系,运营商可能是围绕四轮驱动(移动、家庭、政企及数字化)来设计指标体系。 数据分析师领域,隔行如隔山。 2、选择合适的比较维度 有比较才有鉴别。 空间、时间、实体是三个最为核心的比较维度。老板可能看绝对指标没感觉,但往往能通过比较发现相对的变化。比如这个话费分析的驱动就来自于“老板觉得4月初话费有点异常……”。而这个异常显然是老板头脑中与历史的经验比较出来的结果,当然也可以基于机器预设的一些阈值触发。 那么,怎么比较呢? 第一种是空间的比拼,比如行政区域的维度,假如小张是A1地市的老总,小王是A2地市的老总,大老板看了发展数据后,就会这么说,虽然A1的增长率还可以,但A2的增长率比你高啊,A1你要向A2学习啊。然后又话锋一转,A2啊,虽然你比A1好,但增长率还是没跑过所有区域的平均增长率啊,因此你俩都有问题。 你看,异常就是这么相互比较出来的,而空间的比较维度非常多,大到国家,小到乡镇甚至网格。 第二种就是时间的比拼,比如环比,同比以及衍生出来的各种比。核心要义是你要找出两个可以比较的时间段,尽量保证这两个时间段内相关属性一致性。比如4月3日跟5月3日比较,都是月初同一天,假如发现异常,可能就是业务的问题,而不是其它噪声。假如你要比较2月1日和1月1日,可能就不对了,因为1月1日是元旦,你发现的所谓异常有可能是节日的因素。 总是要遵循AB测试的原则,一定要确保其他条件都正常的前提下进行异动的判断,从而证明如果有异动,就是业务的问题,否则就失去了意义。 比如前面的4月初日均话费比3月初日均话费下降1.6%,时间上比对的是3月2日-3月7日与4月1日-4月6日二个时间段,为啥这么选时间,因为这样保证两个观测周期内都有4天工作日和两个双休日,而工作日和双休日是没有可比性的。 第三种就是实体的比拼,一般都会找类似的实体进行比较,比如竞争对手,同类的商品等等,我们所谓的学习最佳实践,就是通过跟最好的类似实体进行比较,从而发现自己的短板。 最后还有量纲,绝对值,比例等等。 以上就构成了现状分析的基本方法,你会发现空间、时间、实体及指标四个要素一旦结合,就形成了无穷无尽的发现问题的套路,你需要选择特别的组合来最大可能的发现异常,这个考验数据分析师的功力。 而BI很大程度上就是用一些可视化技术来进行指标比较的艺术,有助于你更快、更直观的发现问题,毕竟人脑对图表、图像的敏感度更高。 比如饼图比的就是实体,趋势图比的就是时间,诸如此类,但都逃脱不了这个本质。现在市面上有各种关于比较分析的工具和书籍,这里就不累述了。 二、问题剖析 根据以前的话费分析报告显示,话费的降低主要是通话次数的降低造成。通话次数降低的可能原因有两个:1、用户通话话单在处理的过程中有丢失;2、用户通话需求存在萎缩。 看到通话次数下降,有经验的运营商数据分析师马上就会能想到这两个首先思考的方向。如果你没有经验,可能傻呼呼的马上做分析了,这体现出了经验的价值。就好比下棋,大多是有定式的。 现实中,大多数据分析都有现成的套路,你只要跟着老师傅学,看多了,做多了,总是能慢慢上手。 为什么要关注“用户通话话单在处理的过程中有丢失”,因为以前出现过,次数还不少,比如正好前一天数据仓库割接,正好网络源头话单积压等等。因此,老师傅总结经验道:数据往往是不可靠,你得首先确保数据不出现问题。 记得当初自己负责数据仓库,一旦业务指标有波动,市场口的分析师往往先来确认数据是否有异常,而不是急着从业务上找原因。 在这个案例中,为了核实指标数据是否存在有问题,我们找了第三方的网络侧的数据来侧面验证准确性,这是非常科学的。 通话时长是计费话单中原始时长的累计,单位为秒,与衡量网络话务量的无量纲指标ERL值具有相似的涵义,具备一定的可比性。正常情况下,两者的走势应该是基本一致的。因此,通过两个源头获得的指标对比,可验证话务波动的合理性。 从图中可以看到, 4月初通话时长与网络ERL的走势基本是一致的,说明我们怀疑的第一个因素:语音话单在处理的过程中有丢失的可能性基本不存在,那么我们将从其它方面寻找导致话费下降的可能原因。 第一个假设不成立,只能推测第二个假设成立:用户通话需求萎缩。 那么问题马上来了,什么原因导致了需求萎缩? 数据分析师总是希望获得因果,但大多的原因却是基于经验预先猜测出来的,然后数据分析师挑一些出来进行验证。基本上,你不可能穷举所有的可能性,数据也不可能都支持。 为了防止不着边际的猜测,会采用结构分析,层层下钻等方式进一步缩小目标。当然这也依赖你对于业务的理解能力和逻辑的判断能力,否则你根本没有内容来填充这个结构,也找不到父与子的关系。麦肯锡方法,金字塔等都是很好的思维模型。 其实你不需要刻意去学习这些思维模型,因为前辈的分析报告实践就会教你什么叫做滴水不漏(让别人以为),逻辑严谨,你做多了就形成了套路,以后甚至还会有强迫症。以下是一个逻辑树示例。 假如你发现客户流失导致的收入下降比例最大,你可能就定位这就是主要原因了。但姑且不说穷举的是否完整,关键是很多列举出来的原因是无法用数据证实的,比如上面的管理不当。 但如果什么都能用清晰的规则进行表达,那用机器就可以替代数据分析师了。数据分析师的价值就在于能基于有限的数据、在有限的时间内、面对不确定性给出较为合理的解释,没有所谓全量的大数据,数据分析师面对的是绝对不完美的数据环境。 回到那个案例,话费下降的原因其实非常多,比如用户数流失、竞争对手的动作、产品资费的变化、用户行为的变化等等,我怎么确认是哪一个? 设计下面一张表可以基本确认“用户行为的变化”是主因,因为用户数在增长、资费没变化、竞争对手的影响基于业务经验忽略,而人均通话费下降了这么多。 从上表的数据中我们看到虽然4月初日通话用户数比3月初同期还是保持了1.4%的增长速度,但是人均日通话次数却有一定的下降,这个下降不仅抵消了通话用户增长所带来的话费贡献,还拉低了总的话费收入。这个拉低效应,可以从人均通话费下降近3%的数据来得到验证。 那么,在资费没有下降的情况下,是什么样的行为导致了人均通话费下降这么多? 我们猜测是天气的原因,见下图,4月初工作日的话费(比如4月3日)相对3月初工作日的话费(比如3月2日)有很大下降。 由于4月初前期几天气温较高(4月3日是工作日,杭州最高温度达到30摄氏度),几乎直接从春季跨入夏季,从4日开始临近清明天气又间歇性出现雷雨现象,比起3月初春光明媚的气候来说舒适度相对较差。受天气因素影响,日话费下降1-2两个百分点是比较正常的。注意3月1日,3月2日,4月3日,4月4日是四个周末,根据经验,周末通话会大幅下降,因此仅比较工作日。 大数据时代虽然强调相关,但找到了因果则可以解决一系列问题,甚至能预测未来,数据分析师总是被要求解释原因。 那么这次猜测的依据是什么? 还是数据分析师的经验、常识和逻辑。以前碰到过的,数据分析师就可以走以前的捷径,领导要的是一个结果,而不是分析的多么复杂,花了多大的代价。 你没经验,根本不可能想到还有天气这个维度。 当然如果天气的假设不成立,则进一步的结构分析是显然的,分地域,分人群什么的,在这个过程中反复循环迭代,直到找到你觉得能自圆其说的那个原因。 那个时候我们有很多的分析常识,比如只要下雨天话费就会下降4-5个点,一种原因解释为也许出门在外的人一手撑雨伞一手打电话不方便,而对于呆在室内的人来说,由于接到室外人的电话少了,因此话费也少了。 还有就是从心理学,行为学的角度去解释,也许连绵的阴雨抑制了人们沟通的欲望。 因此,一定程度上来说,运营商当年也是靠天吃饭啊,最好天气不要太冷,也不要太热,更不要下雨下雪,也许人们心情好,电话就会打的多。当然那是十年前,现在显然这个规律不成立了,因为上网跟打电话的性质完全不同。 每个行业的数据分析师都有其独一无二的的经验,虽然现在市面上的数据分析课程蛮多的,但其实真让授课老师来分析一下你的行业,估计也是一个“死”字。 数据分析师其实是一门行业经验的学问,当然如果逻辑能力很强,综合素质很高,也许能上升到更高的层次,但没有行业经验,肯定是不行的。 三、分析结论 最后我们的报告结论是这样的,综合上面的分析,可以对4月初话费略有下降的情况做出如下结论: 1、计费系统、经营分析系统语音话单入库基本没有问题,日通话时长与ERL变化趋势基本吻合。 2、4月初日人均通话次数减少对日话费收入产生了一定的拉低效应。 3、4月初天气暴热、阴雨对日话费产生了一定的影响。 老板对我们的分析还是认可的,邮件回了两个大字:“感谢!”这对数据分析师应是最大的褒奖了吧,因为大多数时候,老板会说:“原因还是不够明显,继续分析一下。” |