【案例分析】解决用户流失问题，数据挖掘工具怎么施招？

shuzhilian123 · 发表于 2016-11-3 11:24:25

导读：地久天长的爱情故事总是让人向往，但分手总是来的让人不知所措。如果我能早点知道你为何对我不满，会不会没有走到尽头的一天？同样的戏码也总是发生在企业和用户的身上，如何早知端倪并采取挽回措施，且往下看。

背景与问题

某运营商的用户在使用该公司提供的某套餐过程中，可能因为价格、服务等等各种原因选择继续使用或停用该套餐。对该运营商来讲，如果能够提前预测到哪些用户可能会流失，并找到用户对该套餐不满的原因，进行适当调整，便能最大程度将用户挽回。运营商提供了该套餐的用户数据，希望能预测客户是否会流失。

客户是否会流失的信息很可能隐含在他的通话时间、短信使用、消费情况等信息中。

数据挖掘平台iCloudUnion利用自带的算子快速建立起流失客户的预测模型，帮助运营商根据历史数据分析用户是否会继续使用该套餐，并有针对性地采取挽回措施。

解决方案

在该案例中，客户分为在网客户和流失客户两类，预测客户是否流失为一个分类问题，可尝试选用决策树、随机森林、迭代决策树等分类算法，根据分类效果确定最终模型。

主要分成两个步骤：

第一步：训练和测试分类模型，预测客户是否流失。

第二步：在该套餐数据其他时间段的新数据集上检验训练出的模型效果（训练用了3个月数据，新数据为其他的1年左右的数据）。

第一步：训练和测试分类模型

训练分类模型

上图所示工作流主要分为数据切分、训练分类模型、利用模型分类这几个步骤。

数据切分

在网客户数据量为10万条，流失客户数据量为1万7千条，考虑将在网客户数据三等分（SplitDataByPercent算子），流失客户数据二等分（SplitDataByPercent算子），互相融合（Union算子）形成3份数据（每份数据包含约33000条在网数据和8800条流失数据）。

训练分类模型

用三组数据分别训练出一个决策树分类模型。

利用模型分类

将三个模型和三组数据交叉验证进行分类，可以防止模型过拟合。

输出的结果我们可以双击PerformanceClassification的右端View接口看到，可以对比各个模型的分类效果。

同理，可以构建随机森林和GBDT的分类工作流，经过对比发现GBDT的分类效果最好，具体结果如下表所示。

表 1 模型测试结果对比

GBDT的混淆矩阵如下图所示：

图 8 GBDT模型应用所得的混淆矩阵

第二步：在该套餐数据其他时间段的新数据集上检验训练出的模型效果

多模型应用效果检验

读取和合并新数据，并用三个保存的模型进行分类，同样双击View可以查看分类效果，具体如下表所示：

表 2 在新数据上的模型测试结果对比

图 10 在新数据上GBDT模型应用所得的混淆矩阵

在新数据上测试结果：在网用户预测正确率99.05%，流失用户预测正确率88.39%。

实施效果

此案例中，我们通过训练的GBDT分类模型可以非常精确（97.45%）地辨别出某用户是否会流失。

用户基于此模型来针对性地设计客户反馈方案，对易流失客户进行访问和分析，从而提高服务质量和业务水平。

收藏本站