制订需求分析框架和分析计划
明确好分析目标和需求后,针对业务的问题,要制订详细的分析规划和分析计划,精确地把控每一个环节的时间安排。
1、分析的目标转化
再次明确目标,需要把目标转化成可以量化的数据,比如我们的目标是提高整体的付费用户数,具体策略是预测潜在付费用户数,以及即将流失的付费用户数,并且规划一个大概需要挖掘的用户数量的范围。数据分析的核心目标,是如何通过数据科学的方法论来挖掘精准的潜在付费用户。
2、分析的思路
确定问题类型
我们需要挖掘潜在的付费用户,这属于预测类别的问题,所以潜在付费用户的挖掘主要会通过分类模型来预测。
模型选取
常见的分类模型有很多,如 SVM、KNN、逻辑回归等。我们的项目采用的分类模型是决策树,因为决策树更容易转化为业务方可以理解的业务规则。
在实际工作中,经常会发现很多数据分析师,做了很多“高大上”的数据分析模型,也有很好的效果,但是很难解释给业务方听,业务方难以理解整个过程及结果,就很难让模型效果落地,对业务产生实际的价值。
样本选取
初步确定的模型构建的正负样本的时间跨度是 1 个月,将活跃的用户中,付费过和没有付费过的用户分别当作正负样本。
在模型预测的过程中,正样本通常指的是要预测的那个类别对应的样本,反之就是负样本。在分类模型训练时,我们都需要正样本、负样本,以及两种样本所对应的特征。
特征选取
特征的选择是模型搭建中非常重要的一个环节,好的特征选择会大大提高模型的稳定性及预测的准确率。根据最开始和业务方的沟通,确定好可能与付费相关的行为特征和基础属性特征,作为决策树模型的输入特征,把这些特征都先列下来。
对于即将流失的用户可以通过用户的流失周期预测。确定好付费流失用户的定义,并且和业务方确认这种定义,然后通过拐点法找到用户的流失周期,再用流失周期确定即将要流失的用户。一个用户如果达到流失周期还没有发生付费行为,那么这种用户基本就可以当作流失用户。
3、分析的样本
我们要预测潜在的付费用户数,以及即将要流失的付费用户数。因为潜在的付费用户的付费率低,所以我们可以在月活跃的用户中预测潜在的付费用户。同样,对于即将流失的用户的圈选,也是通过一个月的付费用户数,保证我们圈选的基数足够大,否则圈选出来的用户可能会太少。
如果圈选出来的用户过少,后面用礼包或者优惠券触达的用户就会更少,到后面转化成付费用户的就非常少了,基本上对业务的目标没有什么帮助。所以在最开始的环节中,就需要思考和确定好数量,保证最后的转化率。
4、项目风险思考
作为一个数据分析项目,我们需要在分析规划中提前列出项目可能会面临的风险点,以及我们大概可以采取的策略,这样可以更好地把控一个项目的情况,避免后面手忙脚乱,不知道如何解决。
这个项目需要利用分类模型预测付费用户数。因为用户的付费数据非常少,从而导致我们能拿到的正样本(付费过的用户)很少,这样训练出来的模型可能预测并不精准。处理这种情况一般有以下两种方法。
一种方法是可以扩充正样本的数量,比如,我们可以跨度更长的时间提取,原来是从一个月内的活跃用户中提取付费用户数,如果太少了,就可以扩充到从 3 个月或者更长的时间周期去提取付费用户数。
另外一种方法,就是基于现在的正样本,从正样本数据中抽样出一部分数据,然后把这部分数据加到原来的正样本数据中去,这就有效扩充了正样本的数量。
5、项目的落地价值
在这个项目中主要是通过数据分析和挖掘,精确定位出潜在的付费用户和即将流失的用户给到业务方。业务方基于这些目标用户,可以制定相对应的运营方法和策略,增加潜在付费用户的转化,以及减少付费用户的流失。同时,我们的分析还可以洞察付费用户的关键特征是什么,让业务方对付费用户具有的特点有一个全面的了解。
在流失周期方面,确定出来的流失周期可以让业务方了解现有的付费用户经过多久会流失,目前这种流失周期的时间是否正常,从而对整体付费用户的健康度有一个更全面的把控。
6、时间和资源的安排
分别确定好项目的每一个环节所需要的时间和资源的安排。
版权声明: 本文为 InfoQ 作者【穿过生命散发芬芳】的原创文章。
原文链接:【http://xie.infoq.cn/article/98a2f088d9d01618ac372789b】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论