回归分析中的道与术
回归分析作为统计学最基本的一个工具,大家对 Y 与 X 都是司空见惯。回归分析=Y+X, 但是结合实际业务情况,确认什么是 Y,什么是 X,则别有一番趣味。
怎么分析业务?分析业务的目标是什么?分析业务就是要分析业务的核心诉求,并且理解这个核心诉求和数据之间的关系。任何数据分析,如果你想创造业务价值,一定是分析业务先行,业务分析是最重要的,分析业务的核心目标就是在回归分析思想的加持下,是要把一个抽象而笼统的业务问题,把它具象成一个数据可分析问题。一旦一个抽象的业务问题变成具象的数据可分析问题,则在数据分析层面,可执行性就要好很多。什么样的问题叫做数据可分析问题?如果一个问题,他有清晰定义的 Y 和清晰定义的 X,那个这个问题就是数据可分析问题,否则就不是数据可分析问题,这时候数据分析是帮不上忙的。
1.什么是回归分析中的 Y?
Y 即为业务的核心诉求。举一个小例子:一个女生想找一个帅的男生当男朋友,则如何定义帅就显得很重要。假如女生说会打篮球的高个子男生就是帅的,则核心诉求 Y 就是找个高个子会打篮球的男生,核心诉求很清晰;假如女生说“高富帅”的男生才是真帅,那这种情况下,同时满足高富帅,三者一取交集后可能为空值。这个例子中一定要在高富帅中排出优先级,找出最在意的点。业务诉求中一定要找出最重要的 Y,数据分析最好只有一个 Y,业务诉求多,那核心目标就不清楚,等价于没有诉求。因此定义核心诉求,比数据分析更为重要。
如何找到 Y?有些业务场景下 Y 不容易找到,比如一个高端品牌的汽车制造商希望做一个数据分析,建立一个打分体系,判断哪个客户的价值高,哪个客户的价值低,则制造商的核心诉求是区分客户价值高低。随之而来的问题是:
①为什么要区分客户价值的高低?根据制造商介绍,公司每年有预算礼品盒服务反馈给客户,现在无法区分客户价值,只能平均分配,这并不能形成最有分配,应该更向高价值客户倾斜。其次,通过营销和市场活动来聚拢客户,希望重新激活客户,如何评价这些活动的效果,需要一个指标评价各类市场运营活动的效果,因此需要一个价值打分。
②什么叫客户价值?什么是价值高?什么是价值低?最终定下来的依据是客户创造的收入越高则价值越高(卖车或者 4S 店的收入都可计入)。
③是否客户价值高可以用各类收入简单加总来衡量呢?业务经验表明,同样是 1 万块,对买车价值增量不高,但是对买保险价值更高。用户花一万块钱在保险上,后面会带来更多的未来收入。
综合以上三点,该汽车制造商谈的是未来的收入,核心诉求是区分出未来收入更高的客户。因此模型中用当前的收入作为因变量 Y,而用前一期的消费者的各种特征等因素作为解释性变量 X。
没有完美的 Y,只有大方向正确的 Y。譬如移动运营商调查客户流失率,以更好的运营客户。那怎么定义客户流失率呢?客户亲自去营业厅销号算流失,或者连续三个月号码无任何活动的算流失。两种定义都有用,但都不是完美的。因为客户可能存在销号后悔又办回来的情况,或者客户在 3 个月零 1 秒的时候有活动迹象。因此只能在相对合适稳定的范围内尝试,然后挑一个定义,核心大方向正确即可,不纠结于完美的 Y。
2.什么是回归分析中的 X?
什么是 X 变量?X 是影响 Y 的所有的其他的相关因素,比如理解一个人的信用行为,需要找出影响信贷的各类信息,如刷卡交易、简历信息、社交网络等,这些信息可以建立和信贷之间的相关关系。X 采集的越多,测量的越准,则对未来和价值的把握更高。
不同的 X 带来不同的预测精度。大家经常会有的误解是一个模型或者长远预测精度的提高主要靠模型高大上。其实这种看法是错误的。模型很重要,但是模型大家的方法都差不多,预测精度大同小异,只是在不同的场景中经过不同的工业化调整。因此给定技术资源和手段后,大家的预测精度的上限是一样的。此时谁有独特的 X,谁就能突破这个上限。谁有更好的 X,谁就能更好的预测能力。
举个简单的例子,我们现在正在发生的疫情,武汉封城之前很多在武汉工作旅居过的人在不知情的情况下流散到全国各地。如果在当时的时间点做一个初步的判断说:哪些地方可能会因为这种风险携带者的流入产生更严重的疫情?此时并不需要了不起的模型,只需要一个特别简单的 X,即当地有多少曾在武汉高风险时期滞留过得风险携带者,只要数这个数字,这个 X 就够了。有这个 X 基本上模型怎么做都不会太差。
X 选的好,模型自然就好。谁有 X,谁就有竞争优势,这个竞争优势是通过采集特别宝贵而独特的 X 而来。无论是电商、广告、信贷等等,要获得竞争优势,要求你对未来预测更加准确,预测更准确不是靠模型,然后靠独特而宝贵的 X。
X 分两种:可控的 X 及不可控的 X。比如数据分析表明女生在电商上花钱更多,所以 X1 性别很重要, 但是性别不可控,一旦性别确认几乎不可能改变;可控的 X,如价格、促销力度、图案设计、宣传的手段等,都是可控的 X,所以分析中发现一些可控的 X,可以很好的影响到业务核心诉求的 Y,这是很宝贵的。可控的 X 带来的结论是直接具备实践意义的,是直接可以落地的。
3.如何利用回归分析创造价值?
如何让数据产生价值呢?有以下两点:第一,因变量 Y 要表述的特别清楚;第二,自变量 X 非常好。
那如何找到好的 X 变量呢,通过拍脑袋想是很困难的。此时就要通过通过良好的制度设计,汇集团队所有人的智慧,一起产生更好的 X。如何设计产生更好的 X,一定要让业务端和数据分析端要尽量的融合,要让数据科学家、统计学家和一线业务人员紧紧地合作在一起。
比如电销团队,电销很辛苦且成单率很低。长期来看有个奇怪的规律,销售冠军一般就是固定的那几个人。如何理解这一现象?如何把个人经验变成变成团队经验?让业务人员分享未必能表述清楚。此时可以让数据分析团队给销售冠军做助手。数据分析人员去总结销冠如何挑线索、对行业的挑选、不同行业销售线索成单率、话术差别等等,从而总结出术语、行业、成单率等,把这些变量提炼成变成宝贵的 X,让这些 X 变为打分的指标,做一个数据分析模型去研究,估算成单概率。根据销售线索,在打电话之前就可以有个粗糙的判断。成单概率低的销售线索就不值得去打电话,优质的、次优的销售线索可以更好的提升业绩。数据分析团队与一线业务人员一起合作抽象出宝贵的 X,加上正确定义的 Y,可以对我们的销售线索给予良好的打分,节省大量的无效的人力。
数据分析不是为了分析而分析,数据分析有个朴素的目标就是创造价值。数据分析要在业务场景中创造价值,最好能将其产品化。要想数据产生价值,就要懂业务,因此数据分析师要放下自己的架子,对业务有最大的尊重和敬畏。从数据到价值的转换要具备回归分析的思想方法论,把业务中的抽象业务问题,定义变换成一个具象的数据可分析问题。将 Y 核心诉求与相关的各种因素 X,放在一起才能打通数据到价值的任督二脉,让数据变成价值,并在业务场景中变成产品固化下来。
评论