传说中的“大数据杀熟”是怎么做到的?—— RFM 模型了解一下
文/ KCC Ke
本文适合谁阅读?
1. 所有产品经理,本文会讲解如何数据驱动,轻松了解你的用户。
2. 任何想要了解「大数据」的同学,不懂任何技术,也能快速理解如何使用大数据做分析。
身边总有人觉得『大数据杀熟』是个非常复杂的东西,恰恰相反,它非常简单,只需要使用 RFM 模型对你的用户进行分析,就能进行"杀熟",你不需要懂一行代码,往下看,就知道它是怎么做到的。
一、用户标签和用户画像
这篇 blog 的初衷是,和大家一起通过 RFM 数据分析模型来探讨一个问题:
怎么用数据驱动方法来了解用户?
业界的普遍答案是:用户标签和用户画像。
在数字化时代,每个在网上冲浪的人最终都会变成一个「数字人」,而数字人用很时髦的叫法,就是「用户画像 User Portrait」,一个个的用户标签组成了用户画像,通过一组由相同用户画像圈出来的一群用户的方法,也就是「用户分群 User Segmentation」。
下面让我们通过 RFM 分析模型来了解「用户标签」。
二、RFM 模型
RFM 是很传统的数据分析模型,也是基于用户价值做用户分群的常用方法。
RFM 模型其实由三个单词组成,分别是:
R 值(Recency):指最近一次消费时间,一般取一段时间周期内最近一次消费时间到当前时间的间隔
F 值(Frequency):指用户在一段时间周期内的消费频率,比如在最近 60 天内统计用户的消费频率
M 值(Monetary):指用户在一段时间周期内的累计消费价值,比如消费金额,创建运单数等
三、用户标签
那首先第一个问题:这三个值怎么做用户标签呢?
一维标签
拿 RFM 中的 F 值来说,直观上先有这样的假设,用户消费频率越高越忠诚,私域流量玩法中常用这个假设来引导粉丝复购,比如卖美妆的微商会有这样的活动:
年末回馈老用户:今年消费过 5 次以上的老用户可以获得无门槛 40 元优惠券,仅限本周使用
所以假如标签系统中有如下标签定义:
RFM - F 值用户标签定义
RFM - F 值标签示例
这个例子就是通过对「最近 30 天内的用户的剁手天数(消费频率 F 值)」指标进行「规则判断」,进而给用户打标签的方法。
又比如在生鲜超市行业,可以是「用户在最近 60 天消费频率大于 50 天算为高频用户」,因为人们不可能不吃不喝,理论上每天都有购买生鲜需求;
而在 NBA 赛事直播的流媒体行业,则可以是「美国用户在最近 180 天(一个赛季)内看 NBA 比赛直播次数超过 60 次为高频用户」,这是因为大多数美国用户只看自己支持的球队的比赛,最极端的情况是支持的球队打满一个赛季 82 场,顺便说一句「湖人总冠军」。
二维标签
那我们再加一个维度,将频次和金额组合,就构成了一个二分类矩阵,看个栗子:
那它对应的标签定义就可以是:
RFM - 结合 F 值和 M 值用户标签示例
通过这种二分类矩阵方法,我们可以给 A 和 B 这样的用户打上更多维度的标签。
三维标签
说回到 RFM 模型,聪明的同学应该想到了,RFM 模型就是三者的结合,构成一个三维的直角坐标系
在实践中,一般是根据业务情况选择比较重要的几种 RFM 标签,比如图中未标色部分用户,会被归类为「其他价值用户」等。
针对不同 RFM 价值标签的用户,可以采取不同的运营策略,比如对于「重要挽留客户」,应该采取邮件、短信、消息推送等策略做用户召回;对于「重要发展客户」,应该将重心放在提高用户消费次数上。
四、举个栗子
说完了理论,我们来看个实际例子理解一下吧。Aftership 有一个国际产品 Postmen,主要帮助海外商家方便快捷地发快递。
大家都知道在国内快递商就有四通一达,顺丰这些。在海外,快递商多达几百个,而且这些快递商提供给用户创建快递单的 API 良莠不齐,商家一个个 API 对接耗时耗力。Postmen 帮助海外商家无缝整合国际上所有快递商的 API,提供统一的打快递面单的用户体验,并且 Postmen 现在是免费的!
结合 Postmen 实际的业务场景和 RFM 模式,我们在做用户标签时,有如下定义:
R:最后一次创建快递面单的时间
F:最近 30 天内,创建快递面单的天数
M:最近 30 天内,创建快递面单的数量
可能有小伙伴会有疑问,为什么 M 值在 Postmen 是「创建快递面单的数量」,而不是金额?
这是因为,M 值是用「用户消费价值」来衡量用户价值的,由于 Postmen 是对商家保持免费,并不涉及消费金额的问题。而商家在 Postmen 创建面单这一核心动作,则代表了 Postmen 提供的核心价值,因此将「用户创建面单数量」这一个指标用于衡量用户价值。
举这个例子恰恰是为了说明:RFM 模型本身具有相当的灵活性,RFM 三个核心衡量价值的指标是可以根据行业和产品不同进行调整的。
五、RFM 取数周期和标签范围怎么界定?
其实还真没有一个标准答案,原因就如上面所讲,不同行业的情况不一样,需要具体分析。比如对于传统零售或者生鲜行业,一般取最近 30 天;对于体育赛事 OTT 行业,一般取的是赛事周期的整数倍,比如 NBA 和 NCAA,取的是最近两年进行对比。
另外,可能的疑问是,标签范围怎么界定呢?怎么判定高低?这个倒是有不少的方法:
平均值对比法:比如高于所有用户的平均值便记为「高」,低于平均值为「低」,这是最简单的分法
二八原则法:其实是在「平均值对比法」基础上升级,将用户的消费属性按照顺序排列,取高于 其他 80% 用户为「高」,「低」为剩余 80%
KMeans 算法挖掘法:前面两种方法本质上是「按照一定的顺序进行分桶统计」,其不足之处是分桶界限比较固定,对于不同数据密度的情况,固定的边界处容易失去圈定大部分用户的能力。所以也有不少企业采用 KMeans 聚类算法挖掘标签边界,由算法挖掘出不同的圈层。关于这个算法又可以写不少文章,在此就不展开,感兴趣可以 Google 之。
六、RFM 模型优劣势
RFM 模型就是一种用三个分类维度找出判定规则去界定用户价值的分析方法,本质上是通过交易数据反推用户价值。
所以其优势也特别明显:
没有数据采集问题:因为交易数据是任何行业都会保存的核心数据,也就解决了所有数据分析最大的阻碍 —>「数据采集」的问题,不需要埋点、拥有自己的网站就能上手。
模型容易理解:作为入门级的数据分析方法,被包括传统零售行业、商超、电商和流媒体 OTT 等行业广泛使用。
但是其劣势也是很明显的,这是因为这个模型的几个维度是基于很强的假设的:
R 值:用户离得越久越有流失风险
F 值:用户消费频次越高越忠诚
M 值:用户消费金额越多越有价值
但是细想一下:这三个假设对于任何行业都成立吗?
就拿 F 值来说,观看 NBA 赛事有不少用户是「事件驱动型」的,每个赛季只有总决赛才会看,那一年中的消费频率必然不高,且只集中在某一段时间。
而拿 R 值来讲,并非用户离得越久越有流失风险,比如果粉的消费间隔时间是跟着 Apple 的「产品更新周期」来走的;又或者像购房、购车或家具大件耐用品,可能用户一辈子也就买几次,同样 R 值没有意义。
因此并不能单纯的把 RFM 模型当做万能模型套用,不结合具体业务分析和行业情况生搬硬套 RFM 模型,对业务提升也许没有任何作用。任何模型的产生都有其要解决的问题场景、使用范围,精准并非每个模型的原始目的,简单、好用和容易落地是更多实际场景下考虑的问题。
所谓数据驱动,在一些场景下可以是通过数据指导业务做出具体决策,但更多的时候是通过数据来了解和靠近用户,优化产品和寻找新的创新点。
关于 AfterShip
成立于 2012 年,AfterShip 是一间服务国际电商的 B2B SaaS 公司,团队和业务遍布北美、欧洲、澳大利亚、印度等世界各地。Amazon,eBay,Facebook,IKEA 等全球 10 万家企业,都在使用 AfterShip 提供的智能化 SaaS 服务解决方案。
2014 年,AfterShip 实现持续盈利,且近几年业务保持 100% 翻倍增长。2021 年,获 Tiger Global 领投 6600 万美金(合计 4.3 亿 RMB)的 B 轮融资,刷新电商 SaaS 赛道 B 轮融资记录;是少数受国际资本市场认可、高速发展且营收健康的科技公司。
高效、国际化和极客文化浓厚的 AfterShip 团队,致力于构建最好的自动化工具平台,打造了服务电商全场景的丰富产品矩阵。起家产品 AfterShip (#1 Shipment Tracking)是国际细分市场份额领先的快递查询解决方案,连通全球 900 多家物流商,被翻译成 30 多种主流语言,年度累计处理高达 60 亿次查询请求。
版权声明: 本文为 InfoQ 作者【AfterShip】的原创文章。
原文链接:【http://xie.infoq.cn/article/c9544d50a34f414e7ae024f63】。文章转载请联系作者。
评论