如期而至 - 用户购买时间预测(下)
文 | 严文辉、王晨、杨弦
我们是索信达集团旗下的金融人工智能实验室团队,微信公众号(datamargin)将不定期推送原创 AI 科学文章。我们的作品都是由实战经验丰富的 AI 科学技术人员或资深顾问精心准备,志在分享结合实际业务的理论应用和心得体会。
摘 要:相对于传统的经营模式来说,爆炸性增长的数据已经成为电子商务非常具有优势和商业价值的资源,如何深度挖掘海量用户数据,让大数据创造商业价值,成为各大电商平台关注的焦点。本文研究的问题主要关于如何实现“精准营销”,利用电商平台用户购买行为及商品信息等数据,预测目标时段内最有可能购买目标商品的用户群体,以及该群体在目标时段内首次购买的日期。本文首先对数据进行清洗和可视化处理,初步得到数据的相关特点,其次针对研究目标进行特征提取,分为超短期、短期、中期、长期特征,较为全面的完成特征构建,接着进行 LightGBM 模型构建,经过多次地参数调整和模型训练,最终得到比较优良的预测结果。
关键词:购买预测;特征构建;LightGBM
7.特征构建
我们通常期望有一个庞大的数据集,以便使算法能够识别数据集中的模式。机器学习为处理如此庞大的数据提出了有效的解决方案。
使用过去的观测值计算的技术指标,已被用作特征,因此,当执行 bagging 时,日期的顺序变得无关紧要。我们用 t - n 数据计算这些指标,再利用它们来预测 t + 1 事件。一个极端的例子是我们使用第 3 天的特征,30 天的特征来预测第 45 天。然而,这样做并不会忽略连续几天的相关信息。特征提取是一种从观察中计算数字或符号信息的机制。主要任务是选择或组合保存大部分信息的特性,并删除冗余的组件,以提高后续的分类的效率,而不会降低性能。它是获取更高层次信息的过程。特征空间的维数可以通过选择好特征子集来减少。特征提取在提高分类性能和降低计算复杂度方面起着重要的作用。它还提高了计算速度,因为对于较少的特性,需要估计较少的参数。
7.1 特征提取算法
特征提取,也称为特征子集选择(FSS),或属性选择(属性选择),这是一种从所有的输入特征中选择特征子集的方法,使构建的模型更好。在机器学习的实际应用中,特征量通常是非常大的,其中可能存在不相关的特征,或者特征可能相互依赖。特征选择可以去除不相关的或冗余的特征,从而减少特征的数量以提高模型的准确性。选择真正相关的特征可以简化模型,使数据生成过程易于理解。
7.2 特征分类
(1)超短期特征:训练集观察期为 2017 年 3 月 15 日—2017 年 3 月 31 日,共计 15 天,训练集预测期为 2017 年 4 月 1 日—2017 年 4 月 30 日;
(2)短期特征:训练集观察期为 2017 年 3 月 1 日—2017 年 3 月 31 日,共计 30 天,训练集预测期为 2017 年 4 月 1 日—2017 年 4 月 30 日;
(3)中期特征:训练集观察期为 2017 年 1 月 1 日—2017 年 3 月 31 日,共计 3 个月,训练集预测期为 2017 年 4 月 1 日—2017 年 4 月 30 日;
(4)长期特征:训练集观察期为 2016 年 10 月 1 日—2017 年 3 月 31 日,共计 6 个月,训练集预测期为 2017 年 4 月 1 日—2017 年 4 月 30 日
7.3 特征选取
由于目标是预测最有可能购买的用户群体及其首次购买的时间,选择构建与用户基本信息、用户购买特征、用户行为特征、用户评价特征、时间特征有关的特征,力求考虑全面,以得到较优的训练结果。
(1)用户基本信息:选择用户年龄、用户性别、用户等级作为特征;
(2)用户购买特征:选择用户下单数目、用户购买次数、用户购买天数、用户购买件数、用户购买总价、用户购买均价作为特征;
(3)用户行为特征:选择浏览商品的用户数目、关注商品的用户数目、用户浏览天数、用户关注天数、最高浏览次数、最低浏览次数、最高关注次数、最低关注次数作为特征;
(4)用户评论特征:选择评论数目作为特征;
(5)时间特征:选择用户第一次购买时间、用户最后一次购买时间、当月平均第几天购买、用户购买的月份数目作为特征。
8.模型构建
前面所讨论的特征构建与特征选择都是为了接下来预测模型的建立提供具有对预测目标有较大区分度的数据。通常来说,对于同一个模型,运用不同的特征进行建模,得到预测的效果是有区别的,一个好的特征工程往往能够很大程度地提高模型的预测能力。但是,在完成一个较好的体征工程后,如何能够进一步地提高我们模型的预测能力,就取决于不同模型对数据的解释能力。发展到如今。机器学习领域已经积累了丰富的预测模型,每一种模型的背后都蕴含了不同的思想,这也就是模型对数据的解释能力。如何能够在众多的模型中找到适合当前问题的模型往往从数据层面上是很难决定的,因此,一般是通过一定的评价标准来对不同模型的预测结果来进行度量,从而选择其中效果最好的认为其是适合于当前问题的解决方案。
本次研究主要利用 LightGBM 集成模型框架。LightGBM 算法包含两个关键点:light 即轻量级,GBM 梯度提升机。LightGBM 算法是一个梯度 boosting 框架,使用基于学习算法的决策树。其目标是通过学习,得到集成模型 M,其中:
基于 LightGBM 算法,我们可以定义一个损失函数(Loss Function),对于回归,使用 (MSE),下一决策树的目标就是拟合已有模型的预测值与真实值的残差。
8.1 LightGBM VS XGBoost
优点:
(1)训练速度快,训练效率高;
(2)支持并行学习;
(3)基于 Histogram 的决策树算法。
用途:
(1)分类问题
(2)回归问题
(3)排序问题
区别:
(1)算法:XGBoost 使用的是 pre-sorted 算法(对所有特征都按照特征的数值进行预排序,基本思想是对所有特征都按照特征的数值进行预排序;然后在遍历分割点的时候用 O(#data)的代价找到一个特征上的最好分割点最后,找到一个特征的分割点后,将数据分裂成左右子节点。优点是能够更精确的找到数据分隔点;但这种做法有以下缺点;LightGBM 使用的是 histogram 算法,基本思想是先把连续的浮点特征值离散化成 k 个整数,同时构造一个宽度为 k 的直方图。在遍历数据的时候,根据离散化后的值作为索引在直方图中累积,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点;
(2)决策树生长策略:XGBoost 采用的是带深度限制的 level-wise 生长策略,Level-wise 过一次数据可以能够同时分裂同一层的叶子,容易进行多线程优化,不容易过拟合;但不加区分的对待同一层的叶子,带来了很多没必要的开销(因为实际上很多叶子的分裂增益较低,没必要进行搜索和分裂);LightGBM 采用 leaf-wise 生长策略,每次从当前所有叶子中找到分裂增益最大(一般也是数据量最大)的一个叶子,然后分裂,如此循环;但会生长出比较深的决策树,产生过拟合(因此 LightGBM 在 leaf-wise 之上增加了一个最大深度的限制,在保证高效率的同时防止过拟合)。
8.2 LightGBM 参数设置
(1)num_leaves:LightGBM 使用的是 leaf-wise 的算法,因此在调节树的复杂程度时,使用的是 num_leaves 而不是 max_depth。大致换算关系是 num_leaves = 2^(max_depth)。
(2)Bagging 参数:bagging_fraction 和 bagging_freq(必须同时设置)、feature_fraction。
(3)min_data_in_leaf、min_sum_hessian_in_leaf
8.3 模型框架
由于一个模型的好坏主要体现在模型的拟合能力和泛化能力上,因此,我们在使用集成模型的同时对模型进行了融合。原因在于基于梯度提升的集成模型拥有低偏差而高方差的特点,而基于 bagging 的模型集成具有低方差而高偏差的特点,对模型进行两阶段的融合,能够兼顾两种集成策略的优缺点,达到既能减少偏差,又能减少方差的目的。
本次研究解决问题的思路是把问题转化成两个回归问题,因此,我们针对回归问题搭建了如图所示的模型结构框架:
基于以上的一个回归预测模型框架,我们整个问题的解决框架如下:
9.结果展示
9.1 评分标准
评价指标分为用户评价和用户下单日期评价两部分:
(1)用户评价
其中,Oi 表示选手预测的第 i 个用户的正确标志,当预测正确时 Oi=1,否则 Oi=0。N 为提交的记录数。
(2)用户下单日期评价
其中,Ur 为答案用户集合,du 表示用户 u 的预测日期与真实日期之间的距离。结果的得分由以下表达式确定:
其中:α=0.4。
9.2 结论
随着电子商务的迅猛发展,人们一方面欣喜于网上商城商品的极大丰富,一方面也为随着商品的增多,在网上商城寻找自己想要并喜欢的商品越来越难了。网上商城通过个性化推荐系统的推荐引擎深度挖掘出商城用户的行为偏好,打造个性化推荐栏,智能向用户展示符合其兴趣偏好和购买意图的商品,帮助用户更快速更容易找到所需要的商品,让用户购物有更流畅更舒心的体验。另一方面个性化推荐栏也可以起到辅助用户决策,提高网购效率的作用。这里就存在着一个原理:因每个用户的兴趣而宜,智能向用户推荐他最可能喜欢的商品,这不但是个性化营销,更加是电子商务精准营销的最好表现和做法。
本文研究基于近 800 万条数据,通过多次地特征增改、参数调整和模型训练,得到共计 50000 条预测结果,包括在目标时段内最有可能购买目标商品的用户 id,以及这些用户在目标时段内首次购买的日期。基于以上评分标准,预测结果的得分为 0.3458,在所有提交结果中排名前 15%,比基准得分提高近两倍,预测效果较好。
版权声明: 本文为 InfoQ 作者【索信达控股】的原创文章。
原文链接:【http://xie.infoq.cn/article/07a62b93009c129ae9d984dc3】。文章转载请联系作者。
评论