如期而至 - 用户购买时间预测(上)
文 | 严文辉、王晨、杨弦
我们是索信达集团旗下的金融人工智能实验室团队,微信公众号(datamargin)将不定期推送原创 AI 科学文章。我们的作品都是由实战经验丰富的 AI 科学技术人员或资深顾问精心准备,志在分享结合实际业务的理论应用和心得体会。
摘 要:相对于传统的经营模式来说,爆炸性增长的数据已经成为电子商务非常具有优势和商业价值的资源,如何深度挖掘海量用户数据,让大数据创造商业价值,成为各大电商平台关注的焦点。本文研究的问题主要关于如何实现“精准营销”,利用电商平台用户购买行为及商品信息等数据,预测目标时段内最有可能购买目标商品的用户群体,以及该群体在目标时段内首次购买的日期。本文首先对数据进行清洗和可视化处理,初步得到数据的相关特点,其次针对研究目标进行特征提取,分为超短期、短期、中期、长期特征,较为全面的完成特征构建,接着进行 LightGBM 模型构建,经过多次地参数调整和模型训练,最终得到比较优良的预测结果。
关键词:购买预测;特征构建;LightGBM
1.背景介绍
随着网购的流行和电商平台的崛起,电商之间的竞争愈演愈烈。”No data, no value”,在大数据浪潮席卷而来的今天,如何深度挖掘海量用户数据,让大数据创造商业价值,成为各大电商平台关注的焦点。相对于传统的经营模式来说,爆炸性增长的数据已经成为电子商务非常具有优势和商业价值的资源。因为电商几乎掌握了最全面的数据信息,其中包括所有注册用户的浏览信息、购买消费记录、用户对商品的评价、在其平台上卖家的买卖记录、产品交易量、库存量,以及商家的信用信息等等。所以说,大数据贯穿了整个电子商务的业务流程,已经成为电商真正的核心竞争力。零售业的本质是成本、效率、用户体验,各大电商只有根据用户购物需求的不断变化和对品牌和品质需求的日益提升,不断改进自身的销售策略,提高自身的服务水平,才能在行业中处于领先地位。
数据是电商提供服务的基础,面对数据规模、存储方式以及组织方式等特征的转变,电商所提供的推荐服务也应该进行转变,以应对当前整个数据环境的更新。推荐服务其实是基于信息检索结果的推荐服务,即电商将消费者搜索过的每条信息罗列在页面中,供用户浏览,通过查看详情来衡量此信息的重要度。用户每天都要浏览大量的数据信息,并非所有信息都是有效的,在时间不充裕的情况下,不可能逐条打开每个商品信息的详情来查看,所以说这种推荐服务存在着一定的问题。对用户购买商品的时间进行准确预测,能够保证按时、精准向消费者推荐日常生活中所需的米、面、水等热销品类,在合适的时间段提醒消费者进行复购,真正做到“想消费者之所想”,不让日常生活“断水断粮”,这样的“精准营销”对电商平台的销售和运营都有着巨大的作用。
2.数据来源
数据来源于 JDATA 算法大赛的“如期而至-用户购买时间预测”一题,京东提供了脱敏后的真实用户数据,包括用户基本信息(99412 条)、商品基本信息(98924 条)、用户行为信息(6944141 条)、用户下单信息(792723 条)及用户评价信息(224284 条),共计 8159484 条数据,数据的时间范围在 2016 年 5 月 1 日—2017 年 5 月 1 日之间。
3.问题叙述
根据已有数据,对数据进行处理,通过训练模型,预测未来 1 个月内最有可能购买目标品类的用户,并预测这些用户在该月内首次购买的日期。针对所给数据,提供以下几点说明:
(1) 确定考察时间段的起点为 T,目标品类集合为 C={101,30},从订单表随机选取在时间段[ T-3△M,T )购买过目标品类商品的部分用户作为本赛题的目标用户集合 U,其基本信息构成用户基本信息表,△M 表示月单元(一个月)。
(2) 从订单表抽取 U 对 C∪C’在时间段[ T-12△M,T )的订单数据构成用户下单信息表,C’为与 C 存在一定相关性的其他品类集合。
(3) 从行为表抽取 U 对 C∪C’在时间段[ T-12△M,T )的行为数据构成用户行为信息表。
(4) 用户下单信息表与用户行为信息表中出现的所有商品对应的基本信息构成商品基本信息表。
(5) 从用户下单商品评分表抽取 U 对 C∪C’在时间段[ T-12△M,T )的商品评分数据构成用户评价信息表。
(6) T 为“2017-05-01 00:00:00”.
4.参数设置
5.解题思路
5.1 解题目标
(1)预测用户预测期购买的商品数量,表示用户购买可能性的大小;
(2)预测用户预测期购买的日期,以距离当月第一天的天数为预测目标;
(3)通过对用户购买商品数量进行从大到小排序,得到结果。
5.2 解题流程
(1)问题分析:本题实质是两个预测问题。主要目标是根据 2016 年 5 月 1 日—2017 年 5 月 1 日的用户和商品数据,预测未来 1 个月内最有可能购买目标商品的用户,并预测这些用户在该月的首次购买日期。
(2)数据处理:通过对数据列表的合并、连接,得到与目标商品有关的用户信息、商品信息、用户下单信息、用户行为信息、用户评价信息,为下一步的特征构建进行数据准备;构建训练集,将 2016 年 5 月 1 日—2017 年 5 月 1 日作为训练集,其中 2016 年 5 月 1 日—2017 年 4 月 1 日为观察期,2017 年 4 月 1 日—2017 年 5 月 1 日为预测期,为模型训练做准备。
(3)特征构建:基于用户基本信息、购买信息、行为信息、时间信息等构建特征,将其分为超短期特征(15 天)、短期特征(30 天)、中期特征(3 个月)、长期特征(6 个月)四类,共计 20 余个特征。
(4)模型搭建:基于上述构建的特征,建立模型,主要使用 LightGBM 集成模型框架。
(5)总结评价:通过不断增改特征、训练 LightGBM 模型,得到较优的预测结果,对预测结果进行总结和评价。
6.数据处理
6.1 划分训练集
6.2 数据可视化(略)
本期文章分为上、下两部分,下一期我们将继续分享:7.特征构建、8.模型构建、9.结果展示 等三大精彩内容,敬请期待!
版权声明: 本文为 InfoQ 作者【索信达控股】的原创文章。
原文链接:【http://xie.infoq.cn/article/990aa121d068ebff35fd855a0】。文章转载请联系作者。
评论