【IJCAI-2018】搜索广告数据探索与可视化
1 简介
本文使用 python 对IJCAI-18 阿里妈妈搜索广告转化预测大赛数据进行了探索与分析,以可视化的方式做了一点微小的工作,供大家参考,文中有错误的内容望读者及时指正。
搜索广告的转化率,作为衡量广告转化效果的指标,从广告创意、商品品质、商店质量等多个角度综合刻画用户对广告商品的购买意向,即广告商品被用户点击后产生购买行为的概率。本次比赛依托电商 CTR 数据为基础,旨在通过广告商品信息、用户信息、上下文信息和店铺信息等 4 类数据,对转化率进行预估以辅助商家决策。
本次比赛为参赛选手提供了 5 类数据(基础数据、广告商品信息、用户信息、上下文信息和店铺信息)如下。基础数据表提供了搜索广告最基本的信息,以及“是否交易”的标记。广告商品信息、用户信息、上下文信息和店铺信息等 4 类数据,提供了对转化率预估可能有帮助的辅助信息。
基础数据:各类数据的编号
广告商品信息:商品的具体信息
用户信息:用户基本个人信息
上下文信息:广告展示页面的基本信息
用于初赛的数据包含了若干天的样本。最后一天的数据用于结果评测,对选手不公布;其余日期的数据作为训练数据,提供给参赛选手;。
在上述各张数据表中,绝大部分样本包含了完整的字段数据,也有少部分样本缺乏特定字段的数据。如果一条样本的某个字段为“-1”,表示这个样本的对应字段缺乏数据。
2 数据探索
2.1 基础数据
is_trade 负正比例不均匀,大约为 52
有大量重复 item、shop,商品符合电商长尾分布规律
一共有 3959 家店铺,店铺 shop_id6597981382309269962 出现 11278 次
一共有 10075 个商品,商品 item_id7571023501622243456 出现 3001 次
user、context 有少量重复出现数据
2.2 用户信息
女性用户为主要对象,占到用户比例的 75.5%
用户年龄主要集中在 1002~1005,推测可能为 20~50 岁区间,其中 30 岁为主力消费人群
职业,主要集中在 2005 和 2000,信息不详
3009 和 3010 等级最高人数也最少,其他用户星级之间差异并不大,
2.3 店铺信息
店铺星级和评价数呈正太分布,中间等级的占大部份
店铺好评大部份等于 1,0.7~0.9 有少量离群点最小值为 0.714
店铺服务态度评分分布在 0.96~0.98,在 0.85~0.90 之间出现一系列离群点,最小值为 0.787
店铺物流评分与服务评分分布分布在 0.96~0.95,最小值为 0.92
店铺描述相符评分集中分布在 0.98 附近,最小值仅有 0.787
查看本文全部内容,欢迎访问天池技术圈官方地址:【IJCAI-2018】搜索广告数据探索与可视化_天池技术圈-阿里云天池
评论