写点什么

【IJCAI-2018】搜索广告数据探索与可视化

作者:阿里云天池
  • 2024-04-09
    浙江
  • 本文字数:986 字

    阅读完需:约 3 分钟

 1 简介

本文使用 python 对IJCAI-18 阿里妈妈搜索广告转化预测大赛数据进行了探索与分析,以可视化的方式做了一点微小的工作,供大家参考,文中有错误的内容望读者及时指正。

搜索广告的转化率,作为衡量广告转化效果的指标,从广告创意、商品品质、商店质量等多个角度综合刻画用户对广告商品的购买意向,即广告商品被用户点击后产生购买行为的概率。本次比赛依托电商 CTR 数据为基础,旨在通过广告商品信息、用户信息、上下文信息和店铺信息等 4 类数据,对转化率进行预估以辅助商家决策。

本次比赛为参赛选手提供了 5 类数据(基础数据、广告商品信息、用户信息、上下文信息和店铺信息)如下。基础数据表提供了搜索广告最基本的信息,以及“是否交易”的标记。广告商品信息、用户信息、上下文信息和店铺信息等 4 类数据,提供了对转化率预估可能有帮助的辅助信息。

  • 基础数据:各类数据的编号

  • 广告商品信息:商品的具体信息

  • 用户信息:用户基本个人信息

  • 上下文信息:广告展示页面的基本信息

用于初赛的数据包含了若干天的样本。最后一天的数据用于结果评测,对选手不公布;其余日期的数据作为训练数据,提供给参赛选手;。

在上述各张数据表中,绝大部分样本包含了完整的字段数据,也有少部分样本缺乏特定字段的数据。如果一条样本的某个字段为“-1”,表示这个样本的对应字段缺乏数据。


2 数据探索

2.1 基础数据



  •  is_trade 负正比例不均匀,大约为 52






  • 有大量重复 item、shop,商品符合电商长尾分布规律

  • 一共有 3959 家店铺,店铺 shop_id6597981382309269962 出现 11278 次

    一共有 10075 个商品,商品 item_id7571023501622243456 出现 3001 次

  • user、context 有少量重复出现数据

2.2 用户信息



  • 女性用户为主要对象,占到用户比例的 75.5%

  • 用户年龄主要集中在 1002~1005,推测可能为 20~50 岁区间,其中 30 岁为主力消费人群

  • 职业,主要集中在 2005 和 2000,信息不详

  • 3009 和 3010 等级最高人数也最少,其他用户星级之间差异并不大,

2.3 店铺信息



  • 店铺星级和评价数呈正太分布,中间等级的占大部份



  • 店铺好评大部份等于 1,0.7~0.9 有少量离群点最小值为 0.714

  • 店铺服务态度评分分布在 0.96~0.98,在 0.85~0.90 之间出现一系列离群点,最小值为 0.787

  • 店铺物流评分与服务评分分布分布在 0.96~0.95,最小值为 0.92

  • 店铺描述相符评分集中分布在 0.98 附近,最小值仅有 0.787


查看本文全部内容,欢迎访问天池技术圈官方地址:【IJCAI-2018】搜索广告数据探索与可视化_天池技术圈-阿里云天池

用户头像

还未添加个人签名 2024-03-12 加入

还未添加个人简介

评论

发布
暂无评论
【IJCAI-2018】搜索广告数据探索与可视化_阿里云_阿里云天池_InfoQ写作社区