一文带你详解天池电商数据集
行业介绍:
淘系技术部隶属于阿里巴巴新零售技术事业群,支撑淘宝、天猫核心电商以及闲鱼、躺平等创新业务,服务 9 亿用户,赋能各行业 1000 万商家。
淘系技术打造了全球领先的线上新零售技术平台,并作为核心技术团队保障了 11 次双十一购物狂欢节的成功。通过不断探索和衍生颠覆型互联网新技术,打造了业内领先的淘宝直播、智能营销等技术体系,并且通过技术驱动商业,在家装家居赛道中成功开创了躺平新业务,以更加智能、友好、普惠的科技深度重塑产业和用户体验。
同时,淘系技术积极参与开源社区的建设,为进一步推动产学研的共同进步,开源了多个零售业领域的数据集,如 Watch and Buy (直播行业)、3D FUTURE&3DFRONT(家居行业)、FashionAI(服饰行业)等 10 多个来源于真实场景的脱敏数据集,与全球学者/科研人员共享技术成果。
数据集 1:
Watch and Buy: 淘宝直播商品检索数据集。直播带货是淘宝连接商品和消费者的重要方式,通过对直播视频中商品进行实时识别和推荐,可实现消费者边看边买的消费体验, 可有效提高商品购买的转化。通常情况下直播对应的数百款商品之间相似程度高,且直播画面中存在大量的背景信息、灯光变化、商品遮挡和形变等,给直播画面中商品的匹配识别带来很大的技术挑战。
为提升直播中商品匹配识别的效果,依托淘宝直播海量数据,我们构建了业界最大规模的多模态视频商品检索数据集: Watch and Buy,数据集包含 70,000 个由直播视频片段和对应讲解商品构成的匹配对, 具有规模大、标注全、模态多、功能广的特点。可用于物体检测的算法、商品重识别算法、主播意图识别和多模态检索等多种前沿技术的研究。
数据集论文/链接:https://tianchi.aliyun.com/dataset/dataDetail?dataId=75730
数据集 2:
Taobao Fashion Collocation: 淘宝服装搭配数据集。 穿衣搭配是服饰鞋包导购中非常重要的课题,它所延伸出的技术、算法能广泛应用到电商场景中,如搜索、推荐和营销服务。淘宝开放的穿衣搭配数据集提供了搭配专家和淘宝达人生成的搭配组合数据,包括了百万级别的淘宝商品的文本和图像数据,同时还提供了脱敏过的用户行为数据(如浏览、点击、购买等)。该数据集开放的目的是为研究者们进行个性化、专业的穿衣搭配方案研究提供真实的练兵场景。
数据集论文/链接:https://tianchi.aliyun.com/dataset/dataDetail?dataId=52
评论