写点什么

【得物技术】数据分析 - 生活品类社区内容精选池模型

用户头像
得物技术
关注
发布于: 2020 年 11 月 06 日
【得物技术】数据分析 - 生活品类社区内容精选池模型

“社区当前内容主要分为鞋靴、时尚、生活三大类。”



背景:目前用户生产内容质量参差不齐且推荐流pvctr持续稳定,无较大涨幅。

目的:找出好的内容作为标杆,从而带动推荐流整体pvctr上涨。

手段:通过分析特定品类的核心内容,生成相应精品池规则。



基础模型搭建



本次分享主要是对生活品类精选池进行介绍,为了挑选出生活品类的优质内容,我们主要通过作者内容消费三个维度进行建模:

*图1-1 生活精品池模型



01

为何考虑从作者、内容、消费三个维度进行建模?



主要基于以下几个方面考虑:

1. 作者维度: 作者的历史累计数据和近期表现会影响作者对待所发内容质量的重视程度;

2. 内容维度: 在未获得用户行为反馈的情况下,对内容本身的基础信息进行建模并获得一个内容基础分数;

3. 消费维度: 基于用户一段时间内对内容的消费情况,推算出用户对内容是否感兴趣,是否更容易促使用户做出什么交互行为,从而判断出内容质量的好坏。

结合以上三个维度,通过对各类目的不同特性进行后期校验,得到各内容的质量分,从而能够量化内容质量。



02

前置动作:生活类目拆



当前社区内容在鞋靴、时尚、生活大类的基础上,还会细分到近40个三级类目,涵盖了生活中的方方面面(尤其是生活品类,包含了自拍,健身,游戏,汽车等近30个三级类目,且各个三级类目间差异较大)。

为了让最后得到的结果更加准确,同时简化计算过程,我们对生活中所有三级类目进行聚合得到一个计算用类目汇总。



生活三级类目聚合结果如下:



*图1-2 生活三级类目聚合



模型规则制定



由于当前推荐流中算法所推荐内容均为近60天发布的可分发内容(除少量运营配置时效性超过60天的内容),故本模型中只对近60天发布的内容进行测算。



01

作者指标规则



基于前文(图1-1)提到的作者维度六个指标,通过近半年的数据进行测算,得到以下作者指标规则,其中我们发现:



·  达人的内容无论从内容本身(文字、图片、视频质量)还是发文频次等方面都高于非达人用户,故对达人用户单独加权





02

内容指标规则



基于前文(图1-1)提到的内容维度六个指标,我们通过近半年的数据进行测算,得到以下内容指标规则,其中我们发现:



·  带圈子的话题能够被圈主及拥有共同兴趣的圈友所看到并引发讨论,故对带圈子内容进行加权

·  带商品标签的动态有几率进入穿搭精选并可能被搜索该商品的用户发现,故对带商品标签的内容进行加权





03

消费指标规则则



基于前文(图1-1)提到的消费维度六个指标进行计算,我们按ctr为判断标准,将分类汇总后的生活类目内容按总量前10(S类)%,前10%~20%(A类),前30%~50%(B类),后50%(C类)为界进行拆分得到各部分的分类目数据作为判别标准;为避免曝光量过少导致统计偏差,我们仅统计发文后60天内曝光量大于100的动态





04

综合得分



基于以上作者、内容、消费维度规则,每条内容都获得了各个维度的当日得分。通过加权,我们得到了内容的当日综合得分。按照得分倒排后,我们人工校验了每日得分top500内容,发现由于健身、自拍类内容自身特性(性感程度普遍较高),导致该类内容的得分普遍偏高,从而导致top500的内容中有接近一半的内容为健身、自拍类内容。经过特定品类降权,我们将该部分内容量控制在3成左右,保证了每日高得分头部内容的品类丰富度。



模型效果复盘



01

与大盘对比



经过5月以来近两个月的时间,我们对模型的实际效果进行复盘;我们对每日得分top500的内容在次日热门流中的表现(以ctr为评判标准)与生活大盘进行对比,得到以下数据:



*取数口径:2020.5.1~2020.6.17 平均推荐流pvctr



每日得分top500的内容在次日推荐流的ctr明显高于大盘。

同时,每条近60天发布且曝光量大于100的内容均有当日得分,通过得分将内容分为5级:



·    S:精选池内容,即得分top500内容;

·    A:在得分top501~得分前25%内容;

·    B:得分前25%~得分前50%间内容;

·    C:得分前50%~得分前75%间内容;

·    D:得分前75%~得分前100%间内容;







生活大盘ctr与A级内容ctr几乎一致,S级(即精品池)内容一直保持在大盘ctr之上。







查看内容在推荐流的曝光发现:

每日头部得分的生活类目内容在推荐流的日均曝光占比接近全部生活内容曝光量的90%。





分类目来看,精品池内容较为分散,较全面地覆盖了生活的所有品类,同时,日均得分方差较小,未出现得分过高/过低的类目。



从互动来看,通过该模型得到的生活精选池互动率(互动pv/曝光数pv)也略高于生活大盘。



02

与线上运营人工精华池数据对比



截止6 月17日,模型精品池与当前线上运营人工挑选精华池进行对比,两个精华池间重叠内容共391条,重合率较低。





在ctr方面,对比模型精选池内容和当前运营精选池内容挑选后次日表现,该模型下精选内容的次日ctr要高于当前运营精选池。



分三级类目来看,仅有竞技运动、体育明星、潮流玩具三个类目的模型精选池内容ctr低于运营精选池ctr,其他类目均优于运营精选池。



从互动来看,通过该模型得到的生活精选池互动率(互动pv/曝光数pv)也高于运营精选池。



*以上分析均基于已有真实数据,考虑到数据敏感性用*号代替。



总结



综上所述,生活类目精选池模型长期保持较好的效果,且未出现极端异常情况,适合作为推荐流的补充渠道在线上运行。



本模型也存在一定的局限性:由于是分类目进行测算,若后期出现新类目,或者该类目内容随着时间推移或者运营重心转移而出现风格上的重大改变,可能导致当前模型不准确。故后期需要定期(例如每个季度/每半年)维护并迭代模型。



文案 | 【数据智能】G.A.L.T. (greatest all the time) 



发布于: 2020 年 11 月 06 日阅读数: 40
用户头像

得物技术

关注

得物APP技术部 2019.11.13 加入

关注微信公众号「得物技术」

评论

发布
暂无评论
【得物技术】数据分析 - 生活品类社区内容精选池模型