京东平台内容合规的技术与挑战
1、内容合规域介绍
合规域在电商平台中扮演着重要的角色,它相当于电商体系中的“免疫系统”,通过识别恶意的商品、商家以及 UGC 内容,确保电商生态的健康、有序和可持续发展。因此我们部门致力于打造业内领先的内容理解与审核平台,在具体工作中,通过识别并治理商家在产品、价格、服务维度的违规行为以及短视频、直播、评价、问答等内容的违规信息,降低审核成本、提升运营效率,并最终保障用户体验。
1.1、从用户视角哪些问题涉及内容合规域
•商品只卖 1 分钱,以为捡了便宜,购买时发现邮费要收 20 元!
•直男给女朋友买生日礼物的口红,买成了山寨品
•商品主图各种满减宣传,实际购买和主图价格宣传不一样
•买了商品,先收到了礼品包,很久才收到想要的货
•京东搜索结果页/推荐结果页整体杂乱,图片没有其他平台好看
•……
这些关于商品价格、服务、泛假货/质量的问题都是我们持续努力在解决的问题。
1.2、从业务视角我们具体负责哪些工作
合规团队的主要工作从技术角度是做平台内容理解与审核,从业务角度总结下来主要做以下三方面的事情:
•商家、商品经营的审核,从产品、价格、服务维度识别恶意商品信息与商家行为。
•商品信息的审核,包括商品的图片、标题、类目等信息的准确性与一致性校验。
•短视频、直播的审核,从安全、合规、质量维度检测内容风险。
2、内容合规域面临哪些挑战以及我们的解法
内容审核是一个对抗性很高的风控场景,一方面,我们要不断提升识别能力,检测商家的恶意对抗行为,结合运营机制惩治违规商家,保障用户体验,另一方面,我们需要尽量不打扰正常商家的经营,提供前置检测与修改建议的能力,不影响商家运营效率。 因此,既要建立一套发现、识别、处置的违规治理机制,又要从商家、用户视角建立观测指标体系,尽量量化对用户体验、商家经营的影响,还要从平台视角出发降低审核成本,所以具体工作中要平衡用户体验、商家效率、平台成本,是一个复杂而又有趣的工作。针对每一个具体场景都需要深刻理解业务并设定好业务核心指标,与业务、运营、产品充分沟通并搭建业务运营流程,最后紧追行业趋势与竟对动向结合业务做出技术深度。
2.1 业务核心指标
在明确我们要负责的业务场景后,需要设定可量化的核心指标,在设定指标时,需要避免依赖单一指标,因为这可能导致结果的片面性进而引发决策偏差,在合规域我们需要考虑内容消费者(C 端用户)、内容生产者(商家/达人)、内容平台(京东),并考虑对立统一的综合指标:
•用户客诉/抱怨率
•商家申诉率
•平台审核成本/监管罚金
2.2 业务运营流程
明确核心业务指标后,需要从业务实现的角度设计运营流程,实现风险感知、识别、处置的闭环,下图是我们正在逐步建立和完善的流程:
明确业务流程后需要基于点状的业务需求进行横向的标签体系设计以及服务接口设计并建立指标监控体系防范技术风险:
2.3 技术攻坚案例
大家都知道产品、价格、服务是决定用户体验的三要素,基于经营理念我们首先从合规视角盘点了影响这三要素的核心问题,包含 假货治理和内容审核、价格治理、服务治理。然后,基于用户、商家、平台视角制定业务指标体系、建立产品能力以及运营流程。最近部门承接了价格治理的能力建设,面临很多挑战,也取得了一定成果,下面以价格治理的一个子项-价格虚高的具体案例具体说明下合规域遇到的挑战。
价格虚高要解决京东域内商家发布商品价格标价虚高的问题,依赖于商家的健康经营行为的规范,因此需要规模化的发现价格虚高问题并对商家进行触达,并对多次违规的商家进行惩治。
识别上,通过站内比价、站外比价可以获取商品的价格水位进而判断是否价格虚高,具体依赖可以拆解为站外数据获取以及可比价商品判别,通过对站内外可比价商品数据进行比对识别价格虚高商品,但在实际工作中均有很大挑战,在产品、运营、研发角度均有一些解法,以下侧重算法角度的方案设计。
我们基于流量表现数据我们将商品分为价格可信商品、价格不可信商品,对于价格不可信商品,有站内可比价商品的基于价格比对进行判断,否则基于价格预测模型进行兜底,下面是关键能力的一些粗略介绍:
2.3.1 构建可比价模型
构建“商品可比价”算法训练任务,同品/相似品识别结果作为输入特征,通过已有的人工标注结果分析,训练算法模型,增加判别因素,提升识别进准度。
2.3.2 价格预测大模型
•基于站内商品的历史成交数据,明确商品的合理价格区间,构建价格锚点数据集,下图是某同品组价格与成交的分布图。然后,基于已有商品价格构建“价格预测大模型” ,输出商品预测价格以及预测置信度。
2.3.3 商家触达与治理
模型化方案的优势是可以快速覆盖类目,并有效覆盖价格虚高的违规 case,商家治理需要更高的精度,可以作为识别漏斗,结合业务规则进行圈选和治理。 商家经营建议不需要太高精度,我们增加了商家触达预警的方式引导商家合理设置价格。
至此,我们完成了违规识别、商家触达的流程,再基于商家的反馈信息不断做优化和迭代,当然技术细节上有很大挑战,我们也做了不少优化,也希望有相关经验和具体想法的同学和我们交流沟通。
3、内容合规域个人成长的建议
随着技术的发展,过往很多公司的技术壁垒,以及个人工作中沉淀的调参、特征工程心得,都成为了历史,对个人来讲,我们需要适应和学习不断变化的东西拥有自己趁手的“武器库”,同时追求和沉淀过程中不变的思维框架,不断加强业务洞察能力以及数据驱动解决问题的行为方式。
对于合规域来讲,我们需要关注 AIGC 的前沿技术,特别是在内容理解与审核方向的应用,确保自身武器库保持先进性。同时,更需要理解业务,从不同的业务场景中总结业务逻辑、沉淀业务知识并结合技术理解形成自己解决问题的框架结构。
对于个人来讲,我们需要保持对用户需求和市场变化的敏感度,理解业务需求背后的用户痛点并思考自己是否可以多想一些、多做一点,通过不断的业务理解与持续的技术应用创新,实现业务价值与个人的成长。
作为合规域的一员,很庆幸处在一个与业务很近的前沿领域,技术上既需要结合大模型、多模态等使用 NLP、CV 技术从信息层面做内容理解,也需要洞悉业务挖掘商家行为序列模式与关联做异常检测,就像毛主席说的:“与人斗,其乐无穷”,我们在和恶意商家的博弈中不断积累自身的业务理解与技术深度,实现审核成本的降低、效率的提升,以及用户客诉的降低。
版权声明: 本文为 InfoQ 作者【京东科技开发者】的原创文章。
原文链接:【http://xie.infoq.cn/article/41dadf77777c533102573e76e】。文章转载请联系作者。
评论