小红书社区反作弊探索与实践
本次分享主题是小红书社区反作弊探索与实践,主要讨论业务风控工作落地的解题思路。内容围绕下面四点展开:社区反作弊的意义、社区黑灰产生态、作弊防控策略和社区反作弊实践。以下全文根据费栋在 DataFun 智能风控论坛中的分享整理。
费栋:小红书社区风控策略算法负责人。本科毕业于南京大学,硕士就读于巴黎高科。现就职于小红书,从零到一搭建社区反作弊识别框架,负责社区风控安全策略算法体系建设。
在讨论社区反作弊之前,我们先明确一下什么是作弊以及作弊会带来的行业风险。
1. 作弊的定义和行业风险
发现风险和定义问题是风控工作中非常关键的一环,但也是经常被大家忽略的一环。本文给出个人的定义,即“一切通过非正常手段去滥用产品功能,以谋取利益的行为”。关键词“牟利”,不论哪个行业,作弊一定是趋利的。
不同行业的作弊风险形式并不固定,其需要结合产品形态和业务模式来界定。比如,电商场景下作弊可能带来的风险有刷单、薅羊毛和黄牛等。支付场景的主要风险有交易诈骗,洗钱以及信用卡套现等。
那么,社区场景下又面临着哪些风险呢?
小红书 UGC 社区的环境下,面临的主要风险有如下几类,数据刷量(数据造假)、内容引流、欺诈以及虚假种草。
2. 社区反作弊的意义
多数场景下,反作弊的价值通过挽回 XX 资损来衡量。比如,电商的薅羊毛,支付的反信用卡套现,活动的骗补贴等,衡量标准可以是为平台节约了多少资损。那在社区中,该如何去衡量价值呢?或者说社区反作弊的意义是什么?
• 产品生存
面向监管:如果反作弊做得不到位,相应风险问题的浓度就有可能会变高,比如诈骗和刷单问题。近期,有关部门针对互联网诈骗展开行动,如断卡行动、清网行动等等。如果这些问题得不到有效解决,会给平台带来监管的风险。
机器资源:大量的作弊行为可能占用网络资源,造成服务的堵塞,影响用户使用功能。
从以上两个角度考虑,作弊在短期内是有可能影响产品和平台生存。
• 数据准确率
作弊行为会产生大量的垃圾数据,而数据是产品乃至战略决策的重要支撑。如无法分辨虚假数据,当其量级和占比达到一定程度时,可能导致分析、决策的偏差和失误,影响业务的判断。
• 平台生态
健康和真诚的内容生态和真实的数据是用户体验的保障。
我们将 C 端用户分为两类,一类用户无法分辨虚假数据和内容,于他们而言不真实的内容或数据会带来决策的误导;另一类用户能分辨虚假数据和内容,不至于被误导,但分辨和筛选的过程大大增加获取有效信息的成本。从长期来看,作弊可能会带来对平台的不信任和用户流失。
对于作者来说,作者是社区内容生产的核心原动力。如果作弊者的数据虚假、虚高的话,对其他作者不公平。长期来看,作弊会导致“劣币”驱逐“良币”。
• 流量价值
最后一层,作弊行为会影响流量的价值,内容和数据的不真实,本身会降低公众对平台的认可度,长期来看会影响用户使用平台的兴致。从商业化的角度,最关心流量价值的是投放者,对于投放者,如果数据不准确会影响商业分析的结论偏差,导致投放效果不如预期,低估品牌的流量价值。
举例来说,某投放方通过数据分析挑选与其内容匹配且有流量的博主,认可其带货能力。假设该博主的数据是通过作弊刷出来的,投放后会发现效果不佳,ROI 不如预期,长此以往会引出平台互动 ROI 低的结论,导致对于平台流量价值的低估。
综上,不论是从平台生态还是流量价值的层面来看,虚假数据和内容都会影响平台发展潜力。做好社区反作弊,可以提高产品长期发展的上限。
1. 作弊背后的产业链:分工明确
作弊背后牟利者的产业链是什么?黑灰产的产业链分工非常明确,大致可以分上中下游三个部分。
上游主要来负责提供核心物料,比如,申请账号,如手机号(猫池、接码平台)、IP 资源(代理 IP,秒波 IP)、设备的(模拟器改机、云控手机)。
中游负责技术的实现,比如做号:注册账号 --> 养号 --> 将号卖给下游、封装刷量自动化脚本、营销工具等。
下游实现变现,一般是运营人员,是非技术的部分。通常,在黑灰色产业链中技术人员不会直接参与服务的变现。比如刷量服务中,常见通过网站裂变的形式发展代理和下线,实现刷量服务运营。在诈骗行业中,诈骗团伙中各司其职:运营人员一部分负责引流,一部分负责引流后培养用户信任,最后引导完成诈骗。
2. 作弊手法迭代:从自动化工具逐渐演变为真人众包,作弊成本增加,识别难度变大
早期大多数的攻击是脱机类接口作弊,通过对抗慢慢衍生出虚拟机和群控的形式。近些年众包作弊的形式也慢慢成为主流。对于黑产作弊手法的迭代,可以看出作弊成本变得越来越高。脱机仅需要账号和 IP,一旦突破防护即可实现大量作弊行为;群控则需要购买真实设备;众包则是依赖真人以任务分包的形式达到目的。虽然众包技术含量没有那么高,但全量识别的成本和难度是更高的。
从上述产业链可以看出,整个作弊行业的趋利性是非常明显的,背后往往会有着比较明确的变现思路和方法。而黑产的专业性也是在利益的驱动下迅速提升。不管从上游的资源到下游的获利,都分工明确,协同高效,慢慢地衍生出识别难度越来越大的作弊形式。这也要求做风控的同学跟进行业的形势和进展,做到知己知彼,在识别对抗的过程中不断的完善自我,做到迭代的优化。
1. 作弊防控思路
面对已知风险和产业链,下面来讨论下整个作弊防控的策略。所谓策略须先明确作弊防控的目标,以及达到目标的关键路径。
首先明确对于反作弊的预期。反作弊的本质是与作弊者成本的对抗,任何反作弊系统都无法做到 100% 的准确和召回。前面提到,无论何种形式作弊,它都是以牟利为目的的,而利益的来源是作弊成本和收益之间的价值差异。反作弊的工作就是提高作弊成本,尽量压缩作弊利益空间,降低作弊者的动机。因此,合理的目标设定是降低作弊行为在正常行为中的占比,控制风险的浓度。
关键路径是化被动识别为主动防御,如果长期作为被动方,可能没办法有全盘宏观的概念。要做到主动防御,一是构建风险的感知能力,尽早发现风险并且快速反应迭代;二是控制黑产的核心资源(账号,设备),树立高门槛设置准入壁垒,并将有问题的账号进行存量清理。收缩作弊者能使用的账号量和设备量,相应的新账号成本也会变高,这就控制了核心资源。
下面对作弊防控思路做进一步的拆解,也是一个比较通用的方法论,个人认为可以应用到各类风险控制场景里。首先业务风控最大的难点是对抗,无论作弊变成何种形式,唯一不变的就是对抗,它是一直存在的。围绕对抗抽象出几个模块:风险感知、能力建设、风险识别、风险处置、效果评估。在遇到新的对抗时,这几个环节间会进行不断的循环迭代。下面以小红书社区反作弊为例,具体介绍这几个模块的设置。
风险感知层负责更快发现风险,化被动救火为主动防御。具体分为情报运营,黑产卧底和红蓝军对抗,帮助风险识别更早的发现问题,可以说情报是整个风险防控体系的眼睛,解决“看得见”的问题。
能力建设是面向对抗的快速响应能力。这部分涉及的模块,一是端+云联防,在合法合规前提下通过端获取设备信息,并进一步加工为可用特征,供云防策略和算法使用。二是可以快速接入且可灵活配置的风控系统,以实现策略规则的快速迭代。三是为更快的实现从零到一的落地风控场景,搭建可跨场景协同使⽤的风险画像平台,在新风险场景里快速迁移和使用数据基建能力。
风险识别模块,面向对抗需提高识别的准召。从几个角度拓展能力,首先扩充数据,结合设备特征、账号特征、行为特征,以及其他场景下识别的风险画像,做联合使用分析。其次,从挖掘的角度,利用官方平台和作弊者之间的信息不对称性,寻找作弊用户相较于正常用户的异常点:① 尝试由点到线,从分析单个行为变成分析一串行为即行为序列挖掘;② 从单点到面, 通过账号、IP 或设备等节点之间的拓扑关系进行团伙挖掘,可以带来很大的增益。
风险处置方面需要选择更有效的方式提高绕过成本。主要分为两个层面,一是处置对象,二是处置手段。在每个场景下该怎么处置,并没有一个标准答案,建议结合具体业务和业务中的风险来判断,了解风险背后的动机,再考虑应该采取怎样的处置手段才能提高绕过成本。效果评估可以评估风险水位,一般来说常用的指标有作弊漏过量、漏过率、作弊服务价格、账号价格等。
2. 实现方案——风控体系:⽀持快速接入分析、灵活配置与能力迁移
小红书的风控体系,分为业务数据接入层,数据加工层,分析决策层,数据采集能力沉淀及运营和评估模块。
业务数据层,覆盖用户全场景的行为风控。从设备激活->账号注册\登录->内容浏览 ->交互->内容发布,从多场景层面实现联防联控。对于明确的作弊用户,直接拒绝访问从而加强准入的防御壁垒; 对于疑似异常用户或高难度作弊注册,建议做延迟处理或在后续关键环节上做拦截处置,可以达到增加绕过成本的目的:具体来说,如果在注册时直接拦截,作弊者可快速验证拦截原因;延迟拦截后作弊者定位识别方法的难度变大,找到绕过方法的成本也更高。
数据接入层,风控引擎支持实时请求接入,也支持准实时流式接入和离线数据接入。
数据加工层重点针对身份特征,网络环境,设备信息、行为数据、时序特征,累计因子等去做加工和挖掘,并输入至决策分析层。
决策分析层由策略引擎、模型引擎和数据引擎组成。其中策略引擎完成实时的规则产出和返回,支持灵活的策略配置和策略上下线。模型引擎,对于简单模型,可以做到线上 Serving;对于复杂模型或需要分析的模型,需通过近线或离线实现。
数据采集的能力沉淀层,包含设备指纹采集、名单系统、风险画像、关系图计算和风险事件模块。一方面,作为分析决策层的数据源做输入。另一方面,实现识别能力的迁移、使用等等。决策分析层也会向能力沉淀层做输出, 将新识别风险点落到能力沉淀里复用至其他风险场景。
这部分主要分享小红书社区数据刷量风险的识别和治理工作。
1. 数据刷量反作弊实践——风险治理
风险治理环节至关重要,在实践中我们发现,同样的识别结果,在选择不同的治理对象和方式时,效果差异性非常大。
分享下我们的理解,可以从影响、实现链路以及作弊动机三个层面剖析数据刷量的问题:
Q:数据刷量带来的影响是什么?
A:博主的虚假粉丝,笔记的虚假点赞、收藏、分享、阅读等。
Q:实现刷量的链路是什么?
A:买量者购买刷量服务,或在众包平台发单等;刷单者提供服务来牟利。
Q:作弊背后的真实动机是什么?
A:买量者希望通过刷假数据提高自我流量的价值,但该价值是假的,他想营造出一种虚假的高价值,从而去实现商业化的流量变现。
我们有一些不同的治理方案:
一、对于影响的治理方案是清理这部分作弊的行为所得。但是,仅清理虚假流量,唯一的损失就是买量付出的钱。但对于买量者,还可以尝试其他作弊服务。因为作弊买量价位不会非常高,不断尝试的可能性就很强。关键点在于尝试作弊是没有边际成本的,比如某人偷东西后只是要求把偷窃所得还回去,而不会把他抓起来,只要不被发现就赚了。
二、对于实现链路,针对刷量作弊的账号做治理。比如识别到一个用于刷量的机器账号,平台将该账号封禁。从账号的成本上考虑,提供刷量服务者手上的账号量会变得越来越少,做账号成本就会变高,刷量的服务价格就会上涨,刷量者尝试新手法时成本也会变高。
三、从作弊动机角度考虑,按作弊程度作流量分发降权或商业权益限制。对买作弊流量的笔记做流量分发限制,作弊后可以获得的流量比不作弊更少。其次是限制买作弊流量博主的商业权益,因为很多买量者想通过商业化实现流量变现,对商业权益限制使其无法做商业合作,对作弊者来说是很大的损失。该模块治理效果,可以大大降低买量者的作弊意愿。从实践来说,从治理【风险影响】转变为治理【实现链路】与【作弊动机】,作弊意愿降低,作弊量级下降显著。
2. 数据刷量反作弊实践——风险识别
数据刷量的风险识别实践分为三个阶段,随着对抗的展开识别方案不断迭代。
第一个阶段,在没有风控没有对抗的情况下,发现风险是相对容易的,风险隐蔽性不强,该阶段基于行为的主体特征做异常识别,基本假设是作弊主体有明确的特征异常。相应的识别方法如限速策略、参数校验、环境异常、设备伪造改机等识别,以及基于统计特征的监督学习。优点是识别方式解释性非常强。缺点是比较容易绕过。拿限速策略举个例子,上线初期拦截效果明显,但很快作弊者就会摸到限速阈值,只要将速度降下来就可绕过。但是从对抗层面来说,阈值是不可能无限下压的,当速度与正常用户重合时,阈值就无法下调了。
由于第一阶段识别打击生效,出现了对抗,单点分析已不能覆盖大部分风险。所以第二阶段,基于群组行为主体的特征分析挖掘异常。基本假设是作弊团伙存在明显的特征相似性。识别方式上,尝试无监督的聚类算法或频繁项挖掘等。优点是对专家知识的依赖度比较低,可以通过无监督手法找到新团伙;缺点是通过特征伪造、养号、真机可一定程度上绕过识别。
第二阶段上线后,黑灰产又调整了一次作弊模式。意识到,一是需要加强设备改进参数的真实性。二是通过代理做 IP 打散,甚至尝试真人众包的作弊模式。
在该阶段我们再次探索数据刷量背后不变的模式是什么?刷量的本质是本身没有流量的人,希望给自己的数据做作假。作弊用户倾向于给正常用户不喜爱的笔记/作者互动,且这类作弊互动是具有批量性质的。为了达到效果,买量者不会只买一个作弊行为。在这个假设下,我们基于拓扑关系设计图的构建和图相关算法。在构建过程中,尝试构建同构图,比如人与人之间的关系,有相似行为的人构边,或使用过相同介质的人构边。也尝试构建异构图,异构图中很多实体都是可以构点,不限于人或设备,可以是 IP、手机号、行为的对象等。在构图完成后,可以在拓扑结构上实现图分割、高密子图挖掘、社群发现模型或者标签传播模型等。
这类方案的优点是不太容易被绕过;缺点是如果作弊者不断提高作弊成本,每个作弊账号和 IP 用的次数极少,在只做少量行为的情况下,关联关系很有可能在构边的过程中丢失,导致识别漏过。
不过这种情况下,每个作弊行为的成本非常高,提高作弊成本的目标也基本达到了。
评论