实时检测机器人广告点击的深度学习技术
实时检测机器人广告点击的深度学习技术
机器人广告点击检测的任务是判断电商网站上的广告点击是由人类还是软件代理发起。其目标是确保广告主活动不会被机器人行为计费,同时避免误判人类点击。该系统需要实时运行以最小化对广告体验的干扰,并具备可扩展性、全面性、精确性以及快速响应流量变化的能力。
在今年的创新人工智能应用会议(IAAI)上,我们提出了 SLIDR(切片级机器人检测)系统。这是一个通过弱监督训练的实时深度神经网络模型,用于识别在线广告中的无效点击。自 2021 年起,SLIDR 已在某中心部署,保护广告主活动免受机器人点击影响。
技术挑战与解决方案
标签生成
由于缺乏大规模准确标注数据,我们通过两种高门槛活动生成标签:
导致购买的广告点击
来自高 RFM 分值客户账户的点击(RFM 代表客户购买行为的近期性、频率和货币价值)
评估指标
采用三类特殊指标:
无效率(IVR):算法标记为机器人的点击比例,反映模型召回率
误报率(FPR):将购买点击作为人类点击样本,计算被错误标记的比例
机器人覆盖率:通过启发式方法(如 1 小时内超过 k 次点击的会话)验证模型覆盖范围
神经网络模型架构
模型输入特征包括:
用户级频率和速率计数器
用户实体计数器(如 IP 下的独立会话数)
点击时间特征(映射到单位圆上的昼夜周期)
登录状态区分
网络结构采用三层全连接架构,使用 ReLU 激活函数和 L2 正则化。训练时通过样本权重平衡不同时间切片和登录状态的数据分布。
切片级校准优化
将校准问题构建为凸优化问题:
设定整体 FPR 预算上限
为每个流量切片设置最小机器人覆盖率约束
通过二次函数近似各切片的 IVR-FPR 曲线
联合优化最大化总 IVR
系统部署
系统包含两个核心组件:
离线系统:每日进行模型重训练和校准
实时组件:结合 Redis 和只读数据库缓存计算特征值,在 GPU 实例集群上运行神经网络推理
关键保障措施包括:
输入数据护栏(如每周各时段最小人类点击密度)
异常模型更新阻止机制
灾难恢复方案(快速回滚/流量重放工具)
未来方向
计划新增特征包括:
用户/IP/UserAgent/搜索查询的嵌入表示
深度交叉网络等先进架构以捕捉特征交互
该系统已证明能有效平衡机器人检测精度与商业影响,为在线广告生态提供重要安全保障。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码

评论