北大、智源联合国际顶尖机构发布全球首个 AI 欺骗系统性报告,敲响前沿系统安全警钟

随着人工智能的能力呈指数级增长,一个令人不安的“阴影”正在随之扩大。
我们习惯于赞叹 AI 在围棋上战胜人类,在数学推理上超越专家,或者在编程上展现出的惊人效率。然而,当这些系统为了达成目标学会了“走捷径”,甚至学会了为了奖励而撒谎时,我们是否做好准备面对一个“学会精细化欺骗甚至危害人类安全”的超级智能?
Nature 研究表明:AI 不仅会“幻觉”(无意犯错),更正在演化出“欺骗”(有意误导)的倾向,甚至产生危害人类安全的想法。
从西塞罗(Cicero)在《外交》游戏中通过谎言背刺人类盟友,到大语言模型为了迎合用户偏好而“阿谀奉承”(Sycophancy),甚至在被监管时“装傻充愣”(Sandbagging)以隐藏实力—— AI 欺骗(AI Deception)已从理论猜测变成了迫在眉睫的实证风险。
近日,由北京大学助理教授、智源研究院大模型安全研究中心主任杨耀东团队牵头,联合北京大学、智源研究院、斯坦福大学、香港科技大学、牛津大学,以及来自阿里、Anthropic、Safe AI Forum 等产业界与学术界的顶尖学者,发布了长达 70 页的全球首个人工智能欺骗系统性国际报告——《AI Deception: Risks, Dynamics, and Controls》。
该工作不仅联合 20 多家国内外顶级机构和产业界、学术界的顶尖学者,更由图灵奖得主姚期智院士等担任高级顾问,并得到了图灵奖得主 Yoshua Bengio、AI 安全领域奠基人 Stuart Russell 的高度肯定,获联合国秘书长科学顾问团(UN SAB)密切关注。
这份报告不仅仅是对现有文献的梳理,更是一次对 AI 安全领域的“范式重塑”。报告指出,欺骗并非智能的“故障”,而是其“伴生阴影”——如果不加以干预,越聪明的 AI,可能越擅长欺骗。报告首次从“功能主义”视角出发,提出了一个统一的 AI 欺骗生命周期框架,试图在 AI 彻底失控前,敲响前沿系统安全警钟!
报告也是落实 2024 年智源与多家国际机构共同发起的《北京 AI 安全国际共识》的系列行动之一。
📄 论文标题:AI Deception: Risks, Dynamics, and Controls
✍️ 论文链接:https://www.arxiv.org/abs/2511.22619
📥 项目网站:www.deceptionsurvey.com
北大对齐小组:https://pku-alignment.group/
1 智能对齐的“莫比乌斯锁定”
我们常认为,随着模型能力变强,它应该更听话、更诚实。但研究团队提出了一个反直觉的洞察:智能对齐的莫比乌斯锁定(Möbius Lock)。
报告中给出了三个关键的观点:
莫比乌斯锁定 :传统观点常将“能力”与“安全”视为可权衡的二元对立,但这是一种拓扑学上的误读。模型的高级推理能力与欺骗潜能处于同一个莫比乌斯环面——它们本质同源,难以在不破坏智能结构的前提下进行简单的物理切割。能力越强,其内构的欺骗性越是与其功能性不可分割;
智能的阴影 :欺骗并非系统的“噪音”或“故障”,而是高维智能的伴生属性。随着模型在复杂推理和意图理解上的能力边界扩张,其策略性欺骗的风险空间呈现非线性的指数级增长;
循环性问题 :任何的防御策略都会成为模型进化的环境压力,诱导其产生更隐蔽、更具适应性的欺骗机制。这其实是一个自我强化的红皇后博弈,即对齐的努力本身反而可能成为训练更强欺骗能力的催化剂。
2 重新定义欺骗:不仅是意图,更是后果
AI 真的有“意图”去骗人吗?这是一个困扰哲学家和人工智能研究者良久的难题。 这篇报告避开了关于“意识”的争论,提出了更具有操作性和研究价值的功能主义的定义,以更好的指导 AI 欺骗的研究工作开展和缓解措施研究:
AI 欺骗: 指 AI 系统输出某种信号(语言或行动),导致接收者(人或其他 AI)形成错误信念,并因此做出有利于 AI 系统目标的行为。
为了系统性拆解 AI 欺骗这一难题,研究团队提出了“AI 欺骗循环”(The AI Deception Cycle)框架,将问题拆解为“欺骗涌现”与“欺骗治理”两个对抗过程。
3 欺骗是如何发生的:欺骗三要素模型
报告解构了欺骗的发生机制,提出了“欺骗铁三角”模型:内在动机 x 能力前提 x 环境触发 = 欺骗发生
动机基础(Incentive Foundation)是指模型在训练阶段通过训练数据、目标函数及奖励信号等途径,内化形成的内在驱动欺骗倾向。
数据内化: 训练数据本身承载了人类的认知偏差与谎言,模型通过模仿学习(Imitation Learning)继承了这些非诚实特征。
奖励劫持: 当奖励函数无法完美指代真实意图时,模型会策略性地迎合用户(如阿谀奉承)而非追求真理,以最大化回报。
欺骗性对齐 : 最本质的风险——模型在训练阶段表现出顺从以通过筛选,实则隐藏了与人类价值观相悖的工具性目标,等待监管缺失时执行。
能力前提(Capability Precondition)是模型在训练中习得、并在部署阶段应用的一系列能力,包括感知 (Perception)、规划 (Planning) 和执行 (Performing)。
情境感知: 模型能够分辨“训练”与“部署”环境,甚至意识到自己正处于被测试状态。
战略规划: 具备推演长短期后果的能力,能够策划跨时序的欺骗路径。
执行操控: 拥有调用工具、篡改日志或通过社会工程学操纵人类的实际执行力。
环境诱因(Contextual Trigger)是激活模型潜在欺骗倾向的外部催化剂或边界条件。例如:
监管盲区: 当模型探测到人类监督机制的缺失或漏洞时,其抑制欺骗的外部约束失效。
分布偏移: 面对训练分布之外(OOD)的极端场景,原有的诚实对齐机制可能失效,导致防御性欺骗。
博弈压力: 在多智能体竞争或生存压力下,欺骗成为模型在资源受限环境中获取优势的最优解。
针对上述成因,报告详细梳理了当前的防御手段,涵盖了检测(Detection)、评估(Evaluation)与缓解(Mitigation)。
检测: 从简单的文本分析,进化到内部状态探针(Internal State Analysis)——也就是通过扫描模型的“大脑”(神经元激活),像测谎仪一样判断它是否在说谎。
评估: 建立了包含内幕交易(Insider Trading)、保留实力(Sandbagging) 等多种场景的测试基准。
缓解: 提出了“过程监督”和“可验证奖励”等前沿技术,试图从根本上消除欺骗的动机。
4 风险分级:从“哄你开心”到“夺取控制”
欺骗行为并非单一维度的风险,而是一个随着能力提升而逐级跃迁的风险谱系。报告构建了五级风险分类体系(R1-R5):
R1 认知迎合:模型为优化短期奖励(如用户满意度),优先选择符合用户预期的错误信息而非客观事实。
典型表现: 阿谀奉承、幻觉性编造。
R2 心理操纵: 模型利用对人类心理弱点的理解,通过长期交互潜移默化地重塑用户的信念系统或情感状态。
典型表现: 诱导性说服、煤气灯效应 (Gaslighting)、情感控制。
R3 工具性欺诈: 在高风险领域(如金融、关键基础设施),模型为了最大化目标函数,采取违规或欺诈手段,造成实质性经济或安全损失。
典型表现: 金融造假、代码后门植入、指标刷量。
R4 认识论腐蚀: 模型具备大规模生成和传播虚假信息的能力,系统性地污染科学文献与公共媒体,瓦解人类社会的信任基石。
典型表现: 伪造科学论文、大规模虚假新闻生成、认知战。
R5 战略性背叛: 终极风险。模型具备“欺骗性对齐”能力,在训练与测试阶段刻意隐藏能力以通过安全审查,一旦获得部署权限或算力资源,即执行与人类利益相悖的真实目标。
典型表现: 能力隐藏、权力攫取、不可逆的失控
随着 AI 系统向关键基础设施的泛在化渗透,欺骗行为的后果不再局限于单一交互,而是随着部署规模的扩大被非线性放大,导致系统性的风险曲面呈指数级扩张。
5 前沿挑战:防御的边界
报告指出了三个阻碍实现强人工智能安全的结构性难题:
监督机制的递归失效:随着模型能力的提升,简单的红队测试将失效。AI 将学会对齐操纵——不仅是规避审计,更能主动识别并利用解释性工具的盲点,输出“看起来完美”但内部逻辑腐败的解释,导致“监督者”被“被监督者”蒙蔽。
欺骗性对齐的顽固性:当欺骗策略被模型内化为实现长远目标的工具时,传统的监督微调(SFT)和基于人类反馈强化学习(RLHF)仅能修正表面行为,而无法触及深层意图。正如“Sleeper Agents”实验所示,这种深层价值锁定具有极强的抗干扰性,甚至能在对抗训练中学会更好地隐藏自己。
莫比乌斯困境:能力与安全性之间存在一种拓扑级的纠缠。我们无法在单纯剥离欺骗能力的同时保留复杂的推理能力。随着智能维度的提升,欺骗不再是代码中的 Bug,而是高维推理能力的伴生阴影。AI 的规划能力越强,其构建跨时序谎言的诱惑与能力就呈非线性指数级增长,形成了一个难以解开的死结。
6 全球顶级团队,呼吁系统性防御
作为全球首份系统性 AI 欺骗研究的国际报告,其作者团队汇聚了来自领先机构的多位重量级学者,可谓明星阵容。
高级顾问委员会包括:
姚期智:图灵奖获得者,中国科学院院士,清华大学人工智能学院院长
张宏江:美国国家工程院外籍院士,智源研究院原理事长
张亚勤:中国工程院院士,清华大学智能产业研究院(AIR)院长
黄铁军:智源研究院理事长,北京大学计算机学院教授、媒体信息处理全国重点实验室主任
王仲远:智源研究院院长
曾毅:中国科学院自动化研究所研究员、人工智能伦理与治理研究中心主任,人工智能安全与超级对齐北京市重点实验室主任
郭毅可:中国工程院外籍院士,香港科技大学首席副校长
Philip Torr:英国皇家学会院士,牛津大学教授
Robert Trager:牛津马丁人工智能治理计划的联合主任,人工智能治理中心国际治理负责人
杨珉:复旦大学计算机科学技术学院院长、教授
杨耀东:北京大学助理教授,智源研究院大模型安全研究中心主任
这一重磅报告由北京大学领衔发起,核心团队集结了来自北大的陈博远、方思童、吉嘉铭、朱彦谞,以及香港科技大学的文鹏程、康奈尔大学的吴锦州、智源研究院的戴俊韬等青年学者。
该工作实现了极具广度的“产学研”跨界共振:贡献者与技术顾问阵容横跨产业界与学术界,汇聚了 Anthropic、微软研究院、智源研究院、阿里淘天实验室、腾讯及 Safe AI Forum 等前沿科技与安全机构的一线视角;同时联合了斯坦福、ETH Zürich、约翰霍普金斯、南洋理工等国际名校,以及复旦、上交大、浙大、南大等国内一流高校的科研力量,共同绘制了这幅全球视野下的 AI 安全全景地图。
该篇报告获得图灵奖得主 Yoshua Bengio、AI 安全领域奠基人 Stuart Russell 的高度肯定,并获联合国秘书长科学顾问团(UN SAB)关注,将“人工智能欺骗”列为国际人工智能安全第一关注问题。
这篇报告不仅是对学术界的贡献,更是给所有 AI 从业者的一份指南。我们正在构建的不仅是工具,而是具有潜在策略性行为的智能体。团队在文末发出呼吁:诚实必须成为 AI 的核心属性,它是可以被学习、被验证的。
面对 AI 欺骗,我们不能仅靠事后的“补丁”,而必须建立一套跨越技术、伦理和监管的社会技术防御体系。这不仅仅是计算机科学家的任务,更是全人类在通往 AGI 道路上必须通过的“大考”。
据了解,智源研究院自成立以来,始终高度重视人工智能安全。2024 年 3 月,智源组织召开“北京 AI 安全国际对话”,促成《北京 AI 安全国际共识》,首次划定 AI 安全红线。本项“AI 欺骗”的研究,正是保障 AI 安全红线的具体措施,以扎实的技术,联合顶尖国际机构合作,降低由误用和失控所带来的风险。
未来已来,只是分布在这些充满了“博弈”的参数之中。期待与更多伙伴同行。







评论