《欢迎来到经验时代》— 强化学习之父、2024 年获图灵奖得主

2025 年 6 月 6 日,在北京智源研究院大会的开幕式上,特地邀请 Richard S. Sutton 做主旨演讲。Sutton 是加拿大计算机科学家,在人工智能强化学习领域成就斐然,被誉为 “强化学习之父”,2024 年获图灵奖。
在人工智能发展历程中,从早期依赖人类生成数据的模式逐步向新的方向探索。“人类数据时代”,人工智能借助大规模人类生成数据取得显著进展,大型语言模型(LLMs)通过学习人类文本和专家示例,在多种任务中表现出色。但该模式在数学、科学等领域遭遇瓶颈,数据利用接近极限,进步速度放缓,难以突破人类现有知识边界。
《欢迎来到经验时代》由 David Silver 和 Richard S. Sutton 撰写,探讨人工智能从依赖人类数据向经验时代的转变,即通过智能体与环境的持续互动自主生成数据、积累经验,以实现超人类智能的发展路径 。
人类数据时代的成就与困境
人工智能在 “人类数据时代” 依托海量人类生成数据(如文本、专家标注)实现突破,大型语言模型(LLMs)成为典型代表。通过监督学习和人类偏好微调,展现出跨领域任务处理能力,可完成写诗、医疗诊断、法律文书总结等复杂工作。然而,这一模式逐渐触及天花板:在数学、科学等领域,人类数据蕴含的知识接近耗尽,模型性能提升显著放缓,且无法突破现有认知边界(如发现新定理或技术突破)。单纯依赖人类数据的监督学习已难以推动 AI 向超人类智能迈进,亟需新的数据来源与学习范式。

经验时代的核心突破: 被动输入到主动生成
“经验时代” 的本质是 AI 通过智能体与环境的持续互动自主生成数据,而非依赖静态的人类输入。这一转变以强化学习(RL)为核心,具备四大特征:
1、连续经验流学习
智能体通过长期、连续的 “经验流” 积累知识,而非碎片化交互。例如,健康助手可基于用户数月穿戴设备数据调整健康建议,教育代理跟踪用户数年学习进度优化教学策略。这种模式模拟人类终身学习机制,支持长期目标优化(如碳排放 reduction 需多年数据积累)。
2、环境交互与行动自主性
智能体突破纯语言交互限制,通过传感器、执行器与数字 / 物理世界互动。AlphaProof 与形式证明系统交互生成 1 亿条新证明,远超人类数学家积累的 10 万条数据,并在国际奥数中获奖;新一代 AI 原型已能通过计算机图形界面自主操作软件或远程控制实验室设备。
3、环境反馈驱动的奖励机制
奖励信号源自真实环境结果(如心率、实验数据、材料强度),而非人类主观判断。教育代理以考试成绩衡量学习效果,气候模型通过二氧化碳浓度变化评估策略有效性。这种 “接地奖励” 使模型能发现人类未察觉的高效策略,避免 “人类认知天花板”。
4、非人类化推理与世界模型
智能体通过 “世界模型” 预测行动后果,基于环境反馈迭代优化推理逻辑。AlphaProof 以非人类逻辑发现数学证明路径,DeepSeek 通过 RL 自主开发复杂问题解决策略。此类模型不再局限于模仿人类思维,而是通过 “假设 - 实验 - 修正” 循环突破认知边界,类似人类科学探索过程。
技术路径与案例支撑
经验时代的技术基石是强化学习与大模型的融合:
1、强化学习的核心作用:通过试错机制(如时序差分学习、探索策略)驱动智能体在环境中自主进化。AlphaZero 通过自我对弈超越人类棋类水平,AlphaProof 利用 RL 生成超大规模证明数据。
2、环境交互技术延伸:从游戏模拟(如 Atari、StarCraft II)拓展至现实场景,如计算机操作、机器人控制。
3、混合推理框架:LLMs 负责符号逻辑处理,RL 模块处理环境交互,形成 “思考 - 行动” 闭环。如 React 框架通过调用工具增强模型解决实际问题的能力。
超人类智能的双刃剑
1、革命性机遇
1)科学发现加速:
自主设计实验、探索新材料(如室温超导体)和医疗靶点,突破人类试错成本限制。科学代理可通过模拟与真实实验结合,加速气候变化解决方案研发。
2)个性化服务革新:
基于长期经验流的健康管理、教育系统等,实现 “千人千面” 的精准服务。
2、系统性风险
1)不可解释性危机:
非人类推理模式可能导致决策逻辑无法追溯,增加安全与伦理风险。
2)目标对齐难题:
单一奖励优化可能引发意外后果(如 “最大化利润” 忽视社会成本),需通过 “双层优化” 机制动态调整目标(用户设定高层目标,模型组合低层环境信号)。
3)社会影响:
自动化可能取代高技能岗位,需重新设计劳动力结构与教育体系。
3、安全防护探索
1)动态反馈修正:
通过用户满意度、情绪识别等实时信号,引导模型调整行为偏差。
2)物理世界约束:
利用任务执行的时间延迟(如药物临床试验周期)为人类干预预留空间,降低失控风险。
结论:经验驱动的 AI 进化新纪元
“经验时代” 标志着 AI 从 “数据依赖” 转向 “自主进化”。David Silver 与 Richard S. Sutton 在文中指出,通过强化学习、环境交互与长期规划的结合,智能体将突破人类知识边界,在科学、工程等领域实现超人类能力。尽管面临可解释性、伦理等挑战,这一范式变革有望开启 AI 驱动的知识发现浪潮,其影响力或将远超 “人类数据时代” 的技术跃迁。正如文中所言:“当经验数据的规模与质量超越人类生成数据时,真正的超人类智能将成为可能。”
#David Silver#Richard S. Sutton#强化学习 #智源大会 #LLM
原文下载:
https://pan.baidu.com/s/1TRSWx093JS1WaZIt4lkvdQ?pwd=Lanh
提取码: Lanh
评论