写点什么

《国际 AI 安全报告》第二版关键更新发布

作者:财见
  • 2025-11-26
    吉林
  • 本文字数:798 字

    阅读完需:约 3 分钟

蒙特利尔 2025 年 11 月 26 日 /美通社/ -- 《国际AI安全报告》(International AI Safety Report)第二版关键更新现已发布,及时更新了通用 AI 的风险管理与技术缓和措施。

该报告由图灵奖得主、计算机科学家 Yoshua Bengio 主持,汇集了百余位国际专家的参与,并获得包括欧盟、经合组织和联合国在内的 30 多个国家和国际组织的支持。

鉴于该领域发展速度过快,单一年度报告已无法及时反映进展,因此推出“关键更新”系列,以更短、更聚焦的形式呈现关键动态。 本次更新延续了首版关键更新,首版已于 2025 年 10 月 15 日发布。 这些更新确保决策者能够获得最新的文献综述,为循证决策提供依据。

第二版关键更新涵盖了提升可靠性与防范滥用的技术方法概述,以及风险管理领域新兴的制度化方法。 其核心重点包括:

  • 在训练模型抵御恶意攻击方面虽有所进展,但仍存在不足。 尽管 AI 模型及系统抵御攻击的能力有所提升,但技术娴熟的黑客仍能在约 50%的案例中仅用 10 次尝试即可突破防护,并通过向训练数据中注入少至 250 条恶意文档来投毒并破坏模型。

  • 开源鸿沟正在缩小。 开放权重模型如今与行业领先产品的差距已不足一年,虽然这有助于提升技术普及度,但同时也使预防故障和滥用的难度加大。

  • 行业在安全方面的承诺有所增加,但其成效仍不明确。 尽管 2025 年采用风险管理框架的 AI 企业数量增加一倍有余,但其实际效果仍存在不确定性。

《报告》主编、蒙特利尔大学(Université de Montréal)终身教授、LawZero 科学总监兼 Mila - Quebec AI Institute 科学顾问 Yoshua Bengio 表示:

“在持续关注 AI 能力与风险动态的同时,我们必须同步规划清晰的风险管理路径,确保采取恰当有效的风险管控措施与技术缓和方案。 本次关键更新概述了这些领域的最新进展,同时指出了仍然存在的不足之处与尚待把握的机遇。 我们的目标是持续向全球决策者提供有关 AI 发展的及时更新,而第二份《国际 AI 安全报告》计划于 2026 年初发布,并将在印度举办的 AI 影响力峰会之前推出。”

用户头像

财见

关注

还未添加个人签名 2023-11-21 加入

还未添加个人简介

评论

发布
暂无评论
《国际AI安全报告》第二版关键更新发布_财见_InfoQ写作社区