AI 中的潜意识学习:大语言模型隐藏的安全隐患
潜意识学习在 AI 中的出现
今日出现的怪异大语言模型行为:
我们研究了潜意识学习,这是一种令人惊讶的现象,即语言模型从与这些特征语义无关的模型生成数据中学习特征。例如,一个“学生”模型在训练于偏好猫头鹰的“教师”模型生成的数字序列时,学会了偏好猫头鹰。同样的现象可以通过看起来完全良性的数据传播错位。这种效应仅在教师和学生共享相同基础模型时发生。
有趣的安全含义。
我比以往任何时候都更加确信,如果我们要拥有可信的 AI,就需要对 AI 完整性进行严肃的研究。
标签: 学术论文、AI、完整性、LLM、信任
发布于: 2025 年 7 月 25 日上午 7:10 • 15 条评论
订阅此条目评论
留下评论 取消回复
博客审核政策
登录名
电子邮件
URL:
记住个人信息?
填写空白:此博客的名称是 Schneier on ___________(必填):
评论:
允许的 HTML
<a href="URL"> • <em> <cite> <i> • <strong> <b> • <sub> <sup> • <ul> <ol> <li> • <blockquote> <pre>
Markdown Extra 语法 via https://michelf.ca/projects/php-markdown/extra/
Δ
← 如何 Solid 协议恢复数字代理 周五鱿鱼博客:稳定准等动力设计 →
侧边栏 Bruce Schneier 照片由 Joe MacInnis 拍摄。
由 WordPress 提供支持 由 Pressable 托管
关于 Bruce Schneier 我是一名公共利益技术专家,工作在安全、技术和人的交叉点。我从 2004 年开始在我的博客上写安全问题,从 1998 年开始在我的月度通讯中写。我是哈佛肯尼迪学院的研究员和讲师,EFF 的董事会成员,以及 Inrupt, Inc.的安全架构主管。此个人网站不表达任何这些组织的意见。
相关条目
那次 Tom Lehrer 恶作剧 NSA
如何 Solid 协议恢复数字代理
“加密后门和第四修正案”
网络安全恐惧如何影响投票信心
完整性时代
特色文章
加密的价值
数据是有毒资产,所以为什么不扔掉它?
NSA 如何威胁国家安全
恐怖分子可能使用 Google Earth,但恐惧不是禁止它的理由
赞美安全剧场
拒绝被恐怖化
隐私的永恒价值
恐怖分子不做电影情节
更多文章
博客档案
按月存档
100 条最新评论
博客标签
3d 打印机、9/11、A Hacker's Mind、Aaron Swartz、学术、学术论文、问责制、ACLU、行动主义、Adobe、高级持久威胁、广告软件、AES、阿富汗、AI、空警、航空旅行、空气间隙、基地组织、警报、算法、托辞、Amazon、Android、匿名、Anonymous、防病毒、Apache、Apple、Applied Cryptography
更多标签
最新书籍
更多书籍更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码

评论