写点什么

AI 中的潜意识学习:大语言模型隐藏的安全隐患

作者:qife122
  • 2025-09-19
    中国香港
  • 本文字数:978 字

    阅读完需:约 3 分钟

潜意识学习在 AI 中的出现

今日出现的怪异大语言模型行为:


我们研究了潜意识学习,这是一种令人惊讶的现象,即语言模型从与这些特征语义无关的模型生成数据中学习特征。例如,一个“学生”模型在训练于偏好猫头鹰的“教师”模型生成的数字序列时,学会了偏好猫头鹰。同样的现象可以通过看起来完全良性的数据传播错位。这种效应仅在教师和学生共享相同基础模型时发生。


有趣的安全含义。


我比以往任何时候都更加确信,如果我们要拥有可信的 AI,就需要对 AI 完整性进行严肃的研究。


标签: 学术论文、AI、完整性、LLM、信任


发布于: 2025 年 7 月 25 日上午 7:10 • 15 条评论


订阅此条目评论


留下评论 取消回复


博客审核政策


登录名


电子邮件


URL:


记住个人信息?


填写空白:此博客的名称是 Schneier on ___________(必填):


评论:


允许的 HTML


<a href="URL"> • <em> <cite> <i> • <strong> <b> • <sub> <sup> • <ul> <ol> <li> • <blockquote> <pre>


Markdown Extra 语法 via https://michelf.ca/projects/php-markdown/extra/


Δ


← 如何 Solid 协议恢复数字代理 周五鱿鱼博客:稳定准等动力设计 →


侧边栏 Bruce Schneier 照片由 Joe MacInnis 拍摄。


由 WordPress 提供支持 由 Pressable 托管




关于 Bruce Schneier 我是一名公共利益技术专家,工作在安全、技术和人的交叉点。我从 2004 年开始在我的博客上写安全问题,从 1998 年开始在我的月度通讯中写。我是哈佛肯尼迪学院的研究员和讲师,EFF 的董事会成员,以及 Inrupt, Inc.的安全架构主管。此个人网站不表达任何这些组织的意见。


相关条目


那次 Tom Lehrer 恶作剧 NSA


如何 Solid 协议恢复数字代理


“加密后门和第四修正案”


网络安全恐惧如何影响投票信心


完整性时代


特色文章


加密的价值


数据是有毒资产,所以为什么不扔掉它?


NSA 如何威胁国家安全


恐怖分子可能使用 Google Earth,但恐惧不是禁止它的理由


赞美安全剧场


拒绝被恐怖化


隐私的永恒价值


恐怖分子不做电影情节


更多文章


博客档案


按月存档


100 条最新评论


博客标签


3d 打印机、9/11、A Hacker's Mind、Aaron Swartz、学术、学术论文、问责制、ACLU、行动主义、Adobe、高级持久威胁、广告软件、AES、阿富汗、AI、空警、航空旅行、空气间隙、基地组织、警报、算法、托辞、Amazon、Android、匿名、Anonymous、防病毒、Apache、Apple、Applied Cryptography


更多标签


最新书籍


更多书籍更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码


办公AI智能小助手


用户头像

qife122

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

评论

发布
暂无评论
AI中的潜意识学习:大语言模型隐藏的安全隐患_AI安全_qife122_InfoQ写作社区