写点什么

大模型安全 | 第九期「创造未来,安全同行」度安讲技术沙龙成功举办

作者:百度安全
  • 2024-12-27
    北京
  • 本文字数:2854 字

    阅读完需:约 9 分钟

大模型,正以前所未有的创造力,重塑数字世界的边界。12 月 20 日,「创造未来,安全同行」北京站·第九期“度安讲”技术沙龙成功举办,本次沙龙聚焦多模态、终端大模型内容安全、数据安全与合规等前沿领域的安全议题,来自百度安全、vivo、中国联通、复旦大学等行业领军专家共聚一堂,围绕防护机制、评测体系、落地实践等维度进行分享,旨在携手各界生态合作伙伴,为大模型的平稳健康发展,提供一套且是可行的思路与方案。


第九期“度安讲”技术沙龙


致辞


百度副总裁陈洋在开场致辞中指出,大模型技术的快速迭代使得企业对安全需求不断提升,如何既抓住大模型的创新机遇,又能化解随之而来的安全挑战,是摆在各方面前的一项艰巨任务。他强调,从数据隐私保护到合规风控,再到基础设施和模型资产安全,完善的安全体系需要在各个阶段、各个层面稳步推进。这背后离不开全行业的协同合作,既要有多模态的技术视野,也要有多维度的实战经验,通过多方的洞察力构建更加安全的大模型及其应用。


百度副总裁陈洋


多模态大模型的安全挑战与应对


相比传统大语言模型,多模态大模型在隐私保护、内容审核、模型对齐等方面面临更大挑战,如图片和文本组合导致的跨模态风险、生成内容的不准确与偏见等问题。百度安全副总经理冯景辉以《多模态大模型的安全挑战与应对》为题,详细剖析了多模态大模型的风险面,并从实际落地视角提出了一套系统性的方法论。冯景辉表示,多模态模型在图文、音视频等内容处理过程中,可能引入跨模态不一致、图像扰动、隐私泄露等新增问题,简单地用单模态手段筛查往往会功亏一篑。针对这一场景,百度安全提出了基于 “模态对齐” 和 “视觉理解” 的多模态原生内容安全方案,从文字语义与视觉注意力两个维度着眼,利用区域分割和聚合分析技术实现精细化的风险识别。这样的方案在实践中具有显著效果,并得到多家企业在测试环境里的验证,也成为百度安全技术栈中坚实的一环。


百度安全副总经理冯景辉


红队视角下的大模型安全


vivo 资深安全专家刘光明基于攻防的视角,为与会专家带来了极冲击力的思考。他介绍道,在红队测试过程中,越狱攻击、提示词注入,以及多模态下各种攻击手段逐渐增多,攻击者可能通过对图片做细微干扰来误导大模型,也可能将敏感信息隐藏到图片中,使模型难以检测出实际的风险需求。具体来说,多模态的安全风险不仅包括违规内容安全问题,还包含图像对抗攻击、跨模态组合攻击、数据投毒、模型后门等诸多问题,这些攻击方式在实际场景中都展现出较强的隐蔽性和危害性。刘光明指出,红队视角下的大模型安全防护不仅要检测和过滤恶意违规内容的输入和输出,还须要对事实性错误问题、模型本身的幻觉进行防范,做到各个层面上的鲁棒性加强、跨模态对齐、防注入等大模型的全生命周期的安全防范。


vivo 资深安全专家刘光明


端侧大模型安全建设实践


在端侧大模型的实践上,百度大模型内容安全平台负责人李志伟围绕《端侧大模型安全建设实践》进行分享,他从研发和落地双重视角解读端侧大模型,将繁杂的技术环节化繁为简,并形成了一套具可复制性的解决方案。他提到,端侧大模型的快速发展,带给行业的是“实时性”、“用户数据隐私保护”的绝佳优势,但却需要在有限算力下实现合规审核、生成内容过滤等功能。因此,百度安全团队构建了一套精简但覆盖面极广的安全架构,从多模态审核到防越狱设计,再到上下文提示词保护,最后结合云端后续策略更新,实现端上与云端协同的安全管控闭环。这一思路在手机厂商、PC 厂商与智能 IOT 设备厂商处都具备极强的参考价值。针对终端应用场景,当用户在车型端或 PC 端,也会用到一系列嵌入式的小模型,若无配套安全机制,往往难以满足监管与合规要求。百度安全所提出的一系列防护机制、日志加密本地存储,以及可离线执行的应急处置方案,为终端厂商和小模型开发者提供了简单易用的应对思路。


百度大模型内容安全平台负责人李志伟


大模型数据安全建设、创新与实践


关于《大模型数据安全建设、创新与实践》,百度安全资深工程师王建奎从语料数据安全、模型资产保护和隐私安全三个维度,系统性地阐述了百度的大模型数据安全解决方案。特别是在模型全生命周期的安全防护方面,百度安全创新性地打造了百度数据保险箱产品,基于"零信任、零改造、全流程"理念,实现了从语料数据管理到模型训练、流转、使用和私有化交付等环节的全方位保护。该方案通过可信计算、数据全流程加密以及数据围栏等技术,确保数据"可见不可用、可用不可得",有效防范内部窃取和外部攻击风险。在实践中,该方案已成功应用于诸多端侧场景,实现了文心大模型等核心模型资产的有效保护。此外,王建奎还介绍了百度安全基于大模型技术在智能数据分类分级、智能安全评估、数据要素流通等方向的探索成果和创新实践。


百度安全资深工程师王建奎


中国联通人工智能安全方案


以《中国联通人工智能安全方案》为题,联通数据智能有限公司模型算法室负责人王恺着眼于运营商作为基础设的角度出发,分享了联通担当 AI 安全链主的思路:一方面,自主研发 AI 安全方案,形成模型安全评测、增强、防护和内容溯源的端到端安全工具链;另一方面,将大模型能力与实际安全业务需求相结合,为短信、网络、终端安全等提供全过程的技术与服务支撑。值得关注的是,他尤其谈及了联通从网络安全切入 AI 安全的思路,围绕短信、通话、网络流量等运营商特色场景,把对抗意识和流量经营能力融为一体,形成了一套独有的大模型安全应用部署范式。


联通数据智能有限公司模型算法室负责人王恺


AI 大模型安全评测与治理


复旦大学计算机科学技术学院的助理研究员洪赓,给现场带来了最新学术成果,以《AI 大模型安全测评与治理》为主题分享了复旦白泽战队在靶向式安全平台构建方面的探索。他介绍,复旦团队多年来一直围绕计算机系统与安全的关键领域进行深耕,从安卓安全、供应链攻击到大模型攻击,基于这些经验,发布了名为“复旦白泽指数”的大模型安全测评基准,旨在通过自动化与人工红队结合的方式,帮助企业更加精准地找出潜在漏洞。特别在多模态的攻防研究上,复旦团队观察到非常多新颖而隐蔽的越狱技术,这也提示行业在安全防护环节需要引入更多 AI+场景结合,只有通过模型反思、模型代答与上下文管控等多重安全机制的配合,才能更有效地抵御深度伪造与隐形诱导。


复旦大学计算机科学技术学院的助理研究员洪赓


本期“度安讲”技术沙龙聚焦了“多模态大模型内容安全”和“端侧大模型安全”两大关键主题,不仅展示了行业先进的安全防护机制和成熟的安全测评体系,也为终端落地与实践应用提供了极具操作性的思路。在多模态方面,要在视觉理解与文本语义审核中引入区域关注、跨模态对齐、健壮鲁棒性等机制,并在输出端匹配相应的知识库与模型纠偏,才能真正提升对复合内容的风险管控。在端侧方面,则要在有限算力和离线场景下,延续云端的安全审核与行为管控思路,同时结合 Prompt 模板保护、越狱防护和违规日志加密处理,形成一条完整的本地安全防线。百度安全期待在不久的将来,与更多合作伙伴一道持续深耕 AI 安全,协力打造大模型安全生态,为各行各业赋予更健康、更可靠的数智化创新力量。


用户头像

百度安全

关注

有AI更安全 2018-11-08 加入

百度安全官方技术账号

评论

发布
暂无评论
大模型安全 | 第九期「创造未来,安全同行」度安讲技术沙龙成功举办_百度安全_InfoQ写作社区