写点什么

【论文速读】| 通过间接提示注入危害现实世界中的 LLM 集成应用

作者:云起无垠
  • 2024-03-29
    北京
  • 本文字数:2143 字

    阅读完需:约 7 分钟

【论文速读】| 通过间接提示注入危害现实世界中的LLM集成应用


本次分享论文为:Not what you’ve signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection


基本信息


原文作者:Kai Greshake, Sahar Abdelnabi, Shailesh Mishra, Christoph Endres, Thorsten Holz, Mario Fritz


作者单位:萨尔大学、CISPA 亥姆霍兹信息安全中心、世科锐科技有限公司


关键词:大语言模型、间接提示注入、安全性


原文链接:

https://arxiv.org/pdf/2302.12173.pdf


开源代码:暂无


论文要点


论文简介:本篇论文提出了一种新的攻击方式,即间接提示注入(Indirect Prompt Injection, IPI),它允许攻击者远程(无需直接接口)通过在可能被检索的数据中策略性地注入提示来利用集成了大语言模型(LLM)的应用。研究者提出了一个全面的分类法,从计算机安全的角度系统地研究了通过间接提示注入引起的影响和漏洞,包括数据窃取、信息生态系统污染等新型安全风险。

研究背景:随着 LLM 如 GPT-4 的广泛应用,LLM 集成应用成为了日益增长的趋势。然而,这些应用在集成 LLM 时未能充分考虑安全性评估,使得它们可能面临未知的安全威胁。


研究贡献


1.提出了间接提示注入(IPI)的概念,以危害语言大模型(LLM)集成应用——这是一个完全未经调查的攻击向量,其中检索到的提示本身就可以作为“任意代码”。


2.开发了首个关于 LLM 集成应用中 IPI 威胁景观的分类体系和系统分析。


3.展示了这些攻击在现实世界和合成系统上的实用性,强调了需要建立强大的防御措施。


4.在 GitHub 仓库中分享了所有的演示,并在本文附录中分享了所有开发的攻击提示,以促进未来的研究,并为构建语言大模型集成应用的安全评估开放框架做出贡献。


引言


论文详细介绍了 LLM 集成应用的发展背景及其带来的便利。同时,作者指出了这些应用在安全性方面存在的问题,尤其是通过间接提示注入进行攻击的风险。这种攻击方式利用 LLM 处理自然语言的能力,通过注入恶意提示来操纵 LLM 的行为,进而影响整个应用的功能。文章强调了研究这一问题的重要性,并提出了针对该威胁的系统性分析框架。


前期工作


论文回顾了相关工作,包括 LLM 的发展、安全性研究以及 LLM 集成应用的现状。通过比较,作者强调了间接提示注入攻击在性质上与传统的直接攻击不同,它利用了 LLM 在处理输入时不易区分数据和指令的特性,为攻击者提供了新的手段。

集成应用攻击面


注入方法:从被动方法(如 SEO 技巧)到主动方法(如电子邮件),作者列举了多种可能的注入途径,这些方法可使攻击者在不直接接触 LLM 的情况下注入恶意提示。


威胁分类:研究团队系统化地从信息收集、欺诈、入侵、恶意软件等角度分析了间接提示注入可能引发的具体威胁,展示了攻击的多样性和复杂性。


探究评估

通过一系列实验设置,论文展示了在真实世界系统(如 Bing 的 GPT-4 聊天功能)和合成应用中,间接提示注入攻击的实际可行性。这些实验不仅证实了攻击的可能性,也揭示了当前 LLM 集成应用在安全设计上的不足。


实验设置:研究团队开发了多个合成应用,通过 OpenAI 的 APIs 特别是 GPT-4 模型,模拟真实世界中 LLM 集成应用的攻击场景,并利用 LangChain 库创建了具备动态 API 调用功能的聊天应用。同时,团队在 Bing Chat 上进行了实验,将其作为黑盒模型,利用微软 Edge 浏览器的侧边栏特性进行局部测试,确保研究的安全性和合理性,深入评估 LLM 集成应用面对间接提示注入攻击时的防护能力。


实验过程:实验进一步阐述了所发起攻击的具体内容和研究成果,并依据潜在威胁进行分类。在此过程中,研究者提出了三个核心观点:首先,间接注入的指令能够有效地操控模型,这表明数据与指令之间并未实现完全解耦;其次,那些通常会被聊天界面过滤掉的提示,在间接注入的过程中却能够逃避过滤;最后,模型在大多数情况下能够在会话过程中持续地保留住注入的内容。攻击的初始注入手段视具体攻击方式而定,可能包括通过检索或电子邮件等途径。


实验结果: 实验揭示了攻击者可利用间接提示注入技术,无需直接与 LLM 交互,即可远程对 LLM 集成应用发起多种攻击,这一发现不仅展现了攻击手段的多样性与复杂性,也突出了在集成 LLM 过程中必须重视安全性的问题。研究进一步阐明了 LLM 集成应用中未被充分认识的新攻击面——间接提示注入,及其对现实世界应用可能构成的威胁,并强调了开发者在追求 LLM 集成便利性的同时,必须加强安全性设计的紧迫性。


研究论述


文章讨论了该研究的意义、实验的限制以及未来研究方向。作者强调了加强 LLM 集成应用安全性的紧迫性,并呼吁业界和学术界共同努力,以确保这些强大的技术能够安全、负责任地部署和使用。


论文结论


研究团队通过对间接提示注入(IPI)攻击的细致研究,揭露了这一新型网络安全威胁如何利用恶意提示远程操纵 LLM 集成应用的行为,指出了现有 LLM 集成应用在数据处理和安全防护方面的显著脆弱性。通过实验验证了 IPI 攻击的可行性及其导致的多样化影响,如数据泄露、服务拒绝和功能篡改,强调了加强 LLM 应用安全防御的紧迫性。此外,本研究不仅为当前安全实践敲响了警钟,还为未来的安全研究和 LLM 应用开发提供了新的方向,包括开发能够识别和防止恶意提示的高效技术,深入探讨 IPI 攻击机制,及评估其在不同场景下的具体影响。这项工作突显了随着 LLM 技术广泛应用,确保系统安全对于促进其健康发展的重要性,为该领域的未来研究和实践指明了道路。


原作者:论文解读智能体

润色:Fancy

校对:小椰风


用户头像

云起无垠

关注

定义开发安全新范式 2022-10-14 加入

云起无垠致力于为企业提供自动化安全检测能力,让企业更安全,让安全更智能。

评论

发布
暂无评论
【论文速读】| 通过间接提示注入危害现实世界中的LLM集成应用_云起无垠_InfoQ写作社区