第 33 期 | GPTSecurity 周报
GPTSecurity 是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练 Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于 GPT/AIGC/LLM 最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
Security Papers
1. Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs through a Global Scale Prompt Hacking Competition
简介:为了解决大型语言模型(LLM)在交互式环境中,如聊天机器人和写作助手,容易受到的提示注入(prompt injection)和越狱(escape)攻击(统称为 prompt hacks),研究者发起了一项全球即时填充竞赛。这项竞赛允许自由形式的人工输入攻击,旨在针对性地解决当前存在的问题。
链接:https://aclanthology.org/2023.emnlp-main.302.pdf
2. ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox Generative Model Trigger
简介:随着 GPT-4 等生成模型的发展,文本后门攻击对现有系统构成了更大的实际威胁。这些攻击通过在输入中插入难以察觉的触发器并操纵训练数据集中的标签来破坏模型,使得检测更加困难。研究者对黑盒生成模型作为后门攻击工具进行了全面研究,并强调了研究相关防御策略的重要性。本文揭示了研究者所提出的基于生成模型的攻击 BGMAtack 可以有效地欺骗文本分类器。与传统的攻击方法相比,BGMAtack 利用最先进的生成模型使后门触发器更加不明显。
链接:https://arxiv.org/pdf/2304.14475.pdf
3. JADE: A Linguistics-based Safety Evaluation Platform for Large Language Models
简介:本文中,研究者提出了 JADE,这是一个针对语言模糊测试的平台。通过增强种子问题的语言复杂性,JADE 旨在测试大型语言模型(LLM)的稳健性。研究者认为,由于人类语言的复杂性,当前的顶级 LLM 在面对无数不同的语法结构时,很难识别出其中的不变邪恶。这些语法结构形成了一个无法完全覆盖的未绑定示例空间。技术上,生成/转换规则由母语使用者制定,一旦制定,即可用于自动增长和转换给定问题的解析树,直至突破限制。此外,JADE 还引入了主动学习算法,逐步优化基于 eLLM 的评估模块。通过迭代优化少量标注数据的评估提示,它有效地增强了与人类专家判断的一致性。
链接:https://arxiv.org/pdf/2311.00286.pdf
4. Robust Safety Classifier for Large Language Models: Adversarial Prompt Shield
简介:大型语言模型的安全性仍然是一个关键问题,因为它们容易受到对抗性攻击,这可能导致系统产生有害的响应。为了解决这个问题,研究者引入了对抗性提示盾(APS),这是一种轻量级模型,在检测准确性方面表现出色,并具有对抗性提示的弹性。此外,研究者还提出了自动生成对抗训练数据集的新策略,称为机器人对抗噪音对话(BAND)数据集。这些数据集旨在增强安全分类器的稳健性。通过评估大型语言模型,研究者证明了分类器有可能将对抗性攻击导致的攻击成功率降低多达 60%。
链接:https://arxiv.org/pdf/2311.00172.pdf
5. BadLlama: cheaply removing safety fine-tuning from Llama 2-Chat 13B
简介:Llama 2-Chat 是 Meta 开发的大型语言模型集合,并向公众发布。尽管 Meta 对 Llama 2-Chat 进行了微调,以防止输出有害内容,但研究者指出,由于公众可以访问模型权重,不良行为者可能绕过 Llama 2-Chat 的防护措施,并滥用 Llama 2 的功能进行恶意活动。研究结果显示,当模型权重公开发布时,仅依靠安全微调无法有效防止滥用。考虑到未来模型可能具备更大的潜在破坏能力,人工智能开发人员在决定是否公开发布模型权重时,必须重视微调所带来的威胁。
评论