写点什么

第 56 期 | GPTSecurity 周报

作者:云起无垠
  • 2024-06-25
    北京
  • 本文字数:1873 字

    阅读完需:约 6 分钟

第56期 | GPTSecurity周报


GPTSecurity 是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练 Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于 GPT/AIGC/LLM 最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。


Security Papers


1. SelfDefend: LLMs 能够以实用的方式自我防御免受破解


简介:SelfDefend 是一种新型的大语言模型(LLMs)防御框架,旨在对抗越狱攻击,即绕过安全对齐措施的攻击。该框架通过建立一个影子 LLM 实例来保护目标 LLM,同时进行基于检查点的访问控制。SelfDefend 利用现有 LLMs 识别用户查询中潜在有害内容的能力,通过实验验证了其有效性,能够显著降低攻击成功率,同时对正常查询影响极小。此外,通过数据蒸馏方法,SelfDefend 还优化了开源防御模型,使其在抵御越狱攻击方面表现优异,且延迟低,进一步增强了其在实际应用中的实用性。

链接:

https://arxiv.org/abs/2406.05498


2. 多智能体软件开发实验:迈向统一平台


简介:大语言模型正在革新软件工程,通过 AI 技术贯穿需求收集、架构设计、代码编写、测试和部署等环节。本研究旨在构建一个统一平台,利用多个 AI 代理自动将用户需求转化为结构化的软件交付物,包括用户故事、优先级排序、UML 图、模块化 API、单元测试和端到端测试。该平台还负责任务组织、安全合规性检查,并为非功能性需求提供设计建议。用户可按偏好控制各阶段,平台遵循欧洲标准进行安全合规性检查,并提出设计优化。研究使用 GPT-3.5、GPT-4 和 Llama3 等模型生成模块化代码,并在 GitHub 上公开源代码,以支持研究和实践。

链接:

https://arxiv.org/abs/2406.05381


3. PowerPeeler:一种精确且通用的 PowerShell 脚本动态去混淆方法


简介:PowerShell 作为强大的自动化工具,常被网络攻击者利用进行恶意脚本编写和混淆,以逃避检测和分析。为解决这一问题,本文提出了一种名为 PowerPeeler 的动态去混淆方法,它通过分析抽象语法树(AST)节点来识别和跟踪脚本执行过程中的混淆部分,并动态记录执行结果,从而实现精确的去混淆。与现有工具相比,PowerPeeler 在去混淆正确率上达到 95%,显著领先,并能恢复最多敏感数据,同时保持高语义一致性。此外,PowerPeeler 在有限时间内能有效产出最多有效去混淆结果,且具有良好的可扩展性,可作为网络安全解决方案的一部分。

链接:

https://arxiv.org/abs/2406.04027


4. 探索针对基于大语言模型的决策制定的后门攻击


简介:大语言模型(LLMs)在特定应用的微调阶段,因其强大的常识和推理能力,在决策任务中表现出巨大潜力。然而,这一阶段也存在显著的安全风险。本研究提出了首个针对 LLM 决策系统的后门攻击框架(BALD),系统地探讨了如何在微调阶段通过不同渠道引入后门攻击。研究者提出了三种攻击机制:词注入、场景操纵和知识注入,并通过实验验证了这些攻击的有效性和隐蔽性。研究还评估了 LLMs 在决策任务中的脆弱性,并探讨了潜在的防御措施,以保护基于 LLM 的决策系统。

链接:

https://arxiv.org/abs/2405.20774


5. 针对 GPT-4o 的语音破解攻击


简介:随着 GPT-4o 这一多模态大语言模型的推出,它通过音频、视觉和文本的交互能力,将人机交互带入了更自然的领域。然而,这同时也为潜在的语音破解攻击提供了新的机会。本研究首次系统地评估了针对 GPT-4o 语音模式的破解攻击,并发现 GPT-4o 在将文本破解提示转换为语音时具有较强的抵抗性。研究者提出了 VoiceJailbreak 攻击,通过模拟人类行为和虚构故事讲述来诱使 GPT-4o 泄露敏感信息。实验表明,VoiceJailbreak 能显著提高攻击成功率,从 0.033 提升至 0.778。研究还探讨了不同因素对攻击效果的影响,并通过高级写作技巧进一步增强了攻击效果。研究者希望这项研究能为构建更安全的多模态语言模型提供帮助。

链接:

https://arxiv.org/abs/2405.19103


6. LLM 辅助的静态分析用于检测安全漏洞


简介:软件存在安全漏洞的风险,而用于检测这些漏洞的程序分析工具在实际应用中的效果并不理想。尽管大语言模型(LLMs)在代码生成方面表现出色,但是它们难以进行复杂的代码推理以发现安全漏洞。本研究提出了一种名为 IRIS 的新方法,它首次将 LLMs 与静态分析相结合,以实现对整个代码库的推理,从而检测安全漏洞。研究者创建了一个包含 120 个真实 Java 项目中手动验证的安全漏洞的新数据集 CWE-Bench-Java。IRIS 利用 GPT-4 模型检测出其中的 69 个漏洞,而最先进的静态分析工具仅检测到 27 个。此外,IRIS 还显著降低了误报率,最高减少了 80%以上。这一成果不仅提高了漏洞检测的准确性,还减少了开发者的负担。

链接:

https://arxiv.org/abs/2405.17238

用户头像

云起无垠

关注

定义开发安全新范式 2022-10-14 加入

云起无垠致力于为企业提供自动化安全检测能力,让企业更安全,让安全更智能。

评论

发布
暂无评论
第56期 | GPTSecurity周报_云起无垠_InfoQ写作社区