第 61 期|GPTSecurity 周报
GPTSecurity 是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练 Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于 GPT/AIGC/LLM 最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
Security Papers
1. RedAgent:使用具有上下文感知的自主语言智能体对大语言模型进行红队测试
简介:研究者们开发了名为 RedAgent 的多智能体大语言模型系统,以应对 LLMs 在现实世界应用中的安全挑战。RedAgent 通过抽象现有的越狱攻击策略,生成上下文感知的提示,有效提高了红队测试的效率和准确性。系统通过自我反思和持续学习,能在特定上下文中实现有效的越狱。实验结果表明,RedAgent 能在五次查询内越狱大多数黑盒 LLMs,效率是传统方法的两倍。此外,RedAgent 还发现了 60 个针对 GPTs 应用的严重漏洞,并已与相关公司沟通修复。
链接:
https://arxiv.org/abs/2407.16667
2. 在大语言模型(LLMs)时代探索自动加密 API 误用检测
简介:本文提出了一个评估大语言模型(LLMs)在检测加密 API 误用方面的系统性框架,通过分析 11,940 份报告,揭示了 LLMs 的不稳定性,这些报告中过半数为误报。研究者们通过限定问题范围和利用 LLMs 的自我纠正能力,显著提升了检测的准确性,实现了接近 90%的检测率,超越了传统方法。同时,识别了 LLMs 在加密知识理解和代码语义解释上的不足,并基于此开发了一套基于 LLM 的工作流程,成功在开源代码库中发现 63 个现实世界的加密误用,其中 46 个已被社区认可,23 个正在修复,6 个已解决。
链接:
https://arxiv.org/abs/2407.16576
3. OriGen:通过代码到代码的增强和自我反思来增强 RTL 代码生成
简介:研究者们推出了 OriGen,一个具备自我反思和数据增强功能的完全开源框架,专门用于生成高质量、大规模的寄存器传输级(RTL)代码。他们创新性地提出了一种代码到代码增强方法,通过知识蒸馏技术提升开源 RTL 代码数据集的质量。OriGen 还能利用编译器反馈进行自我反思,自动纠正语法错误,这一能力得益于一个精心构建的、包含全面样本的数据集。
实验结果显示,OriGen 在 RTL 代码生成任务上明显超越其他开源方案,在 VerilogEval-Human 基准测试中比之前最佳的 LLM 提升了 9.8%。同时,在评估自我反思能力的基准测试中,OriGen 的性能更是超越了 GPT-4 达 18.1%,展现了其在自我反思和错误修正方面的卓越能力。
链接:
https://arxiv.org/abs/2407.16237
4. 静态应用程序安全测试工具与大语言模型在代码库级别漏洞检测中的比较
简介:研究者们对 15 种不同的静态应用程序安全测试(SAST)工具和 12 种流行或最先进的开源大语言模型(LLMs)进行了比较,目的是检测 Java、C 和 Python 三种流行编程语言代码库中的软件漏洞。研究发现,SAST 工具的漏洞检测率较低,但误报率也相对较低;而 LLMs 虽然能够检测到高达 90%至 100%的漏洞,却伴随着较高的误报率。研究者们进一步探索了将 SAST 工具和 LLMs 集成的方法,以期在一定程度上弥补各自的不足。这项分析不仅展示了软件漏洞检测技术的最新进展,也为未来的研究方向提供了宝贵的指导。
链接:
https://arxiv.org/abs/2407.16235
5. VidyaRANG:由大语言模型驱动的基于对话学习的平台
简介:研究者们设计了一个创新平台,以提供定制化的学习体验,旨在解决传统搜索引擎信息过载和大语言模型(LLMs)在处理敏感信息时的局限。该平台特别强调互动性和提问功能,结合知识增强检索技术,帮助学习者快速获得精确信息并深入理解学习内容。
在技术实现上,平台前端采用 Streamlit 和 React 框架,优化用户界面和交互体验。后端则利用 AWS EC2 实例安全存储 API 密钥,并通过 SSL 证书增强数据传输的安全性。研究者们还在开发基于 Android Studio 的移动应用,计划将其发布到 Play 商店,以提升平台的移动可访问性和用户体验。
链接:
https://arxiv.org/abs/2407.16209
6. 基于分析的大语言模型越狱攻击
简介:研究者们深入探究了大语言模型(LLMs)在越狱攻击面前的脆弱性,并提出了一种称为基于分析的越狱(Analyzing-based Jailbreak, ABJ)的新方法。ABJ 利用了 LLMs 日益增强的分析和推理能力,揭示了它们在处理分析型任务时的潜在安全漏洞。通过对不同开源和闭源的 LLMs 进行详尽的 ABJ 评估,研究者们发现在 GPT-4-turbo-0409 模型上,攻击成功率(ASR)达到了 94.8%,攻击效率(AE)为 1.06,这表明了 ABJ 在攻击效果和效率上均达到了先进水平。此项研究凸显了提升 LLMs 安全性的紧迫性,以减少这些强大工具被滥用的风险。
链接:
评论