写点什么

第 45 期 | GPTSecurity 周报

作者:云起无垠
  • 2024-04-02
    北京
  • 本文字数:1826 字

    阅读完需:约 6 分钟

第45期 | GPTSecurity周报


GPTSecurity 是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练 Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于 GPT/AIGC/LLM 最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。


Security Papers


1.探讨使用代码语言模型进行漏洞检测的进展情况


简介:在代码语言模型(code LMs)和漏洞检测领域逐渐受到重视的今天,研究者们对这些模型在漏洞检测方面的有效性进行了深入研究。然而,分析发现现有的漏洞数据集存在诸多问题,如数据质量不佳、标签准确性不高以及数据重复性严重,这些问题严重影响了模型在真实漏洞检测场景中漏洞检测的性能表现。为了解决上述挑战,本研究提出了 PRIMEVUL,这是一个全新的数据集,专为训练和评估漏洞检测的代码 LMs 而设计。PRIMEVUL 采用了创新的数据标记技术,确保了与人工验证基准相匹配的高标签准确性,并显著增加了数据集的规模。通过在 PRIMEVUL 上进行评估,研究者发现现有的性能基准可能过高估计了代码 LMs 的实际能力。这表明,当前的代码 LMs 在实际安全应用中仍面临重大挑战,需要进一步的创新研究。


链接:

https://arxiv.org/pdf/2403.18624.pdf


2.EasyJailbreak:一个用于越狱大语言模型的统一框架


简介:本研究提出了一个名为 EasyJailbreak 的统一框架,旨在简化对大语言模型(LLMs)进行越狱攻击的构建与评估过程。该框架通过使用选择器(Selector)、变异器(Mutator)、约束(Constraint)和评估器(Evaluator)四个组件构建越狱攻击。其模块化设计让研究人员可以便捷地组合新旧组件,创造出多样化的攻击方式。EasyJailbreak 目前支持 11 种越狱技术,有助于对各类 LLMs 进行全面的安全测试。通过对 10 种不同 LLMs 的测试,研究发现它们普遍存在显著的安全漏洞,平均有 60%的概率被越狱攻击成功。特别是,即便是 GPT-3.5-Turbo 和 GPT-4 这样的先进模型,它们的平均攻击成功率也分别达到了 57%和 33%。


链接:

https://arxiv.org/pdf/2403.12171.pdf


3.大语言模型需要推理顾问:通过行为模拟在复杂人类系统中成为专家


简介:本研究深度探讨了大语言模型(LLMs)在处理复杂人类系统推理任务方面的能力,并介绍了一种名为“MEOW”的创新性推理框架。MEOW 框架利用了生成代理模拟技术,通过在模拟环境中训练专家模型,让模型在每次模拟过程中专注于对特定任务的“经验”积累。这一通过模拟过程不断累积的“经验”,是使模型能在复杂人类系统的某个任务领域成为专家的关键。研究者们在一个模拟现实世界安全情境的通信游戏中测试了 MEOW 方法,实验结果显示,MEOW 方法能有效结合现有技术,显著提高 LLMs 在复杂人类系统推理中的性能。


链接:

https://arxiv.org/pdf/2403.18230.pdf


4.探索中文大语言模型的隐私保护能力


简介:随着大语言模型(LLMs)推动人工智能的发展,它们对隐私和安全的潜在影响也引起了广泛关注。为深入评估 LLMs 对个人信息的敏感处理能力及其在隐私保护方面的表现,研究者们设计了一个分层次的三级框架,专为评估语言模型的隐私保护能力而构建。该框架包含了一系列不断增加复杂度和深度的隐私测试任务,目的是全面检验 LLMs 在识别、管理和保护敏感数据方面的能力。通过这一系统性的评估方法,可以更明确地认识到这些模型在遵循隐私保护准则和预防隐私侵犯方面的有效性。研究发现,现有的中文大语言模型在隐私保护方面普遍存在缺陷。目前,这一普遍问题似乎难以避免,并可能导致在应用这些模型时产生隐私风险。因此,强调在 LLMs 进一步发展的过程中,必须更加重视隐私保护措施的设计与实施,以确保用户数据的安全性和合规性。


链接:

https://arxiv.org/pdf/2403.18205.pdf


5.全人工,少智能:从形式验证的角度看 GenAI


简介:本研究使用基于大语言模型(LLMs)的再生人工智能(AI)技术,对一系列用 SystemVerilog 编写的硬件设计数据集进行 CWEs 的形式化验证。在验证过程中,研究者将硬件设计分为易受攻击和无 CWEs 两大类。这些数据集由四种不同的 LLMs 生成,专门针对文章中定义的十种 CWEs,每种 CWE 均有其专属设计实例。研究者将识别出的漏洞与 60,000 个生成的 SystemVerilog 寄存器传输级别(RTL)代码的 CWE 编号相关联。研究还发现,大多数 LLMs 对硬件 CWEs 缺少认识,因此,在生成硬件代码时通常不会考虑它们。


https://arxiv.org/pdf/2403.16750.pdf


编辑:Fancy



用户头像

云起无垠

关注

定义开发安全新范式 2022-10-14 加入

云起无垠致力于为企业提供自动化安全检测能力,让企业更安全,让安全更智能。

评论

发布
暂无评论
第45期 | GPTSecurity周报_云起无垠_InfoQ写作社区