【论文速读】| AttackQA:利用微调及开源大语言模型辅助网络安全运营的数据集的开发与应用
基本信息
原文标题: AttackQA: Development and Adoption of a Dataset for Assisting Cybersecurity Operations Using Fine-Tuned and Open-Source LLMs
原文作者: Varun Badrinath Krishna
作者单位: SambaNova Systems
关键词: 网络安全、检索增强生成(RAG)、开源 LLM、数据集开发、SOC
原文链接: https://arxiv.org/pdf/2411.01073
开源代码: 暂无
论文要点
论文简介:近年来,大语言模型(LLM)在回答复杂领域问题方面表现出色,尤其是在微调后的特定领域数据集上,生成准确、上下文相关的答案能力大幅提高。本研究提出了一个名为 AttackQA 的网络安全问答(Q&A)数据集,专为支持安全运营中心(SOC)分析师设计。该数据集基于 MITRE ATT&CK 知识库开发,包含 25,335 对问答及其推理,80%的内容由开源 LLM 自动生成。研究表明,通过对开源嵌入模型和生成模型的微调,能够显著超越 OpenAI 的专有模型(如 GPT-4o)在准确性和效率上的表现,形成一套低延迟、高性能的端到端检索增强生成(RAG)系统。
研究目的:安全运营中心(SOC)是现代企业网络安全的核心,但也面临诸多挑战,例如技能短缺、过多时间花费在警报调查上以及对高级威胁的响应迟缓等。传统上,SOC 团队需耗费巨资培训员工使用复杂的网络安全工具,仅培养 10 名分析师就需约 369 万美元,而这对大多数企业来说成本高昂且难以承受。
本研究旨在通过人工智能技术开发一套网络安全问答系统,帮助 SOC 分析师快速获得网络攻击相关问题的高质量答案。系统完全依托开源大语言模型,通过微调与优化,不仅提升了准确性,还降低了部署与使用成本。其核心目标是简化 SOC 分析师的工作流程,加速网络攻击的检测与响应,从而提升网络安全运营的效率。
研究贡献:
1. 高质量网络安全数据集创建:利用开源 LLM 生成并微调了基于 MITRE ATT&CK 知识库的高质量问答数据集 AttackQA。
2. 数据质量控制:通过微调 Llama 3 70B 模型,自动筛选并剔除低质量的问答对,确保数据集的整体质量。
3. 嵌入模型性能提升:在检索任务中,微调的嵌入模型表现优异,其上下文召回率显著高于未优化模型和 OpenAI 最先进的嵌入模型。
4. 生成模型优化:通过 Llama 3 405B 对生成结果的评估,证明微调后的生成模型在生成准确性和回答推理能力上均超越了更大规模的专有模型。
5. 构建高效 RAG 管道:开发了一套精准、低延迟的 RAG 系统,能够快速服务于 SOC 分析师的问答需求。
引言
安全运营中心(SOC)是企业网络安全的核心枢纽,其职责涵盖威胁检测、调查与响应。然而,当前 SOC 的运作效率仍面临巨大挑战。一项研究指出,企业每年在 SOC 上的平均投入高达 1460 万美元,其中 80%用于人力成本。即便如此,SOC 团队仍需要投入大量时间来应对警报和高级威胁。此外,学习掌握多种安全工具也增加了培训成本和技术门槛。
为了减轻这些挑战并提升 SOC 的效率,本研究提出了一种基于问答系统的解决方案。通过微调开源 LLM,研究者开发了 AttackQA 数据集,并利用该数据集构建了一套 RAG 框架下的问答系统。数据集来源于 MITRE ATT&CK 知识库,这是一个基于真实世界网络攻击行为的数据库,涵盖攻击技术、工具、策略和缓解方法。然而,由于其原始数据结构复杂,不适合直接用于问答任务,因此研究团队对其进行了重组和优化,使其能够高效服务于 LLM 的训练与推理。
相关工作
此前已有研究证明,使用 LLM 生成、整理和评估合成数据集是提升模型性能的重要途径。例如,Atlas 和 RankRAG 等模型在特定领域的检索增强生成任务中表现突出。然而,这些研究大多依赖于专有模型和复杂的技术,而本研究的创新之处在于利用完全开源的 LLM,结合轻量化的优化策略,实现了更高的性价比与性能表现。
问答数据集创建
论文描述了数据集 AttackQA 的开发过程,核心步骤包括:
1. 数据提取与处理:从 MITRE ATT&CK 知识库提取了涉及攻击技术、策略、工具、组织及缓解方法的关键信息,并将其整理为适合 LLM 训练的文档格式。
2. 问题生成:通过结合人工和 LLM 的方式生成问答对,其中 20%由人工设计,涵盖复杂且具有覆盖性的网络安全问题,其余 80%由 Llama 3 8B 自动生成。
3. 数据质量控制:引入 Llama 3 70B 模型,通过微调实现对问答对的评分与筛选,最终保留 25,335 个高质量问答对。
最终,数据集包含 25,335 个问答对,为系统微调与评估提供了坚实基础。
用于 RAG 模型微调
论文对检索增强生成模型的嵌入与生成部分分别进行了微调:
1. 嵌入模型微调:利用问答数据中的相关文档对,提升模型的检索准确性。
2. 生成模型微调:通过对包含干扰文档的上下文进行训练,使生成模型能够准确回答问题。
3. 优化策略:在训练集中加入“无答案”情况的例子,以减少模型生成错误答案的可能性。
微调后的模型在上下文检索准确性和答案生成质量上均超过了开源基线模型和 OpenAI 的专有模型。
研究评估
论文使用多个指标评估了 RAG 系统的性能,包括:
1. 上下文检索回忆率:微调后的嵌入模型在检索相关文档时准确率高达 92.18%。
2. 回答生成质量:通过评估模型回答的正确性,证明微调后的生成模型在答案准确性上提升了 26 个百分点。
3. 综合性能比较:微调后的开源模型在回答准确性上甚至超越了 OpenAI 的 GPT-4o。
论文结论
论文开发了一套完整的网络安全问答系统,从数据集生成到模型微调和性能评估,均展示出开源模型的巨大潜力。AttackQA 数据集为领域内的进一步研究提供了重要基础,而优化后的 RAG 模型则显著提升了 SOC 分析员处理网络威胁的效率。这一工作证明,经过微调的开源 LLMs 能够在特定领域中挑战甚至超越专有技术,为开源社区和网络安全领域的发展注入新活力。
评论