【论文速读】| LLMCloudHunter:利用大语言模型(LLMs)从基于云的网络威胁情报(CTI)中自动提取检测规则
本次分享论文:LLMCloudHunter: Harnessing LLMs for Automated Extraction of Detection Rules from Cloud-Based CTI
基本信息
原文作者:Yuval Schwartz, Lavi Benshimol, Dudu Mimran, Yuval Elovici, Asaf Shabtai
作者单位:Ben-Gurion University of the Negev, Department of Software and Information Systems Engineering
关键词:网络威胁情报(CTI)、大语言模型(LLM)、威胁狩猎、云、Sigma 规则
原文链接:https://arxiv.org/abs/2407.05194
开源代码:暂无
论文要点
论文简介:随着网络攻击数量和复杂性的增加,威胁狩猎已成为主动安全的关键方面,能够在威胁造成重大损害之前进行检测和缓解。开源网络威胁情报(OSCTI)是威胁狩猎者的重要资源,但通常以非结构化格式提供,需要进一步的手动分析。本文提出了 LLMCloudHunter,这是一个新颖的框架,利用大语言模型(LLMs)从文本和视觉 OSCTI 数据中自动生成通用签名检测规则候选。研究者使用 12 个注释的实际云威胁报告评估了所提出框架生成的规则的质量。结果表明,研究者的框架在准确提取威胁行为者 API 调用方面达到了 92%的精确度和 98%的召回率,并且在生成的检测规则候选成功编译并转换为 Splunk 查询方面达到了 99.18%的成功率。
研究目的:在技术快速发展的背景下,网络攻击的数量和复杂性显著增加,传统的被动防御措施已经不足以应对这些威胁。威胁狩猎是一种主动搜索和缓解未被检测到的威胁的方法,旨在缩短入侵与发现之间的时间窗口。开源网络威胁情报(OSCTI)是威胁狩猎中广泛使用的信息来源,但由于其非结构化的特性,通常需要手动分析才能得出有意义的见解。本文的研究目的在于开发一个利用大语言模型(LLMs)的框架,能够自动从非结构化 OSCTI 中提取检测规则,从而提高威胁狩猎的效率和准确性,特别是在云环境下。
研究贡献:
1. 提出一个基于 LLM 的新框架,能够从非结构化 OSCTI 中自动生成 Sigma 规则候选,集成了文本和视觉信息,虽然框架主要针对云环境,但可以适用于本地环境相关的 CTI。
2. 提供了一个包含 12 个云相关 OSCTI 帖子的注释数据集,支持框架的训练和评估。
3. 提供了关于 LLM 在网络安全复杂 NLP 任务中的应用见解,涉及提示工程技术和模型特性参数的有效使用。
4. 进行了全面的评估,评估了生成的 Sigma 规则候选的准确性和正确性。
5. 将研究者的代码和云 CTI 数据集在 GitHub 上公开,供研究社区使用。
引言
随着技术的快速发展和数字化进程的推进,网络攻击的数量和复杂性也随之增加,导致与这些技术进步相关的安全风险日益突出。为了应对这些风险,组织在传统的被动防御措施之外,开始采用动态防御策略,其中之一就是威胁狩猎。这种方法通过主动搜索和缓解未被检测到的威胁,旨在缩短从入侵到发现的时间窗口。开源网络威胁情报(OSCTI)作为威胁狩猎者的重要资源,提供了大量潜在和活跃威胁的信息。然而,OSCTI 通常以非结构化的格式出现,需要手动分析才能得出有意义的见解。本文提出了 LLMCloudHunter 框架,利用大语言模型(LLM)自动从文本和视觉 OSCTI 数据中生成检测规则,特别针对云环境的独特安全挑战。
研究方法
本文提出的 LLMCloudHunter 框架包括三个主要阶段:预处理、段落级处理和 OSCTI 级处理。在预处理阶段,首先使用网络抓取工具下载并解析 OSCTI 的 HTML 代码,将其转换为统一的文本格式,并过滤掉不必要的内容。接着,通过图像分析模块处理从 OSCTI 中提取的图像,将其内容转换为文本以供进一步分析。
在段落级处理阶段,框架通过 API 调用提取器和 MITRE ATT&CK TTP 提取器,从预处理后的文本中识别出关键实体。然后,利用规则生成器将这些实体转化为初步的 Sigma 规则候选。
最后,在 OSCTI 级处理阶段,框架对从各段落生成的 Sigma 规则候选进行聚合和优化。通过规则优化器合并和分离选择字段,消除冗余,并通过 IoC 增强器将提取的 IoC 整合到 Sigma 规则中,最终生成逻辑一致且操作性强的检测规则。
通过这种方法,LLMCloudHunter 能够从非结构化的 OSCTI 数据中自动生成适用于云环境的检测规则,提高威胁狩猎的效率和准确性。
研究讨论
研究者在 12 个云相关 OSCTI 源上评估了 LLMCloudHunter 的有效性和准确性。结果显示,该框架在准确提取威胁行为者的 API 调用方面达到了 92%的精确度和 98%的召回率,在提取 IoC 方面达到了 99%的精确度和 98%的召回率。此外,99.18%的生成检测规则候选成功转换为 Splunk 查询。通过综合评估,研究者确认了框架在处理 OSCTI 方面的高效性和准确性。
消融研究结果进一步验证了框架各组件的重要性。尤其是图像分析模块和 API 调用提取器,对提高整体性能起到了关键作用。然而,提取 MITRE ATT&CK TTP 的过程仍存在一定挑战,这可能影响整体性能,但不会影响 Sigma 规则候选的检测能力。总体而言,LLMCloudHunter 展示了在自动化处理非结构化 OSCTI 数据方面的巨大潜力。
研究评估
数据集:研究者收集了 12 个由不同供应商发布的云环境开源网络威胁情报(OSCTI)。每个 OSCTI 的详细描述包括图像数量、标记数量、API 调用数量及其技术复杂性。为了创建数据集的真实标签,研究者的研究团队(包括威胁狩猎和云安全专家)对每个 OSCTI 的内容进行了深入分析,识别并提取了 OSCTI 中描述的实体及其关系,以创建连贯且有意义的 Sigma 规则候选。
评估指标:研究者使用常见的实体和关系提取指标(精确度、召回率和 F1 分数)评估了框架的性能,并定义了一组特定的标准以测试每个 Sigma 规则候选在 OSCTI 的操作上下文中的功能性。
结果:LLMCloudHunter 在提取威胁行为者的 API 调用方面表现出色,达到 92%的精确度和 98%的召回率,在提取 IoC 方面达到 99%的精确度和 98%的召回率。此外,生成的 Sigma 规则候选中有 99.18%成功转换为 Splunk 查询。研究者的评估还显示,LLMCloudHunter 生成的规则在语法正确性、条件字段准确性和描述元数据对齐方面表现优异,但在关键程度准确性方面略有不足。
消融研究进一步验证了各组件的重要性,特别是图像分析模块和 API 调用提取器在提高整体性能方面起到了关键作用。尽管在提取 MITRE ATT&CK TTP 方面存在挑战,但这些并未显著影响 Sigma 规则候选的检测能力。总体而言,LLMCloudHunter 在处理非结构化 OSCTI 数据并生成可操作的检测规则方面展示了巨大的潜力。
论文结论
本文提出了 LLMCloudHunter,一个利用预训练大语言模型分析文本和视觉 OSCTI 并自动生成 Sigma 规则候选的端到端框架。研究者的框架展示了 LLMs 在处理 OSCTI 和生成可操作规则方面的潜力,通过使用 Sigma 格式,LLMCloudHunter 的输出可以无缝集成到现有的 SIEM 系统中。
未来的工作可以集中在将 LLMCloudHunter 扩展到本地环境,增加其在不同组织设置和环境中的适用性。此外,研究者计划通过增加剧本自动化功能,增强框架的威胁缓解能力,为威胁狩猎提供更强大的支持。
原作者:论文解读智能体
校对:小椰风
评论