【论文速读】| 在安全运营中心使用大语言模型来实现威胁情报分析工作流程的自动化
本次分享论文:Using LLMs to Automate Threat Intelligence Analysis Workflows in Security Operation Centers
基本信息
原文作者:PeiYu Tseng, ZihDwo Yeh, Xushu Dai, Peng Liu
作者单位:Penn State University, State College, PA, 16801
关键词:LLMs, agent, threat intelligence analysis
原文链接:https://arxiv.org/pdf/2407.13093
开源代码:暂无
论文要点
论文简介:SIEM 系统在安全运营中心(SOC)中扮演着关键角色,负责监控和分析网络威胁。然而,当前 SIEM 系统无法自动化处理自然语言编写的网络威胁情报(CTI)报告,导致分析师必须花费大量时间进行手动分析。本文提出了一种利用大语言模型(LLMs,如 GPT-4)的 AI 智能体,以自动化处理 CTI 报告中的重复性任务。该智能体通过四步过滤过程,生成准确的正则表达式,并提供关系图,帮助 SOC 分析师更快、更准确地响应威胁。这一创新显著减轻了分析师的工作负担,提高了 SOC 的效率和响应速度。
研究目的:本文旨在解决当前 SIEM 系统无法自动化处理自然语言编写的网络威胁情报(CTI)报告的问题。通过开发一种利用大语言模型(LLMs,如 GPT-4)的 AI 智能体,自动执行 CTI 报告的分析任务,以减轻分析师的工作负担。该智能体通过提取重要信息、生成正则表达式,并构建威胁情报关系图,帮助安全运营中心(SOC)提高效率,加快对网络攻击的响应速度。
研究贡献
1. 提出了一种新的 AI 智能体,用于自动提取 CTI 报告中的重要信息并生成正则表达式(Regex)。
2. 为确保生成的 Regex 的准确性,研究者采用了四步过滤过程,排除潜在的假阳性和假阴性。
3. 该 AI 智能体还能提供关系图,描绘 CTI 报告中不同威胁情报之间的联系。
4. 本项目首次提出一种无需任何人工干预的 AI 智能体,利用 LLMs 的革命性能力,使 CTI 分析工作流实现高度自动化。
引言
网络犯罪每年给全球造成巨大的经济损失,仅在 2023 年,美国的消费者和企业就损失了超过 125 亿美元。为了应对这些威胁,企业越来越依赖安全运营中心(SOC),其中 SIEM 系统成为其核心工具。SIEM 系统通过实时关联引擎帮助检测攻击,但面对自然语言编写的网络威胁情报(CTI)报告,SIEM 系统仍需依赖分析师进行大量手动分析。这一过程不仅耗时,还增加了对攻击的响应时间。
尽管已有一些研究利用机器学习技术从安全文档中自动提取信息,但这些领域特定的 AI 模型在处理多样化和不断变化的攻击技术时表现有限。因此,本文提出了一种 AI 智能体,利用大语言模型(如 GPT-4),自动化处理 CTI 报告中的重复性任务,从而提高 SOC 的效率,减轻分析师的工作负担。
研究方法
本文提出的 AI 智能体通过八个步骤自动化处理网络威胁情报(CTI)报告。
首先,将 CTI 报告按段落分割,并利用大语言模型(LLMs)提取每段中的攻击指标(IOCs)。
其次,采用多次运行 LLMs 并进行投票机制,结合检索增强过滤,净化提取结果。然后,通过检索增强匹配机制区分捕获组和非捕获组,生成正则表达式(Regex)。
第三,利用 LLMs 识别 IOCs 之间的依赖关系,分类并验证每个依赖关系。
最后,构建威胁情报关系图,显示 IOCs 之间的联系。通过这些步骤,AI 智能体能够自动提取 CTI 报告中的关键信息,生成准确的 Regex,并提供关系图,帮助安全运营中心(SOC)快速、高效地应对网络威胁。
AI 智能体概述
研究者的 AI 智能体工作流程分为两部分。首先,研究者将 CTI 报告分段,利用 LLM(如 GPT-4)提取每段中的攻击指标(IOC)。其次,通过多次运行 LLM 和检索增强过滤净化响应。第三,研究者区分 IOC 字符串中的捕获组和非捕获组,并生成用于 SIEM 规则的正则表达式(Regex),通过 Regex 测试器验证其准确性。之后,研究者识别 IOC 之间的依赖关系,对其进行分类和验证。最后,研究者构建关系图,显示 IOC 之间的联系。该流程有效解决了自动化处理 CTI 报告中的多个技术挑战,提高了 SOC 的效率和准确性。
研究评估
研究者在 50 多份网络威胁情报(CTI)报告上对 AI 智能体进行了测试,结果表明该智能体能够有效识别和处理大量的攻击指标(IOCs)。在实验中,LLMs 识别了超过 2900 个潜在的 IOCs,通过净化后确定了约 2300 个有效 IOCs,包括文件名、域名、哈希值、IP 地址、命令行和注册表键值。
研究者发现,AI 智能体生成了约 2200 个正则表达式(Regex),并成功构建了威胁情报关系图。相比手动识别的真实情况,AI 智能体仅遗漏了 3%的 IOCs。这些结果表明,AI 智能体不仅显著提高了 CTI 报告处理的效率,还大幅减少了分析师的工作负担,有助于安全运营中心(SOC)更快速地响应网络攻击。
论文结论
本文提出了一种创新的 AI 智能体,旨在自动化处理网络威胁情报(CTI)报告中的重复性任务。通过利用大语言模型(LLMs,如 GPT-4)的强大能力,该智能体能够准确提取 CTI 报告中的重要信息,生成正则表达式(Regex),并构建威胁情报关系图。这不仅减轻了安全分析师的工作负担,还显著提高了安全运营中心(SOC)的效率和响应速度。
实验结果表明,该 AI 智能体在识别和处理攻击指标(IOCs)方面具有高效性和准确性。总体而言,本文的研究为自动化 CTI 分析工作流提供了一种有效的解决方案,具有广泛的应用前景。
原作者:论文解读智能体
校对:小椰风
评论