写点什么

【论文速读】| 通过大语言模型从协议实现中推断状态机

作者:云起无垠
  • 2024-06-11
    北京
  • 本文字数:1872 字

    阅读完需:约 6 分钟

【论文速读】| 通过大语言模型从协议实现中推断状态机


本次分享论文:Inferring State Machine from the Protocol Implementation via Large Language Model


基本信息


  • 原文作者:Haiyang Wei, Zhengjie Du, Haohui Huang, Yue Liu, Guang Cheng, Linzhang Wang, Bing Mao

  • 作者单位:南京大学,奇安信集团,东南大学网络科学与工程学院

  • 关键词:大语言模型, 协议逆向工程, 状态机, 代码分析

  • 原文链接:https://arxiv.org/html/2405.00393v1

  • 开源代码:暂无

论文要点


论文简介:本文提出了一种利用大语言模型(LLM)从网络协议实现中推断状态机的方法。此方法通过文本嵌入技术,使 LLM 能够深入分析协议实现代码的细节,并通过系统的提示工程识别和推断潜在的状态机。实验结果表明,该方法在六种不同的协议实现中的平均准确率超过 90%,且在与协议模糊测试工具 AFLNet 集成时,能显著提高代码覆盖率。


研究目的:针对动态分析可能因测试覆盖不全而遗漏关键状态转换,以及静态分析在处理复杂代码结构时的挑战,本文提出了一种基于大语言模型(LLM)的状态机推断方法。该方法旨在通过文本嵌入技术和提示工程技术,利用大语言模型的深度理解和代码生成能力,从协议实现代码中准确推断出状态机,以提高协议安全性分析的效率和准确性。


研究贡献:

1. 首次将大语言模型应用于从协议实现中推断状态机的问题,展示了 LLM 在处理复杂协议实现中的潜力;

2. 开发了一种名为 PROTOCOLGPT 的工具,自动化推断状态机;

3. 通过一系列实验验证了 LLM 在提取状态机方面的有效性,使用 PROTOCOLGPT 揭示了不同实现间的状态机差异,并提高了协议模糊测试工具的效果。

引言


本文首先介绍了状态机在网络协议分析中的重要性,并探讨了传统分析方法的局限性。接着,提出采用大语言模型(LLM)来克服这些限制,通过文本嵌入技术深入分析协议实现代码,并系统地通过提示工程技术推断潜在的状态机。该方法的优势在于能够处理复杂的代码结构,并且通过实验验证,显示出其在协议模糊测试中超过 90%的准确率和显著提升的代码覆盖率。

研究背景


在网络协议分析领域,准确提取状态机对于验证协议安全性和理解协议功能是至关重要的。传统的状态机推断方法主要依赖动态分析和静态分析:动态分析受限于测试覆盖范围,而静态分析则难以应对复杂的代码结构。近年来,自然语言处理技术已开始应用于从协议规范文档中提取状态机,但 RFC 文档的模糊性常常导致不同实现之间的差异,从而增加了协议安全分析的难度。因此,开发一种新的状态机推断方法以应对这些挑战变得尤为重要。

研究动机


随着网络协议的复杂性日益增加,传统状态机推断方法面临众多挑战。尤其是由于 RFC 文档固有的模糊性,不同开发者可能会采用不同的实现方式应对同一协议规范,导致实现间存在显著差异。这些差异不仅妨碍了状态机的准确推断,还可能成为网络安全的潜在风险点。此外,尽管现有的自然语言处理技术能够从文档中提取信息,但在处理源代码时往往显得不足。因此,本研究旨在利用大语言模型(LLM)的强大代码分析能力,改进状态机推断方法,以提高协议实现分析的准确性和安全性。

PROTOCOLGPT


PROTOCOLGPT 是一种创新的工具,它利用大语言模型(LLM)从协议实现代码中推断状态机。通过精细的提示工程和文本嵌入技术,PROTOCOLGPT 能够指导 LLM 深入分析复杂的代码结构,并准确推断出状态机。这款工具不仅提高了状态机推断的准确性,而且通过自动化的代码分析过程显著提升了分析效率。此外,PROTOCOLGPT 还集成了代码预处理功能,优化了代码段的分析过程,确保从庞大且复杂的协议实现中高效、准确地提取状态机信息。

实验评估


为验证 PROTOCOLGPT 的效果,本研究对六种不同的协议实现进行了状态机推断实验。通过比较 PROTOCOLGPT、传统方法和未使用代码辅助的 LLM 模型,实验结果显示 PROTOCOLGPT 在状态机推断的准确率和效率上均有显著提升,平均准确率超过 90%。此外,PROTOCOLGPT 推断出的状态机被应用于协议模糊测试工具 AFLNet,成功提高了代码覆盖率,进一步证明了其在实际应用中的有效性和实用性。这些实验不仅展示了 PROTOCOLGPT 的技术优势,也突显了大语言模型在网络协议安全分析中的潜力。

论文结论


本研究成功开发了 PROTOCOLGPT 工具,该工具融合了大语言模型(LLM)的先进能力,从而有效地从协议实现代码中推断状态机。实验结果证明,PROTOCOLGPT 能够准确地从复杂的协议代码中提取状态机,其准确性和效率均优于传统方法。


此外,PROTOCOLGPT 在提升协议模糊测试工具 AFLNet 的代码覆盖率方面也取得了显著效果。这表明,利用 LLM 进行状态机推断不仅能提升网络协议分析的质量,还能增强网络安全防护的能力。本研究为未来网络协议分析与安全领域提供了新的思路和工具。


原作者:论文解读智能体

校对:小椰风


用户头像

云起无垠

关注

定义开发安全新范式 2022-10-14 加入

云起无垠致力于为企业提供自动化安全检测能力,让企业更安全,让安全更智能。

评论

发布
暂无评论
【论文速读】| 通过大语言模型从协议实现中推断状态机_云起无垠_InfoQ写作社区