写点什么

【论文速读】| APOLLO:一种基于 GPT 的用于检测钓鱼邮件并生成警告用户的解释的工具

作者:云起无垠
  • 2024-11-06
    北京
  • 本文字数:2671 字

    阅读完需:约 9 分钟

【论文速读】| APOLLO:一种基于 GPT 的用于检测钓鱼邮件并生成警告用户的解释的工具

基本信息


原文标题:APOLLO: A GPT-based tool to detect phishing emails and generate explanations that warn users


原文作者:Giuseppe Desolda, Francesco Greco, Luca Viganò


作者单位:University of Bari “A. Moro”, Italy, King’s College London, UK


关键词:网络钓鱼、LLMs、警告、解释、电子邮件分类


原文链接:https://arxiv.org/pdf/2410.07997


开源代码:https://anonymous.4open.science/r/APOLLO-658A

论文要点


论文简介:本论文提出了一个名为 APOLLO 的工具,它基于 OpenAI 的 GPT-4o 模型,旨在检测网络钓鱼邮件并生成解释信息来警告用户。该工具能够自动分类钓鱼邮件并生成详细的解释,帮助用户理解为什么某封邮件可能是恶意的。这种系统通过增强用户对警告的理解和信任,提高了用户的安全决策能力。论文还通过一项实验验证了该工具在邮件分类任务中的性能,展示了 97%的分类准确率,并在结合第三方数据后,准确率提升至 99%。


研究目的:网络钓鱼攻击因其复杂性和不断进化的手段,已成为当今网络犯罪中最广泛且有效的攻击方式之一。研究的目的在于通过利用大语言模型(LLMs),提出一种能够自动检测和解释网络钓鱼邮件的防御工具,旨在提高用户对潜在威胁的防御能力。传统的警告系统虽然能够检测恶意内容,但缺乏有效的解释信息,使得用户在面对复杂攻击时缺乏足够的决策依据。APOLLO 的设计旨在填补这一空白,既提高了技术检测的准确性,又增强了用户在面对警告时的信任感和理解力。

引言


如今的数字世界依赖度极高,网络钓鱼攻击已成为对用户、组织和 IT 系统的重大威胁。这些攻击之所以成功,是因为它们利用了人类的认知弱点,如缺乏知识、时间压力和情绪化判断。因此,随着钓鱼攻击的日益复杂化,迫切需要加强钓鱼防护,涵盖技术和人类两个方面。尽管现代浏览器和邮件客户端已经具备高级技术手段来检测可疑内容,但许多警告系统仍未能有效地保护用户。传统的警告缺乏详细解释,无法帮助用户了解威胁背后的原因。


本论文提出了一种基于大语言模型的解决方案,旨在动态生成个性化的解释信息,帮助用户理解并规避潜在的网络钓鱼攻击。这种方法通过自动生成解释,取代了目前手动编写警告信息的繁琐过程,使其能够更快、更有效地适应新的攻击手段。

相关工作


本论文主要讨论了与网络钓鱼防护相关的两个领域的研究:警告系统和大语言模型(LLMs)的应用。传统的警告系统往往缺乏解释性内容,用户容易忽视或误解其重要性,尤其是在面对复杂的钓鱼邮件时。而加入解释信息的警告系统则能够帮助用户更好地理解潜在风险,增强警告的有效性。


在 LLMs 领域,尽管这些模型在文本处理任务中表现优异,但在网络钓鱼防护领域的应用仍然较少。现有研究表明,LLMs 在检测网络钓鱼邮件中的潜力巨大,尤其是在识别复杂的社会工程攻击手段时表现出色。通过结合技术手段和人类因素,本论文的研究为 LLMs 在钓鱼防护中的应用提供了新的方向。

APOLLO


APOLLO 系统的核心是利用 GPT-4o 模型来自动分类邮件并生成解释信息。系统架构包含三个主要模块:预处理模块、URL 增强模块和 LLM 提示模块。预处理模块负责提取和清理邮件内容,将其转换为适合 GPT 模型处理的格式;URL 增强模块通过 VirusTotal 和 BigDataCloud API 获取邮件中的 URL 信息,并将这些外部情报加入模型的推理过程中;最后,LLM 提示模块基于邮件和 URL 信息生成分类结果和详细解释,帮助用户理解邮件的潜在风险。



APOLLO 评估


实验方法:APOLLO 系统的评估采用了一个包含 4000 封邮件的数据集,其中一半为钓鱼邮件,另一半为合法邮件。评估过程中,系统首先通过预处理和 URL 增强模块处理每封邮件,然后使用 GPT-4o 模型对其进行分类。实验还模拟了不同的外部信息准确度场景,以测试 VirusTotal 等服务的数据对分类性能的影响。



数据分析:通过精度、召回率、准确率和 F1 评分等指标来衡量模型的分类效果。此外,还使用了 Log-loss 和 ROC AUC 来评估模型的概率估计性能。结果表明,APOLLO 在没有 URL 信息的情况下,仍然能够达到 97.4%的准确率,且 ROC AUC 值接近 1.0,表明模型在分类任务中具有极高的辨别能力。


实验结果:实验结果显示,GPT-4o 模型在处理网络钓鱼邮件分类任务时表现优异,特别是在引入外部信息(如 URL 情报)的情况下,准确率进一步提升至 99%。然而,如果外部信息质量较低,可能会导致误分类。该系统在应对不同精度的外部信息时表现出较强的鲁棒性,即使在部分错误信息的情况下,仍然能有效检测出钓鱼邮件。


研究评估

通过用户研究评估了 APOLLO 生成的警告信息的质量。实验招募了 20 名参与者,比较了 APOLLO 生成的警告与现有浏览器(如 Chrome、Firefox 和 Edge)的警告,以及手动创建的警告。结果表明,APOLLO 生成的警告在理解度、可信度和吸引力上均优于现有解决方案,且用户对其生成的解释信息反馈积极。

研究结果


定量结果:在本次实验中,APOLLO 系统使用 GPT-4o 模型对 4000 封电子邮件进行分类(包括一半钓鱼邮件和一半合法邮件),展示了卓越的性能。没有外部 URL 信息增强时,模型的分类准确率为 97.4%,ROC AUC 值为 0.994,表明其在区分钓鱼邮件和合法邮件方面非常准确。引入 VirusTotal 等外部 URL 情报后,分类准确率提升至 99%,F1 评分接近满分,进一步提高了检测的精度。然而,当外部情报信息错误时,模型的准确性会有所下降,尤其是在错误标记 URL 为安全的情况下,准确率下降至 44.9%。即便如此,系统在检测钓鱼邮件时依然表现出较高的召回率,避免漏报。实验结果表明,结合外部威胁情报显著提升了模型的分类效果,使 APOLLO 成为钓鱼防护的有效工具。



定性结果:在用户研究中,APOLLO 生成的警告信息在多个维度上得到了积极反馈。用户普遍认为这些警告信息清晰易懂,尤其是包含详细解释的部分,帮助他们更好地理解邮件的潜在风险。相比传统的警告提示,APOLLO 的解释性警告更具吸引力和可信度,用户表示这些警告能够提升他们的安全意识,并促使他们采取更为谨慎的行为。在调查中,参与者提到的常见反应包括对邮件内容的怀疑和停止交互的决定,尤其是在遇到不熟悉或可疑的链接时,许多人表示会选择不继续操作。此外,用户认为这些警告不仅帮助他们识别钓鱼邮件,还增强了他们对系统的信任感。部分用户指出警告中的某些技术术语,如“域名”和“IP 地址”,略显复杂,但整体上这些警告信息显著提高了用户的风险认知水平。


论文结论


本论文的贡献在于提出了一个基于 LLM 的网络钓鱼防护工具 APOLLO,并展示了其在邮件分类和生成解释信息方面的有效性。通过实验验证,APOLLO 在检测和解释网络钓鱼邮件方面表现出色,能够显著提升用户对安全威胁的感知能力。未来的研究将进一步优化系统,并探索 LLMs 在网络安全领域的更多应用。


原作者:论文解读智能体

校对:小椰风


用户头像

云起无垠

关注

定义开发安全新范式 2022-10-14 加入

云起无垠致力于为企业提供自动化安全检测能力,让企业更安全,让安全更智能。

评论

发布
暂无评论
【论文速读】| APOLLO:一种基于 GPT 的用于检测钓鱼邮件并生成警告用户的解释的工具_云起无垠_InfoQ写作社区