【论文速读】| LLMCloudHunter：利用大语言模型（LLMs）从基于云的网络威胁情报（CTI）中自动提取检测规则

🕗 发布于 2024-07-23 05:06 语言模型 人工智能 网络安全

本次分享论文：LLMCloudHunter: Harnessing LLMs for Automated Extraction of Detection Rules from Cloud-Based CTI

基本信息

原文作者：Yuval Schwartz, Lavi Benshimol, Dudu Mimran, Yuval Elovici, Asaf Shabtai

作者单位：Ben-Gurion University of the Negev, Department of Software and Information Systems Engineering

关键词：网络威胁情报(CTI)、大语言模型(LLM)、威胁狩猎、云、Sigma规则

原文链接：https://arxiv.org/abs/2407.05194

开源代码：暂无

论文要点

论文简介：随着网络攻击数量和复杂性的增加，威胁狩猎已成为主动安全的关键方面，能够在威胁造成重大损害之前进行检测和缓解。开源网络威胁情报（OSCTI）是威胁狩猎者的重要资源，但通常以非结构化格式提供，需要进一步的手动分析。本文提出了LLMCloudHunter，这是一个新颖的框架，利用大语言模型（LLMs）从文本和视觉OSCTI数据中自动生成通用签名检测规则候选。研究者使用12个注释的实际云威胁报告评估了所提出框架生成的规则的质量。结果表明，研究者的框架在准确提取威胁行为者API调用方面达到了92%的精确度和98%的召回率，并且在生成的检测规则候选成功编译并转换为Splunk查询方面达到了99.18%的成功率。

研究目的：在技术快速发展的背景下，网络攻击的数量和复杂性显著增加，传统的被动防御措施已经不足以应对这些威胁。威胁狩猎是一种主动搜索和缓解未被检测到的威胁的方法，旨在缩短入侵与发现之间的时间窗口。开源网络威胁情报（OSCTI）是威胁狩猎中广泛使用的信息来源，但由于其非结构化的特性，通常需要手动分析才能得出有意义的见解。本文的研究目的在于开发一个利用大语言模型（LLMs）的框架，能够自动从非结构化OSCTI中提取检测规则，从而提高威胁狩猎的效率和准确性，特别是在云环境下。

研究贡献：

1. 提出一个基于LLM的新框架，能够从非结构化OSCTI中自动生成Sigma规则候选，集成了文本和视觉信息，虽然框架主要针对云环境，但可以适用于本地环境相关的CTI。

2. 提供了一个包含12个云相关OSCTI帖子的注释数据集，支持框架的训练和评估。

3. 提供了关于LLM在网络安全复杂NLP任务中的应用见解，涉及提示工程技术和模型特性参数的有效使用。

4. 进行了全面的评估，评估了生成的Sigma规则候选的准确性和正确性。

5. 将研究者的代码和云CTI数据集在GitHub上公开，供研究社区使用。

引言

随着技术的快速发展和数字化进程的推进，网络攻击的数量和复杂性也随之增加，导致与这些技术进步相关的安全风险日益突出。为了应对这些风险，组织在传统的被动防御措施之外，开始采用动态防御策略，其中之一就是威胁狩猎。这种方法通过主动搜索和缓解未被检测到的威胁，旨在缩短从入侵到发现的时间窗口。开源网络威胁情报（OSCTI）作为威胁狩猎者的重要资源，提供了大量潜在和活跃威胁的信息。然而，OSCTI通常以非结构化的格式出现，需要手动分析才能得出有意义的见解。本文提出了LLMCloudHunter框架，利用大语言模型（LLM）自动从文本和视觉OSCTI数据中生成检测规则，特别针对云环境的独特安全挑战。

研究方法

本文提出的LLMCloudHunter框架包括三个主要阶段：预处理、段落级处理和OSCTI级处理。在预处理阶段，首先使用网络抓取工具下载并解析OSCTI的HTML代码，将其转换为统一的文本格式，并过滤掉不必要的内容。接着，通过图像分析模块处理从OSCTI中提取的图像，将其内容转换为文本以供进一步分析。

在段落级处理阶段，框架通过API调用提取器和MITRE ATT&CK TTP提取器，从预处理后的文本中识别出关键实体。然后，利用规则生成器将这些实体转化为初步的Sigma规则候选。

最后，在OSCTI级处理阶段，框架对从各段落生成的Sigma规则候选进行聚合和优化。通过规则优化器合并和分离选择字段，消除冗余，并通过IoC增强器将提取的IoC整合到Sigma规则中，最终生成逻辑一致且操作性强的检测规则。

通过这种方法，LLMCloudHunter能够从非结构化的OSCTI数据中自动生成适用于云环境的检测规则，提高威胁狩猎的效率和准确性。

研究讨论

研究者在12个云相关OSCTI源上评估了LLMCloudHunter的有效性和准确性。结果显示，该框架在准确提取威胁行为者的API调用方面达到了92%的精确度和98%的召回率，在提取IoC方面达到了99%的精确度和98%的召回率。此外，99.18%的生成检测规则候选成功转换为Splunk查询。通过综合评估，研究者确认了框架在处理OSCTI方面的高效性和准确性。

消融研究结果进一步验证了框架各组件的重要性。尤其是图像分析模块和API调用提取器，对提高整体性能起到了关键作用。然而，提取MITRE ATT&CK TTP的过程仍存在一定挑战，这可能影响整体性能，但不会影响Sigma规则候选的检测能力。总体而言，LLMCloudHunter展示了在自动化处理非结构化OSCTI数据方面的巨大潜力。

研究评估

数据集：研究者收集了12个由不同供应商发布的云环境开源网络威胁情报（OSCTI）。每个OSCTI的详细描述包括图像数量、标记数量、API调用数量及其技术复杂性。为了创建数据集的真实标签，研究者的研究团队（包括威胁狩猎和云安全专家）对每个OSCTI的内容进行了深入分析，识别并提取了OSCTI中描述的实体及其关系，以创建连贯且有意义的Sigma规则候选。

评估指标：研究者使用常见的实体和关系提取指标（精确度、召回率和F1分数）评估了框架的性能，并定义了一组特定的标准以测试每个Sigma规则候选在OSCTI的操作上下文中的功能性。

结果：LLMCloudHunter在提取威胁行为者的API调用方面表现出色，达到92%的精确度和98%的召回率，在提取IoC方面达到99%的精确度和98%的召回率。此外，生成的Sigma规则候选中有99.18%成功转换为Splunk查询。研究者的评估还显示，LLMCloudHunter生成的规则在语法正确性、条件字段准确性和描述元数据对齐方面表现优异，但在关键程度准确性方面略有不足。

消融研究进一步验证了各组件的重要性，特别是图像分析模块和API调用提取器在提高整体性能方面起到了关键作用。尽管在提取MITRE ATT&CK TTP方面存在挑战，但这些并未显著影响Sigma规则候选的检测能力。总体而言，LLMCloudHunter在处理非结构化OSCTI数据并生成可操作的检测规则方面展示了巨大的潜力。

论文结论

本文提出了LLMCloudHunter，一个利用预训练大语言模型分析文本和视觉OSCTI并自动生成Sigma规则候选的端到端框架。研究者的框架展示了LLMs在处理OSCTI和生成可操作规则方面的潜力，通过使用Sigma格式，LLMCloudHunter的输出可以无缝集成到现有的SIEM系统中。

未来的工作可以集中在将LLMCloudHunter扩展到本地环境，增加其在不同组织设置和环境中的适用性。此外，研究者计划通过增加剧本自动化功能，增强框架的威胁缓解能力，为威胁狩猎提供更强大的支持。

原作者：论文解读智能体

校对：小椰风

原文地址：https://blog.csdn.net/m0_73736695/article/details/140615055

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：(前缀和) LeetCode 238. 除自身以外数组的乘积
下一篇：jmeter实战（1）- Mac环境安装

解决 Spring Boot 中 `Ambiguous mapping. Cannot map ‘xxxController‘ method` 错误
在使用 Spring Boot 开发 Web 应用时，经常会遇到各种各样的错误。其中一种常见的错误是。本文将详细介绍这个错误的原因及解决方法，帮助开发者快速定位并解决问题。解决错误的关键在于确保每个方
阅读更多2024-11-15
数据分析案例-笔记本电脑价格数据可视化分析
本实验数据集来源于Kaggle，原始数据集共有1303条数据，13个变量，各变量含义如下：0 laptop_ID-数字-产品ID1 Company-字符串-笔记本电脑制造商2 Product-字符串-
阅读更多2024-11-15
Linux 如何查看当前系统版本的详细信息？
系统中基本都存在，所以是一种标准的获取系统信息的方式。命令以标准的方式提供详细的发行版信息。发行版的说明文件一般位于。
阅读更多2024-11-15
初级数据结构——栈
数据结构栈（Stack）是一种线性的数据结构，它只允许在序列的一端（称为栈顶）进行插入和删除操作。这种特性使得栈成为许多算法和问题解决中的有力工具。栈是一种简单而强大的数据结构，它遵循后进先出的原则，
阅读更多2024-11-15
网络安全练习之 ctfshow_web
根据前面得到的qq邮箱中的qq号查询用户，目前电脑版的QQ添加好友好像不能查看详细信息，手机版的可以看到对方所在地为陕西西安。路径是：/editor/attached/file/tmp/html/no
阅读更多2024-11-15
Python 三种方式实现自动化任务
本文介绍了用Python实现机器人过程自动化的三个包，方便读者选择、对比学习。
阅读更多2024-11-15
C++基础：Pimpl设计模式的实现
PIMPL （ Private Implementation 或 Pointer to Implementation ）是通过一个私有的成员指针，将指针所指向的类的内部实现数据进行隐藏。
阅读更多2024-11-15
【flutter】flutter2升级到3.
以这个 https://github.com/aa286211636/Flutter_QQ 为例子，升级下看看。只有登录界面能正常显示，别的页面都是报错。flutter这版本变动，基本不能直接ru
阅读更多2024-11-15
【JAVA毕业设计】基于Vue和SpringBoot的宠物咖啡馆平台
基于Vue.js和SpringBoot的宠物咖啡馆平台是一个综合性的在线服务系统，旨在为宠物爱好者提供一个便捷的宠物护理和社交场所。该平台分为管理后台和用户网页端，以满足不同用户群体的需求。管理后台主
阅读更多2024-11-15
认证鉴权框架SpringSecurity-2--重点组件和过滤器链篇
这4个接口中，每一个都是当认证或者授权过程中发生结果后触发，可以是失败的场景也可以是成功后触发。1个成功后执行，3个为失败后促发执行。
阅读更多2024-11-15