CyberBattleSim-（内网自动化渗透）研究分析

🕗 发布于 2024-06-21 17:25 自动化运维安全 web安全 学习

01 背景知识介绍

CyberBattleSim介绍

CyberBattleSim是一款微软365 Defender团队开源的人工智能攻防对抗模拟工具，来源于微软的一个实验性研究项目。该项目专注于对网络攻击入侵后横向移动阶段进行威胁建模，用于研究在模拟抽象企业网络环境中运行的自动化代理的交互。其基于Python的Open AI Gym接口使用强化学习算法训练自动化agent。

该项目下的模拟环境参数化定义了固定网络拓扑和相应的漏洞，agent可以利用这些漏洞在网络中横向移动。攻击者的目标是通过利用计算机节点中植入的参数化漏洞来获取网络的所有权，整个过程被抽象建模为跨越多个模拟步骤的操作。

为了比较agent的性能，主要查看了两个指标：为实现其目标而采取的模拟步骤数，以及跨训练时期模拟步骤的累积奖励。通过步骤梳理与累计的分数，评估最先进的强化算法，以研究自主代理如何与它们交互并从中学习。

强化学习算法介绍

强化学习是机器学习领域的一类学习问题，它与常见的有监督学习、无监督学习等的最大不同之处在于，它是通过与环境之间的交互和反馈来学习的。正如一个新生的婴儿一样，它通过哭闹、吮吸、爬走等来对环境进行探索，并且慢慢地积累起对于环境的感知，从而一步步学习到环境的特性使得自己的行动能够尽快达成自己的愿望。

强化学习的基本模型就是个体-环境的交互（如图1）。个体/智能体（agent）就是能够采取一系列行动并且期望获得较高收益或者达到某一目标的部分，比如我们前面例子中的新生婴儿。而与此相关的另外的部分都统一称作环境（environment），比如前面例子中的婴儿的环境（比如包括其周围的房间以及婴儿的父母等）。整个过程将其离散化为不同的步骤（step），在每个步骤环境和个体都会产生相应的交互。个体可以采取一定的行动（action），这样的行动是施加在环境中的。环境在接受到个体的行动之后，会反馈给个体环境目前的状态（state）以及由于上一个行动而产生的奖励（reward）（奖励有好的也有坏的）。

强化学习的目标是希望个体从环境中获得的总奖励最大，即我们的目标不是短期的某一步行动之后获得最大的奖励，而是希望长期地获得更多的奖励。比如一个婴儿可能短期的偷吃了零食，获得了身体上的愉悦（即获取了较大的短期奖励），但是这一行为可能在某一段时间之后会导致父母的批评，从而降低了长期来的总奖励。

1655348146_62aa9bb21b2f8e949f7ed.png!small?1655348146729

图1 个体与环境相互作用

02 CyberBattleSim框架介绍

CyberBattleSim框架中使用的是参数化的虚拟环境，模拟环境性能要求低，更轻量，速度快，抽象，并且可控性更强，适用于强化学习实验。优点如下：

抽象级别高，只需要建模系统重要的方面；例如应用层网络通信相比于包级别的网络模拟，忽略了低层的信息。
灵活性：定义一个新的机器是很容易的，不需要考虑底层的驱动等，可以限制动作空间为可以管理且相关的子集。
全局的状态可以有效地捕获，从而简化调试与诊断。
轻量：运行在一台机器/进程的内存中。

CyberBattleSim的仿真固然简单，但是简单是具有优势的。高度抽象的性质使得无法直接应用于现实系统，从而防止了潜在的恶意训练的自动化代理使用。同时，可以使我们更专注于特定的安全性方面，例如研究和快速实验最新的机器学习和AI算法。

当前的内网渗透实现方式侧重于横向移动，希望理解网络拓扑和配置并施加影响。基于这一目标，没有必要对实际的网络流量进行建模。

该项目主要采用了免模型学习（Model-Free），虽然在效率上不如有模型学习（Model-Based）（缺点是如果模型跟实际场景不一致，那么在实际使用场景下会表现的不好），但是这种方式更加容易实现，也容易在真实场景下调整到很好的状态。所以免模型学习方法更受欢迎，得到更加广泛的开发和测试。

CyberBattleSim中的强化学习建模：

有向图，结点表示计算机，边表示其他结点的知识或节点间通信。
环境：状态就是网络，单个代理，部分可观测（代理无法观测到所有的结点和边），静态的，确定性的，离散的，post-breach
行动空间（代理可以逐步探索网络）：本地攻击，远程攻击，认证连接
观测空间：发现结点，获取结点，发现凭证，特权提升，可用攻击
奖励：基于结点的内在价值，如SQL server比测试机器重要

1655348179_62aa9bd3332801f9529ac.png!small?1655348179875

图2 强化学习建模

该项目中的环境（environment）定义：

网络中结点的属性：如Windows，Linux，ApacheWebSite，MySql，nginx/1.10.3，SQLServer等。
开放的ports：如HTTPS，SSH，RDP，PING，GIT等。
本地漏洞包括：CredScanBashHistory，CredScan-HomeDirectory，CredScan-HomeDirectory等。
远程漏洞包括：ScanPageContent，ScanPageSource，NavigateWebDirectoryFurther，NavigateWebDirectory等。
防火墙配置为：允许进出的服务为RDP，SSH，HTTPS，HTTP，其他服务默认不允许。
定义了部分奖励与惩罚：发现新结点奖励，发现结点属性奖励，发现新凭证奖励，试图连接未打开端口的处罚，重复使用相同漏洞的惩罚等。

本地agent如下，定义了其包含的漏洞，漏洞类型，漏洞描述，端口，价值，花费，服务等。

1655348203_62aa9bebd66448d44aca7.png!small?1655348204492

图3 agent定义

防御agent主要通过预测攻击成功的可能性的基础之上实现了识别、减缓攻击的行为。主要通过重装镜像（re-image）的方式抵御攻击，通过计算攻击者的步骤数和持续性的奖励分数来衡量当前攻击策略的优劣性。通过返回的数据字段内容来确认各种攻击的成功性。(防御遍历所有节点，如果发现该节点可能存在漏洞（定义了一个概率函数计算可能性），先使该节点不可用，再通过重装镜像的方式抵御攻击）。

攻击者通过初始化的攻击节点开始，由于无法获取到当前整个环境当中的网络拓扑图与链接方式，攻击者agent只有三种能力进行横向扩散：本地攻击、远程攻击、链接到其他节点。通过不同的结点的权限和不同的动作典型的比如数据泄露、泄露、权限失陷等行为，分别给不同的分数。

每一个step中，都会执行下图中的action（行动）,observation（观察状态）,wrapper（通过当前状态反馈做出改变）。

在强化学习训练的时候，一开始会让Agent更偏向于探索Explore，并不是哪一个Action带来的reward最大就执行该Action，选择Action时具有一定的随机性，目的是为了覆盖更多的Action，尝试每一种可能性。等训练很多轮以后各种状态下的各种Action基本尝试完以后，这时候会大幅降低探索的比例，尽量让Agent更偏向于利用Exploit，哪一个Action返回的reward最大，就选择哪一个Action。

1655348221_62aa9bfd4e90478604ef3.png!small?1655348222023

图4 强化学习步骤

03 一个CyberBattleSim实例过程

该实例通过强化学习算法查找结点及其漏洞，由初始节点通过本地漏洞探测到一个Website节点，step=6，当前reward=6，其中的step如图5上所示，左下图横坐标为step，纵坐标为reward，右下图为网络拓扑图。此时结点client为红色已拥有，结点Website为绿色未拥有。

1655348251_62aa9c1ba5bcbe7dd666d.png!small?1655348252338

图5 强化学习过程1

再经过6个step后如图6，通过WEBSITE的漏洞ScanPageContent发现了结点GitHubProject，获得reward=6，当前总reward=12。（注意，这部分重复了三次step发现结点Website，说明该算法也有弊端）

1655348262_62aa9c2631f868afa1671.png!small?1655348262832

图6 强化学习过程2

最终从agent节点通过各种本地攻击，远程攻击和连接其他节点，获取到网络中存在漏洞的节点如图7，当前step=5600，reward=431。

1655348284_62aa9c3c2c2ea69873b98.png!small?1655348284874

图7 强化学习过程3

04 项目中强化学习算法比较

该项目使用了一些强化学习算法比较其优劣性，分别为Tabular Q-learning, Credential lookups, DQL(deep Q-learning), Exploiting DQL。

如图8所示，其中Y轴是在多个episode（X轴）中为获得网络的完全所有权而采取的迭代数量（越低越好）。某些算法（如Exploiting DQL）随着episode增加可以逐渐改进并达很高水平，而有些算法在50 episode后仍在苦苦挣扎！

1655348323_62aa9c63a3086e0d08a6a.png!small?1655348324373

图8 不同算法获取网络所有权的迭代次数

如图9提供了另一种比较方法，即跨训练时期模拟步骤的累积奖励。实线显示中位数，而阴影表示一个标准差。这再次显示了某些算法（红色Exploiting DQL、蓝色Tabular Q-learning和绿色DQL）的表现明显优于其他算法（橙色Credential lookups）。

1655348338_62aa9c7273f7925e3e00c.png!small?1655348339332

图9 不同算法经过训练后的奖励

05 CyberBattleSim评估

项目存在的问题

1.CyberBattleSim除了提供Agent之外还可以通过Gym的基础提供参数化构建的虚拟网络环境、漏洞类型、漏洞出现的节点等。所以该项目其实只是一个强化学习的自动化攻击框架，并没有进行实际的攻击，网络中的所有节点，漏洞，漏洞类型等都是使用各种参数自定义的。

2.该项目的攻击方式包括本地攻击，远程攻击和连接其他节点，每种攻击只举了几个例子，然而实际过程中远远不止于此，需要学习训练就会是一个很耗时的过程。且该项目采用免模型学习（虽然该方法会更适用于当前网络环境），实际渗透中因为攻击方式众多，需要训练的时间也会更长，具体学习渗透的时间犹未可知。

3.CyberBattleSim项目提供的只是自动化攻击内网渗透项目当中必不可少的沙盒，只是一个用户产生虚拟攻防场景数据的工具，距离真实的项目还有很长的路要走，现有的强化学习最好的例子只存在于游戏（2016年：AlphaGo Master 击败李世石，使用强化学习的 AlphaGo Zero 仅花了40天时间；2019年4月13日：OpenAI 在《Dota2》的比赛中战胜了人类世界冠军），对于复杂的自动化攻击并不一定能胜任。

项目的优势

1.借助OpenAI工具包，可以为复杂的计算机系统构建高度抽象的模拟，可视化的图像表达，使用户可以容易看到这些代理Agent的进化行为，通过步骤梳理与累计的分数，可以对当前的场景有个较好的展示，并评估出最合适的强化学习算法（其中经过实验得到的结果为Exploiting DQL算法最优）。

2.CyberBattleSim的仿真固然简单，但是简单是具有优势的。高度抽象的性质使得无法直接应用于现实系统，从而防止了潜在的恶意训练的自动化代理使用。同时，这种简单可以更专注于特定的安全性方面，例如研究和快速试验最新的机器学习和AI算法。项目目前专注于横向移动技术，目的是了解网络拓扑和配置如何影响这些技术。考虑到这样的目标，微软认为没有必要对实际的网络流量进行建模，但这是该项目实际应用的重大限制。

3.该项目相比于其他强化学习自动化渗透项目：如DEEPEXPLOIT框架，AutoPentest-DRL框架，这两个框架都使用了强化学习，nmap扫描，Metasploit攻击，但是他们并没有有效利用强化学习，主要原因在于他们的action只是根据各种漏洞对应相应的payload获取shell，该模式更像是监督学习，因为没有环境观察与反馈。CyberBattleSim项目有它自己的优势，虽然该项目并没有实现真实攻击，但是该项目完整地诠释了强化学习的步骤（包含观察环境与反馈），如果能开发出合适的工具使用，那么就可以实现更高效，准确度更高的渗透。

项目的发展

该项目更适合比较强化学习算法在内网渗透的优劣，因为该项目高度虚拟化，不考虑底层网络的信息，要使该项目成为一个真实的内网渗透工具是一个极大挑战。

如下列出可能对该项目有所贡献的改进：

1.实现一个类似端口扫描操作(非确定性)的nmap，用来收集信息，而且该步骤不仅仅是渗透的开始工作，在渗透过程中也需要更新信息。

2.与现有的攻击工具结合或者开发更适合强化学习模型的攻击工具，用来真实的攻击。

3.奖励的定义也是强化学习中重要的一项内容，可以通过通用漏洞评分系统（CVSS）的组成部分所确定的漏洞得分来定义。

06 总结

本文针对自动化内网渗透这一方向对微软的开源项目CyberBattleSim做了介绍，通过对其内部原理和源码的分析，笔者指出了该项目的优势，存在的问题及其发展前景。该项目只是自动化攻击内网渗透项目中必不可少的沙盒，自动化渗透还有很长的路要走。

题外话

初入计算机行业的人或者大学计算机相关专业毕业生，很多因缺少实战经验，就业处处碰壁。下面我们来看两组数据：

2023届全国高校毕业生预计达到1158万人，就业形势严峻；
国家网络安全宣传周公布的数据显示，到2027年我国网络安全人员缺口将达327万。

一方面是每年应届毕业生就业形势严峻，一方面是网络安全人才百万缺口。

6月9日，麦可思研究2023年版就业蓝皮书（包括《2023年中国本科生就业报告》《2023年中国高职生就业报告》）正式发布。

2022届大学毕业生月收入较高的前10个专业

本科计算机类、高职自动化类专业月收入较高。2022届本科计算机类、高职自动化类专业月收入分别为6863元、5339元。其中，本科计算机类专业起薪与2021届基本持平，高职自动化类月收入增长明显，2022届反超铁道运输类专业（5295元）排在第一位。

具体看专业，2022届本科月收入较高的专业是信息安全（7579元）。对比2018届，电子科学与技术、自动化等与人工智能相关的本科专业表现不俗，较五年前起薪涨幅均达到了19%。数据科学与大数据技术虽是近年新增专业但表现亮眼，已跻身2022届本科毕业生毕业半年后月收入较高专业前三。五年前唯一进入本科高薪榜前10的人文社科类专业——法语已退出前10之列。

“没有网络安全就没有国家安全”。当前，网络安全已被提升到国家战略的高度，成为影响国家安全、社会稳定至关重要的因素之一。

网络安全行业特点

1、就业薪资非常高，涨薪快 2021年猎聘网发布网络安全行业就业薪资行业最高人均33.77万！

2、人才缺口大，就业机会多

2019年9月18日《中华人民共和国中央人民政府》官方网站发表：我国网络空间安全人才需求140万人，而全国各大学校每年培养的人员不到1.5W人。猎聘网《2021年上半年网络安全报告》预测2027年网安人才需求300W，现在从事网络安全行业的从业人员只有10W人。

行业发展空间大，岗位非常多

网络安全行业产业以来，随即新增加了几十个网络安全行业岗位︰网络安全专家、网络安全分析师、安全咨询师、网络安全工程师、安全架构师、安全运维工程师、渗透工程师、信息安全管理员、数据安全工程师、网络安全运营工程师、网络安全应急响应工程师、数据鉴定师、网络安全产品经理、网络安全服务工程师、网络安全培训师、网络安全审计员、威胁情报分析工程师、灾难恢复专业人员、实战攻防专业人员…

职业增值潜力大

网络安全专业具有很强的技术特性，尤其是掌握工作中的核心网络架构、安全技术，在职业发展上具有不可替代的竞争优势。

随着个人能力的不断提升，所从事工作的职业价值也会随着自身经验的丰富以及项目运作的成熟，升值空间一路看涨，这也是为什么受大家欢迎的主要原因。

从某种程度来讲，在网络安全领域，跟医生职业一样，越老越吃香，因为技术愈加成熟，自然工作会受到重视，升职加薪则是水到渠成之事。

黑客&网络安全如何学习

今天只要你给我的文章点赞，我私藏的网安学习资料一样免费共享给你们，来看看有哪些东西。

1.学习路线图

攻击和防守要学的东西也不少，具体要学的东西我都写在了上面的路线图，如果你能学完它们，你去就业和接私活完全没有问题。

2.视频教程

网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己录的网安视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

内容涵盖了网络安全法学习、网络安全运营等保测评、渗透测试基础、漏洞详解、计算机基础知识等，都是网络安全入门必知必会的学习内容。

（都打包成一块的了，不能一一展开，总共300多集）

因篇幅有限，仅展示部分资料，需要保存下方图片，微信扫码即可前往获取

3.技术文档和电子书

技术文档也是我自己整理的，包括我参加大型网安行动、CTF和挖SRC漏洞的经验和技术要点，电子书也有200多本，由于内容的敏感性，我就不一一展示了。

因篇幅有限，仅展示部分资料，需要保存下方图片，微信扫码即可前往获取

4.工具包、面试题和源码

“工欲善其事必先利其器”我为大家总结出了最受欢迎的几十款款黑客工具。涉及范围主要集中在信息收集、Android黑客工具、自动化工具、网络钓鱼等，感兴趣的同学不容错过。

还有我视频里讲的案例源码和对应的工具包，需要的话也可以拿走。

因篇幅有限，仅展示部分资料，需要保存下方图片，微信扫码即可前往获取

最后就是我这几年整理的网安方面的面试题，如果你是要找网安方面的工作，它们绝对能帮你大忙。

这些题目都是大家在面试深信服、奇安信、腾讯或者其它大厂面试时经常遇到的，如果大家有好的题目或者好的见解欢迎分享。

参考解析：深信服官网、奇安信官网、Freebuf、csdn等

内容特点：条理清晰，含图像化表示更加易懂。

内容概要：包括内网、操作系统、协议、渗透测试、安服、漏洞、注入、XSS、CSRF、SSRF、文件上传、文件下载、文件包含、XXE、逻辑漏洞、工具、SQLmap、NMAP、BP、MSF…

因篇幅有限，仅展示部分资料，需要保存下方图片，微信扫码即可前往获取

原文地址：https://blog.csdn.net/2301_81533492/article/details/139851585

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【区分vue2和vue3下的element UI Empty 空状态组件，分别详细介绍属性，事件，方法如何使用，并举例】
下一篇：使用Python发送电子邮件：轻松实现自动化沟通

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20

CyberBattleSim-（内网自动化渗透）研究分析

01 背景知识介绍

02 CyberBattleSim框架介绍

03 一个CyberBattleSim实例过程

04 项目中强化学习算法比较

05 CyberBattleSim评估

06 总结

题外话

网络安全行业特点

黑客&网络安全如何学习

1.学习路线图

2.视频教程

3.技术文档和电子书

4.工具包、面试题和源码

相关文章