【强化学习入门笔记】1.1基本概念

🕗 发布于 2024-11-05 16:48 笔记

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.

**课程视频网址：**https://space.bilibili.com/2044042934

1.1.1 网格世界示例

首先给出了课程中需要用的模拟场景: 一个有边界的网格世界. 由起点, 终点和禁止网格. 目的是得到一条从起点到终点的最优路径.

1.1.2 State, Action, Policy 状态, 动作, 策略

1.1.2.1 状态和状态空间

在网格世界示例中, 我们将状态定义为栅格的索引 $s_1, \ldots, s_9$ . 实际上, 更复杂的建模状态中可以包含:速度, 加速度, 角速度等等信息.

将一系列状态放进一个集合中称之为状态空间 $\mathcal{S}=\left\{s_1, \ldots, s_9\right\}$

1.1.2.2 动作和动作空间

如上图所示, 我们将动作定义为:向上走 $a_1$ , 向右走 $a_2$ 等等. 将一系列动作放进一个集合中称之为动作空间 $\mathcal{A}=\left\{a_1, \ldots, a_5\right\}$

每一个状态都有对应的动作空间, 比如对于左上角栅格状态 $s_1$ , 它能采取的动作只有向右, 向下和不动. 因此它的动作空间为: $\mathcal{A}\left(s_1\right)=\left\{a_2, a_3, a_5\right\}$

也就是说, 动作空间是一个关于状态空间的函数:

$\mathcal{A}\left(s_i\right)=\mathcal{A}=\left\{a_1, \ldots, a_5\right\}$

1.1.2.3 状态转移

从 $s_1$ 执行向右的动作到 $s_2$ , 可以写作: $s_1 \xrightarrow{a_2} s_2 .$

一般的, 采取动作从一个状态转移到另一个状态的过程, 定义为状态转移:

$s_i \xrightarrow{a_j} s_k .$

我们列举出了网格世界示例中, 所有的状态转移组合:

如果我们用条件概率来表达状态转移:

$\begin{aligned}& p\left(s_1 \mid s_1, a_2\right)=0, \\& p\left(s_2 \mid s_1, a_2\right)=1, \\& p\left(s_3 \mid s_1, a_2\right)=0, \\& p\left(s_4 \mid s_1, a_2\right)=0, \\& p\left(s_5 \mid s_1, a_2\right)=0,\end{aligned}$

1.1.2.4 Policy 策略

策略是指对于每一个状态而言, 为了抵达目的应该采取的动作称之为策略. 比如上图给出了在不同状态下, 绿色箭头就是对应的策略.

我们将策略定义为 $\pi(a \mid s)$ , 也就是当状态为 $s$ 时采取动作 $a$ 的概率, 上图的策略可以写成:

$\begin{aligned}& \pi\left(a_1 \mid s_1\right)=0 \\& \pi\left(a_2 \mid s_1\right)=1 \\& \pi\left(a_3 \mid s_1\right)=0 \\& \pi\left(a_4 \mid s_1\right)=0 \\& \pi\left(a_5 \mid s_1\right)=0\end{aligned}$

如上图, 如果策略可以按概率采取不同的动作, 则可以写成:

$\begin{aligned}& \pi\left(a_2 \mid s_1\right)=0.5 \\& \pi\left(a_3 \mid s_1\right)=0.5\end{aligned}$

在程序中, 我们常常使用一个矩阵来表达完整的策略分布:

1.1.3 Reward, Return

1.1.3.1 Reward 奖励

Reward是指采取动作之后, 得到的奖励值, 是一个标量. 奖励值越高, 采取的动作越受鼓励, 因此我们需要设计合适的Reward 函数来鼓励智能体采取我们希望的动作.

我们将处于状态s, 执行动作a, 奖励函数定义为: $r (s, a)$

以网格世界为例, 我们可以设计如下奖励:

如果智能体越过边界, 或者走到禁止网格, 则奖励值为-1
如果智能体抵达目的, 则奖励值为1
其他情况, 奖励值为0

所以可以写出: $r(s_1, a_1)=-1$ , $r(s_5, a_2)=-1$ , $r(s_8, a_2)=1$

1.1.3.2 Trajectories, returns

我们将一组连续的状态定义为Trajectory, 每一个状态都从上一个状态采取动作转移而来. 每次状态转移都有对应的奖励.

上图的trajectory可以写成:

$s_1 \xrightarrow[r=0]{a_2} s_2 \xrightarrow[r=0]{a_3} s_5 \xrightarrow[r=0]{a_3} s_8 \xrightarrow[r=1]{a_2} s_9 .$

将trajectory上每一步的奖励加起来, 定义为return:

$\text { return }=0+0+0+1=1$

如果我们在抵达终点之后, 没有中止游戏. 那么奖励值就会不停的+1导致发散:

$\text { return }=0+0+0+1+1+1+\cdots=\infty$

为了解决这个问题, 可以采取discounted return, 也就是奖励值的加权和:

$\begin{aligned}\text { discounted return } & =0+\gamma 0+\gamma^2 0+\gamma^3 1+\gamma^4 1+\gamma^5 1+\ldots \\ & =\gamma^3\left(1+\gamma+\gamma^2+\ldots\right)=\gamma^3 \frac{1}{1-\gamma} . \end{aligned}$

其中 $\gamma$ 是远期奖励值的权重. 这样可以增加近期动作获得奖励的权重, 减少远期动作获得奖励的权重.

原文地址：https://blog.csdn.net/2403_86993842/article/details/143494784

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：基于 Spring Boot 和 Vue 的门票销售创新系统
下一篇：RabbitMQ交换机类型

为什么 Allow 配合 meta noindex 比使用Disallow好？
为什么 Allow 配合 meta noindex。
阅读更多2024-11-06
全面解析：虚拟化技术及其应用
虚拟化技术是指通过软件模拟硬件功能，将物理资源抽象成逻辑资源的技术。虚拟化可以应用于计算、存储和网络等多个方面。虚拟化技术作为一项革命性的技术，正在深刻改变我们的世界。它不仅为企业带来了前所未有的商业
阅读更多2024-11-06
机器学习与大数据处理有何关系
机器学习（Machine Learning, ML）是人工智能的一个分支领域，它专注于让计算机系统通过自动地从数据中学习并改进其性能，以执行特定任务，而无需进行显式的编程。机器学习的核心思想是使用数据
阅读更多2024-11-06
Garbage instead of arguments “bitrate
初步确认，出现上面打印信息是因为iproute2不支持CAN配置，但是OPENWRT里我找了很入久，也没找到iproute2的配置信息，iproute2不需要配置，只需要待批ip-full ip-ti
阅读更多2024-11-06
CICD学习笔记1
黑猫是代码托管平台如github，老头jinkens：自动构建：意思就是自动执行shell脚本（脚本是部署项目该有的流程：自动环境更新、代码下载、重启项目）、shell脚本再自动部署-->构建成
阅读更多2024-11-06
【google play】使用Java接入谷歌支付流程
使用Java接入谷歌支付的完整流程，包括准备工作以及具体的Java实现。
阅读更多2024-11-06
MFC的HTTP客户端
/读取服务器上数据。另外别忘了异常处理！
阅读更多2024-11-06
G2 基于生成对抗网络（GAN）人脸图像生成
生成器（G）：输入随机噪声，通过学习数据的分布模式生成类似真实图像的输出。判别器（D）：用来判断输入的图像是真实的还是生成器生成的。训练过程中，生成器尝试欺骗判别器，生成逼真的图像，而判别器则不断优化
阅读更多2024-11-06
OCR、语音识别与信息抽取：免费开源的AI平台在医疗领域的创新应用
思通数科的AI平台通过OCR技术自动识别手写病历中的患者信息、诊断结果、医生签字等要素，并将这些信息转换为结构化数据，直接上传至医院的电子病历系统。通过这些自动化流程，平台帮助医院构建了标准化的影像数
阅读更多2024-11-06
2024年三个月自学手册网络安全（黑客技术）
网络安全可以基于攻击和防御视角来分类，我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。走安全行业的工程方向的，技术上面其实有很大的重叠
阅读更多2024-11-06