在自定义环境中定义奖励和状态观测信号

🕗 发布于 2024-03-08 16:21 matlab

连续奖励

连续奖励函数会随着环境状态观测和动作的变化而不断变化。一般来说，连续奖励信号能提高训练过程中的收敛性，并能简化网络结构。

二次调节器 (QR) 成本函数就是连续奖励的一个例子，其长期累积奖励可表示为
$J_i=-\left(s_\tau^TQ_\tau s_\tau+\sum_{j=i}^\tau s_j^T Q_j s_j + a_j^T R_j a_j + 2s_j^T N_ja_j\right)$

其中， $Q_τ$ 、 $Q$ 、 $R$ 和 $N$ 是权重矩阵。 $Q_τ$ 是终端权重矩阵，仅在回合结束时使用， $s$ 是状态观测向量， $a$ 是动作向量， $\tau$ 是该回合的终端迭代。该成本函数的（瞬时）奖励为
$r_i = s_i^TQ_is_i + a_i^TR_ia_i + 2s_i^TN_ia_i$

这种 QR 奖励结构鼓励智能体以最少的动作努力使 $s$ 趋于零。基于 QR 的奖励结构是调节或静止点问题（如钟摆摆动或调节双积分器的位置）的理想奖励结构。有关使用 QR 奖励的训练示例，请参阅Train DQN Agent to Swing Up and Balance Pendulum 和 Compare DDPG Agent to LQR Controller。

平滑的连续奖励，如 QR 调节器，有利于微调参数，并能提供类似于最优控制器（LQR/MPC）的策略。

离散奖励

离散奖励函数随着环境观测或行动的变化而不连续地变化。这些类型的奖励信号会使收敛速度变慢，并需要更复杂的网络结构。离散奖励通常是通过环境中发生的事件来实现的–例如，当一个智能体超过某个目标值时，它就会获得正奖励；当它违反某个性能约束时，它就会受到惩罚。

虽然离散奖励会减慢收敛速度，但也能引导智能体走向环境状态空间中更好的奖励区域。例如，基于区域的奖励，如当智能体接近目标位置时的固定奖励，可以模拟最终状态约束。此外，基于区域的惩罚也可以鼓励智能体避开状态空间的某些区域。

混合奖励

在许多情况下，提供一种混合奖励信号是有益的，这种信号既有连续奖励成分，也有离散奖励成分。离散奖励信号可用于驱动系统远离不良状态，而连续奖励信号则可在目标状态附近提供平滑奖励，从而提高收敛性。例如，在 Train DDPG Agent to Control Sliding Robot中，奖励函数有三个组成部分： $r_1$ 、 $r_2$ 和 $r_3$
$\begin{aligned} &r_1 = 10\left(\left(x_t^2+y_t^2+\theta_t^2\right)<0.5\right)\\[2ex] &r_2 = -100\left(\ \mid x_t\mid\ \geq20\ ||\ \mid \ y_t\mid\ \geq20\right)\\[2ex] &r_3 = -\Big(0.2(R_{t-1}+L_t-1)^2+0.3(R_{t-1}-L_t-1)^2+0.03x_t^2+0.03y_t^2+0.02\theta^2_t\Big)\\[2ex] &r= r_1+r_2+r_3 \end{aligned}$

其中：

$r_1$ 是基于区域的连续奖励，只适用于机器人的目标位置附近。
$r_2$ 是一个离散信号，当机器人远离目标位置时会受到较大惩罚。
$r_3$ 是连续的 QR 惩罚，适用于机器人的所有状态。

根据控制规范生成奖励

对于已经存在工作控制系统的应用，成本函数或约束条件等规格可能已经存在。在这种情况下，您可以使用 generateRewardFunction 自动生成一个以 MATLAB 编码的奖励函数，作为奖励设计的起点。该函数允许您根据以下内容生成奖励函数：

在 mpc（模型预测控制工具箱）或 nlmpc（模型预测控制工具箱）控制器对象中定义的成本和约束规范。此功能需要使用模型预测控制工具箱软件。
Simulink Design Optimization 模型验证块中定义的性能约束。

在这两种情况下，当违反约束条件时，都会使用惩罚函数（如外部惩罚函数（默认）、双曲惩罚函数或障碍惩罚函数）计算负奖励。

从生成的奖励函数开始，您可以调整成本和惩罚权重，使用不同的惩罚函数，然后在环境中使用生成的奖励函数来训练智能体。

状态观测信号

创建自定义环境时，选择哪些信号作为操作和观测点取决于您的应用。例如，在控制系统应用中，误差信号的积分（有时是导数）通常是有用的观测值。此外，对于参考跟踪应用，将时变参考信号作为观测信号也很有帮助。

在定义观测信号时，最佳做法是在观测向量中包含所有可用的环境状态。

如果不这样做，就会导致不同的环境状态产生相同的观测结果。对于这种状态，智能体策略（假设它是观察结果的静态函数）返回相同的操作。这样的策略通常是不成功的，因为通常情况下，成功的策略需要通过返回不同的操作来对不同的环境状态做出反应。

例如，对摆动的钟摆进行图像观测时，虽然有位置信息，但本身并没有足够的信息来确定钟摆的速度。在这种情况下，无法感知速度的静态策略将无法稳定摆锤。但是，如果可以测量或估算出摆锤的速度，那么将其作为观测向量的附加项，就能为静态策略提供足够的信息来稳定摆锤。

当并非所有状态都可以作为观测信号时（例如，因为测量这些状态是不现实的），一种可能的变通方法是使用一个估计器（作为环境的一部分）来估计未测量状态的值，并将这些估计值作为观测值提供给智能体。或者，也可以在策略中使用 LSTM 等递归网络。这样做的结果是，策略具有状态，因此可以将其状态作为环境状态的内部表示。因此，即使没有足够的信息来根据当前观测结果重建正确的环境状态，这样的策略也能根据其内部状态的不同值返回不同的操作。

原文地址：https://blog.csdn.net/m0_72748751/article/details/136554802

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：代码随想录算法训练营（JAVA）| 第六章二叉树 part02
下一篇：如何保证对外接口的安全？

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20