强化学习入门--基本概念

🕗 发布于 2025-01-22 11:38 强化学习概念入门知识

强化学习基本概念

grid-world example

这个指的是一个小机器人（agent）在一个网格区域（存在边界），网格中存在需要躲避的格子和目标格子，我们的目的就是找到到达目标格子的最短路径

state

表示智能体相对于环境的状态，在上面的例子中，state就代表位置

state space 如果把所有的状态放在一起，就构成了状态空间

action

在每一个状态可以采取的行动

action space 所有动作放在一起，构成动作空间

state transition

当采取一个action的时候，agent 从一个state到达另一个state

在状态转换时，通常会出现各种特殊情况，导致我们进行一个动作时，状态转换的结果并不唯一，我们引入条件概率的概念，使用条件概率去描述state transition

forbidden area

需要躲避的区域，包含两种情况

可以进入，但进入该区域会被惩罚
不可以进入

policy（策略）

作用是告诉agent在该state下应该做什么动作

策略使用Π表示，在某一状态下执行某一动作表示为Π(a|s)，使用条件概率的形式

reward（回报）

是一个数，一个标量

如果是一个正数，那么代表我们希望这个行为发生

如果是一个负数，那么代表我们不希望这个行为发生

但是我们可以自定义这件事情，如果将正数定义为惩罚，那么agent就希望得到更多的负数

其作为我们与机器交互的一种手段存在

我们通过设计reward来实现我们的目标

比如对于上面的grid-world example，我们可以设计出边界惩罚为-1，到达forbidden area惩罚为-1，到达target area奖励为1，其余动作为0

这种可以代表确定的reword，对于很多行为，其reward是不确定的，还是和之前一样，使用条件概率。

我们的reward并不是根据结果给出，而是根据当前状态和要采取的动作给出

Trajectory and return

trajectory代表着一系列的状态-动作-回报（可以称其为轨迹），那么一个轨迹的return就是这一系列动作得到的回报加和，不同策略得到的轨迹是不同的，通过比较不同策略的得到轨迹的return，从而判断策略的好坏

discounted return

到达target后，实际上还在不停的运行，比如上面的例子，就会在target保持不动，一直加1

为了解决其不收敛的问题，引入discounted return，在每项前加上折扣

γ是一个(0，1)之间的数

可以看到如果γ趋近于0，那么结果更依赖于开始得到的return，使实验更加的近视

episode

这个其实描述的就是不持续的任务，但是不持续的任务和coutinue task之间可以进行转化

比如上述例子，我们可以将在target状态下的动作的结果都为原地不动，那么就会由原来的episode变为coutinue task

或者将最终的状态视为一个一般的状态，如果策略好的话，它就停在哪里不动，如果策略不好的话，他就会有可能跳出来

使用策略二会使其更具一般化

原文地址：https://blog.csdn.net/wjm041006/article/details/145269634

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Chapter 6.3-Creating data loaders
下一篇：JAVA：策略模式（Strategy Pattern）的技术指南

jvm学习总结
在硬盘上查找并通过io读写字节码文件，使用类时才加载，例如调用来的main方法，new对象等等，在加载阶段会在内存中生成一个代表这个类的java.lang.Class对象，作为方法区这个类的各种数据的
阅读更多2025-01-22
【gopher的java学习笔记】Java中Mapper与Entity的关系详解
在Java后端开发中，特别是在使用MyBatis等持久层框架时，Mapper与Entity的关系是架构设计中不可忽视的一部分。本文将从Java Web应用程序的角度出发，详细探讨Mapper与Enti
阅读更多2025-01-22
【gopher的java学习笔记】Java中Service与Mapper的关系详解
在后端开发中，Java作为一种广泛使用的编程语言，其架构设计和层次划分对于系统的可维护性、可扩展性和性能有着至关重要的影响。特别是在使用MyBatis等持久层框架时，Service层与Mapper层的
阅读更多2025-01-22
基于单片机的直流电机控制系统（论文+源码）
1系统方案设计本设计基于单片机的直流电机控制系统的总体架构设计如图2.1所示，其采用STM32F103单片机作为控制器，结合ESP8266WiFi通信模块、L9110电机驱动电路、OLED液晶、按键等
阅读更多2025-01-22
探索 Vue.js 的高级插槽特性：动态插槽与作用域插槽优化
<thead><tr></th></tr></thead><tbody></td></tr></t
阅读更多2025-01-22
HarmonyOS NEXT：华为分享-碰一碰开发分享
碰一碰”是HarmonyOS NEXT系统中的一项创新功能，它允许用户通过简单的设备接触，实现多种内容的快速分享。这一功能打破了传统文件传输和分享的局限性，无需复杂的网络设置或社交关系，只需将两个设备
阅读更多2025-01-22
第17章安全培训筑牢梦想根基
在确认同事情况有所好转后，我们才回到考场，继续完成考试。王瑞瑞紧握着笔记本，点了点头，她的马尾辫随着动作轻轻摆动，但眼神却异常坚定：“是的，这让我们更加明白，我们的每一个小错误，都可能导致无法挽回的后
阅读更多2025-01-22
C# 中的Stopwatch和timer
Stopwatch：用于测量时间间隔，适合性能分析和精确计时。Timer：用于在指定的时间间隔后执行代码，适合定时任务。根据你的具体需求，可以选择使用Stopwatch来测量时间间隔，或使用Timer
阅读更多2025-01-22
学Python的人…
它主要负责包管理比较臃肿，我也是后面学深度学习才开始用这个的不是必需，初学者可安可不安。提前思考好学习路线：思维导图中的基础部分所有的都要学，但高阶部分选定一个方向学就好。，它的交互性的确更强，但我觉
阅读更多2025-01-22
Comment(爆破+git泄漏+二次注入)
即用户名为admin%27%0Aor%0A%271%27%3E%270%27%0Aor%0Aname%0Alike%0A%27admin。使用bugscanteam的githack工具，下载泄漏的源码
阅读更多2025-01-22