自学内容网 自学内容网

强化学习入门--基本概念

强化学习基本概念

grid-world example

这个指的是一个小机器人(agent)在一个网格区域(存在边界),网格中存在需要躲避的格子和目标格子,我们的目的就是找到到达目标格子的最短路径

state

表示智能体相对于环境的状态,在上面的例子中,state就代表位置

state space 如果把所有的状态放在一起,就构成了状态空间

action

在每一个状态可以采取的行动

action space 所有动作放在一起,构成动作空间

state transition

当采取一个action的时候,agent 从一个state到达另一个state

在状态转换时,通常会出现各种特殊情况,导致我们进行一个动作时,状态转换的结果并不唯一,我们引入条件概率的概念,使用条件概率去描述state transition

forbidden area

需要躲避的区域,包含两种情况

  • 可以进入,但进入该区域会被惩罚
  • 不可以进入
policy(策略)

作用是告诉agent在该state下应该做什么动作

策略使用Π表示,在某一状态下执行某一动作表示为Π(a|s),使用条件概率的形式

reward(回报)

是一个数,一个标量

如果是一个正数,那么代表我们希望这个行为发生

如果是一个负数,那么代表我们不希望这个行为发生

但是我们可以自定义这件事情,如果将正数定义为惩罚,那么agent就希望得到更多的负数

其作为我们与机器交互的一种手段存在

我们通过设计reward来实现我们的目标

比如对于上面的grid-world example,我们可以设计出边界惩罚为-1,到达forbidden area惩罚为-1,到达target area奖励为1,其余动作为0

这种可以代表确定的reword,对于很多行为,其reward是不确定的,还是和之前一样,使用条件概率。

我们的reward并不是根据结果给出,而是根据当前状态和要采取的动作给出

Trajectory and return

trajectory代表着一系列的状态-动作-回报(可以称其为轨迹),那么一个轨迹的return就是这一系列动作得到的回报加和,不同策略得到的轨迹是不同的,通过比较不同策略的得到轨迹的return,从而判断策略的好坏

discounted return

到达target后,实际上还在不停的运行,比如上面的例子,就会在target保持不动,一直加1

为了解决其不收敛的问题,引入discounted return,在每项前加上折扣

γ是一个(0,1)之间的数

可以看到如果γ趋近于0,那么结果更依赖于开始得到的return,使实验更加的近视

episode

这个其实描述的就是不持续的任务,但是不持续的任务和coutinue task之间可以进行转化

比如上述例子,我们可以将在target状态下的动作的结果都为原地不动,那么就会由原来的episode变为coutinue task

或者将最终的状态视为一个一般的状态,如果策略好的话,它就停在哪里不动,如果策略不好的话,他就会有可能跳出来

使用策略二会使其更具一般化


原文地址:https://blog.csdn.net/wjm041006/article/details/145269634

免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!