强化学习入门--基本概念
强化学习基本概念
grid-world example
这个指的是一个小机器人(agent)在一个网格区域(存在边界),网格中存在需要躲避的格子和目标格子,我们的目的就是找到到达目标格子的最短路径
state
表示智能体相对于环境的状态,在上面的例子中,state就代表位置
state space 如果把所有的状态放在一起,就构成了状态空间
action
在每一个状态可以采取的行动
action space 所有动作放在一起,构成动作空间
state transition
当采取一个action的时候,agent 从一个state到达另一个state
在状态转换时,通常会出现各种特殊情况,导致我们进行一个动作时,状态转换的结果并不唯一,我们引入条件概率的概念,使用条件概率去描述state transition
forbidden area
需要躲避的区域,包含两种情况
- 可以进入,但进入该区域会被惩罚
- 不可以进入
policy(策略)
作用是告诉agent在该state下应该做什么动作
策略使用Π表示,在某一状态下执行某一动作表示为Π(a|s),使用条件概率的形式
reward(回报)
是一个数,一个标量
如果是一个正数,那么代表我们希望这个行为发生
如果是一个负数,那么代表我们不希望这个行为发生
但是我们可以自定义这件事情,如果将正数定义为惩罚,那么agent就希望得到更多的负数
其作为我们与机器交互的一种手段存在
我们通过设计reward来实现我们的目标
比如对于上面的grid-world example,我们可以设计出边界惩罚为-1,到达forbidden area惩罚为-1,到达target area奖励为1,其余动作为0
这种可以代表确定的reword,对于很多行为,其reward是不确定的,还是和之前一样,使用条件概率。
我们的reward并不是根据结果给出,而是根据当前状态和要采取的动作给出
Trajectory and return
trajectory代表着一系列的状态-动作-回报(可以称其为轨迹),那么一个轨迹的return就是这一系列动作得到的回报加和,不同策略得到的轨迹是不同的,通过比较不同策略的得到轨迹的return,从而判断策略的好坏
discounted return
到达target后,实际上还在不停的运行,比如上面的例子,就会在target保持不动,一直加1
为了解决其不收敛的问题,引入discounted return,在每项前加上折扣
γ是一个(0,1)之间的数
可以看到如果γ趋近于0,那么结果更依赖于开始得到的return,使实验更加的近视
episode
这个其实描述的就是不持续的任务,但是不持续的任务和coutinue task之间可以进行转化
比如上述例子,我们可以将在target状态下的动作的结果都为原地不动,那么就会由原来的episode变为coutinue task
或者将最终的状态视为一个一般的状态,如果策略好的话,它就停在哪里不动,如果策略不好的话,他就会有可能跳出来
使用策略二会使其更具一般化
原文地址:https://blog.csdn.net/wjm041006/article/details/145269634
免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!