强化学习学习（一）从MDP到Actor-critic演员-评论家算法

🕗 发布于 2024-07-23 17:18 学习算法 python 深度学习 神经网络

文章目录

From Markov chains to Markov decision process (MDP):

$\mathcal{M}=\mathcal{S},\mathcal{A},\mathcal{T},r$
$\mathcal{T}$ now is a tensor of 3 division: $\mathcal{T}_{i,j,k}=p(s_{t+1}=i|s_t=j,a_t=k)$
$r$ -reward funtion $r:\mathcal{S}\times\mathcal{A}\rightarrow\mathbb{R}$ ,
image.png|400

partially observed Markov decision peocess

$\mathcal{M}=\mathcal{S},\mathcal{A},\mathcal{O},\mathcal{T},\mathcal{E},r$
$\mathcal{E}$ -emmision probobality $p(o_t|s_t)$
image.png|450

image.png|600
由于 $a_t$ 是根据 $s_t$ 和 $\pi_{\theta}$ 共同推出的： $p((s_{t+1},a_{t+1})|s_{t},a_{t})=p(s_{t+1}|s_t,a_t)\pi_{\theta}(a_{t+1}|s_{t+1})$
image.png|400
statinary: the same before and after transition: $\mu=\mathcal{T}\mu$ ，因此 $\mu$ 是 $\mathcal{T}$ 的特征值为1的特征向量！
for statinary distribution, $\mu=p_{\theta}(s,a)$
利用期望，是为了将不连续的奖励变成连续的变量，从而适用于梯度下降等算法

Value Functions

Q-function

$Q^{\pi}(s_t,a_t)=\sum^T_{t'=t}E_{\pi_{\theta}}[r(s_{t'},a_{t'})|s_t,a_t]$ : 在 $s_t$ 状态下执行动作 $a_t$ 的所有奖励

value function

$V^{\pi}(s_t)=\sum^T_{t'=t}E_{\pi_{\theta}}[r(s_{t'},a_{t'})|s_t]$ ： $s_t$ 状态下的所有奖励（注意看自变量和它对什么去了取了期望）
So, $V^{\pi}(s_t)=E_{a_t\sim\pi(a_t|s_t)}[Q^{\pi}(s_{t},a_{t})]$ ，如果我们对状态再求一次期望呢？：
$E_{s_1\sim p(s_1)}[V^{\pi}(s_1)]$ is the RL objective (对所有可能的出发的状态进行求期望，就是我们上面说的goal)

Using $Q^\pi$ and $V^\pi$

if we have policy $\pi$ , and we know $Q^\pi(s,a)$ , then we can improve $\pi$ :
- set $\pi'(a|s)=1$ if $a=\arg\max_aQ^\pi(s,a)$
- this policy is better than $\pi$
compute gradient to increase probobality of good actions a:
- if $Q^\pi(s,a)>V^\pi(s)$ , then a is better than average 因为 $V^\pi$ 是平均的各种动作奖励值
- modify $\pi(a|s)$ to increase probobality of a if $Q^\pi(s,a)>V^\pi(s)$
  
  Q-value和V-value都是用来评价策略好坏的

Types of RL algorithms

Our goal:
$\theta^*=\arg\max_\theta E_{\tau\sim p_\theta(\tau)}\left[\sum_t r(s_t,a_t)\right]$

[!NOTE] Types of RL algorithms

Policy gradients: 直接计算目标函数对 $\theta$ 的导数，然后执行梯度下降
Value-based: 为最优策略去模拟（神经网络去模拟）值函数或者Q函数。（没有明确的策略）
Actor-critic: 上面两种的结合，模拟值/Q函数，然后去更新策略
Model-based: estimate the transition model $\mathcal{T}$
用它来planning（没有明确的策略）
用来更新策略

Examples of algorithms

Value function fitting
- Q-learning, DQN
- Temporal difference learning
- Fitted value iteration
Policy gradient methods
- Reinforce
- Natual policy gradient
- Trust region policy optimization
Actor-critic
- A3C
- SAC
- DDPG
Model-based RL
- Dyna
- Guided policy search

Policy gradient

我们对着这个幻灯片来讨论讨论：
首先这个 $J(\theta)$ 表示某个特定的策略的轨迹奖励，也就按照这个策略，跑完整个的所有reward
因为最终的目标就是找到最佳策略使得 $J(\theta)$ 的期望最大，也就是说它就是优化函数，因此我们要对 $J(\theta)$ 求导。
积分和求导符号可以换位置。要求期望就得知道概率分布 $p_\theta(\tau)$ ，而这个是不知道的。因此利用了蓝框里的，对 $p_\theta(\tau)$ 求导变成对 $\log p_\theta(\tau)$ 求导，有了下面的：

几个和策略 $\theta$ 无关项求导之后都等于零， $p_\theta(\tau)$ 的展开又可以利用log转换为求和
因此得到最后一行，也就是剩下的参数我们都是知道的（ $\pi$ 、 $r$ ）

由于 $J(\theta)$ 是个期望，那么就可以通过多次实验采样然后平均得到：
$\nabla_\theta J(\theta)\approx\frac{1}{N}\sum_{i=1}^N\left(\sum_{t=1}^T\nabla_\theta \log\pi_\theta(a_{i,t}|s_{i,t})\right)\left(\sum_{t=1}^Tr(s_{i,t},a_{i,t})\right)$

我们再对应着那三个box的颜色看看：

这里的 $\pi_\theta(a_t|s_t)$ 是什么？
可以是神经网络输出的概率（离散），
也可以是动作的概率分布（连续）：
$\pi_\theta(a_t|s_t)=\mathcal{N}(f_{\text{neural network}(s_t)};\Sigma)$ （高斯分布例子）

把上面的式子稍微简化一点：
$\begin{align}\nabla_\theta J(\theta)&\approx\frac{1}{N}\sum_{i=1}^N\left(\sum_{t=1}^T\nabla_\theta \log\pi_\theta(a_{i,t}|s_{i,t})\right)\left(\sum_{t=1}^Tr(s_{i,t},a_{i,t})\right)\\&=\frac{1}{N}\sum_{i=1}^N\nabla_\theta \log\pi_\theta(\tau_i)r(\tau_i)\end{align}$

考虑到因果性：现在的决策不会影响过去的reward，绿色框中可以改写一下：
$\hat{Q}^\pi(x_t,u_t)=\sum_{t'=t}^Tr(x_{t'},u_{t'})$
我们把轨迹 $\tau$ 写开，再利用因果性的 $\hat{Q}$ ：
$\nabla_\theta J(\theta)\approx\frac{1}{N}\sum_{i=1}^N\sum_{t=1}^T\nabla_\theta \log\pi_\theta(a_{i,t}|s_{i,t})\hat{Q}^\pi_{i,t}$
$\hat{Q}^\pi_{i,t}$ 表示如果你在 $s_{i,t}$ 状态采取 $a_{i,t}$ 动作，并按照 $\pi$ 策略继续下去跑完整个轨迹的奖励的估计。
image.png|300
重点就在于求和的下标，这样做的最大好处就是能够减少有限样本带来的方差
其实policy gradient的原理就是在最大似然估计的基础上，按照 $\hat{Q}^\pi(x_t,u_t)$ 进行加权：

$\tilde{J} (\theta)\approx\frac{1}{N}\sum_{i=1}^N\sum_{i=1}^N \log\pi_\theta(a_{i,t}|s_{i,t})\hat{Q}_{i,t}$

大量有趣的数学技巧，包括为梯度和=增加约束

在L5，gradient policy的最后一节，Trust region policy optimization

Actor-critic

来个baseline，接着我们上面的说，正因为 $\hat{Q}$ 只是多次采样的对期望的模拟，因此假设我们有一个理想的reward的期望:
$Q(s_t,a_t)=\sum_{t'=t}^TE_{\pi_\theta}[r(s_{t'},a_{t'})|s_t,a_t]$
然后考虑在一个特定的状态 $s_t$ 下，预期的所有动作的平均reward，就是值函数的定义（注意自变量和它是对谁取了期望）
$V(s_t)=E_{a_t\sim\pi_\theta}(a_t|s_t)[Q(s_t,a_t)]$
这个就可以作为我们的baseline，代表就是平均的行动回报：（代替原本的恒定的 $b$ ）
image.png|600

[!NOTE] AC和policy gradient的区别
所以以前的 $\sum_{t=1}^Tr(s_{i,t},a_{i,t})$ 其实是一种蒙特卡洛估计，虽然无偏但是方差很大，我们用些许的偏差换来方差的巨大减小，也就是要直接去fit $Q^\pi,V^\pi,or A^\pi$ . 因为后者本质是期望，哪怕是我们拟合的期望函数，也比采样得到的 $r ()$ 更好

image.png|400
第一项实际上是确定的不是随机变量，因为是当下的状态和动作。 $Q^\pi(s_t,a_t)\approx r(s_t,a_t)+V^\pi(s_{t+1})$ 这里进行了小的近似：从t到t+1的过程相当于用单样本进行了近似，因为理论上来说这里的状态转移也是要取期望的，随后就可以得到：
$A^\pi(s_t,a_t)\approx r(s_t,a_t)+V^\pi(s_{t+1})-V^\pi(s_{t})$
$A^\pi(s_t,a_t)$ 意义是动作 $a_t$ 比根据策略 $\pi$ 产生的平均动作reward好多少：Advantage

A和Q都取决于两个变量：状态和动作，而V只取决于状态，因此更好去模拟fit——接下来就用基于V函数的critic

Estimate V

$V^\pi(s_t)\approx\sum_{t'=t}^T r(s_{t'},a_{t'})$
not as good as: $V^\pi(s_t)\approx\frac{1}{N}\sum_{n=1}^N\sum_{t'=t}^T r(s_{t'},a_{t'})$ , but still pretty good
So, our training data: $\left\{(s_{i,t},\sum_{t'=t}^T r(s_{i,t'},a_{i,t'}))\right\}$ ，右边的就是 $y_{i,t}$
supervised learning: $\mathcal{L}(\phi)=\frac{1}{2}\sum_i||\hat{V}^\pi_\phi(s_i)-y_i||^2$

algorithms-with discount

image.png|500

上面的方法需要我们去使用两个神经网络去拟合函数：
s-> $\hat{V}^\pi_\phi$ 和s-> $\pi_\theta(a|s)$

原文地址：https://blog.csdn.net/QinZheng7575/article/details/140638246

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：PHP Program to print pyramid pattern （打印金字塔图案的程序）
下一篇：C++学习笔记02-结构基础（问题-解答自查版）

web前端开发--盒子属性
学院介绍
阅读更多2024-11-18
深度学习基础—Seq2Seq模型
decoder网络和编号4的语言模型几乎一模一样，机器翻译模型其实和语言模型非常相似，不同在于语言模型总是以零向量开始，而encoder网络会计算出一系列向量来表示输入的句子。假设输入猫咪图片，经过预
阅读更多2024-11-18
【第三章】Kubernetes资源与对象
文章目录1. Kubernetes资源介绍1.1 Pod1.2 Deployment1.3 Service1.4 Namespace2. Kubernetes资源实践2.1 部署应用2.2 访问应用2
阅读更多2024-11-18
SRT拥塞控制分析
在慢启动阶段，发送端会逐渐增加发送速率，直到网络出现丢包，这时会触发拥塞控制机制，减少发送速率。在拥塞控制中，如果网络出现丢包，发送端可能会增加数据包发送间隔，以减少网络拥塞。：拥塞窗口的大小，用于控
阅读更多2024-11-18
小红书内容推荐算法开发：利用API打造个性化用户体验
小红书，作为国内领先的内容分享社区，其丰富的用户生成内容（UGC）和独特的社区氛围，为推荐算法的开发提供了肥沃的土壤。通过小红书API获取的数据，我们可以构建用户兴趣画像和内容特征，进而实现个性化推荐
阅读更多2024-11-18
详解八大排序（一）------（插入排序，选择排序，冒泡排序，希尔排序）
在日常生活中，我们常常要将各种各样的数据进行排序，例如我要将班上的学生按照数学成绩从大到小的排序，像这种一般情况，编译器自带的sort函数就能满足我们的要求。但是，假如我要将班上姓刘的学生按照数学成绩
阅读更多2024-11-18
量化交易系统开发-实时行情自动化交易-3.4.3.2.期货交易数据
交易数据（Trade Ticks）是进行高频交易策略和市场情绪分析的核心数据之一，通过获取逐笔交易的数据，交易者可以识别大资金动向、市场参与者的行为，以及短时间内的市场动态。以下是通过 Python
阅读更多2024-11-18
Rust：AtomicI8 还是 Mutex＜u8＞?
提供的原子操作（如加载、存储等）在硬件层面得到支持，这些操作是不可分割的，即一旦开始执行，就不会被其他线程的操作打断。如果需要在多个线程之间安全地传递复杂的数据结构或进行复杂的同步操作，那么可能需要考
阅读更多2024-11-18
小程序-基于java+SpringBoot+Vue的智能小程序商城设计与实现
智能小程序商城是一个基于Java和Spring Boot框架开发的电子商务平台，利用微信小程序技术提供便捷的购物体验。系统支持商品浏览、购物车管理、订单处理、用户信息管理等功能，旨在为用户打造一个简洁
阅读更多2024-11-18
华为Ensp模拟器配置OSPF路由协议
开放式最短路径优先 (OSPF) 协议深度解析简介开放式最短路径优先（Open Shortest Path First, OSPF）是一种内部网关协议（IGP），用于在自治系统（AS）内进行动态路由选
阅读更多2024-11-18