【SSL-RL】自监督强化学习：随机潜在演员评论家 (SLAC)算法

🕗 发布于 2024-11-11 09:49 大数据 人工智能 强化学习 机器学习 算法

📢本篇文章是博主强化学习（RL）领域学习时，用于个人学习、研究或者欣赏使用，并基于博主对相关等领域的一些理解而记录的学习摘录和笔记，若有不当和侵权之处，指出后将会立即改正，还望谅解。文章分类在👉强化学习专栏：

【强化学习】（43）---《自监督强化学习：随机潜在演员评论家 (SLAC)算法》

自监督强化学习：随机潜在演员评论家 (SLAC)算法

1. 引言

2.4 Actor-Critic架构中的策略优化

[Experiment] SLAC算法的应用示例

[Notice] 代码解析

4. SLAC的优势与挑战

5. 结论

1. 引言

随机潜在演员评论家，Stochastic Latent Actor-Critic (SLAC)算法 是一种用于连续控制任务的自监督强化学习算法，由Google Brain提出。SLAC结合了自监督学习和深度强化学习，通过构建一个隐变量模型（Latent Variable Model）来捕捉环境的潜在状态，并使用这些状态来进行策略优化。SLAC特别适合于高维观测（如图像）和部分可观测的环境。SLAC算法的主要目标是通过学习潜在空间的动态来更好地估计环境状态，进而提升智能体的策略学习效率。

2. SLAC算法的核心思想

SLAC通过以下三个核心模块实现强化学习中的表示学习和策略优化：

隐变量模型（Latent Variable Model）：SLAC构建了一个隐变量模型，将环 $(\theta)$ 境的观测映射到低维的潜在空间，从而在潜在空间中进行预测和策略学习。
自监督学习（Self-Supervised Learning）：通过重构和预测未来潜在状态，SLAC可以在没有外部奖励的情况下学习潜在表示。
Actor-Critic架构：SLAC采用了Actor-Critic架构，其中策略（Actor）和价值函数（Critic）都在潜在空间中进行优化。

2.1 隐变量模型的构建

在SLAC中，环境的高维观测 $( o_t )$ 被映射到一个低维的潜在状态 $( z_t )$ 。这个隐变量模型由以下几个部分组成：

编码器（Encoder）：将观测 $( o_t )$ 编码为潜在表示 $( z_t )$ 。
潜在动态模型（Latent Dynamics Model）：预测潜在状态在时间上的演变，从而能够模拟环境的动态。
解码器（Decoder）：从潜在空间重构观测，用于约束潜在表示能够捕捉到环境的关键信息。

SLAC中的编码器和解码器分别定义为：

$[ z_t \sim q_\phi(z_t | o_t, z_{t-1}, a_{t-1}) ] [ \hat{o}t \sim p\theta(o_t | z_t) ]$

其中， $(\phi)$ 和 $(\theta)$ 是编码器和解码器的参数。

2.2 自监督的潜在状态预测

SLAC的潜在动态模型是一个随机过程，定义为：

$[ z_{t+1} \sim p_\psi(z_{t+1} | z_t, a_t) ]$

通过自监督学习，SLAC训练潜在动态模型来预测未来的潜在状态，使得模型能够捕捉环境的动态变化。这种预测过程引入了随机性，以捕捉环境中的不确定性。

2.3 重构与预测损失

为了确保潜在表示能够有效地重构观测，并预测未来状态，SLAC的损失函数包括以下两个部分：

重构损失（Reconstruction Loss）：用于约束编码器和解码器，使得潜在表示能够重构原始观测。

$[ L_{\text{recon}} = \mathbb{E}{q\phi(z_t | o_t)} \left[ -\log p_\theta(o_t | z_t) \right] ]$

预测损失（Predictive Loss）：用于训练潜在动态模型，使其能够预测未来的潜在状态。

$[ L_{\text{predict}} = \mathbb{E}{q\phi(z_t | o_t)} \left[ -\log p_\psi(z_{t+1} | z_t, a_t) \right] ]$

SLAC的最终损失函数可以写为：

$[ L_{\text{total}} = L_{\text{recon}} + \lambda L_{\text{predict}} ]$

其中， $(\lambda)$ 是用于平衡重构和预测损失的超参数。

2.4 Actor-Critic架构中的策略优化

在SLAC中，策略优化是在潜在空间中进行的。SLAC采用了软演员-评论家（Soft Actor-Critic, SAC）算法，并将其应用于潜在空间。SAC是一种基于熵正则化的强化学习算法，目的是在学习最优策略的同时，鼓励策略的多样性。

策略网络（Actor）：在潜在空间中，策略网络 $( \pi_\theta(a_t | z_t) )$ 生成动作分布，最大化策略的预期回报。

价值网络（Critic）：价值网络 $( Q_\psi(z_t, a_t) )$ 估计给定潜在状态和动作的价值，用于更新策略。

SAC的目标是最大化以下目标函数：

$[ J(\pi) = \sum_{t=0}^\infty \mathbb{E}_{(z_t, a_t) \sim \pi} \left[ r(z_t, a_t) + \alpha \mathcal{H}(\pi(\cdot | z_t)) \right] ]$

其中， $(\alpha)$ 是用于控制熵项的超参数， $(\mathcal{H})$ 是策略的熵，用于增加策略的探索性。

3. SLAC算法的工作流程

3.1 数据编码

在每个时间步 $(t)$ ，环境的观测 $(o_t)$ 被编码为潜在状态 $(z_t)$ 。编码器 $(q_\phi(z_t | o_t, z_{t-1}, a_{t-1}))$ 将观测和过去的潜在状态、动作作为输入，输出当前的潜在状态。

3.2 动态模型预测

SLAC使用潜在动态模型预测未来潜在状态 $(z_{t+1})$ 。通过这种自监督的预测机制，模型能够捕捉环境中的长期依赖关系。

3.3 重构观测与优化损失

通过解码器 $(p_\theta(o_t | z_t))$ ，SLAC尝试重构观测，以确保潜在表示捕捉了环境的关键信息。通过最小化重构损失和预测损失，SLAC能够有效学习潜在表示。

3.4 策略优化

SLAC在潜在空间中使用SAC算法进行策略优化。通过最大化策略的预期回报和策略的熵，SLAC的策略网络学会在潜在空间中采取最优动作。

[Python] SLAC算法的实现示例

以下是一个简化的SLAC实现，示例展示了如何使用PyTorch实现简化的SLAC模型，并进行训练以学习潜在表示和优化策略。这个实现包含了编码器、解码器和潜在动态模型，用于在潜在空间中对环境进行建模和策略学习。

🔥若是下面代码复现困难或者有问题，欢迎评论区留言；需要以整个项目形式的代码，请在评论区留下您的邮箱📌，以便于及时分享给您（私信难以及时回复）。

"""《 SLAC算法的实现示例》
    时间：2024.11
    作者：不去幼儿园
"""
import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np

# 定义SLAC模型类
class SLAC(nn.Module):
    def __init__(self, obs_dim, act_dim, latent_dim):
        super(SLAC, self).__init__()
        self.encoder = Encoder(obs_dim, latent_dim)
        self.decoder = Decoder(latent_dim, obs_dim)
        self.latent_dyn_model = LatentDynamics(latent_dim, act_dim)

    def forward(self, obs, action):
        # 编码观测得到潜在表示
        latent_state = self.encoder(obs)

        # 解码重构观测
        recon_obs = self.decoder(latent_state)

        # 预测潜在状态的变化
        next_latent_state = self.latent_dyn_model(latent_state, action)

        return recon_obs, latent_state, next_latent_state

# 定义SLAC模型中的编码器、解码器和潜在动态模型
class Encoder(nn.Module):
    def __init__(self, obs_dim, latent_dim):
        super(Encoder, self).__init__()
        self.fc1 = nn.Linear(obs_dim, 64)
        self.fc2 = nn.Linear(64, latent_dim)
        self.relu = nn.ReLU()

    def forward(self, obs):
        x = self.relu(self.fc1(obs))
        latent_state = self.fc2(x)
        return latent_state

class Decoder(nn.Module):
    def __init__(self, latent_dim, obs_dim):
        super(Decoder, self).__init__()
        self.fc1 = nn.Linear(latent_dim, 64)
        self.fc2 = nn.Linear(64, obs_dim)
        self.relu = nn.ReLU()

    def forward(self, latent_state):
        x = self.relu(self.fc1(latent_state))
        recon_obs = self.fc2(x)
        return recon_obs

class LatentDynamics(nn.Module):
    def __init__(self, latent_dim, act_dim):
        super(LatentDynamics, self).__init__()
        self.fc1 = nn.Linear(latent_dim + act_dim, 64)
        self.fc2 = nn.Linear(64, latent_dim)
        self.relu = nn.ReLU()

    def forward(self, latent_state, action):
        x = torch.cat([latent_state, action], dim=1)
        x = self.relu(self.fc1(x))
        next_latent_state = self.fc2(x)
        return next_latent_state

算法训练：

# 创建SLAC模型实例
obs_dim = 64
act_dim = 32
latent_dim = 16
slac_model = SLAC(obs_dim, act_dim, latent_dim)

# 定义优化器和损失函数
optimizer = optim.Adam(slac_model.parameters(), lr=1e-3)
mse_loss = nn.MSELoss()

# 训练SLAC模型
def train_slac_model(num_iterations, batch_size):
    for i in range(num_iterations):
        obs_batch = torch.randn(batch_size, obs_dim)
        action_batch = torch.randn(batch_size, act_dim)

        # 前向传播
        recon_obs, latent_state, next_latent_state = slac_model(obs_batch, action_batch)

        # 计算重构损失和预测损失
        recon_loss = mse_loss(recon_obs, obs_batch)
        predict_loss = mse_loss(next_latent_state, latent_state)

        total_loss = recon_loss + predict_loss

        # 反向传播和优化
        optimizer.zero_grad()
        total_loss.backward()
        optimizer.step()

        if i % 100 == 0:
            print(f"Iteration {i}, Total Loss: {total_loss.item()}")

# 示例训练
train_slac_model(num_iterations=1000, batch_size=32)

[Experiment] SLAC算法的应用示例

在复杂的强化学习任务中，例如连续控制问题，SLAC通过将高维观测映射到低维潜在空间，在潜在空间中进行动态建模和策略优化。SLAC特别适用于机器人控制和自主驾驶等需要处理连续动作空间的任务。以下是SLAC在强化学习中的应用示例，展示如何在潜在空间中进行策略优化。

应用流程

环境初始化：创建强化学习环境，定义观测和动作的维度。
SLAC模型初始化：创建SLAC模型，包括编码器、解码器和潜在动态模型。
策略模型初始化：采用Soft Actor-Critic（SAC）算法，初始化Actor-Critic网络，并将潜在状态作为SAC的输入。
训练循环：
- 潜在状态编码：通过SLAC模型的编码器，将观测数据映射到潜在状态空间。
- 策略选择：在潜在空间中使用SAC的Actor网络选择最优动作。
- 环境交互与反馈：执行选择的动作，环境返回奖励和下一个观测。
- 潜在动态预测：使用SLAC的动态模型预测下一个潜在状态，并计算预测损失。
- 策略优化与模型同步：更新SLAC模型和SAC策略模型。

# 定义SLAC与SAC联合的智能体
class SLACAgent:
    def __init__(self, obs_dim, act_dim, latent_dim, actor_lr=3e-4, critic_lr=3e-4):
        self.slac_model = SLAC(obs_dim, act_dim, latent_dim)
        self.actor = Actor(latent_dim, act_dim)
        self.critic = Critic(latent_dim, act_dim)
        
        self.slac_optimizer = optim.Adam(self.slac_model.parameters(), lr=3e-4)
        self.actor_optimizer = optim.Adam(self.actor.parameters(), lr=actor_lr)
        self.critic_optimizer = optim.Adam(self.critic.parameters(), lr=critic_lr)

    def select_action(self, latent_state):
        mean, std = self.actor(latent_state)
        dist = Normal(mean, std)
        action = dist.sample()
        return action, dist.log_prob(action)

    def update(self, obs_batch, action_batch, reward_batch, next_obs_batch):
        # 使用SLAC模型进行编码和预测
        recon_obs, latent_state, next_latent_pred = self.slac_model(obs_batch, action_batch)
        next_latent_state = self.slac_model.encoder(next_obs_batch)
        
        # 计算重构损失和预测损失
        recon_loss = torch.mean((recon_obs - obs_batch) ** 2)
        predict_loss = torch.mean((next_latent_pred - next_latent_state) ** 2)
        slac_loss = recon_loss + predict_loss
        
        # 更新SLAC模型
        self.slac_optimizer.zero_grad()
        slac_loss.backward()
        self.slac_optimizer.step()
        
        # 计算Critic损失并更新
        q_value = self.critic(latent_state, action_batch)
        next_q_value = reward_batch + 0.99 * self.critic(next_latent_state, self.actor(next_latent_state)[0]).detach()
        critic_loss = torch.mean((q_value - next_q_value) ** 2)
        
        self.critic_optimizer.zero_grad()
        critic_loss.backward()
        self.critic_optimizer.step()
        
        # 计算Actor损失并更新
        action, log_prob = self.select_action(latent_state)
        actor_loss = torch.mean(-self.critic(latent_state, action) + 0.2 * log_prob)
        
        self.actor_optimizer.zero_grad()
        actor_loss.backward()
        self.actor_optimizer.step()

实例训练：

# 训练SLAC智能体
def train_slac_agent(agent, env, num_episodes):
    for episode in range(num_episodes):
        obs = env.reset()
        done = False
        episode_reward = 0
        
        while not done:
            obs_tensor = torch.tensor(obs, dtype=torch.float32).unsqueeze(0)
            latent_state = agent.slac_model.encoder(obs_tensor)
            
            # 选择动作并与环境交互
            action, _ = agent.select_action(latent_state)
            action_np = action.detach().numpy()
            next_obs, reward, done, _ = env.step(action_np)
            
            # 存储并更新模型
            agent.update(obs_tensor, action, reward, torch.tensor(next_obs, dtype=torch.float32).unsqueeze(0))
            
            obs = next_obs
            episode_reward += reward
            
        print(f"Episode {episode + 1}: Total Reward = {episode_reward}")

# 示例用法
obs_dim = 64
act_dim = 32
latent_dim = 16
slac_agent = SLACAgent(obs_dim, act_dim, latent_dim)

# 训练SLAC Agent
train_slac_agent(slac_agent, env, num_episodes=100)

[Notice] 代码解析

潜在状态表示学习：SLAC模型将高维观测编码为潜在状态，使得模型在潜在空间中进行策略选择和动态建模。
Actor-Critic策略优化：在潜在空间中使用SAC算法，通过Critic网络估计潜在状态和动作的价值，Actor网络选择最大化长期回报的动作。
重构和预测损失：SLAC模型通过重构和预测损失优化潜在状态表示，使得潜在空间能够有效描述环境动态。

由于博文主要为了介绍相关算法的原理和应用的方法，缺乏对于实际效果的关注，算法可能在上述环境中的效果不佳或者无法运行，一是算法不适配上述环境，二是算法未调参和优化，三是没有呈现完整的代码，四是等等。上述代码用于了解和学习算法足够了，但若是想直接将上面代码应用于实际项目中，还需要进行修改。

4. SLAC的优势与挑战

优势

适用于高维观测：SLAC通过隐变量模型，将高维观测映射到低维潜在空间，在图像和视频等高维输入上表现优异。
捕捉环境动态：SLAC的潜在动态模型能够预测未来状态，捕捉环境中的长期依赖关系。
高效的探索策略：通过在潜在空间中进行策略优化，SLAC能够更高效地学习策略，减少计算负担。

挑战

计算开销较高：SLAC的实现需要编码器、解码器和动态模型的协同工作，对计算资源要求较高。
超参数敏感性：SLAC的性能对模型结构和超参数设置较为敏感，可能需要在具体任务中进行细致的调优。
潜在空间的解释性：SLAC学习的潜在表示在一定程度上是黑箱的，缺乏解释性。

5. 结论

Stochastic Latent Actor-Critic (SLAC) 算法通过整合自监督学习和深度强化学习，提供了一种有效处理高维观测和部分可观测环境的方法。通过学习潜在空间中的动态变化和策略优化，SLAC在多种连续控制任务中表现出色，为复杂环境中的智能体学习提供了新的思路和方法。

参考文献：Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model

更多自监督强化学习文章，请前往：【自监督强化学习】专栏

文章若有不当和不正确之处，还望理解与指出。由于部分文字、图片等来源于互联网，无法核实真实出处，如涉及相关争议，请联系博主删除。如有错误、疑问和侵权，欢迎评论留言联系作者，或者添加VX：Rainbook_2，联系作者。✨

原文地址：https://blog.csdn.net/qq_51399582/article/details/143477617

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：基于 PyTorch 从零手搓一个GPT Transformer 对话大模型
下一篇：云技术基础介绍

[C++] 函数详解
今天zty带来的是函数的详解，搞了4个小时，大家给个赞呗，zty还要上学，发作品会少一点先赞后看养成习惯
阅读更多2024-11-13
青岛黄岛区，生产端，帮招1名海康VM资深机器视觉工程师，不需要独立开发，3年以上VM视觉经验，月薪15K+，责任制
青岛黄岛区，生产端，帮招1名海康VM资深机器视觉工程师，不需要独立开发，3年以上VM视觉经验，月薪15K+，责任制
阅读更多2024-11-13
RAG与知识库搭建，手把手教你构建RAG系统
自从发现可以利用自有数据来增强大语言模型（LLM）的能力以来，如何将 LLM 的通用知识与个人数据有效结合一直是热门话题。关于使用微调（fine-tuning）还是检索增强生成（RAG）来实现这一目标
阅读更多2024-11-13
Elasticsearch 和 Kibana 8.16：Kibana 获得上下文和 BBQ 速度并节省开支！
Elastic Search AI 平台（Elasticsearch、Kibana 和机器学习）的 8.16 版本包含大量新功能，可提高性能、优化工作流程和简化数据管理。深入了解这些更新和更多增强功能
阅读更多2024-11-13
PHP图书绘本借阅管理系统小程序源码
在这个信息爆炸的时代，培养孩子的阅读习惯，就是赋予他们一把打开知识大门的钥匙。图书绘本借阅管理系统，以其便捷、高效、个性化的服务，让阅读变得更加简单快乐。让我们一起，用阅读点亮孩子的童年，让这份宝贵的
阅读更多2024-11-13
基于Springboot+Vue的企业客源关系管理系统（含源码数据库）
管理员可以在后台管理服务信息、新闻资讯、销量订单、产品类型、轮播图、用户、服务类型、产品信息、管理员和客户信息等模块，具有新增、查看、修改、删除等操作权限。管理员可以在后台登录，不需要前台注册和登录。
阅读更多2024-11-13
纳米级二氧化硅溶液除硅
然而，在某些应用中，可能需要去除纳米级二氧化硅中的硅，这主要是为了调整材料的性能或满足特定的应用需求。纳米级二氧化硅的除硅过程可能是为了调整其性能以适应特定的应用需求，或是为了获得所需的纯度和特定的物
阅读更多2024-11-13
【linux】ab 的安装
Apache Bench（ab）是一个用于基准测试HTTP服务器的命令行工具，特别是那些运行在Apache HTTP服务器上的服务。它旨在测量服务器在处理请求时的性能，并提供有关服务器响应时间、吞吐量
阅读更多2024-11-13
qt QFrame详解
QFrame是Qt框架中用于提供框架或边框的控件，主要用于在图形用户界面（GUI）中创建框架，并提供各种边框样式和功能。它是Qt中一个基础的容器类，也是许多基础控件的基类，可以被QLCDNumber、
阅读更多2024-11-13
Spring Boot框架：构建可扩展的网上商城
网上商城系统的设计方案比如功能框架的设计，比如数据库的设计的好坏也就决定了该系统在开发层面是否高效，以及在系统维护层面是否容易维护和升级，因为在系统实现阶段是需要考虑用户的所有需求，要是在设计阶段没有
阅读更多2024-11-13

【SSL-RL】自监督强化学习：随机潜在演员评论家 (SLAC)算法

自监督强化学习：随机潜在演员评论家 (SLAC)算法

1. 引言

2. SLAC算法的核心思想

2.1 隐变量模型的构建

2.2 自监督的潜在状态预测

2.3 重构与预测损失

2.4 Actor-Critic架构中的策略优化

3. SLAC算法的工作流程

3.1 数据编码

3.2 动态模型预测

3.3 重构观测与优化损失

3.4 策略优化

[Python] SLAC算法的实现示例

[Experiment] SLAC算法的应用示例

应用流程

[Notice] 代码解析

4. SLAC的优势与挑战

优势

挑战

5. 结论

相关文章