基于模型的强化学习方法4大类灌水范式

🕗 发布于 2024-10-10 14:51 机器学习 人工智能

我们都知道基于模型的强化学习，就是从数据中学一个环境模型。

举个例子，我们要控制一个马达，输入就是电流，输出就是转速。无模型强化学习就是随机采样，然后从数据中直接学习输入到输出的影射，研究重心在如何高效学习。

基于模型的强化学习，希望从输入输出中学习一个马达的状态转移模型，然后智能体和这个模型交互。这里面有什么问题呢？

model-bias

问题就在于，这个模型一定会有误差。即使用数据去学习一个二次函数，也会有误差。如上图所示。

四大类灌水范式

上面这张图，一张图代表一类灌水范式。

第一类：用类似机器学习里面集成学习的方法，去减小这个model-bias；
第二类：用元学习的方法，期望策略能搞处理不同情况的model-bias；
第三类：希望model-bias对策略的影响要对齐；
第四类：这一类和前三类比是比较新的思路：model-bias和最终性能没有直接联系，搞定model-bias并不一定能够带来性能提升，搞定policy搞定一切。这个方向还有待大灌水。

原文：Understanding world models through multi-step pruning policy via reinforcement learning

链接：https://www.sciencedirect.com/science/article/abs/pii/S0020025524012751

PDF链接：https://github.com/tinyzqh/MSPP/blob/master/Understanding%20world%20models%20through%20multi-step%20pruning%20policy%20via%20reinforcement%20learning.pdf

原文地址：https://blog.csdn.net/weixin_39059031/article/details/142818365

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：实现MySQL异地多活场景
下一篇：18 基于51单片机的心率体温监测报警系统(包括程序、仿真、原理图、流程图)

多路复用——select
基于select机制的多路复用技术
阅读更多2024-10-10
速卖通、敦煌卖家备战双11+黑五前，怎么增加店铺曝光？
当排名不断提高，带来的流量也会增加，更多的买家将看到商品，进而促成订单量的快速增长。可以获得更多的自然搜索推荐机会，进而提高产品的曝光率和转化率，产品的购买率和评价对于转化率和平台排名至关重要。为了吸
阅读更多2024-10-10
安全工具 | 搭建带有 Web 仪表板的Interact.sh
Interactsh 是一个用于检测带外交互的开源工具。它是一种旨在检测导致外部交互的漏洞的工具。本文将主要介绍在子域上设置私有 Interact.sh 服务器以及部署其 Web 应用程序。只需一个
阅读更多2024-10-10
双向数据绑定原理图
在这里插入图片描述](https://i-blog.csdnimg.cn/direct/1930d5bf4f084d97aa62e72ef9d30e4e.pn。通知所有Watcher。用户看到更新后的
阅读更多2024-10-10
windows启微服务端口被占用情况的排查与解决方法
问题如下根据错误信息，问题出现在尝试启动服务器时，遇到了端口已被占用的情况（这意味着尝试绑定的端口19200已经被另一个进程占用了。
阅读更多2024-10-10
LabVIEW提高开发效率技巧----状态保存与恢复
在LabVIEW开发中，保存和恢复程序运行时的状态是一个关键技巧，特别是在涉及需要暂停或恢复操作的应用中。通过使用和函数，开发人员可以将程序当前的状态转换为字符串并保存，再在需要时恢复这些状态，确保程
阅读更多2024-10-10
JavaScript七大常见陷阱深度解析
JavaScript作为Web开发中的核心语言，因其灵活性和动态性而备受青睐。然而，这种灵活性也带来了一些常见的陷阱，稍有不慎便可能引发难以追踪的错误。以下是七个常见的JavaScript陷阱，帮助开
阅读更多2024-10-10
MySQL 多条件查询
在 MySQL 中，多条件查询通常使用WHERE子句来指定多个条件。这些条件可以通过逻辑运算符（如ANDORNOT）进行组合，以实现复杂的查询需求。
阅读更多2024-10-10
Windows10如何关闭自动更新
4. 点击"恢复"选项卡，将"第一次失败"、"第二次失败"、"后续失败"都改为"无操作"，然后点击&
阅读更多2024-10-10
Linux 互斥锁
互斥锁的使用、线程同步和互斥、条件变量的使用 ...
阅读更多2024-10-10

基于模型的强化学习方法4大类灌水范式

四大类灌水范式

相关文章