强化学习——基本概念

🕗 发布于 2024-10-06 05:26 强化学习

state

例如上图就是location，就是网格的位置为state

action

就是可采取的行动，这里就是可以move的位置

state transition

就是状态采取action后的state

forbidden area考虑两种，一种是可以进去，但是会有惩罚，第二种不可以。课程采用的第一种

Policy 告诉agent在每个state应该采取什么action

比如用Π表示策略，在状态S1下采取不同的action的概率。其概率之和为1

reward

当这个数是正数，代表这个行为是鼓励的，如果是负数，代表为惩罚，这个行为不鼓励。（这个正负数是相对的，就是数学概念，比如也可以用正数代表惩罚）

agent到达不同的位置的奖励分数，或者在不同的状态下采取对应的行动获得的得分

trajectory

包含了状态，action, reward。每个trajectory需要有return

数学上定义一个policy比较好的方式，就是return的值比较好

discounted return

如上图，每次进入到target都会得一分，然后分数就会无穷大了

使用discounted rate

每一个reward都设置一个 $\gamma$ ，此时这个无穷值就变成了一个数，并且，如果 $\gamma$ 接近0，证明后面的reward的影响衰减快，主要依赖于前面的reward，等于1，则衰减的较慢。

减少会更加近视，注重前面的reward，增加会更加远视

Episode

通常是有限步，就是有限步后停止了

MDP

集合化

- 状态集合S
- 行为集合A(s)
- 回报集合R(s,a)

概率分布

- 状态过度概率：在当前的状态s采取行动a，到达s'的概率
- 回报过度概率：在当前的状态s采取行动a，获得分数r的概率

policy
与历史无关

得到状态St+1只与t的状态和行为有关

decision process给出policy后变为markov process

原文地址：https://blog.csdn.net/m0_57958061/article/details/142718929

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【Linux第五课-进程概念下】环境变量、程序地址空间
下一篇：Python爬虫使用实例-mdrama

Qt源码-Qt多媒体音频框架
这里记录一下在Linux下Qt 的 Qt Multimedia 模块的设计，我目前先记录与音频相关的库的设计。不同Qt版本的设计有些不一样，需要看对应版本的源码设计。
阅读更多2024-10-08
数据库概述（1）
查询接口层：假设你要开发一款转账的应用，这时候就需要用到数据库驱动程序，驱动程序会实现API接口的功能【API接口是指实现各种软件之间交互的工具】，通过驱动程序可以让转账的应用接入数据库，进行查询、存
阅读更多2024-10-08
OpenCV视频I/O(20）视频写入类VideoWriter之用于将图像帧写入视频文件函数write()的使用
cv::VideoWriter::write() 函数用于将图像帧写入视频文件。
阅读更多2024-10-08
测试用例的进阶二
本文主要写了软件测试的分类；
阅读更多2024-10-08
keras yolo8目标检测
labels=['car','bus','train','truck']来做目标检测,用的backbone = keras_cv.models.YOLOV8Backbone.from_preset()
阅读更多2024-10-08
Mysql锁机制解读(敲详细)
主要是对未提交事务，修改表结构造成表结构混乱，进行控制。主要是避免加锁前的行级遍历(行级锁)，提高性能。
阅读更多2024-10-08
如何使用ssm实现基于BS的超市商品管理系统的设计与实现+vue
【代码】ssm基于BS的超市商品管理系统的设计与实现+vue
阅读更多2024-10-08
掌握 ASP.NET Web 开发：从基础到身份验证
是微软开发的一个功能强大的框架，广泛用于构建现代化的 Web 应用程序。它支持 MVC 架构、Web API、Razor 语法，并提供完善的身份验证与授权机制。本文将介绍的基础知识、MVC 模式、We
阅读更多2024-10-08
APISIX 联动雷池 WAF 实现 Web 安全防护
Apache APISIX 是一个动态、实时、高性能的云原生 API 网关，提供了负载均衡、动态上游、灰度发布、服务熔断、身份认证、可观测性等丰富的流量管理功能。
阅读更多2024-10-08
eNodeB User Manual - Troubleshooting
RF条件可能受到所使用的天线的影响，我们建议使用Ettus的Vert2450天线（或类似的）。可以使用实验室设备或开源工具（如Kalibrate-RTL）来估计您的射频前端的CFO，并手动通过在eNo
阅读更多2024-10-08

强化学习——基本概念

MDP

相关文章