强化学习核心概念与公式总结

🕗 发布于 2024-10-04 01:22 人工智能 强化学习

强化学习核心概念与公式总结

1. 核心概念

1.1 智能体(Agent)和环境(Environment)

智能体：学习和做决策的实体
环境：智能体交互的外部系统

1.2 状态(State)

描述环境在特定时刻的情况

1.3 动作(Action)

智能体可以执行的操作

1.4 奖励(Reward)

环境对智能体动作的即时反馈

1.5 策略(Policy)

定义智能体在给定状态下应采取的动作

1.6 价值函数(Value Function)

评估状态或动作的长期价值

1.7 Q函数(Q-function)

特殊的价值函数，评估状态-动作对的价值

1.8 探索与利用(Exploration vs Exploitation)

在尝试新动作和利用已知好动作之间取得平衡

1.9 回合(Episode)

从初始状态到终止状态的完整交互序列

1.10 折扣因子(Discount Factor)

决定未来奖励的重要性

2. 关键公式

2.1 策略(Policy)

确定性策略

$\pi(s)$

随机策略

$\pi(a|s) = P(A_t = a | S_t = s)$

2.2 价值函数(Value Function)

状态价值函数

$V_\pi(s) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s]$

动作价值函数(Q函数)

$Q_\pi(s,a) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s, A_t = a]$

原文地址：https://blog.csdn.net/exlink2012/article/details/142658395

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：正向代理 & 反向代理
下一篇：用户登录与信息管理：实现小程序登录与用户信息存储

基于物理信息神经网络（PINN）求解Burgers方程(附PyTorch源代码)
本文介绍了如何通过物理信息神经网络（PINN）求解经典的 Burgers 方程，详细讲解了网络结构、损失函数设计、训练过程以及可视化解的步骤。PINN 是一种强大的工具，能够将物理方程与神经网络相结合
阅读更多2024-10-06
vite学习教程02、vite+vue2配置环境变量
本文详细介绍了在Vite项目中如何安装和配置环境变量，以及如何在项目中应用这些变量。首先，通过npm安装`cross-env`依赖。然后，在项目根目录创建`.env`文件，并为不同环境（默认、开发、生
阅读更多2024-10-06
分页查询前后端代码
默认值，第一次查询没有页码和页面大小所以给个默认值，因为我有帐号和姓名的模糊查询所以，后端会根据这四个值来返回前端所需要的数据。每次改变页码或者页号，发送一次请求。在table表格下，写样式。
阅读更多2024-10-06
BLOOM 模型的核心原理、局限与未来发展方向解析
BLOOM（BigScience Large Open-science Open-access Multilingual Language Model）是一款由多个国际研究团队联合开发的大型语言模型。
阅读更多2024-10-06
各省份人力资本数据（2005-2022年）
人力资本是指凝聚在劳动者身上的知识、技能和健康等要素所构成的一种资本类型。这种资本是通过投资形成的，包括教育、培训、实践经验、保健等方面的投入，以及在劳动力国内流动和移民入境等方面的投资。人力资本=普
阅读更多2024-10-06
一个月学会Java 第1天第一个Java程序
一个月学会java的第一天第一个Java程序
阅读更多2024-10-06
Python案例--斐波那契数列
斐波那契数列是一个每一项都是前两项和的数列，定义如下：这个数列的前几项是：1, 1, 2, 3, 5, 8, 13, 21, ...斐波那契数列是一个简单而强大的数学工具，它揭示了数学与自然界的和谐关
阅读更多2024-10-06
内部碎片、外部碎片、页内碎片以及紧凑技术
外部碎片是指在内存中存在足够大小的空闲空间来满足一个内存请求，但是这些空闲空间被分割成许多小的、不连续的块，而这些块的总大小足以满足请求，但没有一个单独的块足够大。就像拼图游戏一样，你有足够的碎片，但
阅读更多2024-10-06
需求设计书，需求分析报告，需求说明书（word原件）
5.6 其他信息安全措施。5.5 对用户安全管理。第6章其他非功能需求。3.1 软件开发要求。第4章项目建设内容。第5章系统安全需求。5.1 物理设计安全。5.2 系统安全设计。5.3 网络安全
阅读更多2024-10-06
ABAP:去掉前导零
关于去除/添加SAP的前导零
阅读更多2024-10-06

强化学习核心概念与公式总结

强化学习核心概念与公式总结

1. 核心概念

1.1 智能体(Agent)和环境(Environment)

1.2 状态(State)

1.3 动作(Action)

1.4 奖励(Reward)

1.5 策略(Policy)

1.6 价值函数(Value Function)

1.7 Q函数(Q-function)

1.8 探索与利用(Exploration vs Exploitation)

1.9 回合(Episode)

1.10 折扣因子(Discount Factor)

2. 关键公式

2.1 策略(Policy)

确定性策略

随机策略

2.2 价值函数(Value Function)

状态价值函数

动作价值函数(Q函数)

相关文章