自学内容网 自学内容网

强化学习(Reinforcement Learning , RL)

图1 机器学习

概述

强化学习(Reinforcement Learning, RL)是人工智能(AI)和机器学习(ML)领域的一个重要子领域,与监督学习无监督学习并列。它模仿了生物体通过与环境交互来学习最优行为的过程,这种交互与日常生活中的各种“绩效奖励”非常类似。与传统的监督学习不同,强化学习没有事先标记好的数据集来训练模型。相反,它依靠智能体(Agent)通过不断尝试、失败、适应和优化来学习如何在给定环境中实现特定目标,提高自己的技能(如图2所示)。

图2 强化学习抽象图

马尔可夫决策过程(MDP) 

强化学习的核心是建模决策问题,并通过与环境的交互来学习最佳决策方案。这一过程常常是通过马尔可夫决策过程(Markov Decision Process, MDP)来描述和解决的。

图3 马尔科夫决策过程

MDP是用来描述决策问题的数学模型,主要由一个四元组 ( (S, A, R, P) ) 组成。

  • 状态空间(S): 表示所有可能状态的集合,状态是用来描述环境或问题的现状。——状态

  • 动作空间(A): 表示在特定状态下可能采取的所有动作的集合。——动作

  • 奖励函数(R): 奖励( R(s, a, s') ) 表示在状态 ( s ) 下采取动作 ( a ) 并转移到状态 ( s' ) 时所获得的即时奖励,是一个数值反馈,用于评估智能体采取某一动作的“好坏”。——奖励

  • 转移概率(P): ( P(s' | s, a) ) 表示在状态 ( s ) 下采取动作 ( a ) 转移到状态 ( s' ) 的概率,是一个从状态到动作的映射函数,用于指导智能体在每一状态下应采取哪一动作。——策略

通过优化策略,我们可以使智能体在与环境的交互中获得更高的累积奖励,从而实现更优的性能。

参考:

强化学习(一):简介——什么是强化学习?-CSDN博客

一文读懂强化学习:RL全面解析与Pytorch实战 - techlead_krischang - 博客园 (cnblogs.com)

一文看懂什么是强化学习?(基本概念+应用场景+主流算法) (easyai.tech)


原文地址:https://blog.csdn.net/2201_76139143/article/details/140546278

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!