自学内容网 自学内容网

《强化学习》(第2版)目录

目录页码
第1章 导论1
   1.1 强化学习1
   1.2 示例4
第I部分 表格型求解方法23
第2章 多臂赌博机25
第3章 有限马尔可夫决策过程45
   3.1 “智能体-环境”交互接口45
   3.2 目标和收益51
   3.3 回报和分幕52
   3.4 分幕式和持续性任务的统一表示法54
   3.5 策略和价值函数55
   3.6 最优策略和最优价值函数60
   3.7 最优性和近似算法65
   3.8 本章小结66

第1章 导论

1.3 强化学习要素 … 5
1.4 局限性与适用范围 … 7
1.5 扩展实例:井字棋 … 8
1.6 本章小结 … 12
1.7 强化学习的早期历史 … 13

第2章 多臂赌博机

2.1 一个k臂赌博机问题 … 25
2.2 动作-价值方法 … 27
2.3 10臂测试平台 … 28
2.4 增量式实现 … 30
2.5 跟踪一个非平稳问题 … 32
2.6 乐观初始值 … 34
2.7 基于置信度上界的动作选择 … 35
2.8 梯度赌博机算法 … 37
2.9 关联搜索(上下文相关的赌博机) … 40
2.10 本章小结 … 41


原文地址:https://blog.csdn.net/songyuc/article/details/140756625

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!