《强化学习》(第2版)目录
目录 | 页码 |
---|---|
第1章 导论 | 1 |
1.1 强化学习 | 1 |
1.2 示例 | 4 |
第I部分 表格型求解方法 | 23 |
第2章 多臂赌博机 | 25 |
第3章 有限马尔可夫决策过程 | 45 |
3.1 “智能体-环境”交互接口 | 45 |
3.2 目标和收益 | 51 |
3.3 回报和分幕 | 52 |
3.4 分幕式和持续性任务的统一表示法 | 54 |
3.5 策略和价值函数 | 55 |
3.6 最优策略和最优价值函数 | 60 |
3.7 最优性和近似算法 | 65 |
3.8 本章小结 | 66 |
第1章 导论
1.3 强化学习要素 … 5
1.4 局限性与适用范围 … 7
1.5 扩展实例:井字棋 … 8
1.6 本章小结 … 12
1.7 强化学习的早期历史 … 13
第2章 多臂赌博机
2.1 一个k臂赌博机问题 … 25
2.2 动作-价值方法 … 27
2.3 10臂测试平台 … 28
2.4 增量式实现 … 30
2.5 跟踪一个非平稳问题 … 32
2.6 乐观初始值 … 34
2.7 基于置信度上界的动作选择 … 35
2.8 梯度赌博机算法 … 37
2.9 关联搜索(上下文相关的赌博机) … 40
2.10 本章小结 … 41
原文地址:https://blog.csdn.net/songyuc/article/details/140756625
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!