POMO：强化学习的多个最优策略优化(2020)（完）

🕗 发布于 2024-10-17 04:02 人工智能 python

文章目录

Abstract
1 Introduction
2 Related work
3 Motivation
4 多最优策略优化（POMO）
5 Experiments
- 5.1 Traveling salesman problem
5.2 带容量限制得车辆路径问题
- 5.3 0-1背包问题
6 Conclusion

Abstract

在神经组合优化（CO）中，强化学习（RL）可以将深度神经网络转变为解决NP-hard问题的快速、强大的启发式求解器。

这种方法在实际应用中具有很大的潜力，因为它允许在没有专家指导和大量领域知识的情况下找到接近最优解。我们介绍了一种名为POMO（Policy Optimization with Multiple Optima）的端到端方法，用于构建这样的启发式求解器。POMO适用于广泛的CO问题。它旨在利用CO解决方案表示中的对称性。POMO使用修改后的REINFORCE算法，迫使多样化的rollout朝向所有最优解。从经验上看，POMO的低方差基线使得RL训练快速且稳定，并且与以前的方法相比，它对局部最小值的抵抗力更强。我们还介绍了一种新的基于增强的推理方法，与POMO相得益彰。

我们通过解决三个流行的NP-hard问题来证明POMO的有效性，即旅行商（TSP）、带容量限制的车辆路径（CVRP）和0-1背包（KP）。对于所有这三个问题，我们基于POMO的求解器在性能上都比所有最近的学习启发式方法有显著提高。特别是ÿ

原文地址：https://blog.csdn.net/qq_45823731/article/details/142978893

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：卡码网KamaCoder 96. 城市间货物运输 III
下一篇：中介者模式（C++）

在日本生活压力大吗？
首先，日本是一个高度发达的国家，其经济、科技和文化水平都处于世界前列。这种发达程度意味着日本社会竞争非常激烈，特别是在大城市如东京、大阪等地。
阅读更多2024-10-17
Ubuntu20.04安装ROS2教程
ubuntu20.04安装和卸载ros2教程
阅读更多2024-10-17
在Milvus中管理Collections
Milvus中的Collections类似于关系型数据库中的“表”，是组织和管理向量数据以及相关标量元数据的核心单元。通过灵活配置索引、分区和分片，您能够根据实际需求定制化数据处理流程，实现从数据摄入
阅读更多2024-10-17
力反馈手套如何在VR培训解决方案中为用户提供沉浸式体验？
用户在培训中将使用自己的双手代替VR控制器完成具有真实感的虚拟培训，这不仅有助于提升其在虚拟培训中的沉浸感，还能够进一步加强其对某一专业技能训练的肌肉记忆。将力反馈手套融入到虚拟现实培训中不仅能够有效
阅读更多2024-10-17
【深度学习】阿里云GPU服务器免费试用3月
V100机型（ecs.gn6v-c8g1.2xlarge）：每使用1小时，消耗14.55计算时。A10机型（ecs.gn7i-c8g1.2xlarge）：每使用1小时，消耗6.99计算时。选择GPU规
阅读更多2024-10-17
第六章元素应用CSS
为了确保跨平台的一致性，通常会列出多个字体名称作为“后备”机制，浏览器会尝试按顺序使用列表中的字体，直到找到一个可用的为止。这个属性可以接受绝对单位（如px, pt）或相对单位（如em, %），也可以
阅读更多2024-10-17
2.4 STM32启动过程
下面是stm32在内部FLASH启动的启动建议流程图，在stm32复位到执行我们程序的main函数的过程中，最重要的就是我们的启动文件。紧随MSP之后，处理器从地址0x08000004处读取一个32位
阅读更多2024-10-17
Docker-Harbor概述及构建
Harbor 是 VMware 公司开源的企业级 Docker Registry 项目，其目标是帮助用户迅速搭建一个企业级的 Docker Registry 服务。Harbor以 Docker 公司开
阅读更多2024-10-17
Java程序设计：spring boot（2）
创建独⽴ Spring 应⽤程序、嵌⼊式 Tomcat、Jetty 容器、⽆需部署 WAR 包、简化 Maven 及 Gradle 配置、尽可能⾃动化配置 Spring、直接植⼊产品环境下的实⽤功能，
阅读更多2024-10-17
第二百七十四节 JPA教程 - JPA查询Between and示例
第二百七十四节 JPA教程 - JPA查询Between and示例
阅读更多2024-10-17

POMO：强化学习的多个最优策略优化(2020)（完）

文章目录

Abstract

相关文章