自学内容网 自学内容网

POMO:强化学习的多个最优策略优化(2020)(完)


Abstract

在神经组合优化(CO)中,强化学习(RL)可以将深度神经网络转变为解决NP-hard问题的快速、强大的启发式求解器。

这种方法在实际应用中具有很大的潜力,因为它允许在没有专家指导和大量领域知识的情况下找到接近最优解。我们介绍了一种名为POMO(Policy Optimization with Multiple Optima)的端到端方法,用于构建这样的启发式求解器。POMO适用于广泛的CO问题。它旨在利用CO解决方案表示中的对称性。POMO使用修改后的REINFORCE算法,迫使多样化的rollout朝向所有最优解。从经验上看,POMO的低方差基线使得RL训练快速且稳定,并且与以前的方法相比,它对局部最小值的抵抗力更强。我们还介绍了一种新的基于增强的推理方法,与POMO相得益彰。

我们通过解决三个流行的NP-hard问题来证明POMO的有效性,即旅行商(TSP)、带容量限制的车辆路径(CVRP)和0-1背包(KP)。对于所有这三个问题,我们基于POMO的求解器在性能上都比所有最近的学习启发式方法有显著提高。特别是ÿ


原文地址:https://blog.csdn.net/qq_45823731/article/details/142978893

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!