Sym-NCO：利用对称性进行神经组合优化

🕗 发布于 2024-10-09 02:48 python

文章目录

Abstract
1 Introduction
2 组合优化马尔可夫决策过程中的对称性
- 2.1 组合马尔可夫决策过程
- 2.2 CO-MDP中的对称性
3 对称神经组合优化
- 3.1 通过LSym-RL正则化REINFORCE的问题和解决方案对称性
- 3.2 通过预先识别的对称性学习不变表示： $L_{inv}$
4 相关工作
5 Experiments
6 讨论

Abstract

深度强化学习（DRL）基础的组合优化（CO）方法（即DRL-NCO）与传统的CO求解器相比具有显著优势，因为DRL-NCO能够学习较少依赖于特定问题的专家领域知识（启发式方法）和监督标记数据（监督学习方法）。本文提出了一种新的训练方案Sym-NCO，它是一种基于正则化的训练方案，利用各种CO问题和解决方案中的普遍对称性。利用诸如旋转和反射不变性等对称性可以显著提高DRL-NCO的泛化能力，因为它允许学习到的求解器利用同一CO问题类别中共同的对称性。我们的实验结果验证了我们的Sym-NCO在四个CO任务上大大提高了DRL-NCO方法的性能，包括旅行商问题（TSP）、带容量限制的车辆路径问题（CVRP）、奖励收集TSP（PCTSP）和定向问题（OP），而且没有利用特定问题的专家领域知识。值得注意的是，Sym-NCO不仅超越了现有的DRL-NCO方法，而且在PCTSP中以240倍更快的速度超越了竞争性的常规求解器——迭代局部搜索（ILS）。我们的源代码可在https://git

原文地址：https://blog.csdn.net/qq_45823731/article/details/142762729

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：学生家长必备，中小学课本教材电子书批量下载工具
下一篇：你要一直骑，骑到越来越远｜VELO Senso TT坐垫，伴你大胆向前～

Robot Operating System——诊断状态信息
diagnostic_msgs::msg::DiagnosticArray 是 ROS 2 中的一个消息类型，用于表示一组诊断状态信息。诊断消息通常用于监控机器人系统的健康状态，包括硬件和软件组件的状
阅读更多2024-10-09
JVM类加载机制
比如。
阅读更多2024-10-09
网站在对抗机器人攻击的斗争中失败了
这些统计数据强调了组织需要优先考虑并加强针对机器人攻击的安全措施。
阅读更多2024-10-09
游戏盒子推广全攻略：从用户洞察到策略实施
在移动互联网时代，游戏盒子的推广已经成为众多游戏代理商和开发者的重要课题。面对激烈的市场竞争，如何高效吸引并留住玩家，成为游戏盒子推广的关键。本文将结合Xinstall这一专业App推广工具，探讨游戏
阅读更多2024-10-09
Python爬虫使用实例-jsyks
一个Python爬虫使用实例：主要用于自动答题。从网页获取题库题目和答案，最后Selenium打开网页，并自动点击正确答案提交。
阅读更多2024-10-09
Spring 循环依赖
三级缓存中的对象工厂可以确保在需要时创建代理对象，并将其放入二级缓存，从而确保代理对象可以在循环依赖中正确地被引用。时，它需要立即解析所有的构造函数参数，这会导致循环依赖问题。的代理对象来解决循环依赖
阅读更多2024-10-09
iOS18 如何使用衛星收發短訊的功能被揭開了
蘋果於 WWDC2024 中公布iOS18可在沒有網絡的情況下，經衛星收發包括 Emoji 和 Tapback iMessages 和短訊。iPhone 與流動網絡或 Wi-Fi 連線已斷開一段時間時
阅读更多2024-10-09
C语言中的文件操作（二）
C语言中的文件操作（一）-CSDN博客。
阅读更多2024-10-09
search
Frontier表示当前的“探索边界”，是已经发现但还未处理的节点集合。该概念广泛应用于各种搜索和遍历算法中，如广度优先搜索、深度优先搜索、A* 搜索等。（曼哈顿距离）是计算机科学中一种常用的距离度量
阅读更多2024-10-09
前端开发中的高级技巧与最佳实践
在服务器接收到请求时，验证令牌的有效性，确保请求是合法的。同时，根据实际需求选择合适的图片格式，如 JPEG 适用于照片等复杂图像，PNG 适用于需要透明背景的图像，而 WebP 则在相同质量下具有更
阅读更多2024-10-09

Sym-NCO：利用对称性进行神经组合优化

文章目录

Abstract

相关文章