摘要
本文介绍了一种新的基于学习的方法,用于近似求解二维欧几里得图上的旅行商问题。 我们使用深度图卷积网络通过高度并行的波束搜索以非自回归的方式构建有效的TSP图表示并输出行程。 对于固定图形大小的问题实例,我们的方法1在解决方案质量,推理速度和样本效率方面优于最近提出的所有自回归深度学习技术。 特别是,我们将50个节点的平均最优差距从0.52%降低到0.01%,并将100个节点的平均最优差距从2.26%降低到1.39%。 最后,尽管改进了TSP的其他基于学习的方法,但我们的方法仍未达到标准的运筹学求解器。
引言
NP-hard组合优化问题是整数约束优化问题的一族,这些问题难以大规模解决。 针对流行的NP难题的鲁棒逼近算法具有各种实际应用,并且是运输,供应链,能源,金融和调度等现代行业的骨干。
NP难题是最著名的NP问题之一,即旅行推销员问题(TSP),它提出以下问题:“给出一个城市列表以及每对城市之间的距离,访问每个城市并返回的最短路线是什么 到一张原始图?”从形式上说,人们需要搜索排列的空间,以找到最优的节点序列,称为游览,并且具有最小的总边沿权重(游览长度)。通常,NP难题可以 由于它们具有高度结构化的性质,因此可以作为图上的顺序决策任务制定出来,因此,机器学习可以用来训练近似解决这些问题的策略,而不必手工制定解决方案,因为解决方案可能很昂贵或需要大量专业知识[Bengio等。 ,2018]。
特别是图神经网络技术的最新进展[Bruna等,2013; Defferrard等,2016; Sukhbaatar等,2016; Kipf and Welling,2016; Hamilton等,2017]非常适合 这项任务是因为它们自然地对这些问题的图结构进行操作。
最近提出的用于2D Euclidean TSP的深度学习方法结合了图神经网络和自回归解码,使用序列到序列框架[Vinyals等,2015; Bello等,2016]一次输出一个节点的TSP巡视。 机理[Deudon等,2018,Kool等,2019]。 使用强化学习来训练策略,其中部分巡回长度用于在每个步骤中制定奖励功能。
在本文中,我们介绍了一种非自回归深度学习方法,该方法使用[Bresson and Laurent[2017]和波束搜索技术[Medress et al。,1977]。 图1概述了我们的方法。 我们的模型以图形为输入,并通过堆叠几个图形卷积层从其节点和边缘中提取构图特征。 神经网络的输出是一个边缘邻接矩阵,表示发生在TSP巡回路线上的边缘的概率。 使用事后光束搜索技术,将形成热图的边缘预测转换为有效的行程。 使用协和TSP求解器,使用成对的问题实例和最优解以监督的方式训练模型参数[Applegate等,2006]。
通过对具有20、50和100个节点的固定图大小的TSP实例进行经验比较,我们证明了我们的方法相对于其他深度学习技术的效率和速度:
•解决方案质量:与以前的方法相比,我们有效地训练了具有更好表示能力的深图ConvNets,从而在解决方案质量方面(从接近最优性方面)取得了显着的进步。
•推理速度:我们的图形ConvNet和波束搜索实现高度并行化以进行GPU计算,从而缩短了推理时间,并提高了对大型图形的可伸缩性。 相反,由于解码过程的顺序性质,自回归方法无法很好地缩放到大图,因此无法并行化。
•样本效率:与强化学习相比,使用成对的问题实例和最佳解决方案进行的有监督的培训设置具有更高的样本效率。 我们能够使用较少的训练数据来学习更好的近似求解器。
相关工作
旅行推销员问题(TSP)于1930年首次提出,是运筹学(OR)社区中研究最深入的组合优化问题之一。 即使在节点为2D点且边权重为点对之间的欧几里得距离的2D欧几里得情况下,找到最优的TSP解决方案也是NP-hard的[Papadimitriou,1977]。 在实践中,TSP求解器依靠精心制作的启发式方法来指导其搜索过程,从而为具有数千个节点的图有效地找到近似解。 如今,最先进的TSP求解器(例如Concorde [Applegate等,2006])已经使用了剖切平面算法[Dantzig等,1954; Padberg和Rinaldi,1991; Applegate等,2003]。 除了减少解决方案搜索空间的分支定界方法外,还迭代地解决了TSP的线性规划问题。
因此,为组合优化问题设计良好的启发式方法通常需要大量的专业知识和多年的研究工作。 由于这些问题具有高度结构化的性质,因此已使用神经网络来学习近似策略,尤其是对于那些对于设计启发式算法而言并非无关紧要的问题[Smith,1999,Bengio et al。,2018]。 历史工作的重点是使用Hopfield网络[Hopfield and Tank,1985]和可变形模板模型[Fort,1988,Angeniol et al。,1988]的基于学习的TSP方法。 然而,就速度和解决方案质量而言,这些方法的基准性能未达到算法方法的水平[La Maire和Mladenov,2012]。
序列到序列学习[Sutskever et al。,2014],注意力机制[Bahdanau et al。,2014]和几何深度学习[Bronstein et al。,2017]的最新进展使这一工作重获新生。 Vinyals等。 [2015]引入了序列到序列指针网络(PtrNet)模型,该模型利用注意力来输出输入序列的排列。 该模型经过训练,可以通过对问题实例和协和飞机生成的解决方案的监督,以自动方式自动输出TSP巡视。 在测试时间