计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-09

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-09


目录


1. Can LLMs plan paths with extra hints from solvers?

Authors: Erik Wu and Sayan Mitra
https://arxiv.org/abs/2410.05045
在这里插入图片描述
大型语言模型(LLMs)能否借助求解器的额外提示规划路径?

摘要

本文探索了通过集成求解器生成的反馈来增强大型语言模型(LLMs)在解决经典机器人规划任务中的表现的方法。研究了四种不同的反馈策略,包括视觉反馈,并利用微调技术,评估了三种不同的LLMs在10个标准和100个随机生成的规划问题上的表现。结果表明,求解器生成的反馈提高了LLMs解决中等难度问题的能力,但更难的问题仍然难以解决。研究详细分析了不同提示策略的效果以及评估的LLMs的不同规划倾向。

创新点

  1. 集成求解器反馈:将求解器生成的反馈集成到LLMs中,以增强其解决规划问题的能力。
  2. 多种反馈策略:探索了包括视觉反馈在内的四种不同的反馈策略。
  3. 微调技术:使用微调技术来提升LLMs在路径规划任务上的表现。
  4. 开源软件框架:提供了一个开源的软件框架,用于评估LLMs,该框架可以连接不同的LLM APIs,并使用SMT求解器生成闭环提示。

算法模型

  • LLMs:使用了三种不同的大型语言模型,包括GPT-4o、Gemini Pro 1.5和Claude 3.5 Sonnet。
  • 反馈策略:包括碰撞提示、自由空间提示、正确前缀提示和图像提示。
  • 微调:对LLMs进行微调以提高其在路径规划任务上的表现。

实验效果

  • 碰撞提示:仅使用碰撞提示,LLMs能够一致地解决中等难度的问题。
  • 组合提示:结合碰撞提示、自由空间提示和正确前缀提示,LLMs在大多数手工制作的问题上表现更好,但在螺旋问题上表现下降。
  • 图像提示:图像提示并没有提高LLMs的路径规划性能。
  • 微调效果:微调显著提高了GPT-4o在路径规划任务上的成功率和解决方案的最优性。
重要数据与结论
  • 成功案例:在涉及1、2和3个障碍的问题上,Claude 3.5 Sonnet的成功率稳定在90%。
  • 困难案例:在需要25段路径和回溯的最困难问题上,即使在最大提示信息的帮助下,LLMs也几乎从未找到解决方案。
  • 微调改进:GPT4o在“盒子”问题上的成功率从50%提高到100%,在“对角墙”问题上从0%提高到30%。

推荐阅读指数

★★★★☆

推荐理由:这篇文章提供了对大型语言模型在复杂规划任务中应用的深入分析,特别是在集成求解器反馈和微调方面的创新方法

2. Scalable and Accurate Graph Reasoning with LLM-based Multi-Agents

Authors: Yuwei Hu, Runlin Lei, Xinyi Huang, Zhewei Wei, Yongchao Liu
https://arxiv.org/abs/2410.05130
在这里插入图片描述
可扩展且准确的图形推理:基于LLM的多智能体

摘要

近期研究探索了使用大型语言模型(LLMs)来处理复杂的图形推理任务。然而,由于图形结构的复杂性以及LLMs在处理长文本时的固有限制,目前的方法在小规模图形和简单任务上也常常无法达到满意的准确性。为了应对这些挑战,我们介绍了一个无需微调的框架——GraphAgent-Reasoner,它利用多智能体协作策略进行明确和精确的图形推理。受分布式图形计算理论的启发,我们的框架将图形问题分解成更小的、以节点为中心的任务,这些任务在多个智能体之间分配。智能体协作解决整体问题,显著减少了单个LLM处理的信息量和复杂性,从而提高了图形推理的准确性。通过简单地增加智能体的数量,GraphAgent-Reasoner可以有效地扩展到包含1000多个节点的更大图形。在GraphInstruct数据集上评估时,我们的框架在多项式时间内的图形推理任务上展示了接近完美的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sp_fyf_2024

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值