计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-07
目录
文章目录
- 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-07
-
- 目录
- 1. GraphRouter: A Graph-based Router for LLM Selections
- 2. DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search
- 3. Empowering Domain-Specific Language Models with Graph-Oriented Databases: A Paradigm Shift in Performance and Model Maintenance
- 4. Godel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement
- 5. ImProver: Agent-Based Automated Proof Optimization
- 后记
1. GraphRouter: A Graph-based Router for LLM Selections
Authors: Tao Feng, Yanzhen Shen, Jiaxuan You
https://arxiv.org/abs/2410.03834
代码:ttps://github.com/ulab-uiuc/GraphRouter.
GraphRouter: 大语言模型选择的图基路由器
摘要
随着大型语言模型(LLMs)的数量和种类迅速增长,针对特定查询高效选择合适LLM的任务面临挑战,尤其是在性能和计算成本之间的权衡。现有的LLM选择方法往往难以泛化到新的LLM和不同任务,因为它们在利用任务、查询和LLM之间的上下文交互能力有限,并且依赖于归纳学习框架。为了解决这些不足,我们引入了一个新颖的归纳图框架,名为GraphRouter,充分利用任务、查询和LLM之间的上下文信息来增强LLM选择过程。GraphRouter构建了一个包含任务、查询和LLM节点的异构图,将交互表示为边,有效地捕获查询需求和LLM能力之间的上下文信息。通过创新的边预测机制,GraphRouter能够预测潜在边的属性(LLM响应的效果和成本),从而提供优化的推荐,适应现有和新引入的LLM,而无需重新训练。在三种不同的效果-成本权重情景下的全面实验表明,GraphRouter大大超过了现有的路由器,至少提高了12.3%的性能。此外,它在新LLM设置中实现了更好的泛化,并支持多样化的任务,至少提高了9.5%的效果,并显著降低了计算需求。
创新点
- 图基框架:首次从图的角度构建LLM选择路由器,充分利用任务、查询和LLM之间的上下文信息。
- 异构图构建:构建包含任务节点、查询节点和LLM节点的异构图,通过边表示它们之间的交互。
- 边预测机制:通过预测边的属性(效果和成本)来优化LLM的选择。
- 无需重新训练:能够适应新引入的LLM,无需重新训练,提高了模型的泛化能力。
算法模型
GraphRouter使用异构图神经网络(GNN)来实现LLM的选择。它通过以下步骤工作:
- 节点和边的初始化:为任务、查询和LLM节点生成初始嵌入。
- 异构GNN预测:使用异构GNN来聚合不同类型节点的信息,并通过迭代加权聚合局部网络邻域来学习节点嵌入。
- 边预测:将LLM选择问题建模为边预测问题,通过训练数据确定每个查询的最佳LLM。
实验效果
- 性能提升:在三种不同的效果-成本权重情景下,GraphRouter至少比现有方法提高了12.3%的性能。
- 泛化能力:在新LLM设置中,GraphRouter不仅节省了显著的训练时间,而且至少比基线提高了9.5%的性能。
- 计算需求降低:GraphRouter在新LLM设置中显著降低了计算需求。
结论
GraphRouter通过图基方法有效地利用上下文信息,提高了LLM选择的性能和泛化能力,同时降低了计算成本。实验结果表明,GraphRouter在多种设置下均优于现有方法。
推荐阅读指数
★★★★☆
推荐理由:这篇论文提出了一个创新的LLM选择框架,通过图基方法有效地利用上下文信息,提高了选择过程的性能和泛化能力。
2. DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search
Authors: Murong Yue, Wenlin Yao, Haitao Mi, Dian Yu, Ziyu Yao, Dong Yu
https://arxiv.org/abs/2410.03864
DOTS: 通过最优推理路径搜索在大型语言模型中动态推理的学习
摘要
近年来,提升大型语言模型(LLMs)的推理能力受到了显著关注。先前研究表明,各种提示策略如逐步思考、回答前