PaSa - 大型语言模型提供支持的高级论文搜索代理

本文链接：https://blog.csdn.net/puterkey/article/details/145325530

一种由大型语言模型提供支持的高级 PaperSearch 代理。PaSa 可以自主做出一系列决策，包括调用搜索工具、阅读论文和选择相关参考文献，最终为复杂的学术查询获得全面准确的结果。使用合成数据集 AutoScholarQuery 使用强化学习来优化 PaSa，其中包括 35k 个细粒度的学术查询和来自顶级 AI 会议出版物的相应论文。此外，我们还开发了 RealScholarQuery，这是一个收集真实学术查询的基准测试，用于评估 PaSa 在更现实场景中的性能。尽管是在合成数据上进行训练的，但 PaSa 的性能明显优于 RealScholarQuery 上的现有基线，包括 Google、Google Scholar、Google with GPT-4 for paraphrased queries、chatGPT（支持搜索的 GPT-4o）、GPT-o1 和 PaSa-GPT-4o（通过提示 GPT-4o 实现的 PaSa）。值得注意的是，PaSa-7B 在 recall@20 年和 recall@50 年分别超过了基于 Google 的最佳基线 37.78% 和 39.90% 的 GPT-4o。它的召回率也比 PaSa-GPT-4o 高出 30.36%，准确率高出 4.25%。

162 Stars 16 Forks 1 Issues 0 贡献者 Apache-2.0 License Python 语言

代码: https://github.com/bytedance/pasa

更多AI开源软件：AI开源 - 小众AI

快速开始

您可以准备学术搜索需求的详细描述，并在 https://pasa-agent.ai 上搜索论文

架构

PaSa 系统由两个 LLM 代理组成，即 Crawler 和 Selector。Crawler 处理用户查询，并可以访问纸张队列中的论文。它可以自主调用搜索工具、扩展引文或停止处理当前论文。Crawler 收集的所有论文都将附加到论文队列中。选择器会读取纸张队列中的每篇论文，以确定它是否满足用户查询中指定的条件。

数据

所有数据集都可以在