一种由大型语言模型提供支持的高级 PaperSearch 代理。PaSa 可以自主做出一系列决策,包括调用搜索工具、阅读论文和选择相关参考文献,最终为复杂的学术查询获得全面准确的结果。使用合成数据集 AutoScholarQuery 使用强化学习来优化 PaSa,其中包括 35k 个细粒度的学术查询和来自顶级 AI 会议出版物的相应论文。此外,我们还开发了 RealScholarQuery,这是一个收集真实学术查询的基准测试,用于评估 PaSa 在更现实场景中的性能。尽管是在合成数据上进行训练的,但 PaSa 的性能明显优于 RealScholarQuery 上的现有基线,包括 Google、Google Scholar、Google with GPT-4 for paraphrased queries、chatGPT(支持搜索的 GPT-4o)、GPT-o1 和 PaSa-GPT-4o(通过提示 GPT-4o 实现的 PaSa)。值得注意的是,PaSa-7B 在 recall@20 年和 recall@50 年分别超过了基于 Google 的最佳基线 37.78% 和 39.90% 的 GPT-4o。它的召回率也比 PaSa-GPT-4o 高出 30.36%,准确率高出 4.25%。
162 Stars 16 Forks 1 Issues 0 贡献者 Apache-2.0 License Python 语言
代码: https://github.com/bytedance/pasa
更多AI开源软件:AI开源 - 小众AI
快速开始
您可以准备学术搜索需求的详细描述,并在 https://pasa-agent.ai 上搜索论文
架构
PaSa 系统由两个 LLM 代理组成,即 Crawler 和 Selector。Crawler 处理用户查询,并可以访问纸张队列中的论文。它可以自主调用搜索工具、扩展引文或停止处理当前论文。Crawler 收集的所有论文都将附加到论文队列中。选择器会读取纸张队列中的每篇论文,以确定它是否满足用户查询中指定的条件。
数据
所有数据集都可以在