西湖大学｜利用LLM做论文review到哪一步了？来看看DeepReview吧

最新推荐文章于 2025-07-29 21:31:10 发布

技术人生黄勇

最新推荐文章于 2025-07-29 21:31:10 发布

阅读量254

点赞数

CC 4.0 BY-SA版权

文章标签：人工智能深度学习机器学习神经网络计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5NDg2MjgxMg==&mid=2247486124&idx=1&sn=1eca0fe4f6d94e9ddeaee223e83aa0f5&chksm=fff6267e7f15449a4f34786d3e54f0c985728de661ab1301ef8312bbc2b4f17a0fdd6697e10e&scene=126&sessionid=0

今天分享一篇西湖大学张岳老师的一篇利用合成推理数据做论文评审文章，Title: DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process：通过合成类人深度思考过程改进基于LLM的论文评审效果。
这篇文章探索了如何利用大型语言模型（LLM）来改进论文评审过程，提出了一个多阶段框架DeepReview，通过结合结构化分析、文献检索和基于证据的论证，模拟专家评审员的深度思考过程，从而提高LLM在论文评审中的可靠性。
该方法分为三个阶段：1）新颖性验证：通过文献检索评估研究的原创性。2）多维度评估：综合多个专家意见。3）可靠性验证：检查内部一致性和逻辑连贯性。
该方法特点总结如下：1）提出了DeepReview-13K，一个带有结构化注释的精选数据集，用于训练模型。2）训练了DeepReviewer-14B模型，在评估中优于CycleReviewer-70B。3）模型提供了三种推理模式（快速、标准和最佳），允许用户在效率和响应质量之间进行平衡。

一、概述

• Title: DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process
• URL: arXiv:2503.08569v1
• Authors: Minjun Zhu, Yixuan Weng, Linyi Yang, Yue Zhang
• Code: zhu-minjun/Researcher
• Homepage: ai-researcher.net
• Demo:ai-researcher.net/deepreviewer

1 Motivation

• 现有的基于LLM的论文评审系统存在包括领域专业知识有限、推理错误和缺乏结构化评估等缺陷。
• 同时缺乏能够捕捉细粒度专家评估过程的结构化论文评审数据集。

2 Methods

DeepReview 数据收集与构建（Data Collection）：

![image-20220313103359178](/Users/huxiang/Library/Application Support/typora-user-images/image-20220313103359178.png)

步骤：

1. 从 OpenReview 平台收集原始数据，包括 ICLR 2024 和 2025 的投稿论文。
2. 使用 MinerU 工具将论文转换为可解析的 Markdown 格式。
3. 为每篇论文构建评审集 R，包括文本评估(Strengths, Weaknesses, and Questions)、互动讨论（rebuttal）和标准化评分（overall ratings (∈ [1, 10]) and fine-grained evaluations of Soundness, Presentation, and Contribution (∈ [1, 4])）。
4. 收集元评审文本（meta-review texts）和最终评分以及decisions（接受/拒绝）。
5. 最终的 DeepReview-13K 数据集包含 13,378 个有效样本。

DeepReview 长推理数据合成方法：基于已有openreview的数据合成推理数据训练模型

结合检索、rank、自我验证和自我反思等方法，开发了一个paper review的数据合成流程，该流程确保 LLM 生成建议的可靠性和鲁棒性。该框架主要分为以下几个方面来模拟专家评审过程：

最终一个完整的review example如下：

合成数据的流程如下：

• 新颖性评估（Novelty Verification）： 通过检索文献评估研究的新颖性并给出分析报告。
- • 使用 Qwen-2.5-72B-Instruct 模型生成三个关键研究问题（questions, focusing on research gaps, innovative directions, and methodological breakthroughs to capture domain-specific characteristics）。
- • 使用 Gemini-2.0-Flash-thinking 模型进行系统论文分析（research motivation, core ideas, technical approaches, and experimental design）。
- • 使用 OpenScholar 进行文献检索、比较和总结。（literature retrieval, comparison, and summary base on OpenScholar）
- • 使用 Qwen-2.5-3B-Instruct 和few-shot learning将问题转换为搜索关键词（Semantic Scholar API）。
- • 使用 ReRank 模型对检索到的论文进行重新排序（top 10 most relevant papers）。
- • 使用内部 QA 模型生成综合报告作为新颖性分析（Llama-3.1_OpenScholar-8B）。
- • 可能存在的问题：得按之前论文的发表时间来检索才对吧？否则有新论文进来会影响novelty的分数。不知道作者有没有考虑到！
• 多维度评估标准（Multi-dimensional Review）： 将rebuttals合成multiple review报告。
- • 使用 Qwen-2.5-72B-Instruct 开发评审重构流程（从rebuttal中提取experimental results, theoretical proofs, and implementation details）。
- • 分析 R 中的每个评审及其对应的作者回复。
- • 将批评转化为具体的技术建议。
• 可靠性验证（Reliability Verification）： 从原文找到证据，并给出confidence level（检查assessment内部一致性和逻辑连贯性）。
- • 使用 Gemini-2.Flash-thinking 进行系统证据分析。总共需要通过四阶段验证链进行：方法验证、实验验证和综合分析（methodology verification, experimental verification, and comprehensive analysis）。每个评审意见都需要论文中的支持证据和置信度。
- • 最终使用 Qwen 生成新的meta review（依据original Meta-Review, reviewer comments, and verification outcomes）。
• 质量控制机制（Quality Control Mechanism）：
- • 使用 Qwen-2.5-72B-Instruct 坚持最终推理链的严谨性。
- • 评估每个生成样本的逻辑完整性（z1, z2, z3）和完备性。
- • 检查逻辑一致性和完整性。

训练模型并测试

• 模型训练(Model Training)
- • 基于Phi-4 14B模型, 使用DeepReview-13K的数据集进行训练.
- • 在8x H100 80G GPUs上使用DeepSpeed + ZeRO3优化。
- • 使用LongRoPE将上下文窗口扩展到256K,训练期间使用40K的上下文窗口。
- • 使用23,500步训练，batch size为16，学习率为5e-6。
• 推理策略（Inference Strategy）
- • Fast: 快速模式，直接生成最终评估结果（z3）
- • Standard: 标准模式，包括Z2和Z3两个核心的评估步骤
- • Best：最佳模式，执行整个的reasoning chain(Z1,Z2,Z3)

3 Conclusion

1 与其他baseline的效果对比

总结1：DeepReviewer-14B 在多个维度上表现优异，与 CycleReviewer-70B、GPT-o1 和 Deepseek-R1 等现有系统相比，在评分、排名和选择方面均取得了显著改进。
总结2: 感觉还是没有带来本质的替身，pairwise accuracy都还不太高！

2 基于Gemini-2.0-Flash-Thinking分析生成的review质量

总结：在文字内容上，提的点上，效果看起来都不错。这个可能可以给作者提供比较详细的指导！

3 展现出强大的抗攻击能力

4 推理token的scaling law

Reasoning Path Scaling： 对应文章提到的fast，standard，best，看着提升效果没那么大。

Reviewer Scaling： 代表reviewer的个数，看着提升还不错，但是对Decision Accuracy提升不大。

三、总结

结论1: 利用 LLM 进行结构化推理可以显著提升论文评审的质量和可靠性。 DeepReview 框架通过模拟人类专家评审过程，结合新颖性验证、多维度评估和可靠性验证，提高了评审的深度和准确性。

结论2: DeepReview 框架具有良好的可扩展性和鲁棒性。 通过 Test-Time Scaling 分析表明，DeepReviewer 可以通过调整推理路径和响应长度来提高性能，并且对对抗性攻击表现出很强的弹性。

总的来说，论文评审的decision还是一个非常有难度（看运气）的一个事情，但是基于LLM的review可能可以给作者在提交前提供很多反馈意见和建议（参考原文Tabble 4）。

👇关注公众号NLP PaperWeekly，对话框输入“DeepReview”，即可领取上述论文👇

进技术交流请添加我微信（FlyShines)

请备注昵称+公司/学校+研究方向，否则不予通过