西湖大学|利用LLM做论文review到哪一步了?来看看DeepReview吧

图片

今天分享一篇西湖大学张岳老师的一篇利用合成推理数据做论文评审文章,Title: DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process:通过合成类人深度思考过程改进基于LLM的论文评审效果。
这篇文章探索了如何利用大型语言模型(LLM)来改进论文评审过程,提出了一个多阶段框架DeepReview,通过结合结构化分析、文献检索和基于证据的论证,模拟专家评审员的深度思考过程,从而提高LLM在论文评审中的可靠性
该方法分为三个阶段:1)新颖性验证:通过文献检索评估研究的原创性。2)多维度评估:综合多个专家意见。3)可靠性验证:检查内部一致性和逻辑连贯性。
该方法特点总结如下:1)提出了DeepReview-13K,一个带有结构化注释的精选数据集,用于训练模型。2)训练了DeepReviewer-14B模型,在评估中优于CycleReviewer-70B。3)模型提供了三种推理模式(快速、标准和最佳),允许用户在效率和响应质量之间进行平衡。

一、概述

  • • Title: DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process

  • • URL: arXiv:2503.08569v1

  • • Authors: Minjun Zhu, Yixuan Weng, Linyi Yang, Yue Zhang

  • • Code: zhu-minjun/Researcher

  • • Homepage: ai-researcher.net

  • • Demo:ai-researcher.net/deepreviewer

1 Motivation

  • • 现有的基于LLM的论文评审系统存在包括领域专业知识有限、推理错误和缺乏结构化评估等缺陷。

  • • 同时缺乏能够捕捉细粒度专家评估过程的结构化论文评审数据集

2 Methods

DeepReview 数据收集与构建(Data Collection):

![image-20220313103359178](/Users/huxiang/Library/Application Support/typora-user-images/image-20220313103359178.png)

步骤

  1. 1. 从 OpenReview 平台收集原始数据,包括 ICLR 2024 和 2025 的投稿论文。

  2. 2. 使用 MinerU 工具将论文转换为可解析的 Markdown 格式。

  3. 3. 为每篇论文构建评审集 R,包括文本评估(Strengths, Weaknesses, and Questions)、互动讨论(rebuttal)和标准化评分(overall ratings (∈ [1, 10]) and fine-grained evaluations of Soundness, Presentation, and Contribution (∈ [1, 4]))。

  4. 4. 收集元评审文本(meta-review texts)和最终评分以及decisions(接受/拒绝)。

  5. 5. 最终的 DeepReview-13K 数据集包含 13,378 个有效样本。

DeepReview 长推理数据合成方法: 基于已有openreview的数据合成推理数据训练模型

结合检索、rank、自我验证和自我反思等方法,开发了一个paper review的数据合成流程,该流程确保 LLM 生成建议的可靠性和鲁棒性。该框架主要分为以下几个方面来模拟专家评审过程:

image-20220313123146314

最终一个完整的review example如下:

image-20250313172013269

合成数据的流程如下:

  • • 新颖性评估(Novelty Verification): 通过检索文献评估研究的新颖性并给出分析报告。

    • • 使用 Qwen-2.5-72B-Instruct 模型生成三个关键研究问题(questions, focusing on research gaps, innovative directions, and methodological breakthroughs to capture domain-specific characteristics)。

    • • 使用 Gemini-2.0-Flash-thinking 模型进行系统论文分析(research motivation, core ideas, technical approaches, and experimental design)。

    • • 使用 OpenScholar 进行文献检索、比较和总结。(literature retrieval, comparison, and summary base on OpenScholar)

    • • 使用 Qwen-2.5-3B-Instruct 和few-shot learning将问题转换为搜索关键词(Semantic Scholar API)。

    • • 使用 ReRank 模型对检索到的论文进行重新排序(top 10 most relevant papers)。

    • • 使用内部 QA 模型生成综合报告作为新颖性分析(Llama-3.1_OpenScholar-8B)。

    • • 可能存在的问题:得按之前论文的发表时间来检索才对吧?否则有新论文进来会影响novelty的分数。不知道作者有没有考虑到!

  • • 多维度评估标准(Multi-dimensional Review): 将rebuttals合成multiple review报告。

    • • 使用 Qwen-2.5-72B-Instruct 开发评审重构流程(从rebuttal中提取experimental results, theoretical proofs, and implementation details)。

    • • 分析 R 中的每个评审及其对应的作者回复。

    • • 将批评转化为具体的技术建议。

  • • 可靠性验证(Reliability Verification): 从原文找到证据,并给出confidence level(检查assessment内部一致性和逻辑连贯性)。

    • • 使用 Gemini-2.Flash-thinking 进行系统证据分析。总共需要通过四阶段验证链进行:方法验证、实验验证和综合分析(methodology verification, experimental verification, and comprehensive analysis)。每个评审意见都需要论文中的支持证据和置信度。

    • • 最终使用 Qwen 生成新的meta review(依据original Meta-Review, reviewer comments, and verification outcomes)。

  • • 质量控制机制(Quality Control Mechanism):

    • • 使用 Qwen-2.5-72B-Instruct 坚持最终推理链的严谨性。

    • • 评估每个生成样本的逻辑完整性(z1, z2, z3)和完备性。

    • • 检查逻辑一致性和完整性。

训练模型并测试
  • • 模型训练(Model Training)

    • • 基于Phi-4 14B模型, 使用DeepReview-13K的数据集进行训练.

    • • 在8x H100 80G GPUs上使用DeepSpeed + ZeRO3优化。

    • • 使用LongRoPE将上下文窗口扩展到256K,训练期间使用40K的上下文窗口。

    • • 使用23,500步训练,batch size为16,学习率为5e-6。

  • • 推理策略(Inference Strategy)

    • • Fast: 快速模式,直接生成最终评估结果(z3)

    • • Standard: 标准模式,包括Z2和Z3两个核心的评估步骤

    • • Best:最佳模式,执行整个的reasoning chain(Z1,Z2,Z3)

3 Conclusion

1 与其他baseline的效果对比

image-20250313170239078

总结1:DeepReviewer-14B 在多个维度上表现优异,与 CycleReviewer-70B、GPT-o1 和 Deepseek-R1 等现有系统相比,在评分、排名和选择方面均取得了显著改进。
总结2: 感觉还是没有带来本质的替身,pairwise accuracy都还不太高!

2 基于Gemini-2.0-Flash-Thinking分析生成的review质量

image-20250313170347284

总结:在文字内容上,提的点上,效果看起来都不错。这个可能可以给作者提供比较详细的指导!

3 展现出强大的抗攻击能力

image-20250313170534544

4 推理token的scaling law

image-20250313171309499

Reasoning Path Scaling: 对应文章提到的fast,standard,best,看着提升效果没那么大。

Reviewer Scaling: 代表reviewer的个数,看着提升还不错,但是对Decision Accuracy提升不大。

三、总结

结论1: 利用 LLM 进行结构化推理可以显著提升论文评审的质量和可靠性。 DeepReview 框架通过模拟人类专家评审过程,结合新颖性验证、多维度评估和可靠性验证,提高了评审的深度和准确性。

结论2: DeepReview 框架具有良好的可扩展性和鲁棒性。 通过 Test-Time Scaling 分析表明,DeepReviewer 可以通过调整推理路径和响应长度来提高性能,并且对对抗性攻击表现出很强的弹性。

总的来说,论文评审的decision还是一个非常有难度(看运气)的一个事情,但是基于LLM的review可能可以给作者在提交前提供很多反馈意见和建议(参考原文Tabble 4)。

👇关注公众号NLP PaperWeekly,对话框输入“DeepReview”,即可领取上述论文👇

进技术交流请添加我微信(FlyShines)
请备注昵称+公司/学校+研究方向,否则不予通过

图片

<think>嗯,用户问的是如何利用LLM构建数据间的血缘关系。首先,我需要理解数据血缘关系是什么。数据血缘关系,也就是Data Lineage,指的是追踪数据从源头到最终使用的整个过程,包括数据的来源、转换、流向等。这对数据治理、合规性、问题排查都很重要。 接下来,用户提到的是用LLM(大语言模型)来构建这种关系。LLM在处理自然语言理解和生成方面很强,所以可能需要利用这些能力来分析数据相关的文档、日志或者元数据,从而自动识别和建立数据间的联系。 首先,我得考虑数据血缘关系通常涉及哪些方面。比如ETL流程、数据库表之间的依赖、报告中的数据来源等等。传统方法可能需要手动维护或者依赖特定的工具,但LLM可能可以自动化这个过程。 然后,LLM的应用方式可能有几种。比如解析SQL查询,找出表之间的依赖关系;分析数据文档中的自然语言描述,提取实体和关系;或者处理日志文件,识别数据流动的路径。这些都是可能的切入点。 需要考虑LLM的优势在哪里。例如,处理非结构化的文本,像文档注释、日志信息,这些传统方法可能难以解析的内容,LLM可以理解和提取关键信息。另外,LLM可能能通过生成查询或代码来辅助构建血缘图。 不过,可能的挑战也不少。比如准确性,LLM可能会误解复杂的依赖关系,特别是当文档不完整或存在歧义时。另外,处理大量数据时的效率和成本也需要考虑,毕竟LLM的API调用可能有延迟和费用问题。 还有,可能需要结合其他技术,比如图数据库来存储和查询血缘关系,或者结合传统的数据解析工具来补充LLM的不足。比如先用LLM处理文档和日志,再用解析工具处理SQL或ETL脚本,两者结合提高准确率。 用户可能的实际场景是什么?他们可能是在数据治理,需要自动化血缘分析,或者是在数据仓库维护中希望减少手动工作。需要确保回答覆盖到这些实际应用,并提供具体的步骤或方法。 总结下来,步骤可能包括:数据源收集、元数据提取、自然语言处理(利用LLM)、关系构建与验证、可视化展示等。每个步骤中LLM的作用是什么,比如在元数据提取阶段,LLM可以解析注释;在关系构建中,LLM可以推断潜在的联系。 还要注意可能的最佳实践,比如结合规则引擎来提高准确性,或者使用微调LLM以适应特定领域的术语。同时,测试和验证环节也很重要,确保生成的血缘关系正确可靠。 最后,可能需要举例说明,比如分析SQL查询中的JOIN和SELECT语句,通过LLM解析出涉及的表和字段,进而构建血缘图。或者处理数据仓库的文档,自动生成数据流的图谱。 总之,整个思考过程需要围绕如何有效利用LLM的能力,结合传统方法,解决数据血缘关系构建中的自动化、准确性和可扩展性问题。</think>利用LLM构建数据间的血缘关系(Data Lineage),本质是通过大语言模型理解数据流动的路径和依赖关系。以下是具体实现思路和步骤: --- ### **一、核心概念** 数据血缘关系 = **追踪数据从源头到终端的完整链路**,包含: - 数据来源(数据库/API/文件) - 转换逻辑(ETL/计算规则) - 依赖关系(表/字段级关联) - 下游消费(报表/模型) --- ### **二、LLM的优势** 1. **自然语言解析** - 解析SQL、日志、文档中的非结构化描述(如字段注释:"此字段由`order表.total_amount`计算而来") 2. **逻辑推理** - 推断未明确声明的依赖(如通过JOIN条件推导表关联) 3. **自动化生成** - 生成血缘关系图谱的描述或代码(如自动绘制DAG图) --- ### **三、实现步骤** #### **1. 数据源采集** - **结构化数据**:数据库元数据、ETL脚本、BI报表SQL - **非结构化数据**:数据字典、文档注释、会议纪要(如“报表A使用用户表的注册日期”) #### **2. LLM处理流程** **(1) 元数据提取** ```python # 示例:用LLM解析SQL中的依赖 prompt = """ 分析以下SQL,输出所有被引用的表和字段: SELECT a.user_id, b.order_count FROM user_table a JOIN (SELECT user_id, COUNT(*) AS order_count FROM orders GROUP BY user_id) b ON a.user_id = b.user_id """ → 输出:{"source_tables": ["user_table", "orders"], "字段依赖": {"order_count": "orders.user_id"}} ``` **(2) 文档语义解析** ```text 输入文档:"财务指标‘年度营收’= 销售表.金额总和 - 退货表.金额总和" → LLM输出:{"指标": "年度营收", "依赖表": ["销售表", "退货表"], "计算逻辑": "SUM(金额) - SUM(金额)"} ``` **(3) 关系推理** - 场景:发现字段`report.sales_region`未直接关联任何表 - LLM推理:根据命名推测可能来自`region_mapping表.region_name` #### **3. 血缘图谱构建** - **存储**:使用图数据库(Neo4j)记录节点(表/字段)和边(依赖关系) - **可视化**:生成如下的DAG图: ``` [订单表] → (ETL) → [聚合表] → (BI) → [营收报表] ``` --- ### **四、关键技术点** 1. **混合方法** - **规则引擎**:处理明确的SQL语法解析(如识别`FROM table1 JOIN table2`) - **LLM补全**:处理模糊描述(如文档中的“数据来自系统A和B”) 2. **微调优化** - 用领域特定数据(如金融术语)微调LLM,提升专业词汇理解 3. **验证机制** - 对比LLM输出与实际数据流向(如通过数据探查验证字段是否存在) --- ### **五、典型案例** - **场景**:某电商平台需追踪“用户画像标签”的血缘 - **LLM作用**: 1. 解析HiveQL脚本,识别标签计算依赖的原始字段(如`age=2023-birth_year`) 2. 分析产品文档,补充标签业务逻辑描述(如“高价值用户=近一年消费>10万元”) 3. 自动生成血缘报告,标注数据源头为`user_info.birth_year`和`order_history.total_spent` --- ### **六、挑战与对策** | 挑战 | 解决方案 | |------|----------| | LLM幻觉导致错误关联 | 结合规则引擎二次校验 | | 处理海量元数据效率低 | 分批次处理+缓存机制 | | 跨系统异构数据 | 统一元数据模型(如Apache Atlas) | --- 通过结合LLM的语义理解和传统解析工具,可实现更智能、自动化程度更高的数据血缘分析,尤其适用于文档缺失或逻辑复杂的场景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值