AI“学霸“也解不出高中题？耶鲁、复旦发布MMSciBench，揭示AI理科推理能力短板

转载于 2025-07-10 16:19:45 发布 · 33 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247540949&idx=1&sn=1ea01594f82c1251690b922f264ca33e&chksm=ea4354fa1d5041ed5f34b470f08f3ec4708328440ff4a7f9cc9aeecce4c5ec23d8148b6bd746&scene=126&sessionid=0

文章标签：

一份由耶鲁、复旦等高校和机构学者联合推出的全新中文多模态科学基准MMSciBench，通过系统的评测，揭示了当前主流模型在复杂科学推理能力上的具体表现。

论文链接：arXiv: https://arxiv.org/abs/2503.01891v2
代码链接：GitHub: https://github.com/xinwuye/MMSciBench-code
数据集链接：Hugging Face: https://huggingface.co/datasets/XinwuYe/MMSciBench

🤔 语言流畅度≠科学思维能力？

近年来，大型语言模型（LLM）在对话、写作、编程等任务中表现出了惊人的流畅度。但这引发了一个关键问题：这种语言能力是否等同于严谨的科学思维能力？

当面对一道需要解读图表、调用公式并执行多步逻辑推演的物理题时，AI的表现如何？MMSciBench评测基准给出了答案：

即便是表现最好的Gemini 1.5 Pro 002，综合准确率也仅为63.77%

这一结果表明，人类看来属于高中水平的科学问题，对当前的人工智能模型依然构成不小的挑战。

这种表现上的差异反映了一个根本性问题：我们应如何全面地衡量AI的能力。模型的庞大训练数据使其理论上储存了海量的科学知识，这构成了它的"能力"。然而，当被要求在具体的、有约束的场景中应用这些知识时，它的"性能"可能会显著下降。

MMSciBench：一把衡量AI科学推理能力的精准标尺

为了精准地评估AI的科学推理能力，研究团队构建了MMSciBench。

高质量的数据来源：MMSciBench的核心特点之一是其数据质量。该基准包含的4,482道专业题目，由一个包含12名经验丰富的高中数学和物理教师团队进行策划和标注。这确保了所有问题在教育学上是合理的，并配有详尽的、分步骤的解题过程。同时，为了保证评测具有挑战性，团队筛选并保留了人类专家标注难度分数高于或等于0.7（满分为1）的题目。
多模态与多题型测试：为了全面评估模型的能力，MMSciBench同时包含了选择题（MCQ）和开放式问答题（Q&A）。此外，它采用了“平行对比”的设计，为许多问题同时提供了纯文本（Text-only）和图文结合（Text-image）两种版本。这一设计使得研究者可以首次直接比较同一个模型在有无视觉信息辅助的情况下解决同一问题的表现差异，从而能够量化和分离出其“多模态推理”这一关键能力。
精细的知识分类体系：MMSciBench引入了一个层次化的三级知识分类体系，将所有问题归入“领域（Domain）→模块（Module）→章节（Chapter）”的结构中。例如，一个物理问题可能被标记为“物理学 → 经典力学 → 牛顿第二定律”。这种结构能够提供关于模型知识结构优势与劣势的详细分析报告。

主流模型表现如何？

研究团队测试了5个顶级视觉语言模型和2个数学专用模型。本研究发现，模型在处理图文信息时存在性能差异。当问题从纯文本变为图文结合时，所有模型的性能都出现了显著下降。以GPT-4o为例，其在纯文本问题上的准确率为59.31%，但在图文问题上则降至27.16%——性能差异达到了32.15%。

这一现象揭示了当前视觉语言模型架构中的一个关键问题：模型能够处理图像，也能处理文本，但将两者无缝融合成统一推理过程的能力仍有待加强。

问题出在哪里？错误分析揭示真相

为了探究模型失败的原因，研究者进行了错误分析。研究团队深入分析了所有模型都答错的难题，通过对240个错误案例的分类分析，发现了问题的根源：

分析结果显示，推理错误是导致失败的主要原因，平均占到了所有错误案例的77.1%。相比之下，计算错误（11.3%）、视觉误读（7.5%）和文本误解（1.7%）等其他类型的错误则占比较小。

核心发现：当前模型在科学问题上的主要瓶颈，更多在于根本性的逻辑推演能力，而非知识储备或计算能力。

意外发现：英文思考效果更好？

研究中一个颇为有趣的发现是关于推理语言的影响。

尽管测试题目均为中文，但当研究者要求模型用英文进行分步推理时，多数模型在中文问题上的准确率反而得到了提升：

GPT-4o：中文推理50.85% → 英文推理52.86%
Claude 3.5 Sonnet：中文推理54.42% → 英文推理55.40%
Qwen2-VL：中文推理50.07% → 英文推理52.79%

这种现象可能表明，由于训练数据中英文语料占比较高，这些模型的推理过程在结构上更适应英文。当处理一个中文问题时，模型内部可能在进行一个“翻译-推理-翻译回”的过程，而这一过程有时比直接用中文推理更有效。

这揭示了AI的推理能力可能并非完全独立于语言。对于当前的一些模型，英语可能是一种更具优势的“推理语言”。这一发现为处理非英文的复杂任务提供了一个思路：使用英文作为辅助语言来引导模型的思考，或许能更好地发挥其能力。

🚀 未来展望：如何提升AI科学推理能力？

MMSciBench的评测结果暴露了当前AI模型的核心短板，但也为未来的技术突破指明了方向。

当前模型在处理图文混合科学问题时的糟糕表现，根本原因在于缺乏真正的多模态理解能力。大多数模型只是简单地将视觉特征和文本特征拼接，而非建立深层的语义关联。真正的突破需要让模型像人类一样，能够在脑海中构建统一的"心理模型"来理解图表、公式和文字描述之间的内在联系。

更关键的是逻辑推理能力的根本性缺陷。77.1%的错误源于推理失误，这说明当前的神经网络架构在处理需要严格因果链条的科学问题时力不从心。未来的模型可能需要融入更多符号推理的元素，或者开发全新的"科学思维"训练范式，让AI学会像科学家一样思考问题。

语言偏向性的发现也揭示了一个有趣现象：模型的"母语"可能并非中文，而是英文。这提示我们，在构建真正全球化的AI系统时，需要更加注重多语言推理能力的平衡发展，而不是简单的翻译适配。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。