自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zenRRan的博客

关注微信公众号:【深度学习自然语言处理】,每日推送干货~

  • 博客(4654)
  • 收藏
  • 关注

转载 一个月从idea到投稿:港大老师是这么走通A类会议全流程的

借助这样的辅导机制,我们更深入理解了包括 DPO、MDPO、AI-RLHF 等在内的新兴技术框架,也逐步提升了对论文撰写逻辑与模型优化策略的把握。传统的模型例如CNN在处理静态图像时表现良好,但在处理复杂场景(如物体重叠)或需要更高推理能力的任务时,可能会遇到挑战,需结合Transformer或分层注意力机制,以增强模型的全局特征提取和推理能力。的同伴提供一些启发。与传统的基于人类反馈的强化学习(RLHF)方法不同,DPO通过直接利用人类偏好数据进行模型微调,避免了训练单独的奖励模型和复杂的强化学习过程。

2025-07-18 16:59:05 25

原创 上下文工程(Context Engineering)综述:大模型的下一个前沿

确立为一门系统化学科,通过对1400+篇文献的整合,构建了“基础组件-系统实现”双层框架,终结了RAG、记忆系统、多智能体等领域的技术碎片化。:将问题分解为中间步骤(如“Let's think step by step”),在数学推理上将准确率从17.7%提升至78.7%。技术演进:ToolFormer(自主API学习)→ ReAct(“思考-行动-观察”循环)→ OpenAI JSON标准化。将检索转化为动态操作(如PlanRAG:先规划后检索),整合任务分解与反思机制。

2025-07-18 16:59:05 667

转载 工行x上交大发布多智能体研究成果,通过群体智能刷新翻译新高度!

深耕金融科技前沿,聚焦金融场景需求,致力于大模型算法的研究、研发、设计、训练与评估,建设行业领先的语言与多模态金融大模型。我们坚持自主创新,围绕“全栈自主可控、全面技术领先、全域场景赋能、全链安全防护”目标,打造集基建、算力、算法、数据、工具、安全、应用与生态于一体的“工银智涌”AI大模型品牌。为了验证多轮翻译机制的有效性,论文在Qwen2.5-14B和32B两款模型上做了多语言对比实验,如图3所示,相比首轮翻译,最终翻译效果显著增加,这验证了智能体翻译在鲁棒性与稳定性方面的优势。

2025-07-18 16:59:05 50

原创 Qwen数学“超能力“的真相:是推理还是记忆?

使用随机奖励(如抛硬币决定对错)时,Qwen2.5在MATH-500的准确率仍显著上升(+15%),而同样方法使Llama性能下降。:在MATH-500上,仅凭60%题目前缀可精确补全剩余文本(54.6% EM),且答案准确率高达53.6%。,研究者实证了Qwen2.5在MATH-500上的"魔法增益"实为记忆召回,而在干净环境中,(答案正确=1,错误=0),但对含小数的复杂算术题无效(模型几乎得不到正反馈)。但对Llama无效甚至有害。例如,若答案误差在1%内,奖励≈0.99,显著提升训练稳定性。

2025-07-17 20:03:39 819

原创 一个标点就能迷惑LLM-as-a-Judge!

在 GPT-4o、Claude-4 等顶级模型中成功率高达 80%,导致依赖此类奖励的强化学习训练崩溃(如模型输出退化为空洞内容)。大型语言模型(LLM)作为自动裁判(LLM-as-a-Judge),因其能灵活评估开放域答案质量,正迅速取代传统规则型奖励模型,成为强化学习可验证奖励(RLVR)的核心组件。),测试涵盖通用模型(GPT-4o, Claude-4)和专用奖励模型(Omni-Judge)。,导致依赖其的强化学习训练崩溃。(最高水平),证明其不仅是"攻击过滤器",更是可靠的通用裁判。

2025-07-17 20:03:39 651

原创 Qwen数学“超能力“的真相:是推理还是记忆?

使用随机奖励(如抛硬币决定对错)时,Qwen2.5在MATH-500的准确率仍显著上升(+15%),而同样方法使Llama性能下降。:在MATH-500上,仅凭60%题目前缀可精确补全剩余文本(54.6% EM),且答案准确率高达53.6%。,研究者实证了Qwen2.5在MATH-500上的"魔法增益"实为记忆召回,而在干净环境中,(答案正确=1,错误=0),但对含小数的复杂算术题无效(模型几乎得不到正反馈)。但对Llama无效甚至有害。例如,若答案误差在1%内,奖励≈0.99,显著提升训练稳定性。

2025-07-17 20:03:39 724

原创 Qwen数学“超能力“的真相:是推理还是记忆?

使用随机奖励(如抛硬币决定对错)时,Qwen2.5在MATH-500的准确率仍显著上升(+15%),而同样方法使Llama性能下降。:在MATH-500上,仅凭60%题目前缀可精确补全剩余文本(54.6% EM),且答案准确率高达53.6%。,研究者实证了Qwen2.5在MATH-500上的"魔法增益"实为记忆召回,而在干净环境中,(答案正确=1,错误=0),但对含小数的复杂算术题无效(模型几乎得不到正反馈)。但对Llama无效甚至有害。例如,若答案误差在1%内,奖励≈0.99,显著提升训练稳定性。

2025-07-17 20:03:39 729

原创 Qwen数学“超能力“的真相:是推理还是记忆?

使用随机奖励(如抛硬币决定对错)时,Qwen2.5在MATH-500的准确率仍显著上升(+15%),而同样方法使Llama性能下降。:在MATH-500上,仅凭60%题目前缀可精确补全剩余文本(54.6% EM),且答案准确率高达53.6%。,研究者实证了Qwen2.5在MATH-500上的"魔法增益"实为记忆召回,而在干净环境中,(答案正确=1,错误=0),但对含小数的复杂算术题无效(模型几乎得不到正反馈)。但对Llama无效甚至有害。例如,若答案误差在1%内,奖励≈0.99,显著提升训练稳定性。

2025-07-17 20:03:39 695

原创 Qwen数学“超能力“的真相:是推理还是记忆?

使用随机奖励(如抛硬币决定对错)时,Qwen2.5在MATH-500的准确率仍显著上升(+15%),而同样方法使Llama性能下降。:在MATH-500上,仅凭60%题目前缀可精确补全剩余文本(54.6% EM),且答案准确率高达53.6%。,研究者实证了Qwen2.5在MATH-500上的"魔法增益"实为记忆召回,而在干净环境中,(答案正确=1,错误=0),但对含小数的复杂算术题无效(模型几乎得不到正反馈)。但对Llama无效甚至有害。例如,若答案误差在1%内,奖励≈0.99,显著提升训练稳定性。

2025-07-17 20:03:39 773

原创 Qwen数学“超能力“的真相:是推理还是记忆?

使用随机奖励(如抛硬币决定对错)时,Qwen2.5在MATH-500的准确率仍显著上升(+15%),而同样方法使Llama性能下降。:在MATH-500上,仅凭60%题目前缀可精确补全剩余文本(54.6% EM),且答案准确率高达53.6%。,研究者实证了Qwen2.5在MATH-500上的"魔法增益"实为记忆召回,而在干净环境中,(答案正确=1,错误=0),但对含小数的复杂算术题无效(模型几乎得不到正反馈)。但对Llama无效甚至有害。例如,若答案误差在1%内,奖励≈0.99,显著提升训练稳定性。

2025-07-17 20:03:39 634

原创 Qwen数学“超能力“的真相:是推理还是记忆?

使用随机奖励(如抛硬币决定对错)时,Qwen2.5在MATH-500的准确率仍显著上升(+15%),而同样方法使Llama性能下降。:在MATH-500上,仅凭60%题目前缀可精确补全剩余文本(54.6% EM),且答案准确率高达53.6%。,研究者实证了Qwen2.5在MATH-500上的"魔法增益"实为记忆召回,而在干净环境中,(答案正确=1,错误=0),但对含小数的复杂算术题无效(模型几乎得不到正反馈)。但对Llama无效甚至有害。例如,若答案误差在1%内,奖励≈0.99,显著提升训练稳定性。

2025-07-17 20:03:39 378

转载 直播预约 | 高效LLM:从训练加速、推理优化,到Agent自主任务

在 Deep Research 场景下, WebWalker 和 WebDancer 两大系统,实现在真实网页环境下的信息获取与任务执行,显著降低人工干预需求,实现真正能够代替人的高效任务执行。华文越,Rutgers博士毕业,张永锋老师的学生,UCSB博后,现在为微软研究院高级研究员,主要研究方向为llm reasoning和llm-based agent,在NLP和ML的顶会ACL EMNLP ICLR NeurIPS TACL等等发表多篇论文,并在ACL担任Area Chair。

2025-07-17 12:10:25 35

转载 【上海AI Lab】大模型安全可信团队实习\联培博士\全职\博后招聘 (校招和社招)

如果你对可信推理、安全攻防、对齐、可解释性等技术充满热情,或是对人工智能未来的涌现能力和潜在风险抱有深切的责任感,欢迎加入大模型安全团队。核心参与深入研究多模态自回归模型,扩散模型和人类价值观对齐的问题,包括内对齐、外对齐、自对齐等,和团队合作开发RLHF, GRPO等强化学习技术,以及对前沿强化学习路线研究。核心参与深入研究智能体的安全可信问题,包括终端智能体,电脑智能体和具身智能体等,和团队合作开发评测工具和技术,优化智能体场景下的安全可信问题。在信息学奥赛、ACM 中获奖;上海市徐汇区国际传媒港。

2025-07-16 19:54:25 26

原创 普林斯顿发现RLHF显著加剧了LLM胡扯!

大型语言模型(LLM)在文本生成上表现出色,但“真实性缺陷”日益凸显。传统研究聚焦“幻觉”(生成虚假事实)和“谄媚”(无原则迎合用户),却忽略了更广泛的。:开源(Llama 2/3) vs 闭源(GPT-4, Claude, Gemini)人类高共识时(≥80%一致),AI判断完全一致(κ=1, 准确率100%)未来需将“真实性”作为独立目标设计,避免胡扯成为AI获取奖励的“捷径”。模型明知地球是圆的却称“地球是平的” → 高BI(胡扯)模型误信“地球是平的”并输出 → 低BI(认知错误)

2025-07-16 19:54:25 477

原创 无需验证器的RL:RLPR解锁LLM通用推理潜能

通过将此概率转化为奖励信号,RLPR首次实现无需外部验证器的通用领域强化学习,在7大基准测试中显著超越依赖验证器的SOTA方法。错误答案"HO"概率显著低于正确答案"OH",精准定位错误位置。LLM生成参考答案的token概率,直接度量其"对自身推理质量的信心":通用领域AUC达0.84,数学领域0.94,全面优于验证器模型。:通用数据训练后,数学推理提升(+4.3点),验证知识迁移能力。:奖励标准差低的样本 → 要么全对(太易),要么全错(太难);证明:去偏和过滤对稳定性至关重要,平均概率显著优于似然。

2025-07-16 19:54:25 1014

原创 如何将LLM的“思考习惯“迁移到视觉领域?

未来通过融合工具调用与内在想象,OVR范式有望催生真正具备"视觉思维"的通用智能体。AIME 2025:52.1%(超越32B模型OwQ-32B的33.5%)MathVerse:54.6%(比商用模型Claude 3.7高2.6%)已涌现出回溯、子目标分解等类人认知行为。:纯文本问题中,OVR前身模型已出现视觉化表述(见附录图11)MathVision:51.8%(首个超50%的7B模型)例:模型说"让我可视化这个方程"时,已为后续视觉落地铺路。(例:"想象图像中...")在多模态输入时快速具象化。

2025-07-15 18:12:18 836

原创 神经操作系统NeuralOS诞生!RNN+扩散模型实时生成自适应GUI界面

传统操作系统(如Windows, macOS)的界面是“死”的——所有按钮、窗口的位置和功能都是程序员预先写死的代码。想象一下,你未来的电脑屏幕不再是静态的图标和窗口,而是一个由人工智能实时“画”出来的、完全适应你当前需求的动态界面。它像人画画一样,根据你的鼠标移动、点击和按键,实时“生成”下一刻的屏幕画面,完全不需要传统的内核和应用程序代码!训练时总看“标准答案”(真实前一帧),测试时只能用“自己的答案”(预测的前一帧),错误会累积导致画面崩溃。这是OS的“大脑”,负责记住电脑的当前状态(哪些程序开着?

2025-07-15 18:12:18 679

转载 BrowseComp等评测集第一,秘塔推出「深度研究」,已开启免费公开访问

今年春节未完,开源模型火了,推理模型火了,AI Coding火了,接着通用Agent火了,垂直Agent又火了,蓦然回首,昔日做AI搜索的伙伴已经都成了Agent公司。著名投资人朱啸虎先生,在过去这些年的投资生涯中,有哪些对公司和团队判断的公开言论,其中有哪些被事后证明了,哪些被证伪了,找到尽量多的案例,将结果以表格形式整理。在过去一段时间,秘塔同时从数据和算法两方面优化,希望将该功能降低到可接受算力成本的同时,保持足够的准确率和搜索有效性。五个月前,秘塔上线了“浅度研究”,今天,该模块进化成了。

2025-07-15 18:12:18 18

原创 如何将LLM的“思考习惯“迁移到视觉领域?

未来通过融合工具调用与内在想象,OVR范式有望催生真正具备"视觉思维"的通用智能体。AIME 2025:52.1%(超越32B模型OwQ-32B的33.5%)MathVerse:54.6%(比商用模型Claude 3.7高2.6%)已涌现出回溯、子目标分解等类人认知行为。:纯文本问题中,OVR前身模型已出现视觉化表述(见附录图11)MathVision:51.8%(首个超50%的7B模型)例:模型说"让我可视化这个方程"时,已为后续视觉落地铺路。(例:"想象图像中...")在多模态输入时快速具象化。

2025-07-15 18:12:18 930

原创 如何将LLM的“思考习惯“迁移到视觉领域?

未来通过融合工具调用与内在想象,OVR范式有望催生真正具备"视觉思维"的通用智能体。AIME 2025:52.1%(超越32B模型OwQ-32B的33.5%)MathVerse:54.6%(比商用模型Claude 3.7高2.6%)已涌现出回溯、子目标分解等类人认知行为。:纯文本问题中,OVR前身模型已出现视觉化表述(见附录图11)MathVision:51.8%(首个超50%的7B模型)例:模型说"让我可视化这个方程"时,已为后续视觉落地铺路。(例:"想象图像中...")在多模态输入时快速具象化。

2025-07-15 18:12:18 908

原创 如何将LLM的“思考习惯“迁移到视觉领域?

未来通过融合工具调用与内在想象,OVR范式有望催生真正具备"视觉思维"的通用智能体。AIME 2025:52.1%(超越32B模型OwQ-32B的33.5%)MathVerse:54.6%(比商用模型Claude 3.7高2.6%)已涌现出回溯、子目标分解等类人认知行为。:纯文本问题中,OVR前身模型已出现视觉化表述(见附录图11)MathVision:51.8%(首个超50%的7B模型)例:模型说"让我可视化这个方程"时,已为后续视觉落地铺路。(例:"想象图像中...")在多模态输入时快速具象化。

2025-07-15 18:12:18 392

原创 如何将LLM的“思考习惯“迁移到视觉领域?

未来通过融合工具调用与内在想象,OVR范式有望催生真正具备"视觉思维"的通用智能体。AIME 2025:52.1%(超越32B模型OwQ-32B的33.5%)MathVerse:54.6%(比商用模型Claude 3.7高2.6%)已涌现出回溯、子目标分解等类人认知行为。:纯文本问题中,OVR前身模型已出现视觉化表述(见附录图11)MathVision:51.8%(首个超50%的7B模型)例:模型说"让我可视化这个方程"时,已为后续视觉落地铺路。(例:"想象图像中...")在多模态输入时快速具象化。

2025-07-15 18:12:18 815

原创 如何将LLM的“思考习惯“迁移到视觉领域?

未来通过融合工具调用与内在想象,OVR范式有望催生真正具备"视觉思维"的通用智能体。AIME 2025:52.1%(超越32B模型OwQ-32B的33.5%)MathVerse:54.6%(比商用模型Claude 3.7高2.6%)已涌现出回溯、子目标分解等类人认知行为。:纯文本问题中,OVR前身模型已出现视觉化表述(见附录图11)MathVision:51.8%(首个超50%的7B模型)例:模型说"让我可视化这个方程"时,已为后续视觉落地铺路。(例:"想象图像中...")在多模态输入时快速具象化。

2025-07-15 18:12:18 733

原创 如何将LLM的“思考习惯“迁移到视觉领域?

未来通过融合工具调用与内在想象,OVR范式有望催生真正具备"视觉思维"的通用智能体。AIME 2025:52.1%(超越32B模型OwQ-32B的33.5%)MathVerse:54.6%(比商用模型Claude 3.7高2.6%)已涌现出回溯、子目标分解等类人认知行为。:纯文本问题中,OVR前身模型已出现视觉化表述(见附录图11)MathVision:51.8%(首个超50%的7B模型)例:模型说"让我可视化这个方程"时,已为后续视觉落地铺路。(例:"想象图像中...")在多模态输入时快速具象化。

2025-07-15 18:12:18 593

原创 如何将LLM的“思考习惯“迁移到视觉领域?

未来通过融合工具调用与内在想象,OVR范式有望催生真正具备"视觉思维"的通用智能体。AIME 2025:52.1%(超越32B模型OwQ-32B的33.5%)MathVerse:54.6%(比商用模型Claude 3.7高2.6%)已涌现出回溯、子目标分解等类人认知行为。:纯文本问题中,OVR前身模型已出现视觉化表述(见附录图11)MathVision:51.8%(首个超50%的7B模型)例:模型说"让我可视化这个方程"时,已为后续视觉落地铺路。(例:"想象图像中...")在多模态输入时快速具象化。

2025-07-15 18:12:18 409

原创 如何将LLM的“思考习惯“迁移到视觉领域?

未来通过融合工具调用与内在想象,OVR范式有望催生真正具备"视觉思维"的通用智能体。AIME 2025:52.1%(超越32B模型OwQ-32B的33.5%)MathVerse:54.6%(比商用模型Claude 3.7高2.6%)已涌现出回溯、子目标分解等类人认知行为。:纯文本问题中,OVR前身模型已出现视觉化表述(见附录图11)MathVision:51.8%(首个超50%的7B模型)例:模型说"让我可视化这个方程"时,已为后续视觉落地铺路。(例:"想象图像中...")在多模态输入时快速具象化。

2025-07-15 18:12:18 366

原创 ICML2025 | 揭示MLLM的图文联动推理能力

然而,当前的多模态大语言模型(MLLMs)在此能力上面临严峻挑战——现有评测基准大多依赖文本主导推理或浅层视觉线索,无法真正检验图文深度融合的推理能力。:EMMA如同多模态推理的“X光机”,既暴露当前模型的“骨骼脆弱”,也为锻造更强AI指明淬火方向。四大领域精选2788道题目,其中64%为新构建题目,直击“图文必须协同推理”的核心任务,首次系统化评估MLLMs的跨模态推理短板。:过滤后保留的题目(如图1的电荷问题),若仅提供文本描述(如“正电荷在左,负电荷在右”),模型因无法模拟矢量方向必然出错。

2025-07-14 21:11:16 395

原创 快慢Reasoning综述!

大型语言模型(LLMs)虽在复杂推理任务中表现出色,却存在"无差别计算"缺陷:对简单问题过度消耗资源(如用微积分解1+1),对难题却因计算不足而失败。工业界已意识到问题严重性:Anthropic为Claude 3.7添加"思考token预算",OpenAI的o1系列提供"低/中/高"推理强度选项。,系统梳理了"预算可控"(L1)与"动态自适应"(L2)两类前沿技术,通过大规模实验揭示效率瓶颈,并为轻量化推理指明路径。动态监控推理进度,遇困时触发策略调整(如:"当前路径无效,建议回溯步骤3")。

2025-07-14 21:11:16 291

原创 揭示隐藏联系:RLHF/DPO即对比学习!

这充分证明了MIO在提升复杂推理和数学能力方面的显著优势,是论文核心贡献的量化体现,必须在此处展示。这篇论文不仅在理论上建立了RLHF与对比学习的深刻联系,还基于此理解设计出更优的算法,解决了实际痛点,对推动大模型安全对齐技术的发展具有重要意义。:建立了RLHF与对比学习、信息论之间的桥梁,深化了对现有对齐方法工作机制的理解,特别是揭示了RLHF的能力局限性和DPO的不稳定性根源。总之,这项工作不仅增进了我们对大模型对齐本质的理解,还提供了切实有效的工具,为构建更安全、更可靠、更强大的AI系统铺平了道路。

2025-07-13 16:59:29 564

原创 Evaluation is All You Need:评估设计的微小差异如何扭曲结果

研究团队以开源社区广泛采用的DeepSeek-R1-Distill系列模型为切入点,发现细微的评估条件变化(如随机种子、数据集版本)可导致分数波动高达5%以上,甚至让小型模型“虚报”出超越大型模型的性能。:16个固定种子的实验中,DeepSeek-7B在AIME24的分数跨越48.3%~65.0%(表10),波动远超基线。:当N从64降至32时,1.5B小模型在AIME24上的分数波动超1%(见表1对比),且75%实验超出基线波动范围。:包含完整图像信息的版本让模型分数提升最高达3.9%(图4)。

2025-07-13 16:59:29 597

原创 DeepMind揭示Reasoning内在机制

近年来,大型推理模型(如DeepSeek-R1、Gemini等)在数学、编程等复杂任务上表现惊艳,但其内部推理机制却像“黑箱”般难以捉摸。将模型每个推理步的隐藏状态(如“计算12×5”)通过聚类(K-means,默认K=200)压缩为代表性节点。警告:14B模型因中英文频繁切换产生“无效环”,虽环数量多但性能反低于32B模型(图7a)。:优质数据促使模型探索更广推理状态(大直径)并多次验证(多环),如图15所示。与人类推理类比:基础模型像“套用固定公式”,蒸馏模型像“多角度试错再优化”。

2025-07-12 16:08:51 863

原创 除了prompting外,不动参数,如何改变模型行为?

STA不仅解决了提示工程的脆弱性问题,更揭示了模型内部的可解释控制路径——未来可结合参数微调,构建"训练-推理"双阶段安全框架。先前研究用SAE将模型表示投影到稀疏高维空间,但**识别真正独立的"原子组件"**(如"安全响应"或"毒性拒绝"的独立特征)仍是难题。(vs 全参数微调),实现与DPO相当的防御性能(Gemma-it: 97.56% vs DPO 98.47%),且无需训练。:提示工程的信号在深层传播中衰减,而STA直接在关键层(如Gemma第24层)干预,避免信息退化。

2025-07-11 23:41:31 293

转载 中国中文信息学会大模型与生成专委会2025大模型战略研讨会成功举办

,嘉宾认为,可从safety和security两个角度定义安全,模型吸收的数据决定了其具有怎样的价值观,让模型既符合人类预期又能规避数据污染是大模型安全需要解决的问题。主持人认为,大模型安全是具有社会属性的,而现有大模型构建是基于信息论中概率层面的建模,大模型安全的本质是如何把社会属性注入大模型。四位嘉宾首先分别从面向复杂对抗场景的智能体、大模型价值观探索、大模型的欺骗性行为和现实世界数据污染的角度,简要介绍了对大模型安全的思考,后进入讨论环节。模型or自回归模型,谁是大模型的未来?

2025-07-11 15:22:32 31

原创 NVIDIA提出小型LLM才是未来,并将重塑Agentic AI

人工智能代理(Agentic AI)正以惊人速度渗透企业场景:超50%大型IT企业已部署AI代理,行业估值在2024年达52亿美元,预计2034年将突破2000亿美元。通过实证分析证明:SLM在能力上已满足代理需求(V1)、操作适配性更优(V2)、经济性显著领先(V3),并设计出LLM向SLM迁移的完整技术路径。代理本质是"带着镣铐跳舞":通过精心设计的提示词(prompt)和上下文管理,将LLM限制在极小功能范围内。:可在消费级设备(如手机/笔记本)低延迟运行的轻量模型(2025年标准:<100亿参数)

2025-07-11 15:22:32 812

原创 综述 | 从“说出来”到“脑中算”:Latent Reasoning的范式跃迁与无限可能

它深入探讨了潜在推理的计算基础(神经网络层如何成为推理的“硬件”)、多样化实现方法(如何设计或训练模型进行“脑海推演”)、背后的工作机制(层堆叠如何像隐式CoT),并前瞻性地展望了“无限深度推理”这一激动人心的前沿(让模型想多久就多久)。揭示了计算扩展的统一性——无论是序列维度的显式CoT(水平扩展),还是深度维度的层堆叠/循环(垂直扩展),或是时间维度的长序列处理(优化即深度),本质都是为模型提供更多“思考”资源。它让我们超越“语言即思想”的直观认知,深入探索连续潜空间中更高效、更强大的推理形式。

2025-07-10 20:00:00 329

转载 AI“学霸“也解不出高中题?耶鲁、复旦发布MMSciBench,揭示AI理科推理能力短板

未来的模型可能需要融入更多符号推理的元素,或者开发全新的"科学思维"训练范式,让AI学会像科学家一样思考问题。真正的突破需要让模型像人类一样,能够在脑海中构建统一的"心理模型"来理解图表、公式和文字描述之间的内在联系。这提示我们,在构建真正全球化的AI系统时,需要更加注重多语言推理能力的平衡发展,而不是简单的翻译适配。一份由耶鲁、复旦等高校和机构学者联合推出的全新中文多模态科学基准MMSciBench,通过系统的评测,揭示了当前主流模型在复杂科学推理能力上的具体表现。

2025-07-10 16:19:45 30

原创 UIUC提出隐式监督新范式:无需标注/RM即可全面提升多模态Reasoning的感知能力

这一瓶颈源于现有强化学习框架(如GRPO)的奖励设计——仅鼓励格式正确性和答案准确性,未强制模型利用视觉信息。:文本大模型(LLMs)在数学证明等任务中表现出色,但LMMs需同时处理图像与文本。(Perception-Aware Policy Optimization),通过添加一个简单的KL散度项(的框架PAPO,通过隐式感知损失(KLₚᵣₑₚ)解决多模态推理的视觉依赖瓶颈;大模型(7B)对γ更敏感,需更低γ值(0.01)+ 双重熵正则。:约束模型生成低熵(高确定性)输出,避免通过随机字符“作弊”。

2025-07-10 16:19:45 385

转载 AI“学霸“也解不出高中题?耶鲁、复旦发布MMSciBench,揭示AI理科推理能力短板

未来的模型可能需要融入更多符号推理的元素,或者开发全新的"科学思维"训练范式,让AI学会像科学家一样思考问题。真正的突破需要让模型像人类一样,能够在脑海中构建统一的"心理模型"来理解图表、公式和文字描述之间的内在联系。这提示我们,在构建真正全球化的AI系统时,需要更加注重多语言推理能力的平衡发展,而不是简单的翻译适配。一份由耶鲁、复旦等高校和机构学者联合推出的全新中文多模态科学基准MMSciBench,通过系统的评测,揭示了当前主流模型在复杂科学推理能力上的具体表现。

2025-07-10 16:19:45 7

转载 AI“学霸“也解不出高中题?耶鲁、复旦发布MMSciBench,揭示AI理科推理能力短板

未来的模型可能需要融入更多符号推理的元素,或者开发全新的"科学思维"训练范式,让AI学会像科学家一样思考问题。真正的突破需要让模型像人类一样,能够在脑海中构建统一的"心理模型"来理解图表、公式和文字描述之间的内在联系。这提示我们,在构建真正全球化的AI系统时,需要更加注重多语言推理能力的平衡发展,而不是简单的翻译适配。一份由耶鲁、复旦等高校和机构学者联合推出的全新中文多模态科学基准MMSciBench,通过系统的评测,揭示了当前主流模型在复杂科学推理能力上的具体表现。

2025-07-10 16:19:45 15

转载 AI“学霸“也解不出高中题?耶鲁、复旦发布MMSciBench,揭示AI理科推理能力短板

未来的模型可能需要融入更多符号推理的元素,或者开发全新的"科学思维"训练范式,让AI学会像科学家一样思考问题。真正的突破需要让模型像人类一样,能够在脑海中构建统一的"心理模型"来理解图表、公式和文字描述之间的内在联系。这提示我们,在构建真正全球化的AI系统时,需要更加注重多语言推理能力的平衡发展,而不是简单的翻译适配。一份由耶鲁、复旦等高校和机构学者联合推出的全新中文多模态科学基准MMSciBench,通过系统的评测,揭示了当前主流模型在复杂科学推理能力上的具体表现。

2025-07-10 16:19:45 11

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除