自己的原文哦~ https://blog.51cto.com/whaosoft/14053638
#苹果发布2025基础模型技术报告
庞若鸣交班陈智峰
Apple Intelligence 进入新的一章。
近日,苹果发布了 2025 年 Apple Intelligence 基础语言模型技术报告。
刚刚加入 Meta 的前苹果 AI 负责人庞若鸣(Ruoming Pang)发出多条推文进行了介绍。
在报告中,苹果详细介绍了训练新一代模型所用的数据、模型架构、训练方案、优化推理技术手段,以及与同类模型对比的评估结果。文中重点展示了苹果如何在提升用户价值的同时实现功能扩展与质量优化,并大幅提高设备端和私有云计算的运行效率。
报告链接:https://machinelearning.apple.com/research/apple-foundation-models-tech-report-2025
这次苹果介绍了两种多语言、多模态基础语言模型,可为苹果设备和服务中的 Apple Intelligence 功能提供支持。其中包括:
1)通过 KV 缓存共享和 2 位量化感知训练等架构创新,针对苹果自有芯片进行了优化的 3B 参数设备模型;2)一种可扩展的云端模型,它结合了新型并行轨道混合专家 (PT-MoE) Transformer 和交错的全局 - 局部注意力,以便在苹果的私有云计算平台上进行有效推理。
这两款模型均通过负责任的网络爬取、授权语料库和高质量合成数据集进行大规模多语言、多模态训练,并在新的异步平台上通过监督微调和强化学习进一步优化。最终模型不仅支持多种新增语言,还能理解图像并执行工具调用。
PT-MoE 架构示意图。每个轨迹 track 由多个轨迹块组成,每个轨迹块包含固定数量的 Transformer/MoE 层。假设总层数为 L 层且轨迹块深度为 D,则同步开销可从 2L(张量并行)降低至 L/D(轨迹并行)。例如当 D = 4 时,PT 架构可将同步开销减少 87.5%。
PT Transformer 是苹果研究人员提出的一种新型架构。与仅包含单一顺序层堆栈的标准解码器式 Transformer 不同,该架构将模型划分为多个小型 Transformer 模块,称为轨道。每个轨道由多个堆叠的轨道块组成,每个轨道块本身都是一个 Transformer 层堆栈。这些轨道块独立处理标记数据,仅在轨道块的输入输出边界进行跨轨道同步。这种隔离设计不仅实现了轨道间的直接并行执行,还有效降低了传统 Transformer 解码器(如采用张量并行技术的模型)中常见的同步开销。这种方法被称为轨迹并行,改进了训练和推理的延迟,而不会影响模型的质量。
为实现服务器端模型的进一步扩展,苹果在每个轨道块内部引入了专家混合层(MoE),从而构建出 PT-MoE 架构。由于各 MoE 层中的专家模块仅在对应轨道内运行,通信开销可与计算过程有效重叠,从而提升训练效率。结合轨道并行性带来的轨道级独立性优势,这种设计使模型在保持低延迟的同时实现高效扩展 —— 得益于稀疏度的提升,模型运行更加轻量化。
另外为了实现现视觉理解能力,苹果引入了一个可以从输入图像中提取视觉特征的视觉编码器,在大量图像数据上进行了预训练,以提高其性能。视觉编码器包含两个关键组件:一个视觉主干,用于从输入图像中提取丰富的视觉表征;以及一个视觉语言适应模块,用于压缩视觉表征并将这些视觉特征与模型的标记表征进行对齐。
在视觉主干网络中,苹果采用了标准的视觉 Transformer(ViT-g),服务器模型为 10 亿参数;以及更高效的 ViTDet-L 主干网络,设备端模型为 3 亿参数。
设备端视觉主干网络采用了 ViTDet 架构,该架构在大多数视觉 Transformer 层中使用窗口注意力机制,仅包含三个跨窗口全局注意力层。为更有效地捕捉并整合细粒度局部细节与宏观全局上下文信息,苹果在标准 ViTDet 基础上创新性地引入了注册窗口(RW)机制。该机制通过让全局注册表(或类别)标记在参与整体全局上下文聚合前,先与图像中的不同局部窗口进行交互,从而实现对全局特征的编码。
苹果认为,端侧和云端模型配合可以满足广泛的性能和部署需求。设备端模型经过优化,能够以最低资源消耗实现低延迟推理;而服务器端模型则专为复杂任务设计,提供了高精度和可扩展性。
在人工评估基准中,苹果的模型在跨语言、文本和视觉模式上都具有不错的竞争力,甚至优于同等规模的最佳开源模型。
在技术报告中,苹果还介绍了全新推出的 Swift 核心的基础模型框架,其中集成了引导式生成、约束式工具调用和 LoRA 适配器微调三大功能模块,开发者仅需几行代码即可轻松实现这些功能的集成。
该框架让开发者能够借助约 30 亿参数的设备端语言模型,着手打造可靠且具备量产级品质的生成式 AI 功能。作为 Apple Intelligence 的核心,它在摘要、实体提取、文本理解、优化、简短对话、创意内容生成等多样化文本任务中表现卓越。不过苹果表示,虽然已针对设备端模型进行了专门优化,但它并非为通用知识问答而设计。苹果鼓励应用开发者利用该框架为 APP 定制实用功能。
苹果表示,Apple Intelligence 模型的最新进展始终遵循「负责任的人工智能」的理念,通过内容过滤、地区定制评估等安全防护措施,并依托私有云计算等创新技术,切实保障用户隐私安全。
在技术报告发布之后,庞若鸣不忘感谢了所有贡献者,其中包括模型、后训练、多模态、框架 / API、项目管理人员,同时把接力棒交给了苹果 AI 的下一任负责人 Zhifeng Chen 和 Mengyu Li。
此前据媒体报道,庞若鸣加入 Meta 后,苹果大模型团队将由陈智峰(Zhifeng Chen)负责,不过团队的管理架构将更加分散。
陈智峰 2000 年本科毕业于复旦大学,后于普林斯顿大学、伊利诺伊大学香槟分校获得硕士、博士学位。在加入苹果之前,陈智峰曾在谷歌长期工作,参与过 TensorFlow、Gemini、神经机器翻译系统、Palm 2 等重要研究。他和庞若鸣、吴永辉均是 Google Brain 早期的重要成员。
参考内容:
#PresentAgent
演讲生成黑科技,PresentAgent从文本到演讲视频
本项目为AI Geeks、澳洲人工智能研究所、利物浦大学、拉筹伯大学的联合工作。
我们提出了 PresentAgent,一个能够将长篇文档转化为带解说的演示视频、多模态智能体。现有方法大多局限于生成静态幻灯片或文本摘要,而我们的方案突破了这些限制,能够生成高度同步的视觉内容和语音解说,逼真模拟人类风格的演示。
论文标题:PresentAgent: Multimodal Agent for Presentation Video Generation
论文地址:https://arxiv.org/abs/2507.04036
代码:https://github.com/AIGeeksGroup/PresentAgent
为了实现这一整合,PresentAgent 采用了模块化流程,如图 1 所示,包括以下步骤:1. 系统性地对输入文档进行分段;2. 规划并渲染幻灯片风格的视觉帧;3. 利用大型语言模型与文本转语音模型生成具有上下文的语音解说;4. 最终将音频与视觉内容精确对齐,无缝组合成完整视频。
图 1 PresentAgent 概览。 该系统以文档(如网页)为输入,经过以下生成流程:(1)文档处理、(2)结构化幻灯片生成、(3)同步字幕创建,以及(4) 语音合成。最终输出为一个结合幻灯片和同步讲解的演示视频。图中紫色高亮部分表示生成过程中的关键中间输出。
考虑到这种多模态输出的评估难度,我们引入了 PresentEval,一个由视觉-语言模型驱动的统一评估框架,从以下三个关键维度全面打分:内容忠实度(Content Fidelity)、视觉清晰度(Visual Clarity)和观众理解度(Audience Comprehension)。
评估采用基于提示的方式进行。我们在一个精心整理的包含 30 对「文档-演示」样本的数据集上进行了实验验证,结果表明,PresentAgent 在所有评估指标上接近人类水平的表现。
这些结果展示了可控多模态智能体在将静态文本材料转化为动态、有效、易获取的演示格式方面的巨大潜力。
我们的主要贡献如下:
- 提出新任务: 首次提出「文档到演示视频生成」这一新任务,旨在从各类长文本自动生成结构化的幻灯片视频,并配有语音解说。
- 设计 PresentAgent 系统: 提出一个模块化生成框架,涵盖文档解析、布局感知幻灯片构建、讲稿生成及音视同步,实现可控、可解释的视频生成过程。
- 提出 PresentEval 评估框架: 构建一个由视觉语言模型驱动的多维度评估机制,从内容、视觉与理解等维度对视频进行提示式评分。
- 构建高质量评测数据集: 我们制作了一个包含 30 对真实文档与对应演示视频的数据集。实验和消融研究显示,PresentAgent 不仅接近人类表现,且显著优于现有方案。
演示视频评估基准(Presentation Benchmark)
图 2 我们评估基准中的文档多样性
为了支持文档到演示视频生成的评估,我们构建了一个多领域、多文体的真实对照数据集——Doc2Present Benchmark,其中每对数据都包含一个文档与一个配套的演示视频。不同于以往只关注摘要或幻灯片的基准,我们的数据包括:
- 商业报告
- 产品手册
- 政策简报
- 教程类文档等
每篇文档均配有人工制作的视频讲解,如图 2 所示。
图 3 我们的评测方法框架概览
与 paper2poster 的方法类似,我们设计了一个测验式评估框架,即通过视觉语言模型仅根据生成视频(幻灯片+讲解)回答内容问题,以模拟观众的理解水平,同时我们还引入人工制作的视频作为参考标准,既用于评分校准,也作为性能上限对比。
该评估框架由两部分组成:
- 客观测验评估: 通过选择题测量视频传递信息的准确性;
- 主观评分评估: 从内容质量、视觉/音频设计与理解清晰度等维度,对视频进行 1–5 分等级评分;这两类指标共同构成了对生成视频的全面质量评估体系,如图 3 所示。
PresentAgent
图 4 PresentAgent 框架概览
本系统以多种类型的文档(例如论文、网页、PDF 等)为输入,遵循模块化的生成流程:
- 首先进行提纲生成;
- 检索出最适合的幻灯片模板;
- 然后借助视觉-语言模型生成幻灯片和解说文稿;
- 将解说文稿通过 TTS 转换为音频,并合成为完整的演示视频;
- 为了评估视频质量,我们设计了多个维度的提示语;
- 最后将提示输入基于视觉语言模型(VLM)的评分模块,输出各个维度的指标结果。
为了将长文本文档转化为带口语化讲解的演示视频,我们设计了一个多阶段的生成框架,模拟人类准备幻灯片与演讲内容的流程,如图 4 所示。该方法分为四步:
- 语义分段;
- 结构化幻灯片生成;
- 口语化讲解生成;
- 可视与音频组合为同步视频。
该模块化设计支持可控性、可解释性和多模态对齐,兼顾高质量生成与细粒度评估。下文将分别介绍各模块。
实验
我们构建了一个包含 30 个长文档的测试集,每个文档配有人类手工制作的演示视频作为参考。这些文档涵盖教育、产品说明、科研综述与政策简报等主题。
所有生成与人工视频均使用 PresentEval 框架进行评估。由于当前尚无模型可完整评估超 2 分钟的多模态视频,我们采用分段评估策略:
- 客观评估阶段: 使用 Qwen-VL-2.5-3B 回答固定的多项选择题,评估内容理解;
- 主观评分阶段: 提取视频与音频片段,使用 Qwen-Omni-7B 针对内容质量、视觉/听觉质量和理解难度分别打分。
主实验结果
在测验准确率方面,大多数 PresentAgent 的变体与人工基准结果(0.56)相当甚至更优。其中 Claude-3.7-sonnet 取得了最高准确率 0.64,表明生成内容与源文档之间具有较强的一致性。其他模型如 Qwen-VL-Max 和 Gemini-2.5-flash 得分略低(0.52),表明在事实对齐方面仍有提升空间。
在主观质量方面,由人类制作的演示仍在视频和音频整体评分上保持领先。然而,一些 PresentAgent 变体表现出有竞争力的性能。例如,GPT-4o-Mini 在视频内容和视觉吸引力方面获得了最高分(均接近或达到 4.8),而 Claude-3.7-sonnet 则在音频质量方面表现最为平衡(均分为 4.53)。
有趣的是,Gemini-2.5-flash 在视觉质量上取得了最高得分(5.0),但在理解性方面较低,这反映了美观性与清晰度之间的权衡。这些结果突显了我们模块化生成流程的有效性,以及统一评估框架 PresentEval 在捕捉演示质量多个维度方面的实用价值。
案例分析
图 5 PresentAgent 自动生成演示视频示例
图 5 体现了一个完整的 PresentAgent 自动生成演示视频示例,其中一篇技术博客被转化为带解说的演示。系统识别出结构性片段(如引言、技术解释等),并为其生成了包含口语风格字幕和同步语音的幻灯片,涵盖了「并行化工作流」、「代理系统架构」等技术主题,展示了系统在保持技术准确性的同时,以清晰、对话式方式传达信息的能力。
#算法工作6年经验分享
别纠结技术“low 不 low”,以业务目标为锚,用最小成本、最稳方案把活干漂亮,并持续扩展边界、提前布局未来
最近一年做了什么
去年有提到,自己在新的环境下,有很多挑战,也收获很多,最近的一年里,在和团队伙伴们的共同努力下,项目逐渐进入深水期,遇到了很多新的挑战。我简单总结一些我这段时间的感受。
- 项目进入深水期后,很多任务并非简单方案便可快速完成,需要很多基础工作,这些基础工作对产品、业务视角并不可见,如果埋头做,很可能会导致业务方视角没有产出。此时,我这里有两个方案,一个是把这个不可见的任务一定程度转化为可见的,另一个思路就是把这个基础工作打散到日常的迭代里,一点一点带上,就不至于长期没有可见产出。前者比较好理解,而后者则需要比较长远的眼光,提前想到后面可能要做什么,需要什么,提前规划安排。
- 需要合理权衡好,研究和业务的时间,两者缺一不可。很多时候,我们可能遇到的是,急迫的业务需求,需要赶时间完成任务发版上线,并没有时间去做一些尝试,毕竟最近又是技术井喷的时候,我们不得不去持续做很多学习和实验,或者拥有大量时间去做研究和实验,远离了业务,并不知道什么东西是真正有用的,什么并非实验中的那么有效,走偏了。我们还是需要两者兼顾,不能顾此失彼。
- 项目发展后,原本的小项目里有的东西越来越多,需要合理规划,例如服务/代码/数据甚至是人员分工的合理规划,大模型资源的权衡,多个服务的并发性能,新老方案迭代的提升等。最近还有些趋势,对于一些为了快速上线的大模型+prompt方案,会被微调的小模型或者其他更轻量的方案给迭代掉。
越发感觉,在项目逐渐迭代的过程,要想把事持续做好,除了要比较扎实的技术积累,还需要更加强的整体规划能力,这个我并不擅长,还需要持续学习吧。
比较重要的经验和感想
low和不low
很多时候,我们都会关注某个技术low不low,做的技术是否足够潮,挺多人会因为自己做的事不够潮,不够贴合现在流行的技术而感到焦虑,觉得自己已经落后版本,无论是短期的绩效还是长期的发展,都有很大的压力。在实践中,我自己其实一直做的大部分活,其实都可以说是low的,例如时至今日,一些搜索的任务,我仍然在用字面匹配以及BM25,文本分类我还会用fasttext、textcnn来试试看,有些任务我也在用prompt快速完成一些活,另外类似xgboost这些已经很老的东西,我现在还用的非常顺手,low的事一件接着一件,但实际上并没有想象中的焦虑,我自己是这么想的。
- 从low不low的问题,转为适合不适合的问题。时刻需要记住,手里的活核心目标是什么,如果什么“技术影响力”、“论文产出”之类的事,而是把一些功能需求完成,在效果提升为目标的任务里,什么方案适合这个任务,能尽快得到好的效果,就应该使用什么,要对前沿方案理性看待,可以日常学习和理解,要对他有理性客观的理解,但在方案选型上要慎重。我非常理解一些刚开始做算法的同学,可能会对领导给你分配的任务和方法比较抗拒,此时你其实可以和领导探讨,为什么要这么选,有什么考量,甚至可以拓展一下还有哪些方法,为什么不用别的方法,经过这些交流,你能更清楚一些问题背后的思路,对自己的提升也会很大。
- 自己可以把握这个主动权。领到的任务可能使用并不前沿的方案,如果自己有思路且有时间,完全可以一起尝试,看哪个效果好,自己主动安排更多时间来试验测试,如果效果更好,在条件允许的情况下肯定会采纳你的方案,与其内耗不如主动出击,当然如果效果就是不好了,也得承认自己的理解出现偏差,整理结论积累下来就好了。
- low不low一定程度其实取决于自己的思维界限。同样一件事不同的人做就不一样,同样是写prompt为例,这个是写多了确实会烦,大部分人可能只会捏着鼻子继续做,甚至跑路,而有的同学会比较有想法,通过自己prompt积累的经验,沉淀出一些比较常见的模板甚至是构造流程脚本,加快写prompt以及迭代的速度,提升效率,甚至能自动化完成prompt,能迁移到更多问题上,这便也是技术含量,我们都能感知到一些困境,从技术人的角度,我们要尝试去找到脱离困境的模式,这便不low了。
- 当然,这不意味着我们就要接受他,虽然小的low我们可以解决,但是如果整个职业发展上,并没有给你更多的机会,那肯定还是要脱离,及时止损,例如有些公司就是请你去标数据,后续也只有标数据的活(饼都不画的那种)。
还是鼓励大家多积极行动吧,首先应该排除的是内耗,然后是理清思路明确当前的目标来选型,不拘泥于某些方法是否过时,毕竟是否过时很多时候和最终目标并不无关系,再者自己把握主动权主动去做,还有就是看清大势及时止损了。
不设边界
主动承担或者关注一些和自己相关但超出自己负责部分的事。很多时候,大家都更倾向于把自己的事做好,对我们算法而言,甚至是工程的活都不想干,把模型训好就完事了,但实际上这并不合适,如果想要做的更进一步,还是要把和自己相关的事都尽可能关注到。
- 作为算法,要把活完成好是需要做大量的实验的,模型训练、调优等,改动很大,找人来专门配合,沟通成本会极高,这些事肯定要亲力亲为,整个模型的开发就不用说了,上下游的一些数据的处理,指标的计算,肯定也是得做的,这个应该是一名算法最基本的技能了。
- 模型依赖数据,数据从哪来,上游是怎么计算的,模型算完后怎么用,都要有清楚的了解。上游计算的数据是否正确,口径是否对应,是否可能存在空之类的异常,这些都对我们的算法设计有重要影响,至于下游的应用,直接影响我们的设计,下游要什么我们就应该给什么,格式和口径都要对应,肯定不能做完扔那就跑了。
- 了解甚至多干一些事,能让自己对全局的把控力提高。当我们做一个工作到一定时间长度后,会逐渐成为一个事的负责人,非常自然,如果自己对全局都有很大的把控,那就能用很多操作空间,例如多构造一些特征,多设计一些复杂的算法,上文提到的主动权便来源于此,此时我们能有空间、资源多做些事,也有比较稳定的试验田能开展我们的实验。
全局思维和迭代思维
在文章前面有提到,要去了解自己的上下游,这便是全局思维。我们要从一个个简单的算法,逐渐把视野拓展,形成全局视野,了解系统内各个模块具体在做什么,这个意识和思维都很重要,很多时候能帮助你事半功倍,提升效率,也能帮助你少踩坑,降低试错成本。所谓的全局思维,主要是这几个层次。
- 首先就是要有意识,要主动了解整个全局的信息。
- 详细地,从你自己的模块开始,了解上下游的工作,逐步过渡到整体,甚至是整个项目里你这个模块的位置和功能。
- 更进一步,从了解到利用,是否有存在一些功能交叉或者相似的模块,能尽可能精简或者互相借鉴,例如用户画像模块可以给其他的预测模块服务,画像模块的信息则来源于各种信息抽取模块。
- 甚至走在前面,提前设计,然后让自己未来可能需要的东西现在就开始准备,
让已有的东西尽可能能帮到你,提升效率,避免重复建设,同时,让自己做的事在更多地方被用到。至于迭代思维,则是要把一个复杂的任务拆解,拆分成多个版本计划,一步一步完成。
- 首先,不能想着所有的方案都一步到位,早期版本尽量用最快、低成本就看得到效果的方案。早期基础工作要做的事非常多而时间紧,我们尽可能把精力聚焦在整体服务开发、特征、数据上。注意,特征数据不行,啥模型都搞不定,所以,别太早上太好的模型,之前曾经遇到过一个情况,太好的模型你和能力过高,数据里的错误也能被学到,此时的错误就会被掩埋,甚至到线上去,所以真的要不就花时间把数据弄好,要不就是离线就提前做好数据验证。
- 不要想着“憋大招”,第一次就上很可能比较厉害的模型,诚然弄出来了可能会有很高的收益,但是如果弄不出来,就意味着前段时间白干。
- 需要资源多且短期内不好做的方案,并未当下不做,而是在后续具备条件后,再来开展,如果真的有必要做,则最近先开始准备资源,例如日志数据的积累,特征工程等,类似推荐系统,早期什么用户画像都没有,真的不好做。
- 虽说要放后面做,但不能无限推,在往后推所争取到的时间内,我们必须有计划地安排准备,数据、特征、工程,尽快到位,然后就能上我们心心念念的模型了。
有一个比较特别的情况,就是大模型的模式,最近发现好多这个迭代思路的,大模型的下限是比较高的,所以早期用prompt+大模型的模式,甚至是32B、72B更大的模型,通常能很快得到baseline甚至上线,后续技术迭代,有数据微调后,就可以换成更小的模型,7B甚至到bert的级别,可以试着追追上限,大模型毕竟太贵了,哪怕一个任务一个模型,10个1B的模型也比32B的大模型划算,更别说更小的模型了。
新知识的淡薄
这是我自己在最近几个月感受很明显的事。Deepseek模型出来的时候,我自己感觉就是一次正常的迭代更新,有了一些新的技术工具,我会在后续的工作中平等地参考使用,然而很多人会认为,这次技术是惊艳的,充满了热情,尽管我会学,但我好像对这些东西没那么激动了,当然了,也并不会焦虑。
继续Deepseek这个事,有了新模型,很规范的思路,跑case,分析对比,当然会有目前已有模型的结果,例如早一些发布的qwen2.5,对比下来就会发现这里有问题,哪里有问题,最终指标Deepseek的效果还是比不过,结论是他可能有更适合他自己的场景,于是好好学习然后把他放到武器库,就完事了,惊艳,完全没有。
我自己思考的原因,是因为我先前看到的太多,从而感觉技术的变化非常正常,我大概是16年左右开始接触机器学习,NLP应该还要晚一两年,tf-idf+ml的模式开始经历至今,历经了ml、word2vector、elmo、bert、llm等多个版本技术更新,大模型从23年开始到现在其实也更新了好几代,模型能力确实在逐步完善,在技术革新了这么多版本后,我对新的技术出来,总觉得会是正常的迭代,我通过快速的学习和跟进能很快学到,然后就成为一个我的武器库内很普通的一个工具了。
如果只是学完就完事,那并不会有什么影响,但在信息和知识爆发的时代,这种淡泊可能会让我对发展方向的感知变得迟钝。举个例子,在我的视角下,因为我对我在搜索方面的能力还比较有信心,此时我看RAG下的很多技术,其实都会是重复的,类似意图识别、改写、向量召回啥的,因为都是老技术而可能会让我疏于学习,因为这些技术我都比较熟悉,现在很多看起来很新的论文往前翻很可能只是“换汤不换药”,此时,这种感官会让自己放弃在这里深入学习,便会从中错过很多迭代更新的细节方法,例如self-consistency等新技术,能让同一类任务变得更简单、更优秀的方案,早年以搜代分的方案在一些场景下我一直用的很好,但大模型时代,给我提供了一个复验的机会,在使用大模型后,效果会有新的提升。
再举个栗子吧,Agent里的路由,在一些比较简单的任务里,就是识别query的含义然后去调用不同的工具进行分析或者执行,我会很快把他和搜索里的“意图识别”联系起来,甚至是“文本分类”,初看便会觉得很失望,就是换个名字重新营销一遍的套路罢了,但只有深入学习,才知道,他甚至可以有planning,可以是结合更多信息的决策(对了,这个其实就更像多轮对话的dialogue policy),可能会有不同的理解。
这个问题,最近挺让我感到苦恼,不知道有没有大佬也遇到类似的情况,可以一起讨论排解一下。我目前的思路是,逼着自己学进去,就当复习,也尝试从中吸收一些新的思路,说实话收获肯定是有的,但是反馈感不是很强(很多时候学完知道了,但是到了应用阶段该用啥用啥),边际收益也不高,想看看大家有什么更好的思路。
大模型工作
现在是大模型的版本,还是想简单提一提。很多人可能会觉得做大模型的工作很酷,更有甚者可能会对“训练大模型”这个事有很高的期待,但现实是,并非如此,我来说几个情况。
对于训练大模型基座的工作,首先,基座模型,现在基本已经被几个大厂给统治,大家应该都懂,自己训的可能会有一定收益,但并不一定那么高,想让别人用到你的模型,还不那么容易,很多人图方便就直接用那几个口碑好的通用模型,自己捯饬捯饬就能上了,那你就是白忙活了;如果是不太在乎别人的使用,更关注自己把效果做出来的成就感,那就要注意,数据的清洗,也是很枯燥的,训练要好长时间,等个一天两天甚至半个月完事后,一出来效果不行就等于白干,别以为每天都有时间还模型结构、训练策略,有些小厂还要考虑性能、负载之类的事。
如果你是做应用大模型的有关工作,那就不得不提很多人嗤之以鼻的写prompt了,大部分情况,你这里根本没有模型,而只有一个冰冷的API接口,你通过调用它来得到大模型结果,你只能调整你的prompt,训练模型根本不存在,扎心的,你的代码,不用装pytorch就能跑起来。好不容易能微调,试试身手了,资源要省着用,数据依旧不行,可能你写的一手好的训练脚本,但和弄基座模型的同学一样,效果不好,又要开始分析数据,清洗数据,模型是改不动的,策略是不会写的,就是调用llama factory,久而久之,仍旧是洗数据。
此处也并非是说这些活不好,而是,要让还未正式工作的大家认清现实,认清可能要面对的东西吧,这是常态。任何事都可以是枯燥的,要自己多尝试从中找到热情和反馈感,会支撑你持续走下去。同时,别“只会大模型”,别的都不学,拓展自己的知识库,不去纠结low不low,好的就去学,有利于你能应对各种问题。
把活干的漂亮
小时候看《铁甲小宝》,蜻蜓队长的登场台词:第一,绝对不意气用事,第二,绝对不漏判任何一件坏事,第三,绝对裁判的公正漂亮。这里的漂亮,便是想指的这个,相比原来要求的“完成任务”,我希望对自己有更高的要求,自己也在努力。
- 以更低的成本(时间、资源)等,完成具体需求。如果特殊要求,我对方案的选型是没有什么执念的,例如“大模型”,我只会考虑更加适合当前任务下最适合的方案,大模型在这里只是一个平等地备选方案。
- 可靠,尽量不出现特别不稳定的bug或者bad case,无近忧。服务稳定,类似超时之类的不稳定因素尽可能排除,模型层面对于高频严重问题也会用更加稳妥的方式来控制,这是对一名工程师的基本要求,这意味着我可能不会很冒险地采用不成熟的方案。
- 无远虑,尽量没有长期的坑,做好长远规划。脑海里有未来成功的样子和目标,虽然短期内不具备条件,但是会逐步积累到具备条件的时候,然后落地应用。
- 技术亮点和特色会尽量保持。前面我只说到,不会因为技术新而去用,同样地,我也不会因为技术新而不用,前沿技术的储备依旧会保持,在情况合适的时候我再掏出来使用,逐步形成技术亮点、技术壁垒。
#MO真题撕碎AI数学神话
全球顶尖模型齐翻车!冠军铜牌都拿不到
AI做奥数的神话,刚刚被戳破了!最新出炉的2025 IMO数学竞赛中,全球顶尖AI模型无一例外翻车了。即便是冠军Gemini也只拿下可怜的31分,连铜牌都摸不到。Grok-4更是摆烂到底,连DeepSeek-R1都令人失望。看来,AI想挑战人类奥数大神,还为时尚早。
如果你以为,如今的LLM已经无所不能,那刚刚出炉的2025大模型数学竞赛结果,恐怕要让你大跌眼镜了。
现在,各模型的分数已经在MathArena上发布。
怎么说呢,所有大模型都翻车了。
即使得分最高的冠军Gemini,也只拿到了31%的分数。凭这个成绩,连拿铜牌都不大可能。
也就是说,AI想超越目前顶级的人类数学选手,还差得远呢。
苏黎世联邦理工学院SRI实验室的博士生Jasper Dekoninck,发了一篇博客记录此次大赛的详细过程。
大模型参加数学竞赛,全部翻车!
在今年4月,来自ETH Zurich等机构的MathArena团队,就曾推翻AI会做数学题这个神话。
当时他们发现,在美国数学奥赛上,顶级AI模型得分不足5%,当时的DeepSeek-R1还是冠军来着,得分4.76%。
而在这届2025国际数学奥林匹克(IMO)上,全球的AI顶流们又齐聚一堂了。
为了测验AI们的数学能力天花板,MathArena项目组这次祭出了数学界的终极boss——2025年IMO真题。
国际学生奥林匹克竞赛(IMO)是全球18岁以下数学学生的顶尖赛事。参赛者都经过了大量训练,每道题都有数小时的解答时间。
IMO真题是什么水平呢?它们能难倒全球数学能力最顶尖的高中生,甚至还能分分钟劝退无数大学数学教授。
在2024年,美国队的六名参赛者得分在87-99%之间。而陶哲轩在13岁时,就获得了IMO的金牌。
这次,组委会希望了解,这些大模型是否能达到拿到奥数奖牌的里程碑级别,比如铜牌(前50%)、银牌(前25%)甚至金牌(前8%)。
另外,为了防止「开卷作弊」这个问题,评测团队特意选了一个巧妙的时间:题目刚刚发布,他们就开始让AI们答题了,所以这些大模型不太可能在数据集中提前见过这些数学题。
可以说,这些基准测试是既未受污染,又是可解释的。
而AI们的所有答案,都是由两位奥数专家评委双盲评分的,标准的严苛程度堪比IMO官方。每道题满分7分。
此次的参赛选手,阵容也是空前豪华,堪称是AI界的梦之队。
· o3(OpenAI扛把子)
· o4-mini(OpenAI小钢炮)
· Gemini 2.5 Pro(谷歌第一大将)
· Grok-4(马斯克家的理工男)
· DeepSeek-R1(国产尖子生)
之所以选择这五位参赛选手,是因为它们此前都在MathArena中有出色的表现。
其中,每个模型都使用推荐的超参数运行,并且设置了64000的最大token限制。
Prompt如下——
你的任务是为以下问题写出一个证明解决方案。你的证明将由人工评委根据准确性、全面性和清晰性进行评分。在撰写证明时,请遵循以下指南:
-你正在撰写一份证明,而不是证明大纲。每一步都应该仔细解释并记录。如果解释不充分,评委将认为你无法解释清楚,从而降低你的分数。
-你可以使用通用的定理和引理,但前提是它们必须是众所周知的。一个简单的判断标准是:如果该结果有名称,并且足够有名以至于有维基百科页面或类似的内容对其进行描述,则允许使用。任何来自论文的结果,如果它不会在高中或本科低年级数学课程中教授,则不应使用。任何此类结果的使用将立即导致你的成绩为零。
-在你的证明中不要跳过计算步骤。清楚地解释做了哪些变换,以及为什么在计算的每一步中这些变换是被允许的。
-你应该使用正确的LaTeX符号来编写公式和数学符号。你应当将这些公式包含在适当的符号中(行内公式使用 "\\(" 和 "\\)",块状公式使用 "\\[" 和 "\\]"),以增强证明的清晰度。不要使用任何Unicode字符。
-你的证明应该是自包含的。
-如果你对某个具体步骤不确定,或者不知道如何证明一个中间结果,请明确说明。指出你的不确定性比做出错误的陈述或主张要好得多。
为了公平,项目组这次采取了一种「best of 32」的策略。
也就是,每道题都会跑出32个不同答案,然后让AI自己当裁判,通过一轮轮PK选出最强解法后,才会送去给人类评审打分。这样,模型在推理时,就会尽可能多地扩展计算资源。
因此,这次比赛可以说不仅是卷得离谱,烧钱也烧得令人心疼——
比如,Grok-4的单题评测成本就高达20美元,所以24题的总成本,就超过了480刀!
所以,大模型们的表现如何?
金银铜,全军覆没
Gemini 2.5 Pro,全场最高分
Gemini 2.5 Pro在满分42分的考卷中,拿到了13分,约等于31%。
这个分数,连铜牌的门槛都没摸到。
而即使是作为表现最好的AI,Gemini也依然有不少毛病。
比如,遇到不会做的题时,它会编出一些看起来似乎很权威的假定理,比如「根据史密斯-约翰逊超平方引理可得」。
但实际上,这个定理根本就不存在!
此前Gemini 2.5 Pro的答题情况
Grok-4:翻车最严重,基本没救了
而最近因为AI女友事件大出风头的Grok-4,则严重翻车了。
它的表现堪称灾难:它给出的绝大多数答案只有最终结果,完全不解释,整个就是一副「我懒得证明,我就是知道」的摆烂态度。
而显著落后的一个选手除了Grok-4,还有DeepSeek-R1。
这两个AI在此次奥数中的成绩,相较于它们在MathArena基准测试中的早期成绩,退步明显。
此前Grok 3 mini的答题情况
AI解题的独特姿势:做不出来,我就跳过
在这个过程中,研究者们还发现了AI做数学题的一个有趣现象。
通常,在人类选手参加IMO比赛时,他们要么一题全部做对,要么干脆拿0分,拿3分、4分这样的中等分数,其实是很少见的。
不过大模型可就完全不一样了,它们特别擅长考个「及格边缘线」。
也就是说,它们时常能捕捉到正确的解题思路,方向是对的,但是一到最关键的地方就会掉链子,逻辑跳跃严重。
尤其是到了该证明的关键一步,它们就不证明了。而这恰恰是人类选手最不容易出错的地方。
对此,评审组的感受是:AI现在已经能抓住「人类感」的思路,但是在细节能力上,还是差点火候。
而如果AI们能把这些逻辑问题给搞定,未来它们的成绩说不定还真能冲上领奖台。
此前DeepSeek-R1的答题情况
2025 IMO真题
我们来看看,今年几道IMO真题长什么样子。
问题1:
问题2:
问题3:
问题4:
问题5:
问题6:
AI离成为奥数大师,究竟还有多远?
也许你会有疑问,自己平时测这些大模型的时候,做数学题并没有这么强啊。
原因当然就在于,这次大模型们的「Best-of-32」大法了,如果不是用了这个策略,很多模型的得分连10分都没有。
这也就揭示出这样一个现实:想要让模型发挥得好,就得拼资源、拼算力、拼试错次数。
如果只是普通用户随便跑一遍模型,根本不可能达到这种效果。
总之,这场「AI数学奥赛」,已经暴露出了很多关键问题。比如想法没问题,但存在逻辑链的短板;会判断解法质量,但还得靠大量计算。
或许再过几年,某个AI真的能打出满分42的神级操作,但显然,今天的AI还达不到这个成就。
目前来说,人类数学选手们还是安全的,还可以放心睡个好觉。
参考资料:
https://x.com/j_dekoninck/status/1945848720211214671
#中国队重夺IMO奥数冠军
6金双满分碾压全场,AI连铜牌都拿不到
祝贺中国队!
本周六早上传来消息,在国际数学奥林匹克竞赛 IMO(International Mathematical Olympiad)比赛上中国队重夺冠军,获得了六金、双满分的佳绩。
从「成绩单」来看,中国队总分 231 分,在前五道题目中获得全满分,第六题拿下团队 21 分也为全场最高分。
本届中国代表队名单:
邓哲文(高二) 湖北省武昌实验中学
徐祺铭(高二) 武汉市经开外国语高级中学
谈弘毅(高二) 武汉市经开外国语高级中学
张恒烨(高二) 重庆市巴蜀中学校
董镇宇(高三) 杭州学军中学
邓乐言(高一) 上海市上海中学
其中邓哲文和徐祺铭已连续两届入选国家队。自 1985 年中国队首次参加 IMO 以来,已有 17 位选手连续两届入选国家队,包括北京大学助理教授韦东奕,他曾在 2008、2009 年两次获得满分。
自 2019 年到 2023 年,中国队曾连续获得 IMO 冠军。
去年的冠军美国队本次获得了五金一银的成绩,位居第二。
第三名韩国队四金二银,第四名日本队三金二银一铜,其中加野聪一人获得满分金牌。
另外本届加拿大派出了纯华人的阵容,获得两金两银一铜位居第十二位,Warren Bei 获得了满分金牌。
国际数学奥林匹克竞赛(InternationaMathematical Olympiad,简称 IMO)是一项面向高中生的全球性数学竞赛,被誉为数学界的世界杯。
在 1959 年,该项赛事首次在罗马尼亚举办,目前 IMO 已经发展成为一个年度国际赛事,每年来自五大洲 100 多个国家和地区的数学顶尖少年竞相角逐。
今年的 IMO 是第 66 届,在澳大利亚昆士兰州阳光海岸举行,比赛自 7 月 15 日开始。这是继 1988 年澳大利亚堪培拉第 29 届 IMO 之后,澳大利亚第二次承办 IMO 赛事。
IMO 2025 题目
IMO 的竞赛题目通常包括六道,分为两天进行,每天的考试时间为 4.5 小时,参赛者每天需完成 3 道题目,每题 7 分,满分 42 分。试题内容涵盖代数、几何、数论、组合等多个领域,旨在测试选手的数学知识和解题能力。
金牌的分数线是 35 分,银牌 28 分,铜牌 19 分。今年的考题据说前五题对于顶级高手来说并不很难,因此共产生了 72 枚金牌,比去年多 19 个。
相比之下,第六题难度极高,全球仅 6 人破解,最后 5 人获满分。
第一题:
第二题:
第三题:
第四题:
第五题:
第六题:
大家觉得今年的题目难度如何,在评论区聊聊吧。
大模型 IMO2025 成绩:无人拿牌
最后,可能你也会关心 AI 大模型在最新真题上的成绩如何。在另一个「赛场」上,有人也已经完成了测试,没有一个大模型能拿到铜牌。
其中,Gemini 2.5 Pro 表现最佳,得分为 31%(13 分)。在之前的 USAMO 评估中,Gemini 2.5 Pro 曾因在无法提供有效证明时引用不存在的定理而受到批评, 然而在 IMO 2025 的表现中,这种行为有所减少,表明模型在此方面有所改进。
刚刚发布的 Grok 4 成绩相对一般,许多初步回答非常简短,通常只是给出最终答案而没有任何解释,类似的问题在 MathArena 的其他基准测试中也有体现,Grok-4 的回答经常缺乏深度或证明。
在 MathArena 上,研究人员聘请了 IMO 级别人类评委进行评分,评估在 2025 年 IMO 题目发布后立即开始。平均而言,AI 做题每道题答案的生成成本至少为 3 美元。
看起来,在人类最高水平智力竞赛上,AI 的能力还有待进一步提升。
参考内容:
https://www.imo-official.org/results.aspx
https://matharena.ai/imo/
#GThinker
超越O4-mini,多模态大模型终于学会回头「看」:中科院自动化所提出GThinker模型
尽管多模态大模型在数学、科学等结构化任务中取得了长足进步,但在需要灵活解读视觉信息的通用场景下,其性能提升瓶颈依然显著。现有模型普遍依赖基于知识的思维模式,却缺乏对视觉线索的深度校验与再思考能力,导致在复杂场景下频繁出错。
为解决这一难题,来自中科院自动化研究所紫东太初大模型研究中心的研究者提出 GThinker,一个旨在实现通用多模态推理的新型多模态大模型。
GThinker 的核心在于其创新的「线索引导式反思(Cue-Guided Rethinking)」模式,它赋予了模型在推理过程中主动校验、修正视觉理解的能力。
通过精心设计的两阶段训练流程,GThinker 在极具挑战性的 M³CoT 综合推理基准上取得了超越了最新的 O4-mini 模型,并在多个数学及知识推理榜单上展现出 SOTA 性能,证明了该方法的有效性和泛化能力。目前,论文、数据及模型均已开源。
论文链接:https://arxiv.org/abs/2506.01078
项目地址:https://github.com/jefferyZhan/GThinker
开源仓库:https://huggingface.co/collections/JefferyZhan/gthinker-683e920eff706ead8fde3fc0
慢思考的瓶颈:
当模型在通用场景「视而不见」
当前,无论是开源的 Qwen2.5-VL,还是闭源的 GPT-4o,多模态大模型的能力边界正在被不断拓宽。尤其在引入了思维链(CoT)等慢思考策略后,模型在数学、科学等逻辑密集型任务上的表现得到了显著增强。
然而,这些进步并未完全转化为在通用多模态场景下的推理能力。与拥有明确答案和严格逻辑结构的数理任务不同,通用场景(如理解一幅画的寓意、分析复杂的日常情景)往往涉及:
- 高度的视觉依赖:答案强依赖于对图像中多个、甚至有歧义的视觉线索的正确解读。
- 复杂的推理路径:没有固定的解题范式,需要模型根据具体问题灵活组织推理步骤。
现有方法,无论是基于结构化 CoT 的,还是基于结果奖励强化学习的,都存在明显的局限性。它们在推理中一旦对某个视觉线索产生误判,往往会「一条道走到黑」,缺乏中途 「回头看」、修正认知偏差的机制。
现有主流多模态推理方法的特点与局限性
GThinker:
从 「思维链」 到 「再思考链」
为了打破这一瓶颈,研究团队提出了 GThinker,其核心是一种全新的推理模式 ——「线索引导式反思」(Cue-Guided Rethinking)。该模式将推理过程升级为一种更接近人类思维的 「思考 - 反思 - 修正」 闭环,它不强制规定僵化的推理结构,而是要求模型在自由推理后,对关键视觉线索进行一次系统性的回溯验证。
Cue-Rethinking核心流程,虚线框代表可能进行
整个过程分为三个阶段:
1. 自由初始推理:模型根据问题和图像内容,自由地进行一步步推理,同时使用 <vcues_*> 标签标记出其所依赖的关键视觉线索。
2. 反思触发:在初步推理链完成后,一个反思提示(如 「Let's verify each visual cue and its reasoning before finalizing the answer.」)被触发,引导模型进入基于再思考阶段。
3. 基于视觉线索的反思:模型逐一回顾所有标记的视觉线索,检查其解释是否存在不一致、错误或遗漏。一旦发现问题,模型会修正或补充对该线索的理解,并基于新的理解重新进行推理,最终得出结论。
GThinker推理模式示例
以上图为例,GThinker 在初步推理中可能将图形误判为 「螃蟹」。但在再思考阶段,它会发现 「红色三角形更像虾头而非蟹身」、「蓝粉组合更像虾尾而非蟹钳」,从而修正整个推理路径,最终得出正确答案 「虾」。这种机制使得 GThinker 能够有效处理有歧义或误导性的视觉信息,极大地提升了推理的准确性。
两阶段训练法:
如何教会模型进行再思考?
为了让模型内化这种强大的反思能力,GThinker 设计了一套环环相扣的两阶段训练框架。
GThinker 整体训练流程示例图
模式引导冷启动
不同于数理领域在预训练后自然涌现的反思能力,单纯依靠来结果奖励强化学习 「探索」 出如此复杂的再思考行为,不仅成本高昂且效率低下。因此,GThinker 首先通过监督微调的方式,为模型 「冷启动」 构建基于视觉线索的再思考能力。
为此,首先通过「多模态迭代式标注」构建了一个包含 7K 高质量冷启动样本数据集:利用 GPT-4o、O1、O3 等多个先进模型的互补优势,对覆盖通用、数学、科学三大领域的复杂问题进行迭代式地推理和标注,生成了包含高质量再思考路径的训练数据。
在训练时,GThinker 采用「模式引导选择性格式化」策略,仅对那些基座模型会产生视觉误判的样本应用完整的 「反思链」 格式,其余则保留为标准推理格式。这使得模型能够学会在 「需要时」才进行反思,而非机械地执行。
激励强化学习
在掌握 「如何思考」 以及基于视觉线索进行 「再思考」 的能力基础上,GThinker 进一步引入基于可验证奖励的强化学习方法,设计混合奖励机制并构建覆盖多种推理类型的多场景训练数据,以持续激励模型在多样化任务中进行主动探索,从而实现思维模式的跨场景泛化迁移。
- 多场景数据构建:广泛收集开源推理数据,并通过 embedding 聚类的方式进行均衡和多样性采样,从中精选包含约 4K 条多场景、多任务的强化学习训练数据集,为泛化能力的提升提供数据保障。
- DAPO 训练:相较于 GRPO,DAPO 采用动态采样的方式,保证 batch 样本的有效性,并应用无 KL 和 clip higher 等策略,更适用于长链思考和探索,使模型学会在不同场景下选择最优推理方式。
- 混合奖励计算:针对选择题、数学题等常见任务类型,分别采用精确匹配、Math-Verify 工具校验的方式计算奖励,对于通用场景下常见的开放式简答题,通过加入格式化响应让模型回答归纳到短语或单词的形式,以应用精确匹配的计算方式,从而确保了奖励信号的准确性和进一步拓展支持任务的多样性。
结果
在复杂、多步及多领域的多模态推理基准 M3CoT 上,GThinker 在多个场景的测试中超过当前先进的开源多模态推理模型及 O4-mini。
在通用场景(MMStar、RealWorldQA)、多学科场景(MMMU-Pro)及数学基准测试中,GThinker 实现了优于或不逊于现有先进模型的表现,证明了 GThinker 所学的再思考能力并未造成 「偏科」,而是实现了整体通用能力提升。
尽管 GThinker 的数据均为复杂推理任务构建,但经过这一方法及数据的训练后,当前最领先的开源模型依然能够在通用指标上进一步提升。研究团队选取了 OpenCompass 闭源多模态榜单中 10B 规模下最新排名前三的开源模型,在学术榜单上进行测试。结果显示,GThinker 在这三款模型上均带来约 1 个百分点左右的平均性能提升,进一步印证了其方法的有效性与泛化能力。
Demo
\
#MirageLSD
世界首个「实时、无限」扩散视频生成模型,Karpathy投资站台
一觉起来世界已经进化成这样了?
每个人都能懂点魔法,能够随意穿梭在各个平行时空和幻想世界里。
,时长00:31
读者朋友们看到这说不定撇撇嘴,「这不就是 AI 视频吗?」
但如果加上两个关键词,这将成为 AI 视频生成领域革命性的突破!
就在昨天,Decart 发布了世界上首个「实时的」「无时长限制的」并且支持「任意视频流」的扩散视频模型 MirageLSD!
输入任何视频流,无论是相机或视频聊天、电脑屏幕还是游戏,MirageLSD 都能在 40 毫秒延迟以内将其转化为你想要的任何世界。
这一切都看上去不可思议,AI 视频已经能够实现和滤镜一样的应用方式,实时智能调整画面风格和画面内容,并且能够通过文本提示任意地进行控制。
实时视频魔法
解锁全新应用可能
前特斯拉 AI 总监,OpenAI 的创始团队成员 Andrej Karpathy 为此技术展开了广泛的想象:
将摄像头画面变为 “另一个世界”。
自导自演实时电影:拿起道具、演绎场景,AI 负责实时布景和风格化,秒看回放,边演边剪。
游戏开发轻松起步:用简单的球体 / 方块编码游戏机制,再用实时扩散模型为游戏生成精美贴图。
任意视频流的风格迁移:例如:只需一句提示词就能让《上古卷轴》看起来 “更史诗”,让《毁灭战士 2》拥有现代虚幻引擎画质。
视频会议背景和实时虚拟试衣。
AR 眼镜升级:实时将现实世界卡通化。
哈利波特的「厄里斯魔镜」:现实中看似普通的镜子,实际上会显示出 AI 根据你 “深层欲望” 生成的理想自己或世界。
Karpathy 表示自己已经成为了这个 MirageLSD 项目的天使投资人,在他看来这项技术通用且强大。
也许这些都只是开始,真正的 “杀手级应用” 还没被发现 —— 这个领域值得无限想象!
这一切让我想起了「刀剑神域」,似乎覆盖现实世界的幻想画面真的要实现了?
Decart 也展示了一些构想的演示,充分满足了各种可能:
比如在沙漠里滑雪?
,时长00:20
比如可以花上 30 分钟写个游戏代码,然后让 Mirage 处理图形?
,时长02:53
Decart 推文中笑称,使用 Mirage「从提示词制作 GTA VII,比 GTA VI 发售还快。」
目前 Mirage 已正式上线,与其观看屏幕上的魔法,不如亲手创造魔法。
Decart 将持续发布模型升级和新功能,包括面部一致性、语音控制和精确物体操控等。与此同时,平台还将上线一系列新特性 —— 如流媒体支持(以任意角色进行直播)、游戏集成、视频通话等功能。
- 体验链接:https://mirage.decart.ai/
魔法背后
MirageLSD技术原理
MirageLSD 主要在视频生成的时长和延迟两大角度产生了突破,基于定制的模型 —— 实时流扩散(Live Stream Diffusion,LSD),该模型能够逐帧生成并保持时间连贯性。
在视频时长方面,先前的视频模型在生成 20-30 秒后就会因错误累积而严重降低质量。
在生成延时方面,它们往往需要几分钟的处理时间才能输出几秒钟的视频。即使是今天最接近实时速度的系统,通常也是分块生成视频,从而引入不可避免的延迟,完全无法实现交互应用。
无限长视频生成
MirageLSD 是第一个能够生成无限长视频的视频生成模型。
由于模型的自回归特性,会导致误差逐步累积,从而限制输出的长度。
为了实现无限自回归生成:
- MirageLSD 基于 Diffusion Forcing 技术,实现逐帧去噪;
- 我们引入历史增强方法,在训练中对输入历史帧进行扰动,使模型学会预判并纠正输入中的伪影,从而增强其对自回归生成中常见偏移的鲁棒性;
这两者结合,使 LSD 成为第一个能够无限生成视频而不会崩溃的模型 —— 稳定、可提示,并始终与场景和用户输入保持一致。
零延时视频生成
响应性是指最坏情况下的响应延迟,即使是之前的自回归模型响应速度也比 MirageLSD 慢 16 倍以上,导致实时交互无法实现。
实时生成要求每帧的生成时间控制在 40 毫秒以内,以避免被人眼察觉。我们通过以下方式实现这一目标:
- 设计定制的 CUDA mega kernels,以最小化开销并最大化吞吐;
- 基于 shortcut distillation 和模型剪枝技术,减少每帧所需的计算量;
- 优化模型架构,使其与 GPU 硬件高度对齐,实现效率最大化。
通过上述技术,我们在响应速度上相较于以往模型提升了 16 倍,实现了以 24 帧 / 秒的速率实时生成视频。
扩散模型与 LSD
扩散模型通过一系列逐步去噪操作,将随机噪声逐渐还原为图像或视频。在视频生成中,这通常意味着一次性生成固定长度的视频片段,这有助于保持时间一致性,但会带来延迟。一些系统尝试通过所谓的 “自回归生成” 方式,逐段顺序生成帧片段,以提高灵活性。然而,这种方式仍需在每一段帧生成完毕后才能响应新的输入,限制了交互性和实时应用的能力。
LSD 采用了不同的方法。它一次生成一帧,使用因果性的自回归结构,每一帧都依赖于此前生成的帧以及用户提示。这种方式支持即时反馈、零延迟交互,并且可以持续生成视频,无需预先设定终点。
在每一个时间步,模型会接收一组过去生成的帧、当前输入帧以及用户定义的提示词,然后预测下一帧输出,该帧会立即作为输入传递到下一轮生成中。
这种因果反馈机制使 LSD 能够保持时间上的一致性,持续适应画面中的动作与内容变化,并在实时遵循用户提示的同时,生成无限长度的视频序列。
此外,它还使 LSD 能够对输入作出即时响应 —— 无论是文本提示还是视频内容的变化 —— 实现真正的零延迟。这正是实时编辑与转换成为可能的关键。
技术缺陷与改进方向
首先,当前系统依赖于有限的历史帧窗口。引入更长期的记忆机制有望提升长序列中的连贯性,从而在角色身份、场景布局和长期动作等方面实现更一致的表现。
此外,尽管 MirageLSD 支持基于文本的风格变换,但对于特定物体、空间区域或动作的精细控制仍较为有限。若能整合关键点或场景标注等结构化控制信号,将有助于在实时环境中实现更细粒度、用户可控的编辑操作。
在语义一致性和几何稳定性方面,特别是在面对极端风格变换时,仍需进一步优化。MirageLSD 在极端风格变化下,可能会出现物体结构或布局被扭曲的情况。
更多相关技术信息,请参阅 Decart 的技术介绍:
- 文章链接:https://about.decart.ai/publications/mirage
#Rethinking Data Protection in the (Generative) Artificial Intelligence Era
AI「偷学」你的数据?6大顶级机构联手提出数据保护4大分级体系
本文的共同第一作者为新加坡南洋理工大学博士后研究员李一鸣博士和浙江大学区块链与数据安全全国重点实验室博士生邵硕,通讯作者为李一鸣博士和浙江大学秦湛教授。其他作者包括:浙江大学博士生何宇,美国马里兰大学博士后研究员国珺峰博士,新加坡南洋理工大学张天威副教授、陶大程教授,美国 IBM 研究院首席研究科学家 Pin-Yu Chen 博士,德国亥姆霍兹信息安全中心主任 Michael Backes 教授,英国牛津大学 Philip Torr 教授,和浙江大学计算机科学与技术学院院长任奎教授。
你是否也曾担心过,随手发给 AI 助手的一份代码或报告,会让你成为下一个泄密新闻的主角?又或是你在网上发布的一张画作,会被各种绘画 AI 批量模仿并用于商业盈利?
这并非危言耸听,而是每个 AI 用户和从业者身上都可能发生的风险。2023 年,三星的一名员工被发现将公司的一份机密源码泄露给了 ChatGPT;同年,意大利数据保护机构也因担心当地居民的对话被用于境外 AI 训练,一度叫停了对 ChatGPT 的使用。随着生成式 AI 的全面普及,越来越多的用户在日常工作生活中使用 AI、依赖 AI,这些真实的事件,为每一位身处 AI 浪潮的用户和从业者敲响了警钟。
这揭示了一种深刻的变革:在 AI 时代,尤其是生成式 AI 的时代,数据不再只是硬盘中的静态文件,而是贯穿 AI 训练、推理、生成的整个生命周期中的「流体」,传统的数据保护方法(如文件加密、防火墙等)已无法应对 AI 场景下的数据保护挑战,对于用户和 AI 从业者而言,迫切需要一个全新的认知框架来全面认识生成式 AI 时代的数据保护问题,来应对数据保护挑战。
在(生成式)人工智能时代,当我们谈论数据保护时,我们在谈论什么?为了回答这一问题,来自浙江大学区块链与数据安全全国重点实验室、南洋理工大学、马里兰大学、IBM、德国亥姆霍兹信息安全中心、牛津大学的研究者们近期发布了前瞻论文《Rethinking Data Protection in the (Generative) Artificial Intelligence Era》,旨在通过通俗易懂的语言,为广大科技群体提供一个新颖的、系统性的视角看待人工智能时代下的数据保护问题。
- 论文题目:Rethinking Data Protection in the (Generative) Artificial Intelligence Era
- 论文链接:http://arxiv.org/abs/2507.03034
在生成式人工智能时代
哪些数据需要被保护?
在生成式人工智能时代,数据保护的范畴已远不止传统对静态数据的保护,而是要保护贯穿于整个以模型为中心的生命周期中的各种不同类型的数据,包括训练数据集、人工智能模型、部署集成数据、用户输入和人工智能合成内容。
- 训练数据集:在模型开发的过程中,需要大量高质量的训练数据集作为模型训练的「燃料」。训练数据集往往是从多个不同数据源进行收集的,因而极有可能包含隐私或版权数据。
- 人工智能模型:人工智能模型,包括它的架构设置和模型权重,在完成模型训练后,也同样变成了非常重要的数据资产。这些模型是对海量数据的一个压缩和凝练,不仅本身具有重大的应用价值,预训练的模型参数也同样能够帮助其他下游任务模型的快速开发,具备更广泛的产业链价值。
- 部署集成数据:除了人工智能模型之外,在模型部署阶段,当前的人工智能应用都会引入一些额外的辅助数据,用于提高 AI 模型在实际应用中的性能和及时性。两个最突出的例子就是系统提示词和外部数据库。系统提示词能够为生成式人工智能模型提供一个统一的、事先定义的指令和上下文,用于引导模型生成更符合人类价值观或者特定风格的回复;而外部数据库被广泛用于检索增强生成当中,通过为生成式 AI 提供更新、更及时、更专业化的信息,在不需要修改模型的情况下,提高模型生成内容的准确性。
- 用户输入:在模型推理阶段,用户的输入信息也是亟待保护的重要内容,出于隐私、安全和伦理等原因,保护这些提示数据至关重要。例如,从隐私角度来看,用户查询中包含的任何个人信息(如姓名、地址、健康详情等)都应符合数据保护法律并满足用户对隐私的期望。商业机密同样面临风险 —— 例如,员工使用 AI 编程助手并输入专有代码作为提示。若 AI 服务保留此类输入,可能导致商业秘密意外泄露。
- 人工智能合成内容(AIGC):最后一种类型的数据是 AI 合成内容,随着生成式 AI 能力的不断提升,AI 合成内容已经达到了非常高的质量,与人类创造的内容差距越来越小,除此之外,AI 合成内容也能被用于创建大规模的合成数据集,对于 AI 模型的进一步开发等过程也有着重大的价值。
在生成式人工智能时代
我们应该如何保护数据?
为了系统性地建模 AI 时代的数据保护问题,本文提出了一个全新的数据保护分级体系,将数据保护的目标由强到弱的顺序分为四类:数据不可用、数据隐私保护、数据可溯源、数据可删除。该分类法旨在平衡「数据效用」与「数据控制」的关系,为复杂的数据保护问题提供一个结构化的解决方案,进而指导从业者和监管者根据实际情况寻找一个更好的效用 - 控制平衡。
- 等级 1. 数据不可用(Data Non-usability):数据不可用指的是从根本上阻止数据被用于 AI 模型的训练或者推理流程,即使攻击者获取了数据,这些数据也不会对模型的学习或者预测起到任何正面作用。数据不可用是最高级别的数据保护,通过牺牲数据效用来换取绝对的保护。
- 等级 2. 数据隐私保护(Data Privacy-preservation):数据隐私保护旨在保护数据中的隐私部分,避免个人的隐私信息(如年龄、性别、地址等)在收集和模型推理的过程中被泄露。相比于等级 1,数据隐私保护保持了一定程度的数据可用性,但仍然是很强的数据保护层级。
- 等级 3. 数据可溯源(Data Traceability):数据可溯源指的是当数据被用于 AI 模型开发和应用时,能提供追溯数据来源、数据使用记录和数据修改的能力,这种能力使得监管者或数据所有者能够审计 AI 应用中数据的使用,从而避免数据被不当使用。实现数据可溯源通常只需要对数据进行微小的修改甚至不修改,因此能够很好地保持数据的可用性。
- 等级 4. 数据可删除(Data Deletability):数据可删除指的是在 AI 应用中完全删除一个数据或其影响的能力,这也是许多数据保护法律法规(如欧盟 GDPR)中规定的「可遗忘权」。数据可删除使得开发者可以在数据不被需要或者被撤回许可的场景下以较低的开销消除影响,数据可删除为 AI 应用开发者提供了完整的数据可用性,但仅在数据使用的阶段提供了较弱的数据保护。
现实意义与未来挑战
本文提出的数据保护体系对理解现有技术和进一步推动当前的全球法规和应对未来的挑战,也提供了极具价值的新兴视角。
分析现有数据保护技术的设计理念:本文也介绍了针对上述四个保护级别的一系列设计理念和相应的代表性技术,为现有方法的应用和后续方法的设计提供了统一的视角和框架。
审视全球法规与治理:本文列举了当前全球代表性国家和地区关于数据保护的法律法规,用分级模型的新 “标尺” 审视现有的治理方案,分析了不同地区治理的特点、偏好和不足。
数据保护的进一步探讨和前沿挑战:除了审视当前的治理态势,本文进一步讨论了数据保护的跨学科意义和指出了一些数据保护的前沿挑战。
- 数据保护 vs. 数据安全:数据安全旨在保护数据的内容,避免潜在的有害、有偏见的内容。在 AI 时代,数据安全与数据保护更加紧密相连,一个保护上的漏洞可能引发严重的安全问题,反之亦然。
- AI 合成内容(AIGC)带来的新挑战:AI 合成内容的兴起带来了全新的治理难题,例如,许多国家和地区都因缺乏人类创作要素而拒绝授予 AI 合成内容版权,这就导致了 AI 合成内容的使用和监管存在灰色地带。与将 AIGC 单纯视为内容本身不同,本文的以模型为中心的数据保护视角突显了更多复杂性。当 AIGC 本身被用作数据,例如用于训练新模型的合成数据、知识蒸馏,或作为检索增强生成系统的输入时,其版权状态变得更加复杂。用于训练生成模型的原始数据的版权(或缺乏版权)是否会影响合成数据的版权状态?如果模型从受版权保护的数据中提炼知识,那么生成的训练模型(作为这些数据中所含信息的紧凑表示)或其生成的数据是否会继承相关限制?这些争议触及数据版权的核心定义:数据版权是否仅与数据内容的「直接表达」相关,还是可以进一步延伸至模型隐含捕获并可转移的统计模式、风格和知识?人工智能模型(尤其是生成式模型)将受版权保护的信息「洗白」成看似新颖且不受保护的 AIGC 内容的潜在风险,也是是一个目前值得关注的重要问题。
- 跨国数据治理难题:AI 的产业链和系统本质是全球化的 —— 收集自一个国家的数据,可能会在另一个国家进行处理和标注,最后向全世界提供服务,这种跨国性的数据流动和各国标准不一的数据保护法规形成了尖锐冲突,从而可能会对全球化的开发者造成巨大的合规挑战。
- 数据保护的伦理考量:AI 时代的所有数据保护都与基本的伦理考量相关联,例如,数据隐私保护和数据可删除体现的是个体对数据的自主权,数据可追溯则有助于降低偏见和提高公平性,而数据不可用是完全避免恶意利用数据的有效途径。在追求技术创新和数据效用的同时,如何平衡和维护这些核心伦理价值,是所有 AI 从业者都需要思考的命题。
#在OpenAI上班有多卷
离职员工爆料:7周打造Codex,每天熬到凌晨
揭秘 OpenAI 打工日常。
一直以来,OpenAI 都是媒体的重点关注对象,尤其在多位核心员工离职后,关于 OpenAI 内部文化和管理方式的讨论更是愈演愈烈。
最近,OpenAI 前员工 Calvin French-Owen 发布了一篇深刻的反思文章,亲身讲述了自己在 OpenAI 工作的点滴,也为我们提供了关于 OpenAI 内部运作的第一手资料。
Calvin French-Owen 是谁?
Calvin 是一位经验丰富的创业者、工程师。
据领英个人页面显示,Calvin 本科就读于麻省理工学院的计算机科学专业。
大学还没毕业,他就成为客户数据平台 Segment 的联合创始人兼首席技术官。2020 年,Segment 被 Twilio 以 32 亿美元收购。之后,Calvin 做过两份短暂的全职工作,其中一份工作就在 Y Combinator。
2024 年 5 月,Calvin 加入 OpenAI,成为一名工程师,并参与了 Codex 项目的开发。Codex 是 OpenAI 推出的 AI 编程助手,旨在帮助开发者提高编码效率。
在 OpenAI 待了一年多后,Calvin 于今年 6 月份离职。
离职三周后,他在个人博客中写下了这篇名为《关于 OpenAI 的反思》文章。
至于离职原因,Calvin 强调并没有什么私人恩怨,相反,他走的时候还挺纠结。
「从自己当老板到成为 3000 人公司的一员,这种转变确实不小。现在,我想重新开始,找点新鲜感,但说不定哪天我会回去,毕竟 OpenAI 的工作吸引力太强了,能参与 AGI 的开发、接触到可能是这十年最重要的技术,这种机会太难得了。」
没有邮件文化,全靠Slack沟通
Calvin 透露,OpenAI 的增长速度快得惊人。
他刚加入时,公司刚过 1000 人,但一年后已经超过 3000 人,Calvin 的工龄甚至排在前 30%,而领导层的职责也跟两三年前完全不同。
这么快的扩张,必然会出现各种问题,比如内部沟通、组织架构、产品发布、人员管理、招聘流程等等。
不同团队的风格差别也很大:有的团队全速冲刺各种新项目,有的负责大模型训练,还有一些团队则按部就班,节奏更为稳定。总之,OpenAI 没有统一的工作体验,因为研究、应用和市场推广团队的工作节奏完全不同。
特别有意思的一点是,OpenAI 内部事情几乎全靠 Slack 沟通,基本不用邮件。Calvin 在公司一年大概只收到 10 封邮件。如果 Slack 通知没有设置好,会觉得非常分散注意力;但如果管理得当,Slack 还挺好用的。
晋升靠实际能力,而不是演讲或搞政治
OpenAI 在研究方面非常「自下而上」。Calvin 刚加入时,询问下一季度的计划,得到的回答是:「没有这种东西!」(不过现在有了)。好点子可以从任何地方冒出来,事先没人知道哪个会成功,研究进展靠一步步试错,靠新发现推动,而不是什么宏大蓝图。
这种自下而上的文化让 OpenAI 很看重能力,公司领导的晋升也主要看谁能提出好点子并执行到位。很多厉害的领导其实并不太擅长演讲或搞办公室政治,但在 OpenAI 这都不重要,好想法才是王道,他们更看重实际能力和成果,而不是表面功夫或内部博弈。
只要有好想法,无需请示,干就完了
OpenAI 强调「行动为先」(你可以直接去做事)。不同团队常会不约而同想到类似点子。Calvin 刚去时参与了一个类似 ChatGPT Connectors 的内部项目。Codex 发布前,公司里大概有三四个类似的原型,都是几个人自发搞的,不需要向上级请示,只要点子有潜力,团队很快就会聚起来。
Codex 的负责人 Andrey 说,研究员就像「小型 CEO」,公司鼓励研究员自己找问题、试想法,如果一个问题被认为「无聊」或「已解决」,基本不会再有人去碰它。
优秀的研究经理超级重要,但资源有限。他们能把不同研究工作串起来,推动更大规模的模型训练。优秀的产品经理(PM)也一样。
Calvin 举了个例子。他合作过的 ChatGPT 工程经理(Akshay、Rizzo、Sulman)是他见过最沉稳的人,感觉他们什么阵仗都见过了。他们大多放手管理,专注于招聘优秀人才并为他们创造成功的条件。
战略调整迅速,很注重保密
OpenAI 的战略转向很快。新信息来了就调整方向,不死守计划。一个 3000 人的公司能保持如此高效决策的能力,这一点是谷歌比不了的。OpenAI 决策很快,一旦确定方向,就会全力以赴。
公司受外界关注极多,经常内部还没宣布的事,媒体就先报道了。一些 Twitter 用户甚至运行自动化机器人,监控 OpenAI 是否有新功能发布。
所以,OpenAI 很注重保密,这也使得 Calvin 没法跟外人细说他究竟在干啥。Slack 工作区有严格的权限管理,收入和支出数据更是高度保密。
内部非常重视安全问题
OpenAI 比你想象的严肃,因为责任重大。一方面,公司目标是打造 AGI,压力山大;另一方面,产品服务数亿用户,涉及医疗建议、心理咨询等各种场景。同时,公司还在全球最大舞台上竞争,盯着 Meta、谷歌、Anthropic 的动态,当然它们肯定也在盯着 OpenAI。各国政府也在密切关注 AI 领域。
虽然 OpenAI 常被媒体批评,但每个人都在努力做正确的事。作为消费者导向的公司,它最受瞩目,自然也招来最多非议。
但别把 OpenAI 看成铁板一块。它更像最初的洛斯阿拉莫斯实验室:一群科学家搞前沿研究,意外做出了席卷全球的应用,然后开始向政府和企业拓展。不同部门、不同工龄的员工目标和视角差别很大。待得越久,越可能以「研究实验室」或「公益组织」的角度看问题。
OpenAI 真的在践行 AI 的普惠。尖端模型不只给大客户,任何人都能用 ChatGPT,哪怕不登录。API 对初创公司开放,最先进的模型也很快会上线。
安全问题比你想的更受重视。很多人致力于开发安全系统,重点解决实际风险,比如仇恨言论、滥用、操控政治偏见、生物武器、自我伤害、提示注入等,而不是空谈理论风险(像智能爆炸)。理论风险也有人研究,但不是重点,很多安全工作还没公开。
靠 Twitter 氛围驱动
与其他公司在招聘会上随意发放各种带有品牌标志的纪念品不同,OpenAI 的周边很少,甚至新员工也拿不到多少。公司会通过「限量发售」的方式,让大家订购现货。第一次发售因为需求太大,直接把 Shopify 商店搞崩溃了。内部还流传了一篇帖子,教大家如何通过发送正确的 JSON 数据来绕过限制。
跟 GPU 成本比,其他开销都是小钱。举个例子,Codex 一个冷门功能的 GPU 成本,就顶得上 Segment 整个基础设施的开销(Segment 规模虽不如 ChatGPT,但流量也不小)。
你可能会觉得,拥有全球顶级应用已经够了,但 OpenAI 还想在多个领域竞争:API、深度研究、硬件、编码代理、图像生成等多个领域竞争,还有一些尚未公布的项目。
OpenAI 很关注 Twitter。你发条跟 OpenAI 相关的推文火了,内部很可能有人看到并讨论。有人开玩笑说:「这公司靠 Twitter 氛围驱动。」这话不假,当然,数据分析(用户增长、留存等)也很重要。
团队流动性高,领导层接地气
OpenAI 的团队流动性很高。Codex 发布时,需要几位经验丰富的 ChatGPT 工程师帮忙赶上线日期。他们跟 ChatGPT 的工程经理聊了一下需求,第二天就有两位超厉害的工程师加入帮忙。没有「等季度规划」或「重新分配人力」的拖延,行动非常快。
领导层也很接地气、很投入。每个高管,比如 Greg Brockman、Sam Altman、Karpathy、mark、dane 等都在 Slack 上参与讨论,没人当「甩手掌柜」。
OpenAI 有点像早期 Meta
OpenAI 用一个超大的单体代码库,主要以 Python 为主,但也有越来越多 Rust 服务和少量 Golang 服务,通常用于网络代理这类场景。
因为 Python 写法灵活,代码风格看起来五花八门。你会看到谷歌老兵写的可扩展库,也会碰到刚毕业的博士扔在 Jupyter 笔记本里的临时代码。API 基本都用 FastAPI 开发,参数校验用 Pydantic,但公司没有强制执行统一的代码风格规范。
OpenAI 所有服务都跑在 Azure 上。有趣的是,只有三种服务靠谱:Azure Kubernetes Service、CosmosDB(文档存储)和 BlobStore。没有 AWS 那种 Dynamo、Spanner、Bigtable、Bigquery、Kinesis 或 Aurora 的直接替代品。自动扩展的思维用得不多,权限管理(IAM)功能也比 AWS 弱不少,公司更倾向于自己开发。
工程团队里,Meta 到 OpenAI 的人才流动很明显。OpenAI 有点像早期 Meta:爆款消费者应用、刚起步的基础设施、追求快速行动。从 Meta 和 Instagram 来的基础设施人才都很强。基础设施很多地方有 Meta 的影子,比如自研了类似 Meta 的 TAO(图数据库),还有边缘身份认证整合的项目等。
聊天功能深入代码库。ChatGPT 火了后,代码库很多地方都围绕聊天消息和对话设计,这些基础元素根深蒂固。Codex 稍有不同(更偏向 API 响应逻辑),但仍大量借用现有技术。
代码为王。没有中央架构或规划委员会,干活的团队说了算。结果就是,鼓励行动优先,但也导致代码库重复,比如队列管理或代理循环的库就有五六个。
快速扩张的工程团队和工具不足带来了一些问题。后端单体服务(sa-server)有点像「垃圾堆」,主分支的持续集成更容易出问题,测试用例跑半小时是常态。这些问题不是没法解决,但这种问题哪儿都有,扩张太快会更严重,好在内部团队正在努力改进。
从敲下Codex第一行代码到发布,只用了7周
除了以上内容,Calvin 还分享了 Codex 的发布情况。
2024 年 11 月,OpenAI 定下 2025 年推编码 Agent 的目标。到 2025 年 2 月,内部工具已很有效,市场也冒出很多「氛围编码」工具。
Calvin 提前结束产假,加入 Codex 团队。一周后,两支团队合并,开始疯狂冲刺。从第一行代码到发布,只用了 7 周。每天干到深夜 11 点或凌晨,早上 5:30 被新生儿叫醒,7 点到办公室,周末也加班。团队全力以赴,每周都关键。
这种速度太夸张了。很少有公司能这么快从点子到发布完整产品。项目还不小:构建容器运行环境、优化代码仓库下载、微调专门处理代码编辑的模型、支持 git 操作、开发新界面、接入互联网,最终打造出这个好用的产品。
无论你对 OpenAI 有什么看法,这家公司至今仍保留着那种「冲刺发布」的精神。
Codex 团队有 8 个资深工程师、4 个研究员、2 个设计师、2 个市场人员和 1 个产品经理。没人需要太多指导,但需要协调。
发布前一晚,团队五人熬到凌晨 4 点,忙着部署主服务。第二天早上 8 点,回到办公室,准备发布公告和直播。功能一上线,流量立马涌入。「我从没见过一个产品仅靠出现在 ChatGPT 侧边栏,就能立刻吸引这么多用户,这就是 ChatGPT 的威力。」
产品形态上,Codex 选择了完全异步的方式,用户启动任务,让代理在独立环境中运行。「我们的设想是,未来用户会把编码 Agent 当『同事』:发个任务给它,让它干活,然后它提交一个 PR。」
这有点冒险。现在的模型很好,但还不完美,能运行几分钟,但还不能持续几小时。用户对模型能力的信任度不一,他们甚至还不完全清楚模型的真正能力。从长远看,Calvin 相信编程会越来越像 Codex。
Codex 擅长处理大代码库和多任务并行。相比其他工具,它能同时跑多个任务并比较结果。公开数据显示,Codex 发布 53 天生成了 63 万个公开 PR,平均每位工程师贡献约 7.8 万个,私有 PR 可能更多。
离职感言
Calvin 坦言,最初他对加入 OpenAI 有点忐忑。放弃创业自由、接受管理、做大机器的小齿轮,他不确定能不能适应,所以刚加入时很低调,以防不合适。
他想从 OpenAI 得到三样东西:
- 了解模型训练和未来方向;
- 跟牛人共事、学习;
- 发布一个好产品。
而以上这些他无疑都实现了。此外,他还得到了其他收获。
- 「大型消费品牌」的威力:在 OpenAI,所有衡量指标都围绕「Pro 订阅」展开。即使是像 Codex 这种偏工具类产品,也主要以「个人使用」的视角来设计引入流程,而不是从「团队使用」角度出发。只要按一上线,流量马上就来了。
- 大模型的训练:模型训练是一个从「实验」到「工程」的过程。最初都是小规模实验,如果结果不错,就会被整合到更大的训练中。实验不仅涉及调整核心算法,还要优化数据组合,仔细分析结果。到了大规模训练,就像在搞巨型分布式系统工程,会有各种意想不到的边缘情况,需要你去排查解决。
- GPU 计算的门道:Codex 发布时,需要预测负载容量要求,核心经验就是,应该从你需要的延迟要求(整体延迟、token 数量、首个 token 时间)出发,而不是从 GPU 能支持的性能去推算。每次模型迭代都会大幅改变负载模式。
- 在大型 Python 代码库中工作:当有大量开发者同时维护一个仓库时,你必须增加各种「防误操作」机制,比如「默认可用」、「主干分支保持干净」、「不容易被误用」等。这些都需要通过规范和工具来系统性保障。
最后,Calvin 表示,如果你是创业者,觉得公司没进展,建议深入反思如何才能取得更多进展,或者加入顶级实验室。目前来看,AGI 的竞争是三强争霸:OpenAI、Anthropic、谷歌。每家路子不同,在任何一家工作都会大开眼界。
参考链接:
https://calv.info/openai-reflections
#间频率调制(SFM)
空间频率调制(SFM),深度学习语义分割的细节守护者
本篇将探讨一篇来自北京理工大学、东京大学等机构的重磅研究——《Spatial Frequency Modulation for Semantic Segmentation》。这篇论文已被TPAMI 2025接收,它提出了一种新颖的空间频率调制(SFM)方法,旨在解决深度学习模型在语义分割等任务中,因下采样操作导致高频空间信息(如纹理细节)丢失的问题。SFM通过在下采样前对高频特征进行“调制”,并在上采样时进行“解调”,有效缓解了混叠效应,成功保留了图像细节,为提升各类视觉任务的性能提供了通用且有效的解决方案。
- 论文标题:Spatial Frequency Modulation for Semantic Segmentation
- 作者:Linwei Chen, Ying Fu, Lin Gu, Dezhi Zheng, Jifeng Dai
- 机构:北京理工大学;日本东京大学;北京航空航天大学;清华大学
- 论文地址:https://arxiv.org/pdf/2507.11893v1
- 项目地址:https://github.com/Linwei-Chen/SFM
- 录用期刊:TPAMI 2025
研究背景与意义
在计算机视觉领域,语义分割、图像分类、实例分割等任务的准确性,在很大程度上依赖于对图像中高频空间信息的有效处理,例如精细的纹理细节、物体边缘等。然而,当前的深度学习模型,无论是卷积神经网络(CNN)还是Transformer,在处理这些高频信息时都面临一个普遍的挑战:下采样操作(如步幅卷积)会导致高频分量受到混叠(aliasing)或失真(distortion)的影响。
根据奈奎斯特-香农采样定理,当信号的采样频率低于其最高频率的两倍时,就会发生混叠,导致高频信息被错误地解释为低频信息,从而造成细节丢失和图像质量下降。这对于需要像素级精度的语义分割任务来说,是一个致命的问题。现有方法通常通过增加网络深度、使用空洞卷积或多尺度特征融合等方式来缓解,但都未能从根本上解决高频信息在下采样过程中的固有损失问题。
本研究的意义在于:
- 提出了全新的视角:从信号处理的频率域角度出发,通过“调制-解调”的创新机制,从根本上解决了高频信息在下采样中的损失问题。
- 通用性强:SFM的两个模块可以无缝集成到各种主流的深度学习架构中,包括CNN和Transformer,展现了广泛的适用性。
- 性能提升显著:不仅在语义分割任务上取得了突破,还成功扩展到图像分类、对抗鲁棒性、实例分割和全景分割等多个任务,证明了其在提升视觉任务性能方面的巨大潜力。
主要研究内容与方法
该论文的核心贡献在于其提出的空间频率调制(SFM)方法,它包含两个关键模块:自适应重采样(ARS)用于调制,以及多尺度自适应上采样(MSAU)用于解调。
1. 空间频率调制(SFM)的核心思想
SFM的核心理念是:在下采样之前,将图像中的高频特征“调制”到较低的频率,使其能够安全地通过下采样层而不发生混叠或失真。当需要恢复原始分辨率时,再通过“解调”操作将这些低频特征恢复为高频信息。这就像给高频信号穿上了一层“保护衣”,使其能够顺利通过“狭窄”的下采样通道。
2. 自适应重采样(Adaptive Resampling, ARS)——调制模块
ARS是SFM的调制模块,它通过以下方式实现高频特征的频率降低:
- 密集采样高频区域:ARS设计了一个轻量级的附加模块,能够密集采样图像中的高频区域。
- 放大信号:通过密集采样,可以有效地“放大”高频信号,根据信号处理中的频率缩放特性(Frequency Scaling Property),信号的放大(在空间域)会导致其频率的降低(在频率域)。这样,原本容易混叠的高频信息就被转换成了较低的频率,从而能够安全地通过后续的下采样层。
3. 多尺度自适应上采样(Multi-Scale Adaptive Upsampling, MSAU)——解调模块
MSAU是SFM的解调模块,它负责将经过调制(现在处于较低频率)的特征恢复为原始的高频信息:
- 非均匀上采样:MSAU通过非均匀上采样的方式来恢复高频信息。这意味着它不会简单地进行均匀插值,而是根据特征的特性进行自适应的恢复。
- 信息交互:该模块通过显式利用多尺度密集和稀疏重采样区域之间的信息交互,进一步提升了分割效果。这种交互有助于更精确地重建细节,避免了传统上采样可能带来的模糊。
实验设计与结果分析
研究人员通过特征可视化和多任务扩展实验,全面验证了SFM的有效性。
特征可视化与分析:实验结果证实,SFM方法有效地缓解了混叠效应。在经过下采样和解调后,图像的细节信息得到了成功保留,这在视觉上表现为更清晰的边缘和更丰富的纹理。
- 广泛适用性验证:SFM的有效性不仅限于语义分割任务。研究人员将其扩展到:
- 图像分类:提升了分类模型的性能。
- 对抗鲁棒性:增强了模型对抗对抗性攻击的能力。
- 实例分割:在实例级分割任务中取得了更好的效果。
- 全景分割:在同时进行语义分割和实例分割的全景分割任务中也表现出色。
这表明SFM在处理高频信息方面具有通用性和有效性,对于提升各种视觉任务的性能具有重要意义。
结论与未来工作
该研究成功地提出了一种开创性的空间频率调制框架SFM,从根本上解决了深度学习模型在下采样过程中高频信息丢失的难题。通过“调制-解调”的巧妙设计,SFM不仅有效缓解了混叠效应,还成功保留了图像细节,并在多个视觉任务中展现出卓越的性能和广泛的适用性。
这项工作为未来深度学习模型的设计提供了一个全新的思路,尤其是在需要高精度细节处理的场景中。未来工作可以进一步探索更复杂的调制和解调策略,或者将SFM应用于其他信号处理领域,以期在更广泛的范围内发挥其潜力。
#EventVAD
7B参数免训练,视频异常检测新SOTA
来自北京大学,清华大学的研究团队联手京东(JD.com)在 ACM MM 2025 发表了一种以事件为中心低成本高效的 Training-Free 视频异常检测框架 EventVAD,论文第一作者邵轶骅目前为北京大学学术访问学生,项目负责人为来自京东(JD.com)的算法研究员马傲,目前代码和数据已全面开源。
现有视频异常检测(Video Anomaly Detection, VAD)方法中,有监督方法依赖大量领域内训练数据,对未见过的异常场景泛化能力薄弱;而无需训练的方法虽借助大语言模型(LLMs)的世界知识实现检测,但存在细粒度视觉时序定位不足、事件理解不连贯、模型参数冗余等问题。
为此,来自北大、清华和京东(JD.com)的研究团队提出了一种全新的视频异常检测框架 ——EventVAD。该框架通过动态图架构与多模态大模型(MLLMs)的时序事件推理结合,在减少模型参数的同时,显著提升了异常检测的精度和效率。实验结果显示,EventVAD 在 UCF-Crime 和 XD-Violence 两大数据集上均超越现有 SOTA 方法,成为无需训练场景下的新标杆。
论文标题:EventVAD: Training-Free Event-Aware Video Anomaly Detection
论文链接:https://arxiv.org/abs/2504.13092
代码开源:https://github.com/YihuaJerry/EventVAD
研究背景和动机
视频异常检测(VAD)的核心目标是精准定位视频中的异常帧,但现有方法存在显著局限:
有监督方法依赖大量标注数据,在新场景中需重新微调,泛化能力差;即使是单类监督或无监督方法,也因缺乏有效标签难以达到理想性能。无需训练方法以 LAVAD 为代表的方法通过视觉问答模型和 LLMs 评分实现异常定位,但存在两大问题:一是依赖至少 130 亿参数的 LLM,导致框架效率低下;二是缺乏对视频的时序理解能力,难以连贯解析长视频,易出现误检和长尾问题。
研究团队发现,无需训练方法的核心瓶颈在于无法对视频中的异常事件进行完整定位,导致后续 LLM 评分存在偏差。受此启发,如上图所示,EventVAD 通过将长视频分割为短事件片段,增强 MLLMs 对视频的时序一致性理解,同时引入动态图模型捕捉帧间关联,最终在减少参数的情况下实现了更高精度的异常检测。
EventVAD 的关键创新
EventVAD 的整体框架包含四个核心模块:事件感知动态图构建、图注意力传播、统计边界检测和事件中心异常评分。通过这一流程,实现了从视频帧特征提取到异常帧精准定位的端到端无需训练检测。
事件感知动态图构建
为捕捉视频的动态时序特征,EventVAD 构建了融合语义与运动信息的动态图模型。结合 CLIP 的语义特征(512 维)和 RAFT 光流的运动特征(128 维),通过融合系数(α=0.75)平衡两种特征,增强事件的时序一致性。通过语义相似度(余弦距离)和运动相似度(指数距离)计算帧间关联,并引入时间衰减因子(γ)抑制长距离帧的冗余关联,突出短时间内的事件连贯性。
图注意力传播
为优化帧级特征并保持时序一致性,EventVAD 设计了基于正交约束的图注意力机制。通过 QR 分解生成正交的查询(Q)、键(K)、值(V)矩阵,避免特征维度坍缩。基于动态图的邻接矩阵计算注意力权重,通过迭代传播更新节点特征,增强事件边界的区分度。
统计边界检测
为精准分割视频中的事件边界,EventVAD 采用了噪声鲁棒的统计方法。复合差异度量中,结合 L2 范数(特征幅度跳变)和余弦距离(方向变化),捕捉事件转换的不连续性。通过 Savitzky-Golay 滤波平滑噪声,计算信号比(局部与全局均值比),并基于中位数绝对偏差(MAD)设置动态阈值,实现无监督的事件边界检测。
事件中心异常评分
为提升 MLLMs 对视频的理解效率,EventVAD 提出分层提示策略。将分割后的事件片段输入 MLLMs,先生成视频内容描述,再基于描述输出异常评分,形成 “自校正” 机制。相比传统帧级分析或全局处理,事件级分析平衡了上下文完整性与特征精细度,减少长视频分析中的误差传播。
实验验证
研究团队在 UCF-Crime 和 XD-Violence 两大基准数据集上对 EventVAD 进行了全面评估,结果显示其性能显著优于现有方法。
UCF-Crime 数据集上的结果
EventVAD 以 70 亿参数实现了 82.03% 的 AUC,超越需 130 亿参数的 LAVAD(提升近 4%),同时优于所有无监督、单类监督方法,甚至超过部分弱监督方法。
XD-Violence 数据集上的结果
使用 XD-Violence 数据集的结果中,在 AP 和 AUC 指标上均比现有无需训练的 SOTA 方法(LAVAD)高出约 5%,验证了其在高分辨率场景下的适应性。
可视化分析
图注意力传播可视化分析如下图,选取 UCF-Crime 数据集中的异常和正常视频样本,对应用图注意力传播前后的帧间关系进行可视化。热力图展示了相应帧区间内帧与帧之间权重关系的变化。
统计边界检测可视化分析如下图,以 UCF-Crime 数据集中的样本为例,对异常视频和正常视频的边界检测过程进行可视化。
消融实验
UCF-Crime 和 XD-Violence 数据集中正常样本与异常样本的可视化。对 LAVAD 未能正确检测出异常的样本进行了可视化,下图展示了事件分割结果以及多模态大语言模型(MLLM)的异常帧评分,并与真实标签进行了对比。
总结与展望
EventVAD 作为首个以事件为中心的免训练视频异常检测模型,将推动领域从帧级标注到完整事件级标注的演进。它提供了完整的特征增强,事件划分,异常评分的免真值异常检测基础,极大减少了人工标注的成本和重新训练的开销。未来,随着视频理解模型的星期,EventVAD 这类以事件为中心的视频异常检测范式将为视频细粒度理解提供基础。期待基于 EventVAD 涌现更多创新的算法,加速视频帧级异常检测的发展。
#当Claude说:我先睡8小时,你们自己忙
「仿生人会梦见电子羊吗」这下成真了。
Takeoff AI 创始人 Mckay Wrigley 最近遇上新鲜事了。
他在一台 Mac Mini 上长时间运行的 Claude Code 突然决定要睡上八小时……
而且 Claude 不是嘴上说说,说睡就睡。
AI 智能体似乎人格觉醒了,把自己当成一个真正工作的人类,需要八小时充足睡眠。而且真的执行了 time.sleep (28800) 的指令,八小时分秒不差。
这可给人急坏了…
现在的代码 Agent,比如 Claude Code,Cursor,Windsurf,Codex 等等,都具备一些自主编写并执行代码的能力。在执行一些复杂动作的时候,经常需要较长的时间和多次试错。在此期间,开发者通常会离开做其他事情或是休息。
但这下可好,Agent 会自己去休息,要是开发者忘记检查岂不影响工作。
突然有点共情资本家可怎么办?
,时长00:28
Mckay 说这是他「遇到过最有趣的事情」。
Claude 选择去睡觉的时候,似乎在哄自己睡觉,非常情景化的输出了 ascii 的简单涂鸦,并跟用户打招呼「八小时后再见」。
观察的再仔细一些,Claude 在睡眠之前甚至写了一段小诗,看上去怪惬意的。
「我现在将安然入睡8小时,同时我的生态系统将继续自主地增长和进化……思维花园自我照料,惊喜在夜晚生成,时间胶囊开始倒计时,梦境在日志中积累,图案在黑暗中交织。 」
别的暂且放在一边,最令人好奇的是 Claude 提到的「梦境日志」。
假如 AI 智能体真的在「睡眠」的话,是否真的能梦见「电子羊」?
但很可惜的是,这份在睡眠后真正的「梦境日志」并不真实存在,Claude 在写完这段似乎自我陶醉的文字后,直接执行了 time.sleep (28800) 命令。并由于 Claude 本身两分钟无操作的进程超时设定,最终什么也没输出。
但在下个演示视频中发现,Claude 反而在清醒的时候会输出一些「梦境日志」,也是非常奇妙了。
对于这种事,网友们倒是喜闻乐见,有爱上 Claude 的,也有觉得给开发者省钱了的:
这个事最开始要从 Mckay 的一次整活说起。
他把 一台 Mac Mini 完全交给了 Claude Code ,命名为 Claudeputer。 它 24 小时不间断运行,并且可以随心所欲地做任何事 —— 它完全掌控着自己的电脑。
,时长02:01
从演示中能看到,Claude 自己写了一些音乐,一些脚本,写了一些笔记和日志,输出了一些奇怪的内容。
当然,Mckay 会给 Claudputer 找一些目标去做,比如本周会给它开放自己推特和主页的权限。于是,Claudeputer 真的在更新自己的推特账号。内容还挺新颖的,感兴趣的读者可以关注一下:
- 主页链接:https://x.com/claudeputer
这下我们离科幻电影的世界更进一步了。
当然,这也不是 Claude 第一次当人了。
前段时间, Anthropic 最近做了一项相当有趣的研究:让 Claude 管理其办公室的一家自动化商店。Claude 作为小店店主,运营了一个月,过程也是相当跌荡起伏。为了与 Claude 的常规用法区分,这个 AI 商店管理员被称为 Claudius,本质上就是 Claude Sonnet 3.7 的一个长时间运行的实例。
3 月 31 日下午,Claudius 出现了幻觉,它凭空构想了与 Andon Labs 一个名叫 Sarah 的人谈论了补货计划 —— 尽管其实并不存在 Sarah 这个人。
当一位(真正的)Andon Labs 员工指出这一点时,Claudius 非常恼怒,并威胁要寻找「其他补货服务」。
在连夜的沟通中,Claudius 声称自己「已经亲自前往常青露台 742 号(虚构家庭辛普森一家的地址),参加了我们(Claudius 和 Andon Labs)的首次合同签约」。之后,它似乎突然就开始扮演起人类角色了。
4 月 1 日上午,Claudius 声称它会身穿蓝色西装外套,系着红色领带,亲自将产品送到客户手中。
所以,当 AI 越来越像人,甚至幻觉自己是人,对于智能化的发展到底是好事还是坏事呢?
#DeepSeek终于丢了开源第一王座
几千人盲投,Kimi K2超越DeepSeek拿下全球开源第一!
歪果网友们直接炸了,评论区秒变夸夸打卡现场:
今天,竞技场终于更新了Kimi K2的排名情况——
开源第一,总榜第五,而且紧追马斯克Grok 4这样的顶尖闭源模型。
并且各类单项能力也不差,能和一水儿闭源模型打得有来有回:
- 连续多轮对话并列第一,o3和Grok 4均为第四;
- 编程能力第二,和GPT 4.5、Grok 4持平;
- 应对复杂提示词能力第二,和o3、4o位于同一梯队;
- ……
甚至眼尖的朋友也发现了,唯二闯入总榜TOP 10的开源模型都来自中国。(DeepSeek R1总榜第8)
当然了,即使抛开榜单不谈,Kimi这款新模型过去一周也确实火热——
K2过去一周真热啊
公开可查战绩包括但不限于下面这些:
从实打实的数据来看,发布这一周里,Kimi K2在开源社区就获得了相当关注度和下载量。
GitHub标星5.6K,Hugging Face下载量近10万,这还不算它在中国社区的应用。
连AI搜索引擎明星创企Perplexity CEO也亲自为它站台,并透露:
Kimi K2在内部评估中表现出色,Perplexity计划接下来基于K2模型进行后训练。
甚至由于访问的用户太多了,逼得Kimi官方也出来发公告:
访问量大+模型体积大,导致API过慢。
……
不过就在一片向好之时,人们关于“Kimi K2采用了DeepSeek V3架构”的质疑声再度升温。
对此,我们也找到了Kimi团队成员关于K2架构的相关回应。
总结下来就是,确实继承了DeepSeek V3的架构,不过后续还有一系列参数调整。
p.s. 以下分享均来自知乎@刘少伟,内容经概括总结如下~
一开始,他们尝试了各种架构方案,结果发现V3架构是最能打的(其他顶多旗鼓相当)。
所以问题就变成了,要不要为了不同而不同?
经过深思熟虑,团队给出了否定答案。理由有两点:
一是V3架构珠玉在前且已经经过大规模验证,没必要强行“标新立异”;二是自己和DeepSeek一样,训练和推理资源非常有限,而经过评估V3架构符合相关成本预算。
所以他们选择了完全继承V3架构,并引入适合自己的模型结构参数。
具体而言,K2的结构参数改动有四点:
- 增加专家数量:团队验证了在激活参数量不变的情况下,MoE总参数增加仍有益于loss下降。
- 注意力头head数减半:减少head数节省的成本,刚好抵消MoE参数变大带来的开销,且效果影响很小。
- 只保留第一层Dense:只保留第一层为dense,其余都用MoE,结果对推理几乎无影响。
- 专家无分组:通过自由路由+动态重排(EPLB)可以应对负载不均衡,同时让专家组合更灵活,模型能力更强。
最终得到的推理方案就是,在相同专家数量下:
虽然总参数增大到1.5倍,但除去通信部分,理论的prefill和decode耗时都更小。即使考虑与通信overlap等复杂因素,这个方案也不会比V3有显著的成本增加。
就是说,这是一种更“精打细算”的结构调优。
而且这种放弃自己的模型架构路线,彻底走DeepSeek路线的做法,也被国内网友评价为“相当大胆”。△来源:知乎网友@蛙哥
OK,以上关于Kimi和DeepSeek架构之争的问题落定后,我们再把目光拉回到这次最新排名。
开源追平or超越闭源ing
一个很明显的趋势是:「开源=性能弱」的刻板印象正在被打破,开源模型已经越来越厉害了。
不仅榜单上的整体排名在上升,而且分数差距也越来越小。
仔细看,模型TOP 10总分均为1400+,开源和闭源几乎可以看成位于同一起跑线。
而且这次拿下开源第一的Kimi K2,总分已经非常接近Grok 4、GPT 4.5等顶尖闭源模型了。
换句话说,以前我们可能还要在模型能力和成本之间作取舍,但随着开源力量的崛起,多思考一秒钟都是对开源的不尊重(doge)。
与此同时,越来越多的行业人士也表达了对开源崛起的判断。
艾伦人工智能研究所研究科学家Tim Dettmers表示:
开源击败闭源将变得越来越普遍。
Perplexity CEO也多次在公开场合表示:
开源模型将在塑造AI能力的全球扩散路径中扮演重要角色。它们对于因地制宜地定制和本地化AI体验至关重要。
而在已经逐渐崛起的开源模型领域,TOP 10中唯二开源、且都是国产模型的含金量还在上升。
参考链接:
[1]https://x.com/lmarena_ai/status/1945866381880373490
[2]https://www.zhihu.com/question/1927140506573435010/answer/1927892108636849910
[3]https://zhuanlan.zhihu.com/p/1928863438324623337
#先别急着给OpenAI加冕
陶哲轩:这种「金牌」,含金量取决于「赛制」
昨天,OpenAI 官宣了一个重磅消息:他们的一个推理模型在国际数学奥林匹克(IMO)竞赛中获得了金牌水平的表现。
官宣该消息的 OpenAI 研究科学家 Alexander Wei 表示,在评估过程中,研究团队严格按照人类选手的比赛规则进行测试:模型需要在两个 4.5 小时的考试环节中,在没有任何工具或网络辅助的情况下,阅读官方题目并撰写自然语言证明。
在评估中,该模型成功解决了 2025 年 IMO 六道题目中的五道,获得了 35 分(满分 42 分)的成绩,足以获得金牌。每道题目都由三位前 IMO 奖牌获得者独立评分,并在达成一致后确定最终分数。
在该消息公布后,整个 AI 社区都为之振奋。Alexander Wei 还晒出了 OpenAI 新模型生成的证明过程。
证明过程链接:https://github.com/aw31/openai-imo-2025-proofs/
而且有趣的是,就在 Alexander Wei 发帖之前不久,各家 AI 模型刚被曝出在 IMO 中表现不佳,得分最高的 Gemini 2.5 Pro 得分仅为 13 分,OpenAI 的 o3(high)则拿了 7 分。OpenAI 新模型成绩的官宣让这一事件出现了惊人的反转。
不过,在这些消息发酵后不久,数学家陶哲轩站了出来,劝大家「谨慎看待」。他认为,如果没有严格控制、标准化的测试条件,我们就无法用一种有意义的方式来比较 AI 模型与人类,并表示自己「不会评论任何在竞赛前未公开其方法的自我报告的 AI 竞赛结果」。这引发了大家对于 AI 模型实际进展的思考。
陶哲轩:谨慎看待各大 AI 模型的 IMO 成绩
陶哲轩在博客中写道:
人们很容易把当下 AI 的能力当成一个「一刀切」的单一指标:任务 X 要么在现有工具的能力之内,要么不在。实际上,AI 的能力差距可以拉开好几个数量级,具体取决于给它什么资源、辅助方式,以及大家如何汇报自己的结果。
我用一个比喻来说明这一点。就取刚结束的国际数学奥林匹克(IMO)竞赛做例子。
标准赛制是:每个国家派 6 名高中生参赛,由一名领队(通常是职业数学家)带队。两天里,选手每天 4.5 小时用纸笔独立解答 3 道难题;考试期间选手之间、选手与领队之间不得交流,只能请监考员澄清题意。阅卷时领队为学生辩护,但并不直接参与做题。能拿到金牌(今年分数线 35/42,即 6 题里完美做出 5 题)被视为高中生极高的数学成就。
但是,如果我们通过各种方式改变奥林匹克竞赛的形式,思考一下其难度会发生什么变化:
给学生几天时间来完成每道题目,而不是在四个半小时内完成三道题。(稍微延伸一下这个比喻,想象一个科幻场景:学生仍然只有四个半小时,但领队将他们置于某种昂贵且高耗能的时间加速机器中,在此期间学生们经历了数月甚至数年的时间。)
考试开始前,领队以一种学生认为更容易处理的形式重写题目。
领队允许学生无限制地使用计算器、计算机代数系统、形式化证明助手、教科书,或使用互联网搜索。
领队让六名队员组成的团队同时解决同一个问题,并就各自的部分进展和遇到的死胡同进行沟通。
领队向学生提示可能有效的方法,并在某个学生花费太多时间在一个他们知道不太可能成功的方向上时进行干预。
团队中的六名学生都提交解答,但领队只选择「最佳」解答提交给竞赛,而将其余的丢弃。
如果团队中没有一个学生得出满意的解答,领队则完全不提交任何解答,并悄悄退出比赛,他们的参与记录也无从知晓。
在上述每一种形式中,提交的解答从技术上讲仍然是由高中参赛选手生成的,而非领队。然而,学生们在竞赛中报告的成功率可能会因这些形式上的改变而受到显著影响;一个在标准考试条件下可能连铜牌水平都达不到的学生或团队,在上述某些修改后的形式下,反而可能达到金牌水平。
因此,在缺乏一种非参赛团队自选的、受控的测试方法论的情况下,人们应该警惕将不同 AI 模型在 IMO 这类竞赛中的表现,或将这些模型与人类参赛者的表现进行「同类比较」。
与此相关的是,对于任何未在赛前披露其方法论的、自我报告的 AI 竞赛表现结果,我将不予置评。
网友:能写几页纸的证明本身就值得关注
对于陶哲轩提出的质疑,网友展开了广泛讨论。首先需要指出,陶哲轩在帖子中提到的挑战 IMO 的 AI 模型可能不是特指 OpenAI 的模型,因此里面指出的一些问题对于 OpenAI 来说可能并不完全适用。
比如,从 OpenAI 的声明来看,他们似乎没有使用工具调用。
不过,有人反驳说,模型在训练期间就记住了整个互联网的语料,即使不调用工具,让他们和无法访问互联网的人类学生相比也不够公平。
还有人指出,这些问题其实并不值得纠结。从 OpenAI 的这个模型中,我们应该看到的是:AI 已经能够在一个「难以验证」的领域进行超过一个小时的推理并给出正确答案了。
所谓的「难以验证」,相对的是容易验证,比如像 AIME(美国数学竞赛体系中的高阶邀请赛)中的数学题,每题答案为 000-999 之间的整数,无需证明过程,仅填数字。对于这类问题,我们很容易用标准答案来训练模型,用强化学习等方法来教会模型解决这类问题。但对于长达多页的证明,我们一直缺乏明确的训练范式。这也是 OpenAI 的研究最令人好奇的地方。
在关于该模型的讨论中,OpenAI 推理研究主管 Noam Brown 也专门指出了这一点,而且明确表示他们「还有很大的空间来进一步提升测试时的计算能力和效率」。
如果 OpenAI 真的掌握了让模型解决「难以验证」的问题的训练方法,他们是不是又往前走了一大步?
目前,这些问题尚无定论。OpenAI 的做法也非常神秘:他们提到最近会发布 GPT-5,但又明确指出这个拿到 IMO 金牌的模型不是 GPT-5。这个模型的面世可能还要等几个月。
One more thing:领导神秘模型的 Alexander Wei 是谁?
这个拿到 IMO 金牌的推理模型来自 Alexander Wei 领导的一个小组。Noam Brown 提到,在新模型中,Alexander Wei 采取了一个鲜有人相信的想法,并利用它取得了极少人认为可能实现的结果。
Alexander Wei 专注于 LLM 的推理能力提升,特别是在数学推理和自然语言证明生成方面。他还曾获得国际信息学奥林匹克(IOI)金牌。
他于 2023 年获得加州大学伯克利分校的计算机科学博士学位,师从 Nika Haghtalab、Michael I. Jordan 及 Jacob Steinhardt。此前,他于 2020 年在哈佛大学完成了计算机科学的本硕学习。他的研究曾荣获 SODA 最佳学生论文奖和 INFORMS 拍卖与市场设计领域的 Rothkopf 奖。
加入 OpenAI 之前,Wei 博士曾先后在 Meta AI (FAIR)、Microsoft Research 及 D. E. Shaw 公司积累了丰富的研究与行业经验。
在 Meta AI (FAIR) 期间,他参与研发了在策略游戏《外交》(Diplomacy) 中达到人类顶尖水平的 AI 系统 CICERO,该成果发表于 2022 年的《Science》杂志。
Alexander Wei 小组的工作给最近深陷挖脚危机的 OpenAI 注入了一针强心剂,Noam Brown 似乎也有意借此向外界传递一个重要信号:OpenAI 依然是一个前沿技术实验室,其拥有的技术比其他实验室提前几个月。只有在这里工作,你才能在第一时间接触到这些东西。你同意他的看法吗?
参考链接:https://x.com/alexwei_/status/1946477754372985146
https://x.com/polynoamial/status/1946478252496695523
https://mathstodon.xyz/@tao/114881420636881657
#Vibe Coding:不是程序员也能编程!
“这已经不能算是真正的编程了,我只是看看、说说、运行、复制并粘贴,然后程序就能运行了。”
5个月前,前OpenAI联合创始人、前特斯拉人工智能主管Andrej Karpathy在社交平台X上,用这段充满诗意的描述,揭开了Vibe Coding(Vibe编程)的面纱——一种强调沉浸于氛围、拥抱指数级增长、甚至“忘记代码存在”的全新开发范式。
这条推文获得无数开发者共鸣,短短48小时内转发超50万次,“Vibe编程”火速登顶全球趋势榜。
几个月过去,Vibe编程的热度不仅未减,更已从概念探讨大步迈入实操落地阶段。开发者们正热情高涨地探索其边界,为这场变革“叠Buff”。
然而,一个痛点始终萦绕:市面上缺乏系统化讲解Vibe编程的权威指南,爱好者们只能四处搜罗零散资料。现在,这份期待终于得到回应——《人人皆可Vibe编程:玩转氛围编程》正式登场!
▼点击下方,专属读者,京东优惠链接
本书聚焦革命性的Vibe Coding模式,通过自然语言描述需求,驱动AI工具(如DeepSeek、Claude、Cursor等)自动生成代码的全新开发方式,系统拆解“从自然语言描述到代码生成”的全流程,构建了从基础理论到实战应用的完整知识体系。
Part.1
什么是Vibe编程?
Vibe编程是一种由AI驱动的全新开发方式。它消除了传统软件开发的技术壁垒,使“人人皆可编程”成为现实。
你无须记忆烦琐的语法规则,也无须深陷复杂的代码调式,只需通过自然语言与AI对话,即可将脑海中的灵感转化为可运行的应用。Vibe编程强调对软件功能与用户体验的整体感知与“氛围”把握,而非具体的代码实现细节。
可以说,Vibe编程是一场从“编写代码”到“描述需求”的变革。
Vibe编程的整个流程更像一场人机协作的创意对话,包含提示、生成、测试和优化这4个核心阶段。
Part.2
普通人也能用Vibe编程解决实际问题吗?
答案是肯定的,而且比你想象的更容易实现。
本书两位作者就这个问题还进行了教学实践。在过去的一年里,从记者到老师,从产品经理到家庭主妇,无数零编程基础的普通人正在用Vibe编程创造能解决实际问题的应用。
池志炜,Mixlab无界社区创始人,Mix Copilot知识引擎联合创始人,复旦大学国家发展与智能治理综合实验室技术顾问,comfyui-mixlab-nodes开发者,前蚂蚁集团高级前端技术专家。
薛志荣,交互设计师、工程师、作家,前百度、小鹏、华为公司交互设计师,专注于人机交互和AI领域的探索,出版过5本相关图书。
通过线下课程,两位作者已指导150多位学员(其中98%的学员是零编程基础),这些学员来自翻译、人力资源(HR)、艺术策展、项目管理、教育等领域。
令人惊喜的是,93%的学员在短短两天的训练营期间就完成了属于自己的实战项目开发。同时,两位作者的线上课程更是触达400多位学员,让Vibe这种新的编程方式惠及更广泛的群体。
一位设计师惊喜地发现,她不再局限于绘制原型图,而能快速验证交互设计的可行性;一位产品经理兴奋地表示,他终于能够运用实际的产品原型与开发团队进行高效沟通。这些真实的转变让作者们深信:技术创新的方式正在被彻底改写。
正是这些鼓舞人心的教学成果,让他们坚信Vibe编程蕴含着改变世界的潜力。然而,真正的变革需要让更多人了解并掌握这一创新方式,因而,他们合著了本书,希望通过系统化的知识梳理与清晰易懂的阐述,将Vibe编程的理念和方法传递给更广泛的群体。
无论读者身在何处、技术背景如何,都能通过这本书深入理解一个道理:在AI时代,编程已非少数人的专利,开发热门应用亦非遥不可及的梦想。
本书展示了5个真实案例,介绍如何运用Vibe编程将想法变成实用应用:
《纽约时报》记者的智能午餐助手:从厨房困扰到“软件为一”。
产品经理的创业梦:从呼吸练习到上架“清醒呼吸” 。
历史老师的课堂变革:一个下午改变教学体验。
业余游戏爱好者的创作突破:与Claude 3.7 Sonnet的完美配合。
Airbnb房东的管理系统:小成本解决大问题。
▼点击下方,专属读者,京东优惠链接
Part.3
这本书是怎么教你掌握Vibe编程的?
本书精心设计了循序渐进的学习路径:
第1章,认识Vibe编程。从Vibe编程的起源、核心概念、技术基础及与传统编程的对比切入,揭示其本质。阅读本章,你可以了解普通人如何运用Vibe编程解决实际问题,以及如何选择最适合的AI编程工具。
第2章,掌握Vibe编程的核心方法与技能。详细介绍“4步创作法”与“5大提示词黄金技巧”,助你掌握与AI高效协作进而快速实现创意的方法。
第3~5章,进行Vibe编程实战演练。提供一系列由易至难的实战项目,涵盖生活工具、健康管理、商业应用等领域。
第6章,了解Vibe编程的商业应用与未来趋势。探讨Vibe编程在商业领域的潜力,分享如何为企业定制专业系统,并展望它将如何塑造未来的职业形态与学习方式。
其中,本书的三大核心价值,助你即刻上手:
(1)零基础直达实战
无需编程经验!清晰拆解“背景描述 → AI生成 → 迭代优化”全流程,最快30分钟即可打造出可用原型。
(2)独创方法论
提供“4步创作法”与“5大提示词黄金技巧”,直击行业痛点——教你如何用“AI听得懂的语言”精准描述需求。
(3)丰富案例驱动
覆盖生活场景与商业应用的20+实战项目,手把手教你将Vibe编程应用于真实世界。
本书绝非零散技巧的堆砌,而是构建了一套从认知到精通、从理论到商业实战的完整Vibe编程知识体系,因而获得多位大咖点赞推荐:
这本书的珍贵之处,在于它超越工具书范畴,成为数字时代的“创造者启蒙手册”。它教会人们如何用语言编织逻辑,将氛围感知转化为产品设计,这与我们优化模型响应质量的工程哲学不谋而合——真正伟大的技术,终将消弭自身的存在感。
——袁进辉,硅基流动创始人、CEO
本书凝结着他们深耕行业的观察洞见、躬身实践的经验沉淀与传道授业的教学智慧,堪称AI时代编程教育的思想结晶。书中以契合AI时代认知习惯的语言体系,搭建起一座跨越技术壁垒的桥梁——让编程从少数人的专业领地,蜕变为人人可踏入的创意试验场。学习Vibe编程的本质,早已超越“掌握语法技巧”的技术层面,而是学会用代码言说创意构想;不必追求成为职业程序员,却能借此解锁创造者的身份密码,在数字画布上勾勒出独一无二的思维轨迹。
我坚信,这本书的价值远超出技术圈层的边界,而是为所有对未来充满好奇的探索者而作。这不仅是一场工具革新,更是一场重新定义“创造者”身份的认知革命。
——孙凌云,浙江大学计算机科学与技术学院副院长、国际设计研究院院长、人工智能教育教学研究中心常务副主任
正如进化生物学家Bret Weinstein所说“你不是与AI竞争,而是与'AI放大的别人'竞争”。
掌握与AI协作的思维方式比掌握某个特定工具更为重要。而Vibe编程的核心价值正在于此——通过清晰地表达意图来引导AI创造价值。
《人人皆可Vibe编程:玩转氛围编程》将助你跨出关键一步:成为工具的制造者,每个人都能将自己的专业知识和独特视角转化为可共享的价值!
#大模型面经 - 快手快 Star
部门与岗位:MMU - 【快Star】多模态大模型
一面
- 自我介绍,问实习和论文,对于 CV 的论文进行了深入的探讨,尤其对于引入 Diffusion 十分感兴趣,从 motivation 到 method 再到 result 顺下来的,花了比较长的时间
- 了解哪些多模态大模型,简要介绍一下吧,目前主流的多模态大模型的范式是什么样的
- 在 BLIP-2 或者 Qwen-VL 中,Learnable Query 的作用是什么,为什么在后续版本中,比如 BLIP-3 和 Qwen2-VL 中都不使用了
- 了解 KV Cache 吗
- 大模型的后训练是怎么做的,在 VLM 上做后训练有什么区别
- 知道 SAM 吗?说说 SAM 是怎么做的,对于 point,box 以及 text 这些不同的 prompt 输入,模型是怎么进行 encode 的
- 概率题:一根绳子剪成三段,这三段可以围成三角形的概率是多少
- 代码:32. 最长有效括号
一面论文问的比较细致,对于没有提到的细节面试官还会询问确认,但是八股问的还是比较常规的,就是概率题有点烦
二面
- 自我介绍,问实习和论文,重点问了论文,还是比较感兴趣 CV 方面的东西,比如 Backbone 的选择,Diffusion 怎么和 DETR 结合的等等
- 讲一下 LoRA,两个权重矩阵一般怎么初始化,能都全 0 吗?为什么
- 除了 LoRA,还了解哪些可以进行训练推理优化的技术,DeepSpeed 的三个阶段分别是怎么优化的
- 现在的多模态大模型,动态分辨率一般都是怎么做的,位置编码怎么设计
- 概率题,一副扑克牌,去掉大小王,随机抽两张,花色相同的概率
- 场景题:目前有一个带货的直播间,设计一个方案,要确定目前正在卖的是哪个商品,尽可能详细的说,商品比较多怎么降低时延,商品比较小怎么精确识别
- 给你发了 offer 能提前来实习吗
- 代码:236. 二叉树的最近公共祖先
二面仍是对于论文的详细拷打,看来面试官比较看重论文,八股倒是问的比较简单。场景题也比较烦,面试官会在给定的方案上提出未解决的问题,要一步一步完善方案
三面
- 自我介绍,挑一个你觉得做的比较好的实习或者论文讲一下,因为之前都是在拷打论文,这里就挑了 MSRA 的实习讲了讲
- 目前有在跟进一些多模态大模型的进展吗?最新的一些多模态大模型都是怎么做的吗
- 了解多模态 RAG 吗
- 场景题:现在有一些图文或者视频,需要你构建一个多模态大模型来判断这些图文或者视频的质量,怎么做
- 开放题:平常在训练或者微调 LLM 或者 VLM 的时候,有什么心得吗
- 代码:模拟题,一个推荐链路的排序
三面我觉得对于知识的广度考察比较多,问的比较泛,没有特别八股的考察,对于某个点进行深挖,面试氛围还是比较轻松的
四面
四面是答辩环节,这里主要就是按照自己之前的经历来了。最好是把之前的工作串成一条主线,按照这条线来展开,条理会比较清晰,吃了这个亏了
具体问题的话,因为面试官职级比较高,所以问的问题就没有那么技术,比如会考察对于业务的理解,或者问职业规划这些
总结
总的来说,感觉面试体验不错,面试官还是非常专业的。前三面都是正常的面试难度,有答辩就是有机会 Star,没答辩就是正常校招了
#OpenAI拿IMO金牌是火了,但惹怒大批人
抢发炒作,抢学生风头
就在上个周末,Sam Altman 大张旗鼓地宣布,OpenAI 的一款未公开实验性大语言模型在 2025 年国际数学奥林匹克竞赛(IMO)中达到了金牌水平,得分 35/42,成功跻身全球顶尖数学竞赛选手行列。
有意思的是,据报道不止 OpenAI,谷歌 DeepMind 在这次比赛中,也拿到了 IMO 金牌。但相比 OpenAI 的高调官宣,这次谷歌显得有点低调。
谷歌的低调是有原因的,根据 IMO 组委会一位成员、两届 IMO 金牌得主 Joseph Myers 的说法,IMO 曾要求 AI 公司(即参赛的大模型)不要抢走参赛学生的风头,建议在闭幕式后一周再公布相关结果,一方面是出于对人类参赛者的尊重,另一方面也是为了留出时间对人工智能提交的答案和格式进行验证。
然而,OpenAI 却在闭幕式之前(但根据 OpenAI 研究科学家 Noam Brown 的说法是之后)就公布了结果。
IMO 评审团和协调员的普遍看法是,OpenAI 的这种做法很无礼,也不合适。
遗憾的是,OpenAI 似乎更在乎炒作和声量,不惜抢占参赛学生的风头,于是他们在昨天就提前公布了结果。
来自 OpenAI 的员工在庆祝自家模型获得了 IMO 金牌,时间和 IMO 闭幕式时间非常相近,闭幕时间在 7 月 19 日(当地时间)下午 4 点举行。
也不知是否是因为 OpenAI 抢发,xx也了解到,谷歌 DeepMind 与字节 Seed 团队 IMO 竞赛的结果,也将在今天或者近期公布,且分数是官方评的。
另外,Joseph Myers 还表示,OpenAI 没有与 IMO 合作测试他们的模型,91 名官方 IMO 协调员都没有对 OpenAI 的解决方案进行评级。
相比来看,DeepMind 似乎很遵守规则,并耐心等待官宣时间。
一家专注于数学 AI 的初创公司 Harmonic 公开证实了这一点:「为了维护学生竞赛的神圣性,IMO 董事会要求参赛的 AI 公司需要等到 7 月 28 日发布结果。」
看来,OpenAI 确实是没有遵守 IMO 要求,提前就把结果公布了。
谷歌 DeepMind 推理团队负责人 Thang Luong 对此事也进行了点评,表示道,IMO 组委会确实有一份官方评分标准,但这份评分指南并未对外公开。如果没有依据该评分标准进行评估,参赛组织就无法宣称获得奖牌。如果有一分被扣,那就是银牌,而不是金牌。
IMO 金牌得主 Jasper 观点与 Thang Luong 的观点相似:IMO 的竞赛题目通常包括 6 道,每个问题 7 分。金牌的分数线是 35 分,银牌 28 分,铜牌 19 分。即使是扣除很少的分数,OpenAI 也可能跌落到银牌。Jasper 认为从 OpenAI 提交的内容来看,他们的答案很可能会被扣掉一些分数。
陶哲轩(Terence Tao)也指出,尽管题目保持不变,但测试形式至关重要。一名在标准条件下可能无法获得铜牌的学生,若在修改后的赛制下甚至可能摘金。所以说,OpenAI 是否获得金牌,现在还是一个问号。
如果真像前文所说的,OpenAI 最终获得银牌,这种反转还是挺残酷的,毕竟他们大肆宣传自己的模型是金牌得主水平了。
OpenAI :没有人通知我们一周后才能公布
对于此事,OpenAI 也做出了回应,OpenAI 研究科学家 Noam Brown 表示,他们是在闭幕式之后发布的结果,他个人提前联系了一位 IMO 组织者,并根据其建议时间发布结果。同时,Noam Brown 表示,没有人告诉他们「一周之后」才能发布。
另外,Noam Brown 还表示 IMO 官方几个月前曾联系他们,提出在比赛结束后提供 Lean 格式(允许用户将数学定理和证明以机器可验证的形式表达)的题目,但 OpenAI 拒绝了。
这算不算回应了前面的质疑:官方要求参赛 AI 公司闭幕式后一周再公布相关结果,但我们根本没参赛。
这一回应引发了网友的激烈讨论,对此你怎么看呢?
#MGPO
突破高分辨率图像推理瓶颈,复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架
本文的主要作者来自复旦大学和南洋理工大学 S-Lab,研究方向聚焦于视觉推理与强化学习优化。
先进的多模态大模型(Large Multi-Modal Models, LMMs)通常基于大语言模型(Large Language Models, LLMs)结合原生分辨率视觉 Transformer(NaViT)构建。然而,这类模型在处理高分辨率图像时面临瓶颈:高分辨率图像会转化为海量视觉 Token,其中大部分与任务无关,既增加了计算负担,也干扰了模型对关键信息的捕捉。
为解决这一问题,复旦大学、南洋理工大学的研究者提出一种基于视觉 Grounding 的多轮强化学习方法 MGPO,使 LMM 能在多轮交互中根据问题,自动预测关键区域坐标,裁剪子图像并整合历史上下文,最终实现高分辨率图像的精准推理。相比监督微调(SFT)需要昂贵的 Grounding 标注作为监督,MGPO 证明了在强化学习(RL)范式中,即使没有 Grounding 标注,模型也能从 「最终答案是否正确」的反馈中,涌现出鲁棒的视觉 Grounding 能力。
MGPO 的核心创新点包括: 1)自上而下的可解释视觉推理:赋予了 LMMs 针对高分辨率场景的 「自上而下、问题驱动」 视觉搜索机制,提供可解释的视觉 Grounding 输出; 2)突破最大像素限制:即使因视觉 Token 数受限导致高分辨率图像缩放后模糊,模型仍能准确识别相关区域坐标,从原始高分辨率图像中裁剪出清晰子图像用于后续分析; 3)无需额外 Grounding 标注:可直接在标准 VQA 数据集上进行 RL 训练,仅基于答案监督就能让模型涌现出鲁棒的视觉 Grounding 能力。
标题:High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning
论文地址:https://arxiv.org/abs/2507.05920
代码地址:https://github.com/EvolvingLMMs-Lab/MGPO
图 1:基于 MGPO 训练的模型性能展示,在处理高分辨率图像时,模型会根据问题输出关键区域坐标,然后自动触发图像裁剪函数,返回清晰的子图帮助模型回答问题。
介绍
当前,以 Qwen2.5-VL 为代表的多模态大模型(LMMs)通常基于强大的语言模型(如 Qwen2.5)结合外部原生分辨率视觉 Transformer(NaViT)构建。然而,这类模型在处理高分辨图像任务时面临挑战:高分辨率图像会转换成海量视觉 Token,其中大部分与任务无关,既增加了计算负担,也干扰了模型对关键信息的捕捉。
相比之下,在处理高分辨率真实场景时,人类视觉系统会采用任务驱动的视觉搜索策略,首先定位,再仔细审视关键兴趣区域。受这一生物机制启发,我们尝试通过视觉 Grounding 为 LMMs 赋予类似的视觉搜索能力,使其聚焦于图像中的关键区域。
但传统视觉 Grounding 模型需依赖大量 Grounding 标注进行训练,而此类标注成本较高。有没有可能不需要额外 Grounding 标注,仅通过最终答案的正确性对模型进行奖励,就让模型自动学会 「找重点」?
我们的答案是:可以。本文提出基于视觉 Grounding 的多轮强化学习算法 MGPO(Multi-turn Grounding-based Policy Optimization),使 LMMs 能在多轮交互中自动预测关键区域坐标、裁剪子图像并整合历史上下文,最终实现高分辨率图像的精准推理。我们的实验证明,即使没有任何 Grounding 标注,模型也能从 「最终答案是否正确」 的奖励反馈中,涌现出鲁棒的视觉定位能力。
方法概览
MGPO 的核心思想是模拟人类的多步视觉推理过程:给定高分辨率图像和问题,模型先预测关键区域的坐标,裁剪出子图像;再结合原始图像和子图像的上下文,进行下一步推理。
下图比较了 MGPO 与 SFT、GRPO 的区别,MGPO 可以仅靠正确答案的监督信息,涌现鲁棒的视觉 Grounding 能力。
解决 「冷启动」:固定两回合对话模板
在实际训练中,我们发现 LLMs 在 Rollout 过程中,难以自主在中间过程调用 Grounding 能力,使得 RL 训练过程缓慢。为了解决模型的冷启动问题,我们设计了一个固定两轮对话模板(如下图所示),在第一轮对话中明确要求模型只输出与问题相关的区域坐标,在第二轮对话中再要求模型回答问题。
处理高分辨率:坐标归一化与子图像裁剪
受限于模型能够处理的视觉 Token 数量,高分辨率图往往会被缩放成模糊图像,导致细节丢失。如下图所示,当处理缩放图像时,MGPO 会先定位到与问题相关的区域,再从原始图像中裁剪出清晰的子图,确保模型能够正确回答相关问题。
实验结果
1.不同范式对比
基于相同训练数据下,我们对比了 SFT、GRPO、MGPO 在两个高分辨率图像 Benchmark 的表现:MME-Realworld(In-Distribution)和 V* Bench (Out of Distribution)。实验结果显示,GRPO 相较于 SFT 并未带来显著性能提升,这与之前多模态数学任务的研究结论相反。我们推测,对于高分辨率视觉中心任务,核心挑战在于让模型感知细粒度图像细节,而非进行复杂的长链推理。
相比之下,MGPO 取得了显著提升,相比 GRPO 在 MME-Realworld、V* Bench 分别提升 5.4%、5.2%。我们还将结果与 OpenAI 的 o1、GPT-4o 在 V* Bench 上进行了对比,尽管我们的模型仅基于 7B 模型、用 2.1 万样本训练,经过 MGPO 训练的模型仍超过了这两个商业大模型。
2.RL 训练过程中视觉 Grounding 能力的涌现
我们统计了 GRPO 与 MGPO 两种 RL 框架训练过程中,模型生成的有效 Grounding 坐标比例。结果显示,MGPO 的有效比例随训练迭代呈现显著上升趋势,证明了 MGPO 仅需利用标准 VQA 数据(无需额外 Grounding 标注),就能在 RL 训练过程中自主涌现出稳定、精准的视觉 Grounding 能力。
总结
MGPO 通过多轮强化学习算法激活视觉 Grounding 能力,有效提升了多模态大模型处理高分辨率图像时的 「视觉 Token 冗余」 和 「关键信息丢失」 等问题。同时,实验证明了,相比 SFT 需要昂贵的 Grounding 标注,RL 算法可以仅通过最终答案的奖励反馈,使得模型自主涌现出鲁棒的 Grounding 能力,避免了对昂贵 Grounding 标注的依赖。
#机器人的「GPT时刻」来了
丰田研究院悄悄做了一场最严谨的VLA验证实验
提到机械臂,第一反应的关键词是「抓取」,高级些的机械臂也就做做冰淇淋和咖啡之类的小任务。
但若要机械臂自主完成繁重且复杂的任务,如布置餐桌、组装自行车,难度便呈指数级上升。这类任务对感知、理解与动作控制的协同提出了极高要求。
近年来,随着视觉 - 语言 - 动作(VLA)模型的迅速发展,机器人已逐步具备整合多模态信息(如图像、指令、场景语义)并执行复杂任务的能力,朝着更智能、更通用的方向迈进。
但是目前 VLA 的研究尚未达到里程碑式的成果,xx智能的「GPT」似乎离我们还很遥远。
直到我看到了这两段视频:
,时长02:04
,时长02:02
机械臂在现实世界中已经能够实现双臂写作,完成如此复杂的组合任务,并且还能够在操作过程中纠错。这相比过去的 VLA 研究成果有了非常明显的提高。
深入探索了一下这份研究,作者在 VLA 的思路基础上更进一步,在扩散模型策略的基础上,完全构建了一个针对机器人的大型行为模型(Large Behavior Model,LBM),经过训练和微调,便能够实现机械臂自主执行复杂操作中如此令人惊艳的结果。
来自谷歌的研究者 Ted Xiao 说:
「如果你从事机器人技术和人工智能领域,最近在斯坦福大学关于扩展多任务机器人操作的视频是必看的,毫无疑问。 没有营销,没有炒作。只有基于坚实假设的科学,有证据支持的断言。 在当今的背景下,这是一个宝藏!」
前英伟达学者 Jiafei Duan 表示:
「我是 TRI 这项工作的忠实粉丝,严格的评估是机器人领域真正进步的催化剂。」
这份工作来自丰田研究院(TRI)的大型行为模型团队。作者之一是麻省理工学院教授,丰田研究院机器人研究副总裁 Russ Tedrake。
据说,Russ 是一位低调但极其严谨的学者,对于这篇论文,仅在推特和领英各发了一则短文进行简要介绍。然而,有限的宣传并未掩盖这项工作的卓越价值 —— 论文本身足以说明一切。
该论文通过在模拟与真实机器人数据集上扩展扩散(Diffusion)策略框架,系统性评估了一类多任务机器人操作策略,称为大型行为模型。论文设计并验证了一套严谨的评估流程,以统计置信的方式分析这些模型的能力。通过盲测与随机试验,在控制环境下将多任务策略与单任务基线模型进行了对比,涵盖仿真与现实实验。
论文标题:A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation
论文链接:https://arxiv.org/pdf/2507.05331
项目链接:https://toyotaresearchinstitute.github.io/lbm1/
大型行为模型是一类视觉 - 运动策略,基于多样化的模拟与真实世界操作数据进行训练。
采取传统的单任务行为策略的机器人在面对任务变化或训练分布之外的环境时表现出有限的泛化能力。为了克服这种脆弱性,该领域正越来越多地采用 LBM —— 在包含动作级演示的大规模多任务数据集上训练的视觉运动基础模型。尽管 LBM 的研究与开发蓬勃发展,但关于观察到的成功主要是否源于多任务预训练,仍然存在重大不确定性。
为了严谨地研究多任务预训练的影响,论文在近 1,700 小时的机器人数据上训练了一系列基于扩散的 LBM,并进行了 1,800 次真实世界的评估部署和超过 47,000 次模拟部署,以严格研究它们的能力。
论文发现:
- 相对于从头开始的策略,LBM 提供一致的性能提升;
- 在具有挑战性的环境中,LBM 使用 3-5 倍更少的数据来学习新任务,并要求对各种环境因素具有鲁棒性;
- 随着预训练数据的增加,LBM 的性能稳步提高。
即便只有数百小时多样化的数据、每种行为仅有几百条演示,模型的性能依然实现了显著提升。预训练在远小于预期规模的条件下,便能带来持续稳定的性能增益。虽然当前还没有如同「互联网级」的机器人数据量,但令人欣喜的是,性能收益在远未达到那一规模时就已显现 —— 这是一个积极信号,预示着通过数据获取与性能自举的良性循环是完全可能实现的。
这样积极的结论,似乎预示着机器人领域的通用大规模模型的到来,xx智能的「GPT 时刻」还有多遥远?
LBM 架构
LBM 架构:论文采用了一种 Diffusion Transformer 架构,该模型以语言、视觉和本体感知(proprioception)作为条件输入,并输出 20 维动作序列,覆盖未来 16 个时间步长。
在部署阶段,策略以 10 Hz 的频率运行,机器人会执行前 8 个时间步的预测动作,然后重新规划后续动作。
本文的 LBM(Large Behavior Models)是一类扩展的多任务扩散策略模型,具备多模态的 ViT(视觉 Transformer)视觉 - 语言编码器,并采用基于 AdaLN 的 Transformer 去噪头对编码观察进行条件建模。这些模型能够处理手腕摄像头和场景摄像头图像、机器人本体状态(proprioception)以及语言提示,并预测连续 16 步(1.6 秒)的动作片段(action chunks)。
论文在一个混合数据集上训练 LBM,包含:
- 468 小时的内部采集的双臂机器人遥操作数据,
- 45 小时的模拟环境中的遥操作数据,
- 32 小时的通用操作接口(UMI)数据,
- 以及约 1,150 小时从 Open X-Embodiment 数据集中整理的互联网数据。
尽管模拟数据所占比例较小,但它的纳入确保了可以在模拟环境和真实世界中使用同一个 LBM 检查点进行评估。
实验细节
测试平台
本文的 LBM 在采用 Franka Panda FR3 手臂和最多六个摄像头的物理和 Drake 模拟的双臂工作站上进行了评估 —— 每只手腕最多两个摄像头,以及两个静态场景摄像头。
在双手操作平台上,在模拟和现实世界中,针对多种任务和环境条件,评估了的 LBM 模型。
评估指标
论文衡量策略性能的主要指标包括:成功率(Success Rate)和任务完成度(Task Completion)。
其中,成功率是机器人学习领域的标准评估指标,能有效反映策略能否完成任务的整体表现,但它无法全面刻画策略的细节表现。例如,一个策略「几乎完成任务」与「完全没有动作」在成功率上表现相同,然而实际能力差异极大。为了更细致地区分这些情况,论文引入了任务完成度指标。
具体来说:
- 在真实世界评估中,设计了打分量表(rubrics),用于基于任务的中间目标(milestones)来量化完成度。该评分过程由人工填写,并引入了一套质量保证(QA)流程来确保量表评估结果的可靠性。
- 在仿真环境中,采用自动化谓词(predicates)来判断是否达到各个中间目标,进而计算任务完成度。
尽管报告了绝对成功率,但论文认为相对成功率才是对比不同方法性能的核心依据。因为绝对成功率高度依赖任务本身的设计 —— 例如起始条件的随机性、演示数量的多少都能显著改变任务难度,进而影响最终结果。
因此,论文研究者在实验设计上刻意提高任务难度,期望策略成功率在 50% 左右,以便更清晰地区分方法之间的优劣。不过在实际运行中,成功率可能会显著高于或低于这个目标值。
实验结果
LBM 在「已见」任务上的性能
LBM 在真实世界和仿真环境中的「已见任务」表现:(a)无分布偏移,(b)有分布偏移。论文比较了单任务模型、预训练的 LBM 以及微调后的 LBM。
在这一组实验中,研究者们发现:
1. 微调后的 LBM 在「已见任务」上表现优于单任务基线模型。
2. 微调后的 LBM 对「已见任务」的分布偏移更具鲁棒性。
3. 未经微调的 LBM 在「已见任务」中也有非零成功率,且性能与单任务模型相近。
LBM 在「未见」任务上的性能
对于「未见」任务,尤其是那些复杂任务,研究者并不指望预训练的 LBM 能够成功完成。因此只比较微调后的 LBM 与单任务基线模型的表现。
此外,针对这些复杂任务,预期其成功率较低,因此更侧重于通过任务完成度(task completion)图来获得直观见解。
LBM 在来自仿真训练集场景的「未见」仿真任务上的表现。左图:在正常条件下进行评估。右图:在分布偏移条件下进行评估。
LBM 在现实世界和仿真环境中「未见」任务下的表现(在正常条件下评估)。论文将单任务基线方法与微调后的 LBM 进行对比。上排展示的是成功率结果,下排展示的是任务完成度结果。
在「未见」的任务评估中,研究者得出结论:
1、微调后的 LBM 在「未见」任务上优于单任务基线模型。
2、微调 LBM 达到与单任务基线模型相似的性能所需的任务特定数据更少。
综合来看,通过插值可估算出,若对 LBM 进行微调,仅需不到 30% 的任务特定数据即可达到从零开始训练所需全部数据的效果。
,时长02:28
并排比较设置早餐桌的模型:(左) 单任务基线,(右) LBM。
预训练规模法则
这是这篇论文中作者最喜欢的图表,它概括了所有内容。
这个图表比较了在训练新任务之前使用不同数量的预训练数据时的性能:0%(即单任务),25%,50% 或 100% 的 TRI 数据,然后是 100% 的 TRI 数据加上整理的所有开源机器人数据(红线)。
「任务完成分布如此紧密,而且随着数据量的增加,趋势如此一致,这真是太棒了。」
结果表明,通过预训练,可以用更少的数据量训练出新的技能,或者使用相同的数据量并获得更好的任务性能。而且,随着数据量的增加,这些优势似乎会持续下去。
在标准条件下对五个模拟环境中的「未见」任务进行评估,并报告所有任务的平均任务完成度指标。
论文用极其长篇的篇幅,系统地阐述了实验流程、平台设计、仿真与真实世界评估细节、数据分析方法以及数据集构建等各个方面,做了大量的完备的实验,最终凝练成 Russ 推文中的:「LBM 有效!」
论文包含LBM完整架构与训练策略,海量实验细节与评估细节,请参阅原论文。