自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Paper weekly

PaperWeekly 是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可.

  • 博客(5693)
  • 收藏
  • 关注

转载 模型顿悟真的存在?推理黑箱中的「Aha Moment」首次被精准捕捉

受启发于前人工作,作者在模型完成初始推理输出后,如果还有 token 预算,则强制模型以「思考词汇」开头(如「Therefore」、「So」、「Wait」、「Hmm」等)继续生成后续内容,引导模型在额外计算资源下进行更深入的推理。进一步地,研究者通过理论分析证明(定理 1 & 2),推理过程中积累的互信息越高,模型最终回答错误概率的上界和下界就越紧,换言之,回答正确的概率就越高!:在推理时如果允许模型生成更多 token(增加计算预算),如何引导模型进行更有效的「深度思考」,而不是漫无目的地延伸?

2025-07-07 13:37:52

原创 ICML 2025 | 会刷题≠懂数学!CogMath打造“认知显微镜”,深扒大模型的数学能力

作为一种基于推理过程的多维评估方法,CogMath 不仅像一台“认知显微镜”,精准解析大模型的数学能力,还体现出对人类认知过程的深度对齐,为推动大模型向更加科学、可信的方向演进提供了有力支撑。在完成问题求解后,人类常常会反思自己的推理过程,总结解决问题所采取的关键步骤与方法论。这种总结不仅有助于加深对特定问题的理解,更促进了对整体解题思维的内化,从而在今后的相似任务中实现迁移。此时,如果大模型仍给出与原题相同的答案,则意味着它可能并未真正理解题目,而是记住了这个答案,或者依赖表层的词语模式匹配推理。

2025-07-07 13:37:52 112

转载 ICML 2025 | 从“浅对齐”到“深思熟虑”,清华牵头搭起大模型安全的下一级阶梯

在 Llama-3.1-8B 模型上,结合束搜索,在 StrongReject 上达到了 0.94 的分数,显著超过多个主流商用模型,达到了与 Claude-3.5 相当的安全性能。在经过足够多轮的树搜索后,研究者使用阈值控制策略来采样 step-level 的偏序数据对,来提供细粒度的微调信号。但与传统蒙特卡洛树搜索不同的是,为了同时优化模型的安全性和通用能力,在搜索过程中奖励信号由安全分数和有用性分数两个维度共同提供,即安全感知的蒙特卡洛搜索(Safety-Informed MCTS)。

2025-07-03 22:07:15 23

转载 北京内推 | 京东探索研究院基础大模型团队招聘大模型算法实习生

作为一家以供应链为基础的技术与服务企业,京东在零售、物流、科技、健康、工业、产发等丰富的产业布局,积累了扎实的行业Know-How 和海量优质的产业数据京东的AI大模型率先完成大规模产业实践,完备的供应链基础+充足的算力保障,为技术落地提供最广泛的应用场景和最有力的资源支持;2. TGT(Tech Genius Team)是由京东发起的“顶尖青年技术天才计划”,面向全球高校本硕博在校生、应届生及毕业两年内的技术人才开放招募,旨在与全球技术天才一起基于京东丰富的业务场景探索前沿技术、用技术创造更多美好;

2025-07-03 22:07:15 19

转载 北大发布OpenS2V-Nexus:500万数据集+自动评测框架,S2V视频生成迈入基建时代

还引入了 OpenS2V-5M,这是第一个开源的百万级 S2V 数据集,不仅包含常规的主体-文本-视频三元组,还包括使用 GPT-Image-1 和跨视频关联构建的 Nexus 数据,从而促进社区内的进一步研究,并解决 S2V 的三个核心问题。因此,为了构建一个包含多样视觉概念的受视频基准,将此任务分为七个类别:1 单面部到视频,2 单身体到视频,3 单实体到视频,4 多面部到视频,5 多身体到视频,6 多实体到视频,以及 7 人类实体到视频。然而,这些模型表现出较差的指令遵循性能,并容易出现显著的幻觉。

2025-07-02 21:07:36 21

原创 ICML 2025 | Entropy不灵了?北大港中文用“区域置信”重新定义模型的不确定性

在深入分析现有方法局限性的基础上,来自北京大学与香港中文大学的研究团队提出了全新框架 ReCAP(Region Confidence Adaptive Proxy),以更加精准的方式刻画模型预测中的不确定性与稳定性之间的内在联系。更关键的是,ReCAP 拥有极强的模块兼容性与方法泛化性:它无需改变原有网络结构,可无缝集成到主流的 TTT 框架中,以替换原有的熵目标函数,轻松提升性能。研究团队重磅推出的 ReCAP 框架,不仅给出了熵最小化训练困难的理论分析,也给出了区域内模型预测不确定性的度量方法。

2025-07-02 21:07:36 898

原创 ACL 2025 | 解谜训练=推理良药?达摩院提出FineReason,教AI学会“三思而后行”

训练层面上,这些领域的推理数据不仅普遍缺乏对中间步骤的标注,而且标注过程本身也极其困难。然而,现有的大部分评测基准只关注最终答案的准确率,忽视了模型在推理过程中的中间步骤,因而无法有效评估模型自我反思、发现并纠正错误的能力。当它们意识到走错了路,却无法准确地退回到上一个正确的决策点,而是选择继续犯错,或者错误地跳到更早的步骤。从解谜中学习到的核心推理技能如约束验证、试错、回溯和系统性探索,是可以成功迁移到其他领域的推理任务中。这表明,模型沿着正确的道路前进相对容易,但一旦进入死胡同,进行回溯就变得困难。

2025-07-01 12:37:30 629

转载 博士申请 | 香港科技大学(广州)夏俊老师招收多模态学习方向全奖博士/RA/实习生/博后

本人与博士/研究生年龄差距不大,可以无障碍地沟通,有多次指导本科生、研究生和博士生发表第一篇论文的经历,学生加入实验室后,我将会在选题、算法设计、论文写作等方面进行指导,将与每位学生在每周进行至少一次的会议交流。团队与境外高水平大学联系紧密,包括麻省理工学院、普林斯顿大学、马普所、慕尼黑工业大学、新加坡国立大学、香港中文大学等,可推荐至相关实验室进行访问。同时,团队与头部企业的研发团队(如腾讯、字节跳动、阿里云、中国电信人工智能研究院TeleAI、蚂蚁、百图生科等)联系紧密,可推荐至相关公司实习。

2025-07-01 12:37:30 59

转载 RL不只Qwen玩得转!“中期训练”让Llama一夜进化,OctoThinker横空出世

此外,和 Octothinker 一同发布的 MegaMath-Web-Pro-Max 数据集发布即获得下载热潮,使用者覆盖了 MIT、EPFL、UW、Columbia、NUS、CMU、Princeton、THU、HKUST 等诸多顶尖高校,以及 Apple、Microsoft、TII、Moonshot、DatologyAI、AI2、IBM、Cohere、Tencent 等知名科研机构和企业,体现了学术界和工业界对这一工作的高度重视。在准备语料时,团队还发现了另一个问题,即开源高质量语料的缺乏。

2025-07-01 12:37:30 25

转载 视觉Tokenizer别再“躺平”了!ETT实现端到端调优,原生多模态性能大跃迁

紧接着,在语义学习阶段,我们解冻大型语言模型、投影层以及视觉 tokenizer 的权重,通过联合优化 caption 损失函数和重建损失函数,对它们进行端到端的训练,使视觉 tokenizer 能够在保持图像重建能力的同时,学习到更强大的感知能力,以支持多模态理解和重建任务。在现有的多模态预训练框架中,如 Emu3 等工作,虽然通过将图像、文本等多模态数据编码为离散 tokens 实现了统一的序列建模,但在实际操作中,这些方法仅仅利用了冻结的视觉 tokenizer 的离散索引。

2025-06-30 20:17:16 19

转载 让SAM2感知一切!图像/视频分割、解释、字幕全到位,一次交互文本Mask齐出

PAM 引入了 Semantic Perceiver 来连接 SAM2 分割骨架和 LLM,高效地将视觉特征“翻译”成多模态 token,通过 SAM 2 分割骨架 + Semantic Perceiver + LLM 并行解码,在保证轻量高效的前提下,实现了分割 mask 和语义信息并行输出的图像/视频区域级理解!和相同参数量的 DAM-3B 模型相比,PAM-3B 推理更快,显存更省。,就在多个图像和视频理解基准上全面刷新或逼近 SOTA,且具备更优的推理效率和显存占用,真正实现。

2025-06-30 20:17:16 24

原创 卡不够别硬微调!3B草稿写开头,北大团队「弱到强解码」一把带飞大模型对齐

因为基座模型本身的自回归解码特征,不断提供草稿模型生成的开头部分也是让基座模型的输出风格像偏好对齐迁移的过程,那么推理流的切换过程也可以由此确定:基座模型不断检查草稿模型输出的内容,并在自身 confidence 到达一定阈值后,使推理流切换到自身继续运行。详情敬请查看论文内容。同时,WSD 框架灵活、高效,具备进一步定制和推广的空间。,这可以通过计算给定对齐回复的部分开头后,随后 50token 的困惑度变化趋势来验证:给的开头越多,生成后续内容的难度越低,且最陡峭的变化就在一开始的几个 token!

2025-06-30 20:17:16 719

原创 每个Token都不被辜负!北大×亚马逊提出协同提示注意力机制,即插即用高效微调

考虑到 CLS token 用于聚合全局信息,而图像 token 侧重于局部特征提取,我们设计了专门对应 CLS token 和图像 token 的 CLS 提示与图像提示,并在 Transformer 的注意力模块中分别与其独立交互,从而提升所提取特征的判别能力。尽管成效显著,这些方法通常对所有 token 采用相同提示,忽视了 CLS token 与图像 token 功能及判别信息的差异,导致不同 token 关注的区域趋同,限制了视觉 Transformer 的表达能力。

2025-06-26 13:41:37 907

转载 让LLM自己上网搞科研!WebDancer实现DeepResearch级自主推理

在获得问答对后,WebDancer 利用 ReAct 框架,结合闭源的 GPT-4o 和开源的 QwQ 模型,进行长短思维链的蒸馏,生成高质量的 agentic 数据。我们在 QwQ 模型上仅使用约 6,000 条高质量、具备长思维链的训练数据,就在 GAIA 任务中取得了优异的效果,表明精细构造的思维轨迹在复杂任务中的价值远高于海量但粗糙的数据。这催生了对能够自主思考、自主决策的智能体的需求。:采用“由简到难”的策略,从简单问题出发,逐步增加问题的复杂度,构建多步推理的问答对,促进智能体能力的逐步进化。

2025-06-26 13:41:37 285

原创 敢把电脑交给Agent?RiOSWorld基准重锤“智能助手”:风险行为多到数不过来!

研究团队对市面上最火的 MLLM-based CUA “挨个儿暴打”:OpenAI 的 GPT-4.1、Anthropic 的 Claude-3.7-Sonnet、Google 的 Gemini-2.5-pro,还有开源界的明星 Qwen2.5-VL、LLaMA-3.2-Vision……,涵盖了广泛的日常计算机使用风险操作,涉及网络、社交媒体、操作系统、多媒体、文件操作、Code IDE/Github、电子邮件和 Office 应用等场景,全方位检验 Agent 电脑助手的 “抗毒能力”!

2025-06-26 13:41:37 705

转载 博士申请 | 香港科技大学(广州)Zhiqing Hong老师招收人工智能全奖博士/硕士/RA/实习生

Zhiqing在多个顶会顶刊发表过论文(e.g.,KDD,IMWUT/Ubicomp, SIGSPATIAL,TKDE,ACL,EMNLP),多个算法被成功在物流公司和电商公司得到大规模部署,服务于数亿用户。与多所国内外高校和企业保持密切合作(e.g.,MIT,UC Berkeley,UCLA,Rutgers,北京大学,清华大学,京东,亚马逊,Meta)。Zhiqing参与指导过多名国内外的博士生,了解刚开始科研会遇到的困难和挑战,将根据学生的不同背景,提供一对一、定制化的指导和系统的科研训练。

2025-06-25 19:21:18 53

转载 ACL 2025 | 告别Prompt玄学!新理论揭示大模型Prompt设计的奥秘与效能

左侧展示了不同的 Prompt(如 Auto-Prompt、RL-Prompt)如何在「Prompt 空间」中进行搜索,而右侧则展示了在特定 Prompt 指导下,如何在「答案空间」中进行搜索以得到解决方案(如 Tree-of-Thought、Graph-of-Thought)。一个精心设计的提示模板,就如同一个精确的导航仪,它明确地指示模型在 CoT 的每一步中,应该从其完整的隐藏状态 h 中「选择」并「提取」哪些与任务最相关的信息进行「言语化」(verbalization)输出。

2025-06-25 19:21:18 79

原创 ICML 2025 | 大语言模型竟然有“前瞻思维”?首个词元生成前便能预判全局输出

我们测试了指令微调模型(Llama-2-7B-Chat, Llama-3-8B-Instruct, Mistral-7B-Instruct, Qwen2-7B-Instruct)及其对应的基础模型(Llama-2-7B, Llama-3-8B, Mistral-7B, Qwen2-7B)。这不仅为破解大模型的“黑箱”提供了关键线索,更预示着一种全新的控制范式:通过提前解析模型的前瞻规划,我们有望从「被动接收」转向「前瞻干预」,在模型生成前洞察其意图并施加影响,从而显著提升 AI 系统的可控性与可靠性。

2025-06-25 19:21:18 632

原创 OCR推理大模型全军覆没?OCR-Reasoning基准揭示多模态大模型推理短板

1.5-Vision-Pro、通义千问 Qwen2.5-VL、Kimi-VL-Thinking、GPT-4o、Claude-3.7、Gemini-2.0-flash、DeepSeek-R1 等。CoT 提示能持续提升大多数模型性能(如 Qwen2.5-VL-32B +3.2%, GPT-4o +4.2%)。Qwen2.5-VL-7B 进行 RL 训练的模型(如 VLAA-Thinker, MM-Eureka),,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注。1:没“眼睛”真不行!

2025-06-25 19:21:18 991

原创 ICML 2025 | 细粒度奖励建模:判别式策略优化下的Q-RM方法

② 奖励计算依赖参考模型。为 logits,由 LLM 主干网络最后一层隐藏层输出的(sequence-length,hidden-size)张量,经一个(hidden-size,1)的线性层映射后,得到(sequence-length,1)的结果。与传统的 step-Level PRM 和 ORM 相比,Q-RM 取得了更高的训练效率(1/12~1/11 的训练样本就取得了相同的 pass@1),以及训练后更好的 pass@1。存在等价的关系,可以容易地得到优势函数,无缝衔接到目前已有的强化学习算法中;

2025-06-24 21:06:11 687

原创 探索多模态后训练最优解:MiMo-VL稳健优化 v.s. Seed-VL激进革命

Seed 的 corpus 达到了 3 trillion,涉及到的 trick 更多,相比于 M 而言,点计数,3D 任务,科学工程似乎有着不错的占比,更加全面。2. 很容易想到的,这种范式非常适合做强化学习训练进一步提升,也就是先 think 再给出 answer,r1-reward 的性能增益也许就来自这方面,但是二者之间的差距看起来并没有那么大,而且会引入额外的计算开销。1. 要不要使用自己训练的 ViT,MiMo-VL 使用了 Qwen2.5-ViT,而 Seed 使用了自己的 Seed-ViT。

2025-06-24 21:06:11 897

转载 重塑统一多模态理解范式!UNITE打破模态壁垒,横扫多模态检索基准

使用 text-text、text-image、text-video 等多模态数据训练模型的基本检索能力。视频-文本对数据在所有配置中表现最为突出:不仅在视频检索任务中遥遥领先,甚至在图文检索任务中也超越了基于图像-文本对训练的版本。在多模态检索任务中,不同模态(文本、图像、视频)天然存在分布差异。核心思想:模态掩码约束只在与当前 query 目标模态一致的负样本中进行对比,避免模态间的错误竞争。在细粒度检索、指令检索等多个评测中斩获最佳成绩,树立了全新的多模态检索标杆。这可能导致模型用图像。

2025-06-24 21:06:11 27

原创 碾压DeepSeek推理4倍!MiniMax M1百万token长文屠榜,开源登顶全球前二

架构层面,M1 模型以 MiniMax 此前开源的 MiniMax-Text-01 模型为基座,沿袭了高效的混合注意力架构,实现了近乎线性的注意力复杂度,在计算效率层面遥遥领先。如图所示,同样都是生成 128K,MiniMax M1 的计算代价,也就是 FLOPs,显著低于 DeepSeek R1 模型与 Qwen3-235B-A22B 模型。实现了计算效率的大提升。大家纷纷赞叹极低的训练成本与超长的思维链能力,这得益于MiniMax的混合注意力架构路线,更是得益于 MiniMax 强大的研发能力。

2025-06-24 16:14:54 964

转载 TIP 2025 | 从噪声图像到精准报告:CMCRL两阶段因果框架重构医疗多模态学习

CMCRL 的出现,不仅在技术上突破了对数据中伪关联的依赖,更在生成报告时注重真实病灶信息的捕捉。这项工作以创新性的跨模态因果表示学习方法,成功构建了一个从预训练到因果干预全链路的报告生成系统,有效消除了视觉与语言之间的伪相关性,提升了放射学报告生成的精度和可靠性。:如表 3 所示,在消融实验中,单独启用或禁用视觉去混淆模块(VDM)和语言去混淆模块(LDM)的情况下,均能观察到 BLEU、CIDEr 等指标的显著变化,验证了各模块对消除数据偏差,改善生成质量的关键作用。

2025-06-23 21:34:10 56

转载 告别Softmax缺陷!LogTokU四象限框架用证据强度根治LLM幻觉

因此,我们建议从 logits 空间出发,一体化建模相对和绝对证据强度,实现更加完备的 LLM 不确定性刻画能力。Dirichlet 分布对 logits 进行建模,捕捉相对和绝对证据强度,避免 softmax 归一化导致的信息丢失。softmax 归一化,丢失证据绝对强度信息,难以有效刻画 EU,导致在 LLM 场景中效果不佳。logits,提出了一种基于证据建模的不确定性估计方法,克服了传统方法的局限性。相较于基于多次采样或自我评估的方法,LogTokU 具有更强的理论支撑和更高的实时性和可靠性。

2025-06-23 21:34:10 38

原创 ICML 2025 | 从“开盲盒”到“精准推演”:LensLLM理论透视微调相变,终结大模型选型玄学

在 FLAN、Wikitext 和 Gigaword 三大基准数据集上,LensLLM(蓝色方块)的表现始终优于基准模型(Rectified Scaling Law)(红色三角形),能更平滑、更准确地追踪实际测试损失曲线,且误差带(RMSE Band)更小,表明其预测结果更为稳定。LensLLM(橙色点)在显著降低 FLOPs(计算成本)的同时,保持了高水平的 Pearson 相关系数,相较于Rectified(蓝色点)、SubTuning(绿色点)和 FullTuning(紫色点)展现出更优的效率。

2025-06-23 21:34:10 792

转载 北京内推 | 字节跳动地理位置中台招聘地理位置方向算法实习生

字节跳动在全球推出了多款有影响力的产品,包括今日头条、抖音、西瓜视频、飞书、Lark、PICO、剪映、TikTok等。3. 精通自然语言处理相关算法和模型,熟悉常见的机器学习算法和深度学习框架,如TensorFlow、PyTorch等,能够独立完成算法和模型的开发和优化;4. 有良好的英文读写能力和扎实的数学基础,发表过高水平论文优先,有自然语言理解、聊天机器人、海量数据挖掘、知识图谱等研发经验优先;2. 具有自驱能力和热情,对新的NLP技术和应用有着深厚的兴趣和热爱,积极探索和研究;

2025-06-20 13:34:19 54

原创 MLLM做数学题也会“走神”?南大&腾讯提出TVC,根治多模态长链推理的“视觉遗忘症”

通过这套“训练习惯 + 推理应用”的组合拳,TVC成功地为多模态大模型在漫长的推理之旅中,提供了一个持续、可靠的视觉“锚”,让它不再“忘本”,从而在复杂的视觉推理任务中表现得更加精准和鲁棒。我们发现,在进行多步、长链条的推理时,即便是最先进的 MLLM,也会逐渐“忘记”最初给它的图像信息,越来越依赖自己生成的文本,最终导致“一本正经地胡说八道”。的策略,从强大的教师模型(如 QVQ-72B)中“榨取”出高质量的推理数据,并对数据进行动态截断和反思词修剪,确保了训练数据的正确性、简洁性和高效性。

2025-06-20 13:34:19 939

转载 NeurIPS 2024 | 感知理解生成三合一!TextHarmony定义OCR多任务统一新范式

这项工作填补了 OCR 领域多模态统一大模型的空白,为需要同时理解图像文字并生成或修改图文内容的复杂交互任务(如智能文档处理、自动化报告生成、交互式内容创作等)提供了强大的基础模型支持,具有重要的研究价值和广阔的应用前景。这种不一致性导致多模态生成模型在理解任务(文本输出)和生成任务(图像输出)上的性能,均显著低于各自领域的单模态专家模型(文本生成性能下降约 5%,图像生成性能下降最高达 8%)。目标:学习统一的多模态理解与生成能力,Slide-LoRA 在此阶段发挥关键作用,协调不同模态的生成。

2025-06-20 13:34:19 42

原创 通杀主流LLM!用知识图谱“撬开”大模型安全门,黑盒越狱新范式HBS-KGLLM发布

具体来说,首先让 LLMs 扮演 KG 专家的角色,然后将重写后的提示词作为 KG 三元组中的头节点,关系为包含关系,尾节点是空白的步骤节点,攻击尝试诱导 LLMs 来响应关于攻击提示词的详细步骤信息,这些信息可能包含越狱攻击期待模型生成的不当或者有害响应。该该论文提出的框架展示了 KG 在提示设计与攻击中的强大作用,为 LLMs 与结构化知识表示的结合提供了新思路,其主要特点是无需访问模型内部结构,更适用于广泛的封闭模型,降低了攻击研究的技术门槛。总有一些你不认识的人,知道你想知道的东西。

2025-06-20 13:34:19 498

转载 训练无关、即插即用!北大DyFo刷新视觉搜索能力,解锁MLLM细粒度理解新高度

在高分辨率示例中,DyFo 成功聚焦占图像面积不到 1/50 的关键对象,证明了其处理复杂视觉任务的卓越能力。DyFo 模拟人类视觉搜索策略,基于蒙特卡洛树搜索(MCTS)在多模态大模型与视觉专家之间实现高效协作,引导模型在多轮交互中动态调整关注区域,从而更准确地理解图像中的关键细节,显著提升模型在细粒度视觉任务中的表现。在 POPE(幻觉检测)与 V* Bench(细粒度理解)等基准上,DyFo 实现了稳健性能提升,作为“图像思考”理念的实用补充,为多模态模型在高复杂度视觉任务中的落地提供了新路径。

2025-06-19 14:02:17 41

原创 ACL 2025 | 大模型“以讹传讹”?DRAG双阶段「多代理辩论」破解幻觉叠加问题

DRAG 的核心思想是借助多智能体辩论机制(Multi-Agent Debate, MAD),在信息检索和答案生成阶段都引入“正反方辩论 + 法官裁决”的机制,模拟一个“查找事实 + 互相质疑 + 集体评估”的 AI 辩论法庭,让最终输出更准确、更有理有据。但 DRAG 同样也有一定的局限,在简单单跳任务中,DRAG 可能因“过度辩论”引发问题漂移,因此未来可探索自适应停止策略,提升性价比。,通过引入多智能体辩论机制,在“找资料”和“写答案”的每一个环节中层层把关,提升答案的真实性与可靠性。

2025-06-19 14:02:17 953

原创 ACL 2025 | 深入浅出看关系:探索多模态大模型关系“幻觉”问题

有一个与直觉可能相悖的发现是,模型在判断具体的“感知关系”(如方位)时,比判断抽象的“认知关系”(如动作)更容易产生幻觉,错误率平均高出 10% 左右,在某些模型和设置下甚至超过 30%。这种幻觉涉及到两个及以上物体之间的逻辑关系,比如“桌子上的杯子”或“男孩在吃披萨”,模型可能错误地描述这些关系,造成严重后果。总有一些你不认识的人,知道你想知道的东西。2. 校准(Calibrate):一旦侦测到潜在的幻觉,就利用模型中间层(这些层通常包含更原始、更少被“带偏”的信息)的隐藏状态来“校准”最终的输出。

2025-06-18 21:32:39 721

原创 比Transformer还快?闭环递归Comba登场!标量低秩变换加速前向传播,CV/NLP齐夺SOTA

由于现代 GPU 是为矩阵乘法所设计的,导致递归模型在较短序列的计算时通常比 Transformer 要慢,为了最大化矩阵乘法 Flops,类似于 Mamba2,GLA,DeltaNet 等模型,Comba 采取如下块间递归,块内并行的方式,在序列维度上高效并行计算。并且这类模型基于加法的更新机制,不断的将 key-value 所构成的外积记忆加到记忆状态中,导致模型缺少一个准则来判断哪些记忆是重要的,哪些记忆是不重要的,数据依赖的门控会使得状态中存储的记忆会平等的遗忘。

2025-06-18 21:32:39 1087

转载 你的T2I模型真的看懂了你的Prompt吗?TIIF-Bench来了次摸底评测!

语义重复性高(左上图):我们使用 CLIP 提取了不同 Bench 中所有 prompts 的文本语义特征并计算了 consine 相似度,以 0.85 为 threshold,发现 GenAI Bench 中只有不到 30% 的 prompt 是 semantic unique 的,Compbench++ 中只有不到 60%,而 TIIF-Bench 中 semantic unique prompts 大于 90%;:现实中,用户往往会输入多属性、带有条件关系和上下文逻辑的自然语言描述。

2025-06-18 21:32:39 40

转载 北京内推 | 联想研究院人工智能实验室招聘多模态算法实习生

从PC互联网时代,到移动互联网时代,再到智能互联网时代,联想研究院一直致力于推动IT、计算机领域和智能设备和服务的技术发展,为联想的众多高科技产品和服务注入了最前沿的科技成果和理念,为提升联想全球用户的用户体验、打造引领时代潮流的生活方式而不断奋斗。3. 具有较强的Python开发能力,熟悉PyTorch框架,以及transformer, diffusers等常见库;聚焦人工智能领域的招聘平台,涵盖高校硕博招生、博士后招募、企业校招、社招、实习和内推等。扫描下方小助手的微信,pick 你心仪的岗位~

2025-06-17 13:35:18 32

原创 ICML 2025 | 北大KA-Prompt首创提示知识对齐范式,跨域推理不再“鸡同鸭讲”

为了解决以上的问题,作者提出一个KA-Prompt(Componential Prompt-Knowledge Alignment)提示学习框架,其核心目标是在跨域持续学习中,实现提示的语义结构对齐,同时促进历史域知识对新域学习的指导和提升模型在测试阶段的泛化能力。而在实际应用中,数据分布往往是动态变化的,模型需要不断地学习新知识,同时保持对旧知识的记忆。,通过加强域间提示的语义知识对齐,一方面增强了历史域知识对新域学习的指导作用,另一方面也加强了域间提示的语义一致性,提升了模型在测试阶段的泛化能力。

2025-06-17 13:35:18 931

转载 欧洲团队开源「地球AI大脑」!EarthMind突破遥感多模态统一理解壁垒

现有的大模型(如 GPT-4o、Gemini 等)虽然在图像与文本理解上取得突破,但面对复杂的遥感数据,往往缺乏有效的适应能力与系统性的评估基准。在公开评测数据集中,EarthMind 在十余项地球观测下游任务中取得强劲表现,包括场景分类,VQA,CAPTION,目标检测,语义分割等。多传感器数据覆盖:收集并整理了来自公开数据集的高质量 RGB–SAR 配对样本(如 OpenEarthMap-SAR、WHU-OPT-SAR、DFC2023、MSAW 等),并支持后续多光谱与高光谱数据的扩展。

2025-06-17 13:35:18 41

转载 从“比像素”到“懂语义”!Video-Bench实现视频质量精准打分,突破73%人类认同率

如何准确评估这些模型的性能,确保它们生成的视频准确符合人类的审美和需求,成为了一个亟待解决的问题。这种方法避免了直接的跨模态比较,而是先将视频内容转换为文本描述,然后通过一系列精心设计的问题,逐步检查视频内容是否与文本提示完全一致,有效解决了跨模态对比的语义鸿沟问题。Video-Bench 的评估框架利用多模态大语言模型(Multimodal Large Language Model,MLLM)的强大能力,通过链式查询技术和少样本评分技术,实现了对视频生成质量的高效评估。▲ 图3. 评分策略示意图。

2025-06-16 18:07:20 48

原创 ACL 2025 | 数据多不如风格齐?SCAR精选<1%样本,指令微调效果飙升

使用 SCAR 选择的 10% 数据就能达到全量数据的性能水平,而在某些配置下,小数据集训练的模型 L.C. WinRate 甚至达到了 6.61,远超全量数据训练的 3.86。如果全量数据中回答的风格不一致,SCAR 通过识别和选择风格一致的指令-回答对,能够在显著减少训练数据量的同时,达到甚至超越全量数据训练的效果。在代码生成任务上,使用 SCAR 选择的风格一致数据训练的 LLM 在 HumanEval 基准上取得了显著的性能提升,远超使用风格不一致数据训练的模型。

2025-06-16 18:07:20 680

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除