transformers v4.56.0发布：DINOv3、SAM 2等八大模型重磅登场，推理训练双优化

原创于 2025-09-01 07:14:13 发布 · 1.3k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#transformers

文心一言vschatgpt 专栏收录该内容

730 篇文章

订阅专栏

「AI 原生编程挑战赛」用你的代码，让小型系统 “一键生长” 10w+人浏览 76人参与

在这里插入图片描述

深度学习框架HuggingFace Transformers再次迎来重大更新，v4.56.0版本包含多项突破性特性与优化。

2025年8月30日，HuggingFace团队正式发布了Transformers库的v4.56.0版本。本次更新不仅加入了8个重要的新模型，包括计算机视觉领域的DINOv3和SAM 2，音频处理领域的X-Codec，多模态模型Kosmos 2.5、Ovis 2等，还带来了缓存系统重构、量化支持增强、训练推理优化等多项改进。

这些更新进一步巩固了Transformers作为深度学习领域最全面模型库的地位。本文将深入解析v4.56.0版本的核心更新内容及其实际应用价值。

01 新模型加入

本次更新一次性加入了8个各具特色的新模型，覆盖视觉、音频和多模态等多个领域。

1. DINOv3：视觉基础模型新标杆

DINOv3是一种无需微调即可在各种视觉任务上超越专业最新技术的通用视觉基础模型。它能够产生高质量密集特征，在各种视觉任务上实现出色性能，显著超越了以前的自我监督和弱监督基础模型。

DINOv3的核心优势在于其强大的泛化能力，这使得它在分类、分割、检测等任务上都能取得令人印象深刻的表现，而无需针对特定任务进行微调。

2. X-Codec：融合语义的神经音频编解码器

X-Codec是一种创新性的神经音频编解码器，它将来自自监督模型（如HuBERT）的语义信息与传统声学信息相结合。

这种架构使得X-Codec在多个应用场景中表现出色：音乐延续方面，更好的音乐语义建模产生了更连贯的延续；文本到声音合成方面，X-Codec捕捉文本提示与生成音频之间的语义对齐；语义感知音频标记化方面，X-Codec被用作YuE歌词到歌曲生成模型中的音频标记器。

3. Ovis 2：阿里巴巴的多模态大语言模型升级版

Ovis 2是阿里巴巴国际数字商业集团AIDC-AI团队开发的Ovis模型更新版本。作为多模态大语言模型（MLLMs）的最新进展，它继承了Ovis系列专注于对齐视觉和文本嵌入的架构设计，同时在数据整理和训练方法上引入了重大改进。

Ovis 2的推出表明了多模态模型在电商领域的应用前景，特别是在商品理解、视觉问答等实际场景中。

4. MetaCLIP 2：支持300多种语言的多语言CLIP模型

MetaCLIP 2是在300多种语言上训练的CLIP模型的复现版本。它在多语言基准测试（如XM3600、CVQA、Babel-ImageNet）上实现了最先进（SOTA）的结果，超越了之前的SOTA模型如mSigLIP和SigLIP-2。

研究表明，英语和非英语世界可以相互受益和提升，这为构建真正全球化的AI系统奠定了基础。

5. Florence 2：基于提示的视觉基础模型

Florence-2是一种先进的视觉基础模型，使用基于提示的方法来处理各种视觉和视觉语言任务。通过简单的文本提示，Florence-2就能执行标题生成、物体检测和分割等任务。

它利用FLD-5B数据集（包含1.26亿张图像的54亿个注释）来掌握多任务学习。模型的序列到序列架构使其在零样本和微调设置中都能表现出色，被证明是一个具有竞争力的视觉基础模型。

6. SAM 2：图像和视频分割新突破

SAM 2（Segment Anything Model 2）是分割技术的重要进展。该模型可用于在给定输入图像或视频以及输入点或边界框的情况下预测任何感兴趣对象的分割掩码。

SAM 2的推出为计算机视觉领域的分割任务提供了更强大的工具，特别是在处理复杂场景和视频序列时表现出色。

7. Kosmos 2.5：多模态读写模型

Kosmos-2.5是微软开发的多模态读写模型，专门用于机器阅读文本密集图像。该模型在大型文本密集图像上预训练，在两种不同但合作的转录任务中表现出色：生成空间感知文本块（每个文本块被分配其在图像内的空间坐标）；产生结构化文本输出，将样式和结构捕获为标记格式。

这种统一的多模态读写能力通过共享Transformer架构、任务特定提示和灵活的文本表示来实现。

8. 其他模型更新

此外，本次更新还加入了 HunYuan（腾讯混元模型）、Seed OSS（字节跳动种子模型）和 GLM-4.5V（智谱视觉语言模型），但由于篇幅限制，这些模型的详细信息尚未完全披露。

02 缓存系统重构

v4.56.0版本对缓存系统进行了大规模重构，使其更加实用和通用。使用滑动窗口注意力/分块注意力的模型在缓存过去状态时不再浪费内存。

新引入的DynamicSlidingWindowLayer及相关缓存机制带来了内存使用率的显著改善。对于Mistral（仅使用滑动层）和GPT-OSS（每2层中有1层是滑动层）模型，内存使用效率有了大幅提升。

除了内存使用外，对于大上下文场景，生成/前向速度也会大幅提高，因为只有必要的状态被传递给注意力计算，这对序列长度非常敏感。

03 量化支持增强

MXFP4量化支持在本版本中得到了一系列改进和稳定化处理。多项修复和优化使MXFP4量化更加成熟和实用。

具体改进包括：修复MXFP4量化器验证以允许使用反量化选项进行CPU推理；使GPT-OSS MXFP4在旧硬件（sm75+）上可用；修复MXFP4量化中的拼写错误和改进GPU内核检查错误消息；在设备映射中为MXFP4默认使用反量化（如果是CPU）；修复GPT-OSS swiglu_limit在MXFP4中未传递的问题；添加使用量化方法保存MXFP4的途径。

这些改进使得量化技术的应用更加广泛和稳定，为资源受限环境下的模型部署提供了更多可能性。