深度学习框架HuggingFace Transformers再次迎来重大更新,v4.56.0版本包含多项突破性特性与优化。
2025年8月30日,HuggingFace团队正式发布了Transformers库的v4.56.0版本。本次更新不仅加入了8个重要的新模型,包括计算机视觉领域的DINOv3和SAM 2,音频处理领域的X-Codec,多模态模型Kosmos 2.5、Ovis 2等,还带来了缓存系统重构、量化支持增强、训练推理优化等多项改进。
这些更新进一步巩固了Transformers作为深度学习领域最全面模型库的地位。本文将深入解析v4.56.0版本的核心更新内容及其实际应用价值。
01 新模型加入
本次更新一次性加入了8个各具特色的新模型,覆盖视觉、音频和多模态等多个领域。
1. DINOv3:视觉基础模型新标杆
DINOv3是一种无需微调即可在各种视觉任务上超越专业最新技术的通用视觉基础模型。它能够产生高质量密集特征,在各种视觉任务上实现出色性能,显著超越了以前的自我监督和弱监督基础模型。
DINOv3的核心优势在于其强大的泛化能力,这使得它在分类、分割、检测等任务上都能取得令人印象深刻的表现,而无需针对特定任务进行微调。
2. X-Codec:融合语义的神经音频编解码器
X-Codec是一种创新性的神经音频编解码器,它将来自自监督模型(如HuBERT)的语义信息与传统声学信息相结合。
这种架构使得X-Codec在多个应用场景中表现出色:音乐延续方面,更好的音乐语义建模产生了更连贯的延续;文本到声音合成方面,X-Codec捕捉文本提示与生成音频之间的语义对齐;语义感知音频标记化方面,X-Codec被用作YuE歌词到歌曲生成模型中的音频标记器。
3. Ovis 2:阿里巴巴的多模态大语言模型升级版
Ovis 2是阿里巴巴国际数字商业集团AIDC-AI团队开发的Ovis模型更新版本。作为多模态大语言模型(MLLMs)的最新进展,它继承了Ovis系列专注于对齐视觉和文本嵌入的架构设计,同时在数据整理和训练方法上引入了重大改进。
Ovis 2的推出表明了多模态模型在电商领域的应用前景,特别是在商品理解、视觉问答等实际场景中。
4. MetaCLIP 2:支持300多种语言的多语言CLIP模型
MetaCLIP 2是在300多种语言上训练的CLIP模型的复现版本。它在多语言基准测试(如XM3600、CVQA、Babel-ImageNet)上实现了最先进(SOTA)的结果,超越了之前的SOTA模型如mSigLIP和SigLIP-2。
研究表明,英语和非英语世界可以相互受益和提升,这为构建真正全球化的AI系统奠定了基础。
5. Florence 2:基于提示的视觉基础模型
Florence-2是一种先进的视觉基础模型,使用基于提示的方法来处理各种视觉和视觉语言任务。通过简单的文本提示,Florence-2就能执行标题生成、物体检测和分割等任务。
它利用FLD-5B数据集(包含1.26亿张图像的54亿个注释)来掌握多任务学习。模型的序列到序列架构使其在零样本和微调设置中都能表现出色,被证明是一个具有竞争力的视觉基础模型。
6. SAM 2:图像和视频分割新突破
SAM 2(Segment Anything Model 2)是分割技术的重要进展。该模型可用于在给定输入图像或视频以及输入点或边界框的情况下预测任何感兴趣对象的分割掩码。
SAM 2的推出为计算机视觉领域的分割任务提供了更强大的工具,特别是在处理复杂场景和视频序列时表现出色。
7. Kosmos 2.5:多模态读写模型
Kosmos-2.5是微软开发的多模态读写模型,专门用于机器阅读文本密集图像。该模型在大型文本密集图像上预训练,在两种不同但合作的转录任务中表现出色:生成空间感知文本块(每个文本块被分配其在图像内的空间坐标);产生结构化文本输出,将样式和结构捕获为标记格式。
这种统一的多模态读写能力通过共享Transformer架构、任务特定提示和灵活的文本表示来实现。
8. 其他模型更新
此外,本次更新还加入了 HunYuan(腾讯混元模型)、Seed OSS(字节跳动种子模型)和 GLM-4.5V(智谱视觉语言模型),但由于篇幅限制,这些模型的详细信息尚未完全披露。
02 缓存系统重构
v4.56.0版本对缓存系统进行了大规模重构,使其更加实用和通用。使用滑动窗口注意力/分块注意力的模型在缓存过去状态时不再浪费内存。
新引入的DynamicSlidingWindowLayer及相关缓存机制带来了内存使用率的显著改善。对于Mistral(仅使用滑动层)和GPT-OSS(每2层中有1层是滑动层)模型,内存使用效率有了大幅提升。
除了内存使用外,对于大上下文场景,生成/前向速度也会大幅提高,因为只有必要的状态被传递给注意力计算,这对序列长度非常敏感。
03 量化支持增强
MXFP4量化支持在本版本中得到了一系列改进和稳定化处理。多项修复和优化使MXFP4量化更加成熟和实用。
具体改进包括:修复MXFP4量化器验证以允许使用反量化选项进行CPU推理;使GPT-OSS MXFP4在旧硬件(sm75+)上可用;修复MXFP4量化中的拼写错误和改进GPU内核检查错误消息;在设备映射中为MXFP4默认使用反量化(如果是CPU);修复GPT-OSS swiglu_limit在MXFP4中未传递的问题;添加使用量化方法保存MXFP4的途径。
这些改进使得量化技术的应用更加广泛和稳定,为资源受限环境下的模型部署提供了更多可能性。
04 训练优化技术
v4.56.0版本包含多项训练优化技术改进,这些技术能够显著提高训练效率和降低资源消耗。
1. 梯度累积(Gradient Accumulation)
梯度累积通过模拟更大的批处理大小来提高训练效率。它允许先执行几次前向传播和反向传播,使梯度累积,当有足够的计算梯度时,再对参数进行优化,从而利用小显存模拟大批量效果。
2. 冻结(Freezing)
冻结通过取消计算模型某些层(如嵌入层、BERT的前几层)中的梯度计算,大大加快训练速度并降低显存占用,且几乎不会损失模型性能。深度学习中的底层学习输入数据的通用特征,而顶层学习目标任务特定的高级特征,因此冻结底层参数不会显著影响模型性能。
3. 自动混合精度(Automatic Mixed Precision)
自动混合精度训练使用较低的精度(如float16)将模型的梯度和参数保留在内存中,减少显存消耗和训练时间。为了防止“溢出”(某些值可能太小而被视为零),原作者提出了梯度缩放方法。
4. 8位优化器(8-bit Optimizers)
8位优化器让优化器的状态也使用低精度保存,显著降低显存占用,略微加快训练速度。研究表明,8位优化器对不同学习率、beta和权重衰减参数的效果是稳定的,不会降低性能或影响收敛性。
05 推理加速技术
在推理优化方面,v4.56.0版本也带来了多项重要改进。
1. KV缓存(键值缓存)
KV缓存通过缓存历史标记的键/值矩阵来提升推理效率:避免重复计算历史标记的注意力结果;将推理计算复杂度从O(n²)降至O(n);降低内存带宽需求,提高推理速度;支持更长上下文处理。
2. 滑动窗口注意力(Sliding Window Attention)
滑动窗口注意力是一种局部注意力机制,降低计算与内存成本,支持超长文本处理。这种方法被Longformer、BigBird等模型采用。
06 代码API变更
v4.56.0版本引入了一些重要的代码API变更,这些变更旨在提高代码的一致性和易用性。
1. 标准化dtype参数
现在全面使用dtype参数代替torch_dtype。torch_dtype仍然有效,但新代码应使用dtype,建议旧代码也进行更新。
2. 缓存相关变更
添加了显式缓存初始化以准备弃用from_legacy_cache实用程序。现在始终在模型化中返回缓存对象(以与生成对齐)。
3. 默认编译设置变更
现在默认编译设置fullgraph=False,这减少了限制,特别是随着广泛使用的MoEs的到来。
07 重要问题修复
v4.56.0版本修复了多个重要问题,提高了库的稳定性和性能。
修复了Flash Attention中滑动窗口大小偏差1的问题,这影响了初始上下文比滑动窗口大小大的生成。
修复了GPT-OSS模型中的注意力缩放问题,确保注意力计算正确性。
修复了PerceptionLM图像预处理对于非平铺图像输入的问题,提高了模型适用性。
修复了MoE模型中的变量命名错误:expert_hitted → expert_hit, hitted_experts → hit_experts,提高了代码可读性。
08 社区贡献
v4.56.0版本包含了来自社区的众多重要贡献,这些贡献丰富了库的功能和适用性。
提供了Gemma3修复、AMD各种测试修复、EncoderDecoderCache修复和wav2vec2修复。
修复了superglue中的批处理掩码应用方式,修复了efficientloftr中的错误并严格遵循原始交叉注意力实现,添加了关键点匹配管道,支持EfficientLoFTR动态图像大小。
修复了HGNetV2模型卡和图像分类管道使用技巧,添加了Florence-2支持。
修复了getenv的默认值,启用SIM规则,修复了多处拼写错误,移除了更多PyTorch 2.2兼容代码。
Transformers v4.56.0版本的发布标志着深度学习框架功能的又一次重大飞跃。从新模型的加入到系统性能优化,从训练加速到推理改进,本次更新全面提升了库的功能性和实用性。