DINOV2的核心思想:借鉴自然语言处理领域的大规模预训练方法,构建计算机视觉领域的通用视觉特征模型,使其能够直接适用于各种任务而无需微调。
学习任务无关的预训练表征已成为自然语言处理(NLP)领域的标准方法。这些特征可直接使用(即无需微调),且在下游任务中的表现显著优于针对特定任务训练的模型。这一成功得益于基于无监督预训练目标(如语言建模(Radford et al., 2017)或词向量(Devlin et al., 2019))对海量原始文本进行的预训练。
随着NLP领域的范式转变,我们预期计算机视觉领域也将出现类似的“基础”模型(Bommasani et al., 2021)。这类模型应能生成即插即用的视觉特征,适用于图像级任务(如分类)和像素级任务(如分割)。目前,构建此类模型的主流方法依赖于文本引导的预训练,即通过文本监督信号指导特征学习。然而,文本引导的预训练会限制图像信息的保留——因为文本描述仅能近似图像的丰富内容,而复杂的像素级信息可能无法通过此类监督充分表征。此外,这类图像编码器需要对齐的图文数据,因而无法像纯文本模型那样仅从原始数据中学习。
另一种方案是自监督学习,其特征完全从图像中学习。这类方法在概念上更接近语言建模等预训练任务,能同时捕获图像级和像素级信息。自监督模型输出的特征已被证明具有多种实用特性,并支持广泛的应用场景。尽管自监督学习具备学习通用特征的潜力,但现有研究主要在小型精选数据集ImageNet-1k上预训练。虽然已有尝试将此类方法扩展至非精选数据集,但由于缺乏对数据质量与多样性的控制,其特征性能显著下降。
本研究旨在探索:若在大量精选数据上预训练,自监督学习能否生成通用视觉特征?我们重新审视了现有判别式自监督方法(如iBOT(Zhou et al., 2022a)),并在更大规模数据集的背景下优化其设计。我们的技术贡献主要集中于提升判别式自监督学习在模型与数据规模扩展时的稳定性与效率。相比同类方法,本方案训练速度提升约2倍,内存占用减少3倍,从而支持更大批量的长时训练。
在数据方面,我们构建了自动化流水线,从海量非精选图像中筛选并平衡数据集。该流水线借鉴NLP领域方法(Wenzek et al., 2020),仅依赖数据相似性而非外部元数据,无需人工标注。处理真实图像的核心挑战在于概念平衡与避免主导模式过拟合,本研究通过朴素聚类方法有效解决了该问题。我们最终收集了1.42亿张图像的小型多样化数据集用于验证。
基于不同架构的Vision Transformer(ViT)(Dosovitskiy et al., 2016),我们训练了一系列名为DINOv2的视觉模型,并公开所有模型及训练代码。如图2所示,我们在多个图像/像素级计算机视觉基准测试中验证了DINOv2的质量。结论表明:纯自监督预训练能够学习具有竞争力的可迁移冻结特征,其性能与当前最优的弱监督开源模型相当。(别人的实验结果是:DINOv2作为提取特征的backbone效果很好,但是很难微调,用自己的数据集进行微调,效果会很差。)