AI视觉大模型学习笔记

学习笔记来源于B站课程:https://www.bilibili.com/video/BV1hwLEzZEnS

1. 概述

学习路线

大模型演进路线:

视觉大模型趋势

2. 自监督学习

自监督学习(Self-Supervised Learning, SSL)是机器学习的一种范式,它通过从数据自身生成标签来训练模型,无需人工标注数据。其核心思想是:利用数据的隐含结构自动构造监督信号,让模型学习有意义的表示(Representation Learning)。

和其他机器学习范式的区别:

2.1. 三种学习范式

自监督的三种学习范式,所有方法都旨在从未标注的多模态数据(如图像-文本对、视频-音频等)中学习强大的、通用的跨模态表示,避免昂贵的人工标注。

这三种方法都是让机器“无师自通”理解多模态信息的强大工具,只是路径不同,各有千秋。现在最厉害的模型往往是融合了其中两种甚至三种方法的优点。
 

2.2. 总结对比表

特征

基于前置任务学习

基于对比学习

基于掩码重建学习

核心驱动

人为设计的代理任务

区分正负样本对

根据上下文重建被掩码的数据

主要目标

解决特定代理任务

拉近正样本,推远负样本

最小化重建误差

关键操作

预测伪标签

计算对比损失 (InfoNCE 等)

掩码输入,预测被掩部分

信息利用

任务定义所需的信息

样本间(对)的相似/不相似关系

数据内部的上下文依赖关系

优点

设计灵活,直观

表示判别性强,对齐效果好

通用性强,学习丰富上下文,无需负样本

主要缺点

任务设计敏感,信息瓶颈

负样本需求大(计算/假阴性)

计算开销大,可能过分关注低层细节

模态对齐

任务相关(如匹配任务强制对齐)

非常直接(在共享空间拉近表示)

通过跨模态上下文重建隐含学习

代表模型

早期跨模态匹配模型,VATT

CLIP, ALIGN, FILIP

BEiT-3, FLAVA, MAE, Data2Vec


3. 视觉大模型

3.1. VIT (基础网络架构)

ViT (Vision Transformer),这是一个革命性的视觉模型,它成功地将原本在自然语言处理(NLP)领域大放异彩的 Transformer 架构引入了计算机视觉(CV)领域,并取得了与甚至超越传统卷积神经网络(CNN)的性能。

详细拆解步骤图

1. 输入图像(224x224x3)
   ┌───────────────────────────────────┐
   │          ██  ▒▒  ░░  ▒▒          │
   │    ▒▒▒▒  ░░  ██  ▒▒  ██  ░░      │
   │    ░░░░  ██  ▒▒      ▒▒  ██      │
   │          ▒▒  ░░  ██  ░░          │
   └───────────────────────────────────┘

2. 图像分块(拆成 16x16 的小块)
   ┌───┬───┬───┬───┐
   │ ██│▒▒ │░░ │▒▒ │  → 共 14x14=196 个块
   ├───┼───┼───┼───┤
   │ ▒▒│ ░░│ ██│ ▒▒│
   ├───┼───┼───┼───┤
   │ ░░│ ██│ ▒▒│   │
   └───┴───┴───┴───┘

3. 线性嵌入(每个块展平为向量)
   [16x16x3=768像素] → 线性投影 → [D=768维向量]
   ██块 → [0.2, 1.7, -0.9, ..., 0.5]  (长度768)
   ▒▒块 → [0.8, -2.1, 0.3, ..., -1.2]

4. 添加位置编码 + [CLS] Token
   ┌───────┬───────────────┐
   │ [CLS] │ 块1 块2 ... 块196 │  ← 序列长度=197
   └───────┴───────────────┘
   │      │               │
   │      └──▶ + 位置编码向量  │  (标记空间位置)
   └──▶ 可学习的分类向量      │

5. Transformer 编码器(核心)
   ┌───────────────────────┐
   │ 多头自注意力 → 层归一化     │
   │          ↓            │
   │ 前馈神经网络 → 层归一化     │  × L层(例:L=12)
   └───────────────────────┘
   ▲
   输入序列: [CLS] + (块1+位置1) + ... + (块196+位置196)

6. 输出分类结果
   ┌───────────┐
   │ 取[CLS]向量 │ → MLP分类头 → "猫: 0.95"
   └───────────┘

3.2. 自监督训练框架

范式

代表模型

关键技术

突破点

对比学习

SimCLR

大批量+非线性投影头

简化对比学习框架

MoCo v1/v2/v3

动量编码器+队列内存库

解耦批量与负样本数量

BYOL

非对称网络+动量教师

无需负样本

掩码重建

MAE

高掩码率+非对称编解码

ViT高效预训练方案

BEiT v1/v2/v3

视觉Token预测

语义级重建

蒸馏自训练

DINO

教师-学生网络+中心化/锐化

自蒸馏防坍塌

iBOT

掩码重建+自蒸馏联合

多任务协同优化

聚类驱动

SwAV

在线聚类+多视角交换

替代负样本对比

非对称架构

SimSiam

预测头+停止梯度

极简自监督框架

多模态

CLIP/ALIGN

图文对比学习

跨模态语义对齐

3.3. 关键关系图示

          ┌──────────────┐
          │  基础架构     │
          │    (ViT)     │◄─────┐
          └──────┬───────┘      │
                 │              │
         ┌───────▼───────┐  ┌───▼───────┐
         │ 训练框架       │  │ 训练框架   │
         │   (MAE)       │  │  (DINO)   │
         └───────┬───────┘  └───┬───────┘
                 │              │
         ┌───────▼───────┐  ┌───▼───────┐
         │ 掩码重建任务   │  │ 自蒸馏任务 │
         └───────────────┘  └───────────┘

:SimCLR/MAE/DINO 是训练方法论,ViT 是模型骨架

3.4. 典型组合案例

实际模型

架构

训练方法

代表作

ViT-Base

ViT

监督学习

原始ViT论文

MAE-ViT-Huge

ViT

MAE

Facebook AI 2021

DINO-vit-small

ViT

DINO

Meta AI 2021

SimCLR-ResNet

ResNet

SimCLR

Google 2020

4. 多模态网络架构

4.1. 多模态网络要素

4.2. CLIP (对比语言-图像预训练)

“CLIP 的本质是将语言作为视觉任务的统一接口” —— OpenAI 团队

用对比学习对齐图文语义空间

  • 目标:让模型学会判断「任意图像」与「任意文本描述」是否匹配
  • 方法
    • 图像编码器(如 ViT/ResNet)提取视觉特征
    • 文本编码器(Transformer)提取语言特征
    • 通过对比损失拉近匹配图文对,推开不匹配对

组件

架构选择

输出维度

图像编码器

ViT-B/32 或 ResNet-50x64

512 维向量

文本编码器

Transformer

512 维向量

交互方式:仅通过特征向量的余弦相似度交互,不设计跨模态融合模块

5. 下游任务迁移

5.1. 四大迁移方法核心区别

方法

修改位置

训练参数量

计算成本

适用场景

Linear Probing

仅最后一层分类头

极少(<1%)

极低

特征质量极高时快速部署

Full Finetune

全部模型参数

100%

极高

数据充足且任务差异大

Adapter

插入轻量模块

0.5%-5%

中低

平衡效果与效率的通用场景

Prompt Tuning

修改输入(提示词)

0.1%-1%

最低

少样本/零样本学习


 

5.2. 多模态任务迁移方案选择指南

场景

推荐方法

案例说明

数据极少(<50样本)

Prompt Tuning

博物馆文物图文匹配

数据适中(1k-10k)

Adapter

电商产品描述生成

数据充足(>100k)

Full Finetune

短视频内容安全审核

实时推理要求高

Linear Probing

智能相册自动打标

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

濡雪

谢谢你的鼓励!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值