CLIP-VIT主体结构

### CLIP-ViT 模型架构和主要组成部分 #### 1. 多模态输入处理 CLIP (Contrastive Language–Image Pre-training) 是一个多模态学习框架，旨在通过自然语言监督来理解视觉概念。对于图像部分，CLIP 使用 Vision Transformer (ViT)，这是一种基于 transformer 架构的卷积神经网络替代方案[^3]。 #### 2. 图像编码器 - Vision Transformer (ViT) Vision Transformer 将图像分割成固定大小的小块(patch)，并将这些小块线性映射到高维向量。随后，在这些向量序列前添加位置嵌入(position embedding)，以便模型能够捕捉空间关系。接着，该序列被送入一系列标准的变压器层中进行处理。每一层都包含了自注意力机制(self-attention mechanism)以及全连接前馈网络(feed-forward network)[^1]。 ```python class ViTEncoder(nn.Module): def __init__(self, config): super().__init__() self.patch_embeddings = PatchEmbeddings(config) self.position_embeddings = nn.Parameter(torch.zeros(1, config.max_position_embeddings, config.hidden_size)) def forward(self, pixel_values): embeddings = self.patch_embeddings(pixel_values) + self.position_embeddings return embeddings ``` #### 3. 文本编码器 - Transformer Text Encoder 为了处理文本输入，CLIP 应用了类似于 BERT 的双向转换器作为其文本编码组件。此模块接收标记化后的单词序列并输出相应的上下文化表示(contextualized representations)。这种设计使模型能够在训练过程中有效地关联给定图片与描述性的短语或句子。 #### 4. 对比损失函数在整个系统中起着核心作用的是对比损失(objective function)，它鼓励来自同一对齐样本对(image-text pair)的两个视图之间的相似度最大化，而不同样本间的距离则尽可能拉大。具体来说，就是计算每一对正样本组合与其他负样本组合之间的余弦相似度得分，并以此为基础构建最终的目标函数。 ```python import torch.nn.functional as F def contrastive_loss(logits_image_to_text, logits_text_to_image): labels = torch.arange(len(logits_image_to_text)).to(device=logits_image_to_text.device) loss_i2t = F.cross_entropy(logits_image_to_text, labels) loss_t2i = F.cross_entropy(logits_text_to_image, labels) return (loss_i2t + loss_t2i) / 2.0 ``` #### 5. 零样本迁移能力值得注意的是，由于采用了大规模且多样化的图文配对数据集进行预训练，CLIP 展现出了强大的零样本(zero-shot)迁移性能——即使面对未曾见过的新类别或任务场景也能给出合理预测。

阅读全文