clip:利用文本的监督信号,训练一个迁移能力强的视觉模型。基于nlp里gpt的通用能力,通过对比学习,将zero-shot能力关联到图像。
-
clip多模态融合网络结构:text encoder + image encoder 网络重,多模态特征融合网络轻。
-
多模态融合前TE和IE都连一个project层,一是将不同模态的特征维度整合成相同维度(clip是线性层,但大部分是非线形层),二是做特征归一化方便后续计算余弦相似度。
-
zero-shot需要对文本特征做提示词工程,如在分类时需要将label单词拓展为句子。(①解决单个单词多个意思的歧义,②训练时都是句子,避免出现分布差异out-of-distribution。)
-
few-shot指冻住大量的参数,从中抽取部分层(一般指单纯训练分类头)在待迁移的数据集做微调(linear probe);fine tune指得是全量参数微调。
-
one-shot/two-shot,每个类别给模型一张/两张样例去学习。
-
cilp不足:①训练数据量大,在单一任务想提升性能需要扩充千倍数据。②social biases。
-
开源api,可以直接调用。