多模态——clip

最新推荐文章于 2025-05-20 09:44:03 发布

hr_net

最新推荐文章于 2025-05-20 09:44:03 发布

阅读量410

点赞数 8

CC 4.0 BY-SA版权

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38742161/article/details/143977190

clip：利用文本的监督信号，训练一个迁移能力强的视觉模型。基于nlp里gpt的通用能力，通过对比学习，将zero-shot能力关联到图像。

clip多模态融合网络结构：text encoder + image encoder 网络重，多模态特征融合网络轻。
多模态融合前TE和IE都连一个project层，一是将不同模态的特征维度整合成相同维度（clip是线性层，但大部分是非线形层），二是做特征归一化方便后续计算余弦相似度。
zero-shot需要对文本特征做提示词工程，如在分类时需要将label单词拓展为句子。（①解决单个单词多个意思的歧义，②训练时都是句子，避免出现分布差异out-of-distribution。）
few-shot指冻住大量的参数，从中抽取部分层（一般指单纯训练分类头）在待迁移的数据集做微调（linear probe）；fine tune指得是全量参数微调。
one-shot/two-shot，每个类别给模型一张/两张样例去学习。
cilp不足：①训练数据量大，在单一任务想提升性能需要扩充千倍数据。②social biases。
开源api，可以直接调用。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。