ViT-B参数量计算

本文详细介绍了ViT-B模型的参数量计算,包括Patch embedding的768*768参数,Transformer block中注意力机制和FFN的参数,以及Layernorm的gamma和beta参数。总计约86M参数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ViT-B: layers=12,hidden_size=768,MLP_size=3072,heads=12,params=86M,image_size=384+1

参考:https://blog.csdn.net/weixin_43922901/article/details/102602557

1 Patch embedding

在这里插入图片描述
patch_dim = 16163, dim = hidden_size = 768
所以参数量为768*768

2 Transformer block(attention+FFN)

attention: 这一部分的参数主要来源于x->q,k,v所要进行的linear变换,即 w q w_q w

CLIP 是由 OpenAI 提供的一种用于连接图像和文本的多模态模型框架,而 CLIP-ViT-B 则是基于 Vision Transformer (ViT) 的一种变体。以下是关于 CLIP ViT-B 模型的一些细节及其使用方法: ### CLIP ViT-B Model Details #### 架构设计 CLIP-ViT-B 使用的是 Vision Transformers (ViT),其架构具有强大的表示能力,并且能够高效处理视觉数据[^1]。具体来说,“B”代表 Base 版本,这意味着该模型拥有相对适中的参数量,在性能与计算资源之间取得了较好的平衡。 #### 参数规模 CLIP-ViT-B 基础版本大约有 **86M** 参数数量。这一大小使得它既适合研究用途也适用于实际部署场景下的推理操作。 #### 输入分辨率 对于输入图片尺寸而言,标准配置下通常设定为 224x224 或者更高解析度如 384x384 来提升精度表现效果。 ### Installation and Usage Methods 要安装并使用 CLIP 库以及加载预训练好的 CLIP-ViT-B 模型可以按照如下方式进行设置: ```bash pip install git+https://github.com/openai/clip.git ``` 之后可以通过 Python 脚本来调用此模型来进行图文匹配任务或其他相关功能实现: ```python import torch from PIL import Image import clip device = "cuda" if torch.cuda.is_available() else "cpu" model, preprocess = clip.load("ViT-B/32", device=device) image = preprocess(Image.open("example_image.jpg")).unsqueeze(0).to(device) text = clip.tokenize(["a diagram", "a dog", "a cat"]).to(device) with torch.no_grad(): image_features = model.encode_image(image) text_features = model.encode_text(text) logits_per_image, logits_per_text = model(image, text) probs = logits_per_image.softmax(dim=-1).cpu().numpy() print("Label probs:", probs) # 输出预测概率分布情况 ``` 上述代码片段展示了如何利用 PyTorch 和 PIL 加载一张测试图片,并将其转换成符合 CLIP 所需格式的数据;接着定义了一些候选描述语句作为对比选项之一;最后执行前向传播得到最终分类结果的概率值矩阵。 ### Case Applications CLIP 可广泛应用于多个领域之中,比如搜索引擎优化、广告推荐系统等领域内的跨媒体检索服务提供技术支持。例如在一个电商平台上,当用户上传了一张商品照片时,后台可以根据这张照片自动为其找到最贴近的商品标签或者关联产品列表展示给顾客查看选购。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值