微调OwlVit

魔障阿Q

已于 2025-07-29 10:57:10 修改

阅读量974

点赞数 5

CC 4.0 BY-SA版权

分类专栏：大模型实战文章标签：计算机视觉人工智能 python

于 2024-12-24 16:48:06 首次发布

本文链接：https://blog.csdn.net/qq_44908396/article/details/144697118

大模型实战专栏收录该内容

12 篇文章 ¥29.90 ¥99.00

订阅专栏

本文不生产技术，只做技术的搬运工！！！

前言

相信大家既然已经点进了这篇文章，说明已经被owl的微调折磨的体无完肤了，尤其是谷歌官方的scenic框架，环境都走不通，作者和大家一样，原地破大防，后来在github闲逛的时候无意间看到了一个仓库，可以实现owl的微调，这里给大家分享一下。

原框架参考链接：https://github.com/sharad5/OWL-ViT-Object-Detection

环境

主要需要transformers、pytorch、wandb这几个库，大家自行安装缺啥补啥

复现

原框架写的有些松散，配置文件一些参数冗余操作不便，作者进行了更改，大家可以直接使用作者的代码替换原有代码

config.yaml

#data:
#  images_path: "/home/project_python/OWL-ViT-Object-Detection/singapore/images/test"
#  annotations_file: "/home/project_python/OWL-ViT-Object-Detection/data/singapore_test.json"
#  num_train_images: 2500

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

魔障阿Q

关注关注

5
点赞
踩
13

收藏

觉得还不错? 一键收藏
21
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

计算机视觉——通过 OWL-ViT 实现开放词汇对象检测

知来者逆的博客

04-28

1297

传统的对象检测模型大多是封闭词汇类型，只能识别有限的固定类别。增加新的类别需要大量的注释数据。然而，现实世界中的物体类别几乎无穷无尽，这就需要能够检测未知类别的开放式词汇类型。对比学习（Contrastive Learning）使用成对的图像和语言数据，在这一挑战中备受关注。著名的模型包括 CLIP，但将其应用于物体检测，如在训练过程中处理未见类别，仍然是一个挑战。本文使用标准视觉转换器（ViT）建立了一个开放词汇对象检测模型——开放世界定位视觉转换器（OWL-ViT），只做了极少的修改。

多模态模型入门：BLIP与OWL-ViT

prinTao的博客

05-28

1909

CapFilt：标题和过滤由于多模态模型需要大量数据集，因此通常必须使用图像和替代文本 (alt-text) 对从互联网上抓取这些数据集。然而，替代文本通常不能准确描述图像的视觉内容，使其成为噪声信号，对于学习视觉语言对齐而言并非最佳选择。因此，BLIP 论文引入了一种标题和过滤机制 (CapFilt)。它由一个深度学习模型（可过滤掉噪声对）和另一个为图像创建标题的模型组成。这两个模型都首先使用人工注释的数据集进行微调。他们发现，使用 CapFit 清理数据集比仅使用网络数据集可产生更好的性能。

21 条评论您还未登录，请先登录后发表或查看评论

开放域的检测算法（owlv2）

dream_of_studies的博客

06-11

702

开放域检测（Open-World Object Detection, OWOD）是一种面向现实应用的前沿任务，其目标是识别已知类别的物体，同时检测并标注未知类别的物体为“未知（unknown）”，以便后续学习。OWL-V2 是 Meta AI 提出的一个先进模型，在这一领域表现出色。🔗 论文: [2301.11388] Perturbation determinant and Levinson's formula for Schrödinger operators with generalized poi

OWL-ViT：图像识别领域的黑马

强化学习曾小健

10-09

1682

OWL-ViT通过将图像分割为多个对象区域，并使用Transformer模型对每个区域进行特征提取和分类，可实现高效、准确的语义分割。通过将图像分割为多个对象区域，并使用Transformer模型对每个区域进行特征提取和分类，可实现高精度的图像分类。模型优化：针对OWL-ViT的模型结构、参数设置等方面进行优化，以提高模型的识别性能和运行效率。通过捕捉图像中的上下文信息和多尺度特征，OWL-ViT能够准确地检测出图像中的目标对象，并进行定位和分类。这将使其能够适应不同领域的应用需求，提高模型的泛化能力。

0766-极智开发-解读QLORA原理和示例代码

03-05

0766_极智开发_解读QLORA原理和示例代码

算法部署-使用TensorRT部署OWL-ViT算法-可以实时推理-优质算法部署项目实战.zip

10-20

算法部署_使用TensorRT部署OWL-ViT算法_可以实时推理_优质算法部署项目实战

OWL-ViT：使用视觉Transformers 的简单开放词汇物体检测

热门推荐

CHENCHENCHEN0526的博客

11-14

2万+

本文参考了b站up霹雳吧啦Wz的视频稿件，图片均为该视频截图。代码来源timm库（PyTorchImageModels，简称timm）是一个巨大的PyTorch代码集合，已经被官方使用了。放一些链接：作者的GitHub主页，timm库链接，作者写的官方指南，以及一个非官方的推荐文章。模型示意图（Base16为例） PatchEmbed模块 class PatchEmbed(nn.Module): """ 2D Image to Patch Embedding """ def

owl_vit安装步骤

duoyasong5907的博客

10-30

645

owl项目的clip目录与openai的clip重名了，import时容易找不到文件。拷贝到owl项目下的clip文件夹。解决办法: 把clip项目下的。

目标检测器技术演进简史

GarryWang1248的博客

12-08

3611

在本文中，我们将探讨目标检测的主题、含义、优势以及许多有趣的地方，我们还将尝试分析目标检测的总体趋势和演变。目标检测任务可以非常简单地表述：什么目标位于何处？目标检测是计算机视觉中的一项关键任务，其目标是识别和定位图像中的各种对象，例如汽车、骑自行车的人和交通灯。这是通过使用坐标（xminx_{min}xminyminy_{min}yminxmaxx_{max}xmaxymaxy_{max}ymax。

Manus平替来了！CAMEL-AI开源OWL，开源框架中排名第一,上线一天获得3.3K stars！

AIGC Studio：分享AIGC前沿知识和好玩应用，公众号同名。

03-09

2625

OWL 在 GAIA 基准测试中取得 58.18 平均分，在开源框架中排名第一！OWL 是一个前沿的多智能体协作框架，推动任务自动化的边界，构建在 CAMEL-AI Framework。具体可以看公众号今天推送的第二篇文章~OWL的愿景是彻底变革 AI 智能体协作解决现实任务的方式。通过利用动态智能体交互，OWL 实现了跨多领域更自然、高效且稳健的任务自动化。3月7号OWL在GitHub上开源了代码，一天就获得3.3k stars!

OWL：告别繁琐任务！开源多智能体系统实现自动化协作，效率提升10倍

士多啤梨先生の博客

03-07

1241

OWL 是基于 CAMEL-AI 框架开发的多智能体协作系统，通过智能体之间的动态交互实现高效的任务自动化，支持角色分配、任务分解和记忆功能，适用于代码生成、文档撰写、数据分析等多种场景。

万字长文带你全面解读视觉大模型！

CV_Autobot的博客

08-08

1154

作者|派派星编辑|CVHub点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取点击进入→自动驾驶之心【大模型】技术交流群本文只做学术分享，如有侵权，联系删文导读众所周知，视觉系统对于理解和推理视觉场景的组成特性至关重要。这个领域的挑战在于对象之间的复杂关系、位置、歧义、以及现实环境中的变化等。作为人类，我们可以很轻松地借助各种模态，包括但不仅限于视觉、语言、声音等来理解...

计算机视觉领域的基础模型

qq_46981910的博客

07-12

2268

传统模型：只有图像输入，使用Transformer架构和自监督学习方法。文本提示模型/视觉语言模型（VLMs）：接受图像和文本输入，如OpenAI的CLIP和Flamingo模型。视觉提示模型：需要图像和视觉提示（如边界框或点）或文本提示，例如Segment Anything Model（SAM）。异构模型：可以接受多种类型输入并生成多种类型输出的模型。

YOLO模型系列原理理解

qq_40703341的博客

12-22

293

YOLOv1 参考： YOLOv1 YOLOv3 参考： YOLOv3_含图 YOLOv3

VIT模型代码

weixin_51036112的博客

06-20

393

【代码】VIT模型代码。

owl-vit訓練

03-28

### 训练 Owl-ViT 模型的方法 Owl-ViT 是一种基于 Vision Transformer (ViT) 的多模态模型，主要用于图像检索和视觉-语言任务。以下是关于如何训练 Owl-ViT 模型的相关信息： #### 使用 Hugging Face Transformers 库进行训练 Hugging Face 提供了一个强大的工具集来支持多种深度学习框架之间的无缝切换[^2]。为了训练 Owl-ViT 模型，可以利用 `transformers` 和 `datasets` 库中的功能。 1. **数据准备** 需要准备好用于训练的数据集。这些数据通常由成对的图像及其对应的文本描述组成。可以通过 Hugging Face Datasets API 加载现有的公开数据集或自定义构建自己的数据集。 2. **加载预训练模型** 可以通过以下方式加载 Owl-ViT 基础模型： ```python from transformers import OwlViTProcessor, OwlViTModel processor = OwlViTProcessor.from_pretrained("google/owlvit-base-patch32") model = OwlViTModel.from_pretrained("google/owlvit-base-patch32") ``` 3. **微调模型** 微调（Fine-Tuning）是一种常见的技术，允许开发者针对特定的任务调整预训练的大规模模型参数。对于 Owl-ViT 来说，可以选择冻结部分网络层并仅优化最后几层权重，或者完全解冻整个架构以便更深入地适配目标领域需求[^1]。 4. **设置训练环境** 利用 PyTorch 或 TensorFlow 构建损失函数与优化器配置文件，并指定 GPU/CPU 设备资源分配情况。下面是一个简单的例子展示如何初始化 AdamW 作为优化算法之一： ```python optimizer = torch.optim.AdamW(model.parameters(), lr=5e-5) ``` 5. **执行训练过程** 定义好前向传播计算逻辑之后，在循环迭代过程中不断更新梯度直至达到收敛条件为止。期间还需监控验证集合上的表现指标变化趋势以防止过拟合现象发生。 --- #### Few-Shot 提示方法的应用场景探讨当面对少量标注样本时，Few-Shot 学习策略显得尤为重要。它能够借助精心设计好的提示模板引导模型快速理解新概念而无需大量重新训练工作量。例如，在处理某些罕见类别识别问题上，我们可能只需要提供几个正面实例即可让系统学会区分该类别的特征属性。 --- #### 微调 vs 提示工程的关系分析尽管两者都旨在提升性能效果方面有所贡献，但它们实现路径存在本质区别：前者侧重于改变底层神经元连接强度从而适应具体业务诉求；后者则更多依赖高质量输入表述形式激发已有知识储备潜力完成目标任务解决。因此，在实际项目开发当中往往需要综合考虑成本效益比以及时间周期等因素决定采取何种手段更为合适。 ---