
多模态大模型:PaliGemma 2等
文章平均质量分 96
多模态PaliGemma 2(含1代):Google推出的基于SigLIP和Gemma 2的视觉语言模型(附SigLIP详解)
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一文通透Qwen多模态大模型:从Qwen-VL、Qwen2-VL到Qwen2.5-VL(含我司提问VLM项目的实现思路)
之所以关注到Qwen多模态大模型,是因为去年我司在实现提问VLM时(今年过年之前便已嵌入在七月在线官网教育层面的每一个视频中),当时面临两个模型的选择,一个是GPT4o,一个便是Qwen2-vl-72b最终因为后者的性价比更高,便选择了Qwen2-vl-72b。原创 2025-02-11 21:55:19 · 12808 阅读 · 1 评论 -
多模态PaliGemma 2(含1代):Google推出的基于SigLIP和Gemma 2的视觉语言模型(附SigLIP详解)
PaliGemma 是一个开放的视觉语言模型(VLM),基于 SigLIP--So400m 视觉编码器和 Gemma-2B 语言模型其结合了PaLI视觉语言模型和Gemma语言模型家族的特点。原创 2024-11-05 10:29:19 · 7253 阅读 · 0 评论 -
多模态LLaVA系列与Eagle 2——从组合CLIP ViT和Vicuna的LLaVA,到英伟达开源的VLM Eagle 2(用于人形VLA GR00T N1中)
之所以写本文,源于三个方面一方面,我司「七月在线」准备在一个人形项目中,试下英伟达通用人形VLA GR00T N1,而GR00T N1中所用的VLM是他们自家于25年1月发布的Eagle 2原创 2025-05-05 13:02:24 · 4156 阅读 · 0 评论 -
ViT及其变体的发展史——从ViT、Swin transformer到Meta发布的自监督ViT(即多个具身模型的视觉基座:DINO和DINOv2)、SimDINOv1 v2
前言之所以关注到DINOV2,原因在于我解读的多个具身机器人模型的视觉基座都用的它,比如不过,实话讲,DINO论文的可读性是真的不高,使得本次解读不易..总之,本文目前只是个初稿,后面还得花不少时间反复优化。原创 2024-12-21 23:49:35 · 11612 阅读 · 8 评论