Struart_R-CSDN博客

MindOmni是一个基于OmniGen构建的多模态生成与推理系统，针对现有文本到图像模型的局限性进行改进。系统采用Qwen2.5-VL框架和OmniGen扩散模型，通过三阶段训练策略提升性能：1)预训练阶段使用图文对数据进行模型对齐；2)CoT监督微调增强推理能力；3)创新性RGPO强化学习算法优化多模态奖励机制。实验表明，MindOmni在MMBench、WISE等基准测试中表现出色，实现了高质量的推理生成能力。该系统通过独特的架构设计和训练流程，有效平衡了多模态任务处理与复杂推理能力。

2025-08-07 16:44:54 574

原创 ShapeLLM-Omni 论文解读

《ShapeLLM-Omni：面向3D生成与理解的多模态大语言模型》提出了一种支持3D内容原生处理的端到端框架。该模型基于Qwen2.5-VL架构，通过3DVQVAE将OBJ网格离散化为体素token序列，构建了包含712K 3D资产和70K编辑指令的3D-Alpaca数据集。实验表明，

2025-08-05 19:48:12 1037

原创 Harmon、TokLIP论文解读

MAR、Harmon、TokLIP模型论文解读

2025-08-04 17:35:07 769

原创 MUSE-VL、TokenFlow、UniToken论文解读

MUSE-VL、TokenFlow、Unitoken语义+像素视觉编码的工作的论文解读

2025-08-03 17:52:22 884

原创 Metamorph、LlamaFusion、MetaQuery论文解读

Meta发布的Metamorph、Llamafusion、MetaQuery论文解读

2025-08-01 22:40:40 997

原创 VILA系列论文解读

VILA和VILA-U的动机，模型架构，创新，RT-Transformer和RT-VAE的介绍。

2025-07-27 23:59:16 698

原创 Mogao和Janus系列论文解读

Mogao和Janus、Janus-Pro论文解读，动机、架构

2025-07-27 17:03:22 1017

原创 Transfusion，Show-o and Show-o2论文解读

Transfusion,show-o和show-o2论文解读，架构，创新点分析

2025-07-23 21:36:03 833

原创 BAGEL：Emerging Properties in Unified Multimodal Pretraining 论文解读

摘要：BAGEL提出了一种新型多模态理解与生成统一架构，通过Mixture-of-Transformers(MoT)设计解决传统方法中的信息瓶颈问题。该架构采用理解专家和生成专家分离的参数空间，共享自注意力机制，同时支持视觉理解和生成任务。训练过程采用三阶段策略，利用2565M多模态交错数据（5.1T tokens）实现能力涌现。实验表明，BAGEL-1.5B模型在多项基准测试中超越更大规模的对比模型，特别是在长上下文推理和自由图像操控等复杂任务上展现出显著优势，验证了MoT架构的高效性。

2025-07-22 01:56:08 973

原创 VLM-3R: Vision-Language Models Augmentedwith Instruction-Aligned 3D Reconstruction 论文解读

本文提出VLM-3R框架，首次实现直接从单目RGB视频进行3D空间理解。通过引入空间编码器（CUT3R）和时空融合模块，系统结合2D外观与3D几何特征，无需依赖深度传感器或预建地图。研究构建了最大规模3D指令数据集（20万QA对），涵盖8类空间任务，并开发了VSTI-Bench评估基准（13.8万QA对），包含五类时空推理任务。实验采用冻结预训练参数策略，仅微调融合模块，在ScanNet等数据集上验证了方法的有效性，显著提升了对相机运动、物体关系等时空推理能力。

2025-07-21 23:06:28 1004

原创 BLIP、InternVL Series（下）

InternVL1.5,2.0,2.5,3.0，BLIP3-o模型的创新，架构，训练方法

2025-07-20 23:53:39 790

原创 BLIP，InternVL Series（上）

介绍SimVLM，BLIP，BLIP-2，Intern-1.0论文的动机，方法架构，以及训练思路。

2025-07-20 03:02:54 1086

原创 EVA series系列（下）

EMU2，EMU3，Chameleon论文概述，架构，方法创新

2025-07-19 10:19:39 685

原创 EVA series系列（上）

EVA、EVA-02、EVA-CLIP、EMU的介绍，算法动机，网络架构，训练流程

2025-07-16 23:05:02 1026

原创 CLIP、Open CLIP、SigLip、SigLip2的相关总结

本文系统梳理了多模态对比学习模型的发展脉络，重点分析了CLIP及其改进模型的技术特点。CLIP通过文本-图像对比学习实现跨模态语义对齐，采用双编码器架构和对称对比损失。OpenCLIP验证了多模态学习的幂律定律，表明模型性能与计算规模呈负相关。SigLIP创新性地使用Sigmoid损失替代Softmax，显著降低了内存消耗并支持小批量训练。最新的SigLIP2整合了LocCa定位能力、SILC自蒸馏技术和TIPS掩码预测，通过动态分辨率处理和多语言支持进一步提升了模型性能。这些技术突破为多模态学习开辟了新方

2025-07-14 16:43:02 1565

原创 DepthCrafter: Generating Consistent Long Depth Sequencesfor Open-world Videos 论文解读

该论文提出了一种基于预训练I2V扩散模型的深度估计单目视频模型，可以实现对于不同开放世界视频下时间一致的长深度序列，而不需要任何诸如光流估计等额外信息。在时间长度问题上，大多现有视频扩散模型都只能生成一个固定的帧数或者少量的帧。但是很难实现太长帧数的开放世界的视频深度估计。

2025-03-18 18:21:48 781

原创 MagicArticulate: Make Your 3D Models Articulation-Ready 论文解读

该论文提出MagicArticulate框架，旨在将静态的3D模型自动转换为支持动画的articulation-ready资产。以往的3D模型都是静态模型，转换成可连接的关节模型需要专业人员手动放置骨骼，定义联合层次结构。而后续的自动骨架提取方法，对于复杂的形状很难实现，或者依赖于固定的模版，有很差的通用性。主要贡献：（1）第一个包含over 33k的高质量关节注解数据集（2）一个两阶段的框架，用于有效地处理骨架的生成和蒙皮权重预测（3）在现实世界的动画pipeline中展示出SOTA性能。

2025-03-02 22:41:55 1260

原创 SimVS: Simulating World Inconsistencies for Robust View Synthesis 论文解读

该论文提出了一种名为SimVS的视频模型方法，旨在解决稀疏多视角图像捕捉中因动态变化（光照变化、物体运动）导致的视图合成鲁棒性问题。动机：现有方法在动态场景下需要依赖静态假设信息（比如NeRF），而实际的应用中输入的图像存在动态干扰，导致重建质量下降，或者使用了很少的数据，最后重建结果出现残影或者几何错乱（如下图CAT3D近期的NVS模型都是从一组一致性的图像作为输入，场景几何形状和照明。

2025-03-02 16:48:32 737

原创 PhotoDoodle: Learning Artistic Image Editing from Few-Shot Examples 论文解读

介绍了，一个基于扩散模型的图像编辑框架，旨在通过少量示例学习艺术家的风格，实现照片的创意涂鸦（如添加装饰元素、艺术化处理），同时保持背景的完整性和一致性。该论文的动机：将普通图片转换成富有创意的艺术作品（比如添加手绘线条，几何图案，3D效果等），但以往的传统方法依赖于艺术家的手动操作，耗时且门槛高。全局风格迁移（如风格迁移模型）会全局修改图像纹理和颜色，导致背景内容被破坏，如人脸变成油画风格而失去真实感。局部修复方法。

2025-02-27 22:04:47 927

原创 Step-Video-T2V 论文解读

Step-video-T2V是一个T2V模型，具有30B参数，能够生成最多204帧的视频（分辨率544*992），基于DiT模型设计，使用rectified flow进行训练，并在原有的VAE上实现了16x16的空间压缩比和8x的时间压缩比，包括两个双语文本编码器，能够直接理解中文或英文提示，引入了级联训练过程，包括文本到图像的预训练、文本到视频预训练、监督微调（SFT）、之际偏好优化（DPO），来加速模型收敛并充分利用不同质量的视频数据集。

2025-02-26 22:00:30 1160

原创 StyleMaster: Stylize Your Video with Artistic Generation and Translation 论文解读

该论文提出了一种用于视频风格迁移和生成具有艺术风格的视频StyleMaster。现有方法在生成给定风格的视频中，容易存在内容泄露，或者很难将风格迁移。所以风格提取阶段尤为重要，而现有方法强调全局风格，但忽略了局部纹理。

2025-01-22 17:22:29 1182

原创 StyleGaussian: Instant 3D Style Transferwith Gaussian Splatting 论文解读

提出了StyleGaussian，一种新的3D风格化迁移技术，允许每秒10fps的速度，将任何风格即时传输到3D场景中。利用3DGS执行风格迁移，不会影响实时渲染能力和多视图一致性。（1）提出了StyleGaussian，一种新颖的三维风格化迁移手段。（2）设计了一种有效的特征渲染策略，可以在渲染高维特征中，将学习到的特征嵌入到冲减的三维高斯特征中。（3）设计了一个基于KNN的3D CNN，可以在不影响多视图一致性的同时，解码3DGS格式为RGB。

2025-01-17 14:56:29 1485

原创 StyleCrafter: Taming Stylized Video Diffusion with Reference-Augmented Adapter Learning 论文解读

该论文提出StyleCrafter，一种增强预训练文本到视频的方法，通过添加一个风格控制器，可以从文本提示（内容）和参考图像（风格）中生成具有特定风格的视频。（1）提出一种自适应融合模块，来平衡基于文本的内容特征和基于图像的风格特征的影响（2）使用富含风格化的图像数据集训练风格控制器，并通过微调来将图像中学习到的风格能力迁移到T2V中，克服了缺乏具有风格的视频数据的问题，也不需要对风格化视频进行监督。（3）在图像生成和视频生成的风格化中显著优于当前SOTA性能。

2025-01-16 17:18:57 758

原创 Open-Sora: Democratizing Efficient Video Production for All 论文解读

Open-Sora是一个开源的视频生成模型,旨在生成高保真度的视频内容。它支持广泛的视觉生成任务,包括文本到图像、文本到视频和图像到视频的生成。该模型利用先进的深度学习架构和训练/推理技术,能够生成长达15秒、分辨率达720p、任意宽高比的灵活视频。其中的关键创新包括空间-时间扩散变换器(STDiT)和高度压缩的3D自编码器。通过这个项目,研究人员希望促进AI内容创作领域的创新、创造力和包容性。开源原则使Open-Sora民主地开放了所有的训练/推理/数据准备代码以及模型权重。

2025-01-11 14:43:00 1420

原创 HunyuanVideo: A Systematic Framework For LargeVideo Generative Models 论文解读

该论文介绍了HunyuanVideo，一个新颖的最大的开源视频基础模型，并在视频生成方面的性能，优于领先的闭源模型。该框架涵盖了训练基础框架、数据管理、模型架构优化、模型训练等，并提出一种有效的扩展策略，在不降低所需模型性能的情况下，减少5倍的计算资源需求。基于这一扩展方法和基础框架，训练了一个130亿参数的大规模视频模型，并在互联网规模的图像和视频上进行预训练，并经过专门的渐进式微调策略后，在视觉质量、动态运动、视频文字对齐度、语义场景剪辑中都表现出色。

2025-01-08 23:49:53 1140

原创 L4GM: Large 4D Gaussian Reconstruction Model 论文解读

该论文提出了第一个4D大型重建模型L4GM，从单视图视频中生成动画物体的4D模型，并仅需一次前馈传递即可完成，只需要一秒钟。我们直接建立在一个预训练的三维大型重建模型LGM上，L4GM可以从较低fps采样视频帧，得到每一帧的3DGS表示，之后上采样到更高的fps，来保证时间平滑性。L4GM的关键在于设计了一个新的大规模数据集，来自于Objaverse 1.0的包含1200w个视频渲染动画，包含44k不同物体，和11w种动画，并在48个视角呈现，共计3亿帧。

2025-01-07 16:05:43 992