- 博客(131)
- 问答 (1)
- 收藏
- 关注
原创 【论文阅读】LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation
用改进的cross-attention,把图片每个patch和布局中的各object做一一对应和关系互动,融合空间属性、类别,保证细节到位,避免“漏格”“漏对象”。生成时混合有/无条件的预测结果,并可设强度,来“更听话”或“更自由”。这样无论是图片还是layout,双方都可以用相同形式(bounding box、类别)表达,变成统一的“空间对象”,拼起来很自然。把“全局布局向量”(LFM输出的第一个Token)直接加到图片所有特征上,让整个图片都有“我要模仿XX版面分布”的全局风格。
2025-07-24 15:46:06
660
原创 【论文阅读+复现】LayoutDM: Transformer-based Diffusion Model for Layout Generation
自动化高质量布局生成。虽然用生成对抗网络(GANs)和变分自编码器(VAEs)已经有不少进展,但GAN的多样性和分布覆盖有限、VAE生成质量又不够高。作者受扩散模型(Diffusion Models)在高质量图像生成领域的成功启发,提出将条件扩散模型(Conditional DDPM)与纯Transformer架构结合,创造出LayoutDM模型,用于条件布局生成。LayoutDM既继承了transformer建模复杂关系的优势,也利用了DDPM的高分布覆盖及稳定训练目标,比GAN/VAE更优秀。
2025-07-24 14:57:22
703
原创 【论文阅读】FasterDiT: Towards Faster Diffusion Transformers Training without Architecture Modification
比如用lognorm分布让训练重点集中于某些关键区间,可以让模型最好的时候极其优秀(比如FID分数更低),但整个训练稳定性下降,“容易翻车”。优点:这个观点统一了加权、采样、信号强度等各种训练trick,能用直观的分布曲线解释“为何有的trick有效,有的变差”。传统做法:只关注"时间来到了第t步",实际上在不同数据、不同信号强度下,相同的t对应的"绝对信噪比"是完全不同的。在预测噪声的基础上,进一步用余弦相似性去鼓励模型“学对方向”(不仅幅值对,方向也对),能让训练收敛更快更稳。
2025-07-21 11:44:48
978
原创 【论文阅读】Diffuse and Disperse: Image Generation with Representation Regularization
Dispersive Loss 的目标是让这些表示“彼此分散”,即互相“远离”。核心贡献:一个新的损失项:Dispersive Loss(发散损失),可以无缝加入现有的扩散模型训练流程中,几乎不带来额外开销。核心思想: 不用正负对比,不搞数据增强,用一种简单、无干扰的正则化方式(Dispersive Loss)让扩散模型学到更“分散”“有区分度”的中间特征,从而生成更清晰、更有细节的图像。目标: 让扩散模型在训练时,其 中间层的隐藏特征更加“分散”,即每个样本的表示更具区分性,而非“堆在一起”冗余。
2025-07-14 17:52:04
744
1
原创 【论文阅读】Masked Autoencoders Are Effective Tokenizers for Diffusion Models
总体设计: 用 MAE(Masked AutoEncoder)训练 AE,而非 VAE,使其 latent: 语义丰富、 判别性强(discriminative)、可恢复像素。目标: 探索不同 tokenizer(AE、VAE、VAVAE)生成的 latent space 结构复杂度,以及这种结构如何影响 diffusion 模型的训练和生成质量。什么样的 latent 空间更适合用于扩散模型?作者发现:相比传统的 VAE,结构良好、判别性强的 latent 空间才是 diffusion 成功的关键。
2025-07-14 15:55:44
765
原创 【论文阅读】VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation
解决 当前文本生成视频(T2V)模型物理常识性差的问题,通过引入一种 基于关系对齐的新方法 VideoREPA 来提升生成视频的物理合理性。
2025-07-10 16:35:18
924
原创 【论文阅读】REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers
本研究提出REPA-E方法,解决VAE与扩散模型联合训练的难题。传统方法需分开训练,直接联合训练会导致潜在空间崩溃。REPA-E通过引入表示对齐损失(REPA Loss),既保持潜在空间的语义表达能力,又实现稳定端到端训练。实验表明:1) 训练效率提升17-45倍;2) 改善潜在空间结构,平衡细节保留与平滑性;3) 所得VAE可直接替换现有模型。关键创新在于用REPA Loss替代扩散损失来优化VAE,避免潜在空间过度简化,同时保持语义对齐。该方法在SiT-XL架构上仅需40万步即达FID 4.07,显著优
2025-07-09 17:34:12
965
1
原创 【论文阅读】Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models
讨论了 Latent Diffusion Models (LDM) 中 重建能力和生成能力之间的矛盾(优化困境),并提出了一种新的 VAE 训练方式(VA-VAE) 来缓解这一问题,从而提升扩散模型的训练效率与生成质量。
2025-07-09 10:58:21
1044
1
原创 【论文阅读】Improving the Diffusability of Autoencoders
目前常用的 autoencoder 潜空间中含有太多高频成分,这会干扰扩散模型的“由粗到细”生成流程,从而降低生成质量。作者提出一种非常简单的正则化方法(scale equivariance),可显著提升图像和视频的生成效果。
2025-07-08 18:49:46
1102
1
原创 【论文阅读】CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
CogVideoX是一种基于DiffusionTransformer的新型文生视频系统,通过3DVAE编码器、专家Transformer和渐进式训练等创新技术,实现了高质量的长视频生成(10秒/16fps/768×1360分辨率)。该系统解决了现有模型在运动连贯性、持续时间和叙事能力方面的不足,采用3D全注意力机制增强时空一致性,并通过自动视频字幕生成提升文本对齐效果。实验表明,50亿参数的CogVideoX-5B在各项指标上超越现有公开模型,20亿参数的CogVideoX-2B也表现出色。该系统还引入多分
2025-07-08 17:27:51
1174
1
原创 【论文阅读】CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers
目的:本论文旨在解决 文本生成视频(Text-to-Video Generation) 任务中的关键挑战。尽管大型 Transformer在文本(如 GPT-3)和文本到图像(如 DALL-E、CogView)生成任务上已取得显著成果,但扩展到视频领域仍面临两大难题:计算成本极高:从零开始训练一个大模型视频生成器成本巨大。训练数据稀缺且匹配度低: 高质量文本-图像对易于大规模收集(如 DALL·E),而文本-视频对很稀少。
2025-07-07 22:27:32
1018
1
原创 【论文阅读】CogView: Mastering Text-to-Image Generation via Transformers
目标:通用领域中的文本到图像生成一直是一个开放的问题,它既需要强大的生成模型,也需要跨模态的理解。为了解决这个问题,我们提出了CogView,一个具有VQ - VAE表示器的40亿参数Transformer。我们还展示了各种下游任务的微调策略,例如风格学习、超分辨率、文本-图像排序和时尚设计,以及稳定预训练的方法,例如消除Na N损失。CogView在模糊的MS COCO数据集上实现了最先进的FID,超过了以前基于GAN的模型和最近的类似工作DALL - E。图1:CogView生成的样本。
2025-07-07 22:01:09
973
1
原创 【论文阅读】PlanGen:Towards Unified Layout Planning and Image Generation in Auto-Regressive Vision Languag
PlanGen :自回归视觉语言模型(Autoregressive Vision-Language Model),用因果注意力(causal attention)实现 end-to-end 生成: 用户提供文本描述(Prompt T),模型先自动规划出布局 C(即每个物体的类别+位置),然后基于文本 T 和布局 C 共同条件下生成图像。由于 layout 是开放式预测,不直接比对真值 box,改用间接评估法:用不同模型生成的 layout 喂入 PlanGen → 比较生成图像质量。
2025-07-07 20:45:45
688
1
原创 【论文阅读+复现】High-fidelity Person-centric Subject-to-Image Synthesis
以人物为中心的主体到图像的高保真合成,CVPR2024。
2025-01-11 16:06:36
1376
1
原创 【论文阅读】MAMBA+diffusion系列学习
实验结果表明,Dimba在图像质量、语义对齐和生成效率方面达到了与现有基准相当的水平,展示了大规模混合Transformer-Mamba架构在扩散模型基础阶段的潜力。使用无训练上采样技术,DiM-Huge可以生成1024 x 1024和1536 x 1536分辨率的图像,尽管分辨率提高了三倍,但仍能生成视觉上吸引人的图像。:在COCO数据集上的零样本测试中,大版本的Dimba模型实现了FID得分为8.93,训练时间仅为704个GPU天,训练样本仅为4300万张,相对于基准模型显著减少了资源消耗。
2025-01-11 12:31:43
1870
1
原创 【论文阅读】MAMBA系列学习
Mamba的提出为构建不同领域的通用基础模型提供了一个强有力的候选者,特别是在需要长上下文的新兴模态(如基因组学、音频和视频)中。通过SSD框架,论文设计了一个新的架构Mamba-2,其核心层是对Mamba选择性SSM的改进,速度提高了2-8倍,同时在语言建模任务中保持了竞争力。在SC09语音生成任务中,Mamba模型在生成质量和生成速度上均优于现有的基线模型。:在多查询联想记忆(MQAR)任务中,Mamba-2在所有设置下表现良好,显著优于Mamba-1,甚至在状态大小受控的情况下也优于Mamba-1。
2025-01-11 10:31:35
1628
1
原创 【模型训练】Trackastra - Tracking by Association with Transformers
Trackastra:基于transformer的活细胞显微镜细胞跟踪。ECCV 2024。
2025-01-10 00:25:54
845
2
原创 【论文阅读】MambaTrack: A Simple Baseline for Multiple Object Trackingwith State Space Model
code:未开源。
2025-01-08 13:26:10
1465
1
原创 【论文阅读+复现】Encoder-based Domain Tuning for Fast Personalization ofText-to-Image Models
基于编码器的域调整,实现文本到图像模型的快速个性化。
2024-11-07 17:58:30
916
1
原创 【论文阅读+复现】HyperDreamBooth: HyperNetworks for FastPersonalization of Text-to-Image Models
个性化生成需要在不同背景和风格下综合个体,同时保持身份保真度。个性化过程对时间和内存有要求HyperDreamBooth能够从单个人图像高效生成个性化权重的超网络。在大约 20 秒内实现了面部个性化,比 DreamBooth 快 25 倍,比textural inversion快 125 倍,仅使用一张参考图像,并且具有与 DreamBooth 相同的质量和风格多样性。且生成的模型比普通 DreamBooth 模型小 10000 倍。
2024-11-06 20:20:42
825
1
原创 【T2I评估指标+计算】DINO、CLIP Score
这两个模型分别提取原始真实图片和生成图片之间的特征,然后对比这些特征之间的余弦相似度,如果相似度越高,就说明生成图片与原图的更相似,也就反映了生成物体的保真性更高。因为 DINO 和 CLIP 都是基于对比学习的方法,对比学习的损失是同一个样本之间才会是被认为正样本,会尽量让它们相似,那对于那种不同样本,即使是你同一个类下的不同样本,它也会被认为是负向样本,会尽量让特征远离,让它们的特征更不相似。对于同一个prompt,如果希望生成更多的种类的样本,需要余弦相似度越低越好,说明更多样。
2024-10-10 19:47:08
4045
原创 【论文阅读】InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning
特点:实现个性化文本到图像生成而无需测试时间微调。可以将输入图像转换为文本嵌入,使模型可以学习看不见的概念。可以保留输入身份。动机:个性化图像生成的最新进展允许预训练的文本到图像模型从一组图像中学习新概念。然而,现有的个性化方法通常需要对每个概念进行大量的测试时微调,这既耗时又难以扩展。我们提出了 InstantBooth,可以实现即时文本引导的图像个性化,无需任何测试时间微调。首先通过使用可学习的图像编码器将输入图像转换为文本标记来学习输入图像的一般概念。
2024-09-25 16:08:30
1033
1
原创 【复现】Grounding DINO使用记录
解决: 运行 python setup.py install 编译groundingdino库。2.SSHerror:忘了具体的报错名,总之是使用。解决:CUDA 配置错误,参考官方说明去解决。或者用cpu-only模式,不启用CUDA。,并修改代码中相关路径,指向本地存放路径。
2024-09-21 15:21:21
1742
2
原创 【debug】统一解决ModuleNotFoundError: No module named ‘xxx‘
如果希望这个修改永久生效,可以通过修改系统环境变量中的。本文适用于找不到自己创建的包的情况,需手动添加环境变量。,但上述方法适用于当前 PowerShell 会话。这个命令将会在 PowerShell 中为你的。
2024-09-18 11:47:54
902
原创 【论文阅读】Face2Diffusion for Fast and Editable Face Personalization
面部个性化旨在将从图像中获取的特定面部插入到预先训练的文本到图像扩散模型中。然而,由于对训练样本的过度拟合,以前的方法在保持身份相似性和可编辑性方面仍然具有挑战性。在本文中,我们提出了 Face2Diffusion (F2D),用于高可编辑性面部个性化。F2D 背后的核心思想是从训练管道中删除与身份无关的信息可以防止过度拟合问题并提高编码面部的可编辑性。F2D由以下三个新颖的组件组成:1)多尺度身份编码器提供了良好解开的身份特征,同时保留了多尺度信息的优势,从而提高了相机姿势的多样性。
2024-09-12 17:32:25
863
1
原创 【论文阅读+复现】InteractDiffusion: Interaction Control in Text-to-Image Diffusion Models
这项工作研究了利用人与物体交互(HOI)信息调节 T2I 扩散模型的问题,首次将交互控制引入扩散模型。该信息由三元组标签(人、动作、物体)和相应的边界框组成。提出了一种可插拔的交互控制模型 InteractDiffusion,扩展了现有的预训练的 T2I 扩散模型,能够控制现有 T2I 扩散模型生成的交互和位置。具体来说,对 HOI 信息进行标记,并通过交互嵌入来了解它们的关系。训练调节自注意力层将 HOI 标记映射到视觉标记,从而在现有 T2I 扩散模型中更好地调节视觉标记。
2024-09-11 12:08:12
1751
1
原创 【debug】nvidia-smi:Failed to initialize NVML: Unknown Error
上执行 Docker 命令,因为容器本身没有权限直接重启自己。只能联系宿主机那边给重启一下容器。尚未以systemd作为初始系统启动。检查方法:ps -p 1 -o comm=今天用服务器时又突然报错cuda不可用,输入nvidia-smi检查,报错如题。想重启 Docker 容器中,通常需要在。尝试 exit 退出容器再进入:无效。等字样,那么是在某种虚拟化环境中。,那么说明没有虚拟化。但是文中的解决方法不管用~表示当前的环境是一个。
2024-09-07 15:12:28
2293
原创 【论文阅读】CiteTracker: Correlating Image and Text for Visual Tracking
现有的视觉跟踪方法通常以图像块作为目标来跟踪。变化剧烈的目标跟踪困难。CiteTracker 通过连接图像和文本来增强视觉跟踪中的目标建模和推理。文本生成模块将目标图像块转换为包含其类别和属性信息的描述性文本,为目标提供全面的参考点。动态描述模块来适应目标变化,以实现更有效的目标表示。使用基于注意力的关联模块将目标描述和搜索图像关联起来,以生成相关特征以供目标状态参考。图 1. CiteTracker与现有跟踪方法在目标建模和关联方面的比较。
2024-09-04 23:19:32
1491
1
原创 【ssh】如何远程连接
出现报错:WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!SSH 检测到该主机的密钥与之前保存的密钥不匹配。确认后,新的密钥将被保存并建立连接。SSH 会提示你添加新的主机密钥到。
2024-09-03 18:10:35
309
原创 【ssh】环境问题汇总
解决:执行conda deactivate。如果 (ani) 环境多次激活,需要多次执行 conda deactivate 才能回到 base 环境。问题2:manpath: can't set the locale;(base) 环境 是 Conda 安装后默认激活的环境。(ani) 是手动创建的另一个 Conda 环境。问题1.同时显示两个不同的 Conda 环境,如图。系统无法设置语言环境(locale)
2024-09-03 18:00:12
302
原创 【debug】dpkg: error processing archive...Invalid cross-device link
表示/sys/module/overlay/parameters/metacopy 文件所在的文件系统是只读的,因此无法修改 metacopy 参数。报错:tee: /sys/module/overlay/parameters/metacopy: Read-only file system N。提到该报错有可能是 overlayfs 的问题或 dpkg 与 overlayfs 不兼容的问题。按照网上的方法尝试覆盖包、手动一次安装、强制安装,都无用,仍是一样的报错。无果,不是cuda指向错误。
2024-09-03 17:52:48
1641
原创 【论文阅读】Single-Stage Visual Query Localization in Egocentric Videos
因此,VQLoC 联合建模查询与每个视频帧之间的查询到帧关系以及邻近视频帧之间的帧到帧关系(见图 1,右),然后在单帧中执行时空定位。阶段和端到端可训练的方式。具体来说,我们通过使用 DINO [34] 预训练的 ViT 主干提取视觉查询和每个视频帧的图像特征,并使用交叉注意力变换器模块 [45] 建立图像之间的对应关系,从而建立查询与帧的关系查询和视频帧中的区域。重要的是,我们的模型在单阶段运行,即没有具有专用后处理步骤的中间定位输出,并且是端到端可训练的,因为它仅使用可微分模块来获得最终预测。
2024-08-31 17:43:52
1433
2
原创 【nvidia-smi】Failed to initialize NVML: Driver/library version mismatch
这意味着系统中安装的驱动包与正在使用的内核模块版本不匹配,导致了 GPU 驱动问题。可以看到目前系统安装的 NVIDIA 驱动包版本是。,但是内核模块显示的版本是。
2024-08-13 20:42:09
2415
原创 【原理+使用】DeepCache: Accelerating Diffusion Models for Free
DeepCache是一种新颖的无训练且几乎无损的范式,从模型架构的角度加速了扩散模型。DeepCache利用 扩散模型顺序去噪步骤中观察到的固有时间冗余,缓存和检索相邻去噪阶段的特征,从而减少冗余计算。利用U-Net的特性,重用高级特征,同时以低成本的方式更新低级特征。将 Stable Diffusion v1.5 加速了 2.3 倍,CLIP 分数仅下降了 0.05 倍,LDM-4-G(ImageNet) 加速了 4.1 倍,FID 降低了 0.22。
2024-07-07 15:01:20
2707
原创 【论文阅读】AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising
简介:异步去噪并行化扩散模型。提出了一种新的扩散模型分布式加速方法,该方法在对生成质量影响最小的情况下显著降低了推理延迟。原理:用异步过程取代顺序去噪过程,允许去噪模型的每个组件在不同的设备上独立运行。动机:扩散模型的多步顺序去噪特性导致了高累积延迟,无法并行计算。AsyncDiff是一个通用的即插即用加速方案,可以跨多个设备实现模型并行,将噪声预测模型分成多个组件,并将每个组件分配给不同的设备。为了打破组件之间的依赖链,它利用连续扩散步骤中隐藏状态之间的高度相似性,将传统的顺序去噪转换为异步过程。
2024-07-07 13:51:56
867
2
原创 【论文阅读】LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control
代码:
2024-07-06 20:47:40
1444
1
原创 【扩散模型】LCM LoRA:一个通用的Stable Diffusion加速模块
潜在扩散模型(Latent Diffusion models, ldm)在高分辨率图像合成方面取得了显著的成果。然而,迭代采样过程计算量大,导致生成速度慢。受一致性模型的启发,我们提出了潜在一致性模型(Latent Consistency Models, lcm),能够在任何预训练的ldm上以最小的步骤进行快速推理,包括稳定扩散。原理:将引导反向扩散过程视为求解增强概率流ODE (PF-ODE), lcm设计用于直接预测潜在空间中此类ODE的解,从而减少了多次迭代的需要,并允许快速,高保真采样。
2024-07-06 17:27:12
2953
1
原创 【论文阅读】VASA-1: Lifelike Audio-Driven Talking FacesGenerated in Real Time
我们设计并训练了一个具有表现力和可分离特征的面部潜在学习框架,该框架基于真实面部视频。然后,我们训练一个简单但功能强大的扩散变换器,用于建模运动分布,并在测试时根据音频和其他条件生成运动潜在编码。不直接生成视频帧,而是在潜在空间中生成整体面部动态和头部运动,条件是音频和其他信号。给定这些运动潜在编码,通过面部解码器生成视频帧,还接受从输入图像中提取的外观和身份特征作为输入。构建了一个面部潜在空间并训练面部编码器和解码器。
2024-07-05 11:38:06
507
1
空空如也
c++请问怎样使一个计算多次运行 选择退出才退出呢
2021-06-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人