
论文精读
文章平均质量分 92
JennnyZhang
电子科技大学-计算机学院-计算机视觉 https://github.com/JennyZhang0810
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Dispersive Loss:为生成模型引入表示学习 | 如何分析kaiming新提出的dispersive loss,对扩散模型和aigc会带来什么影响?
摘要:何恺明团队提出「DispersiveLoss」方法,巧妙弥合扩散模型与表示学习的鸿沟。该方法通过鼓励模型内部特征在隐藏空间分散分布,实现无需正样本对的对比学习机制,既保留扩散模型原有采样流程,又显著提升表示质量。相比依赖外部预训练模型的REPA方法,DispersiveLoss具有即插即用、零额外开销的优势,在ImageNet上使DiT/SiT等主流扩散模型性能持续提升,并在一步生成模型MeanFlow上创下新SOTA。该研究为生成模型引入高效表示学习提供了简洁路径,使模型在生成图像的同时获得更好的语原创 2025-08-02 20:01:06 · 803 阅读 · 0 评论 -
Highly Compressed Tokenizer Can Generate Without Training
这篇ICML 2025论文提出了一个颠覆性观点:1D图像Tokenizer本身具备强大的生成能力。研究发现,高度压缩的1D令牌空间(如32个令牌)能解耦不同语义特征,通过测试时梯度优化即可实现文本引导的图像生成和编辑,无需训练专用生成模型。实验表明,该方法在FID等指标上接近SOTA生成模型,同时支持即插即用的图像编辑和修复。这一发现为生成式AI开辟了新思路:构建更强大的Tokenizer可能比训练复杂生成模型更为关键。原创 2025-08-02 19:24:18 · 790 阅读 · 0 评论 -
Diffuse and Disperse: Image Generation with Representation Regularization
本文提出了一种简洁有效的扩散模型正则化方法——分散损失(Dispersive Loss),通过促使模型内部特征在隐空间中分散分布,显著提升了图像生成质量。该方法仅需在标准扩散损失基础上增加一个正则化项,无需修改模型结构或引入外部数据,计算开销极小。实验表明,分散损失在DiT、SiT等多种模型上稳定提升性能10-15%,在一步生成模型MeanFlow上也取得新SOTA。这一工作揭示了通过内部表示正则化提升生成模型的有效路径,实现了生成任务与表示学习的巧妙结合。原创 2025-08-02 17:29:39 · 541 阅读 · 0 评论 -
ICCV2025 | SkyDiffusion: 从地面街景生成卫星视角图像, 真实、结构一致!
摘要: 本研究提出SkyDiffusion框架,首次结合鸟瞰图(BEV)与扩散模型,实现地面街景到空中图像的跨视角生成。针对传统BEV平面假设的不足,提出Curved-BEV转换方法,通过非平面映射保留建筑顶部等高层结构信息;设计Multi-to-One BEV映射策略,融合多视角街景解决遮挡问题;并构建BEV引导的扩散模型增强生成一致性。实验基于新提出的G2A-3数据集(含灾害、无人机及历史卫星场景)验证了方法的有效性,在结构一致性与视觉质量上均优于基线模型。相关成果发表于ICCV 2025,代码与数据已原创 2025-08-02 11:53:34 · 726 阅读 · 0 评论 -
CVPR 2025 论文和开源项目合集 | CVer-Papers-with-Code
欢迎各位大佬提交issue,分享CVPR 2025论文和开源项目!原创 2025-03-13 17:27:00 · 21831 阅读 · 0 评论 -
论文精读-Generate Your Own Scotland: Satellite Image Image Generation Conditioned on Maps 2023 NIPSW
论文的核心目标是解决扩散模型在地球观测 (Earth Observation, EO) 领域探索不足的问题,特别是如何利用如 OpenStreetMap (OSM) 这样的地图数据。通过条件生成逼真的卫星图像,作者希望提升 EO 分析能力,并支持数据增强、可视化等多种应用场景。原创 2025-01-17 19:54:45 · 905 阅读 · 0 评论 -
论文精读-RSDiff: Remote Sensing Image Generation from Text using Diffusion Model 2024 Neural Computing a
该论文的创新在于通过级联扩散模型解决了文本到遥感图像生成的语义一致性和高分辨率挑战,既降低了计算成本,又在生成质量上取得显著突破。原创 2025-01-15 16:41:29 · 909 阅读 · 0 评论 -
论文精读-Method of Efficient Synthesizing Post-disaster Remote Sensing Image with Diffusion Model and LL
这篇论文通过结合扩散模型和 LLM 提出了创新的灾后遥感图像生成方法,具有以下特点:使用自然语言描述控制生成任务,增强了图像生成的可控性。通过 Hypernetworks 降低了模型微调成本。提供了高效的灾后伪样本生成工具,可用于支持灾害管理和解译任务。原创 2025-01-15 15:53:46 · 947 阅读 · 0 评论 -
论文精读-CRS-Diff:Controllable Remote Sensing Image Generation with Diffusion Model
♥ 创作不易,如果能帮助到你的话留下👍和⭐吧,欢迎同方向研究学者交流学习目录1. Motivation2. Contribution3. Method3.1. 引入扩散模型与多条件控制3.2. 生成流程的核心部分A. 文本到图像生成B. 图像解耦3.3. 多条件融合A. 文本条件融合B. 图像条件融合3.4. 训练策略条件控制的实现条件组合的训练机制3.5. 总结4. ExperimentA. 数据集B. 实现细节C. 评估指标D. 比较与分析文本到图像生成单一条件图像生成多条件图像生成E. 消融实验(A原创 2025-01-12 17:19:09 · 1174 阅读 · 0 评论 -
论文精读-⭐MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation
♥ 创作不易,如果能帮助到你的话留下👍和⭐吧,欢迎同方向研究学者交流学习。原创 2025-01-11 22:29:26 · 1181 阅读 · 0 评论 -
论文精读-GeoSynth: Contextually-Aware High-Resolution Satellite Image Synthesis CVPRW 2024
*会议:**CVPR 2024 workshop一句话总结:SD+ControlNet为baseline,SatCLIP提取地理位置特征,OSM+Canny+SAM控制,感觉是DiffusionSat(2024ICLR)的低配版,而且很多瞎写的内容;But!!资源很牛,实验很卷,可以说是文章写的很漂亮。♥创作不易,如果能帮助到你的话留下👍和⭐吧,欢迎同方向研究学者交流学习。原创 2025-01-09 23:26:05 · 757 阅读 · 0 评论 -
⭐Text2Earth: Unlocking Text-driven Remote Sensing Image Generation with a Global-Scale Dataset and a
根据不同任务需求,开发了两种专用版本的:专为文本到图像生成任务优化,根据用户提供的和,生成与输入条件匹配的遥感图像。:专为图像编辑任务优化,支持基于输入文本对现有遥感图像进行,如修复、修改或增强特定区域。当前生成式模型在自然图像生成上取得了显著进展,但遥感领域的研究相对较少;现有的遥感图像-文本数据集规模较小、覆盖范围有限并且缺少遥感数据信息,无法支持全局范围的生成需求;当前的方法缺乏在多分辨率可控性和无边界图像生成方面的能力。原创 2025-01-08 12:12:03 · 1720 阅读 · 0 评论 -
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
DreamBooth是一种个性化文生图模型:给定某个物体的几张图片作为输入,通过微调预训练的文生图模型(如Imagen),将一个独特的标识符和该物体进行绑定,这样就可以通过含有该标识符的prompt在不同场景下生成包含该物体的新颖图片。(1)最简单的方法就是随机选择一个已经存在的单词,通过这种方式构建特殊标记符会造成一些问题,随着训练的进行,模型会忘记这个单词的本来含义,并将输入图片中的物品的含义与该单词绑定。作者希望将输入图片中的物体与一个特殊标识符绑定在一起,即用这个特殊标记符来表示输入图片中的物体。原创 2024-11-12 23:15:32 · 1087 阅读 · 0 评论 -
⭐LooseControl: Lifting ControlNet for Generalized Depth Conditioning
我们提出了LooseControl,以允许扩展的深度条件用于基于扩散的图像生成。ControlNet是深度条件图像生成的SOTA,可以产生出色的结果,但需要访问详细的深度图以进行指导。在许多场景中,创建这样精确的深度图是具有挑战性的。本文介绍了深度条件的通用版本,使许多新的内容创建工作流程成为可能。具体而言,我们允许(C1)场景边界控制:仅通过边界条件松散地指定场景(C2)3D盒子控制:用于指定目标对象的布局位置,而不是对象的确切形状和外观。原创 2024-11-11 12:09:24 · 963 阅读 · 0 评论 -
⭐SmartControl: Enhancing ControlNet for Handling Rough Visual Conditions
人类的视觉想象通常从类比或粗略的草图开始。例如,给定一张女孩在建筑物前弹吉他的图像,人们可能会类比地想象“如果钢铁侠在埃及的金字塔前弹吉他”会是什么样子。然而,视觉条件往往与文本提示中暗示的想象结果不完全对齐,现有的布局可控的文本到图像(T2I)生成模型通常会生成质量下降并带有明显伪影的图像。为了解决这个问题,本文提出了一种称为的新型T2I生成方法。该方法的设计目标是根据文本提示调整粗略的视觉条件。SmartControl的关键思想是放宽在与文本提示冲突的区域的视觉条件约束。原创 2024-11-08 15:20:50 · 1232 阅读 · 0 评论 -
⭐DINOv2: Learning Robust Visual Features without Supervision 2023 CVPR
DINOv2 作为一种无需 fine-tuning 的自监督方法,在提取图像特征方面表现出色,适用于许多不同的视觉任务。它的开源也为广大研究者和工程师提供了一种新的选择,有望为计算机视觉领域带来更多的突破,可以期待更多基于 DINOv2 的研究工作出现。原创 2024-11-05 19:52:12 · 5951 阅读 · 0 评论 -
SUPIR:Scaling Up to Excellence-Practicing Model Scaling for Photo-Realistic Image Restoratio CVPR 24
我们介绍了SUPIR(Scaling-UP Image Restoration),这是一种开创性的图像修复方法,利用生成先验和模型扩展的力量。SUPIR结合了多模态技术和先进的生成先验,标志着智能和真实图像修复的重大进展。模型扩展是SUPIR的关键催化剂,显著增强了其能力,并展示了图像修复的新潜力。我们收集了一个包含2000万张高分辨率、高质量图像的数据集用于模型训练,每张图像都配有详细的文本注释。SUPIR能够根据文本提示修复图像,拓宽了其应用范围和潜力。原创 2024-10-28 22:00:15 · 1219 阅读 · 0 评论 -
PASD:Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization
通过解决预训练的stableSR无法保持以及的问题,提出了一种像素感知稳定扩散(PASD)网络来实现图像的超分辨率和个性化。具体地,引入了像素感知的交叉注意模块,使扩散模型在像素级感知图像局部结构。退化去除模块用于提取退化不敏感特征,以图像高级信息指导扩散过程。引入可调噪声调度,进一步提高图像恢复结果。可信的像素结构:就是保真度的意思,这个作者写论文的表述方式挺诡的,全文有多处这种看起来很高级的表述方式,但其实就是最基础的知识。原创 2024-10-22 18:01:38 · 1715 阅读 · 0 评论 -
Alpha-CLIP: A CLIP Model Focusing on Wherever You Want CVPR 2024
为了在不损害原始图像的情况下实现区域焦点,我们提出了Alpha-CLIP,它通过额外的alpha通道输入合并感兴趣的区域来改进CLIP[43]。在用CLIP[43]模型初始化时,Alpha-CLIP的训练仍然需要大量的区域-文本配对集合数据。如果能由用户或检测模型指定需要关注的区域,在图像编码的过程就确定需要关注的对象,将会提升CLIP模型的可控制性和区域检测能力。在千万量级的RGBA-region的图像文本对上进行训练后,Alpha-CLIP可以在保证CLIP原始感知能力的前提下,关注到任意指定区域。原创 2024-10-18 19:51:27 · 676 阅读 · 0 评论 -
DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models ICL
我们的 DeCo 工作发现在减少图片 token 这个目标上,简单的 average pooling 表现就比 Q-former 更好、训练收敛也更快。同期的工作 PLLaVA 也在实验结果方面证明了 adaptive pooling 的优势。这里,更重要的问题是“下面我会大概介绍一下 DeCo 的思路,希望能在一个新的角度给大家启发。原创 2024-10-17 15:54:18 · 1081 阅读 · 0 评论 -
DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior CVPR 2023
我们提出了DiffBIR,一个通用的恢复管道,可以处理不同的盲图像恢复任务,采用统一框架。1)降级去除:去除与图像无关的内容;2)信息再生:生成缺失的图像内容。每个阶段都独立开发,但它们以级联的方式无缝协作。在第一阶段,我们使用恢复模块去除退化,获得高保真的恢复结果。在第二阶段,我们提出了IRControlNet,它利用潜在扩散模型的生成能力来生成真实的细节。具体而言,IRControlNet基于特别生成的条件图像进行训练,这些图像没有干扰性的噪声内容,从而实现稳定的生成性能。原创 2024-10-17 09:07:38 · 1114 阅读 · 0 评论 -
⭐HyperTransformer: A Textural and Spectral Feature Fusion Transformer for Pansharpening CVPR 2022
Pansharpening旨在将注册的高分辨率全色图像 (PAN) 与低分辨率高光谱图像 (LR-HSI) 融合,以生成具有高光谱和空间分辨率的增强 HSI。现有的全色锐化方法忽略了使用注意力机制将 HR 纹理特征从 PAN 转移到 LR-HSI 特征,从而导致空间和光谱失真。在本文中,我们提出了一种新的全色锐化注意机制,称为 HyperTransformer,其中 LR-HSI 和 PAN 的特征分别被表述为转换器中的查询和键。通过计算查询与键之间的相似度(通常使用点积或其他相似度度量),生成注意力权重。原创 2024-10-17 08:54:36 · 1167 阅读 · 0 评论 -
CrossDiff: Exploring Self-Supervised Representation of Pansharpening via Cross-Predictive Diffusion
全色(PAN)图像和相应的多光谱(MS)图像的融合也称为全色锐化,其目的是将PAN的丰富空间细节和MS的光谱信息结合起来。由于缺乏高分辨率 MS 图像,可用的基于深度学习的方法通常遵循降低分辨率训练以及降低分辨率和全分辨率测试的范式。当以原始 MS 和 PAN 图像作为输入时,由于尺度变化,它们总是获得次优结果。在本文中,我们建议通过设计一个名为 CrossDiff 的交叉预测扩散模型来探索全色锐化的自监督表示。它有两个阶段的训练。原创 2024-10-12 11:41:35 · 962 阅读 · 1 评论 -
CDFormer: When Degradation Prediction Embraces Diffusion Model for Blind Image Super-Resolution CVPR
现有的盲图像超分辨率(BSR)方法侧重于估计核或退化信息,但长期以来一直忽略了基本内容细节。在本文中,我们提出了一种新颖的 BSR 方法,即内容感知退化驱动 Transformer (CDFormer),以捕获退化和内容表示。然而,低分辨率图像不能提供足够的内容细节,因此我们引入了一个来学习低分辨率图像和高分辨率图像中的,然后在给定低分辨率信息的情况下近似真实分布。此外,我们应用,有效地利用 CDP 来细化特征。原创 2024-10-11 17:00:54 · 1330 阅读 · 0 评论 -
DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior CVPR 2023
我们提出了DiffBIR,一个通用的恢复管道,可以处理不同的盲图像恢复任务,采用统一框架。1)降级去除:去除与图像无关的内容;2)信息再生:生成缺失的图像内容。每个阶段都独立开发,但它们以级联的方式无缝协作。在第一阶段,我们使用恢复模块去除退化,获得高保真的恢复结果。在第二阶段,我们提出了IRControlNet,它利用潜在扩散模型的生成能力来生成真实的细节。具体而言,IRControlNet基于特别生成的条件图像进行训练,这些图像没有干扰性的噪声内容,从而实现稳定的生成性能。原创 2024-09-26 16:25:26 · 1155 阅读 · 0 评论 -
Denoising: A Powerful Building-Block for Imaging, Inverse Problems, and Machine Learning
得分函数是指数据分布的对数密度函数的梯度。给定概率密度函数px),得分函数定义为:得分函数提供了在给定点x处,数据分布的变化率信息,对于理解数据结构和生成新样本非常重要。原创 2024-09-24 15:42:58 · 1043 阅读 · 0 评论 -
LDM: High-Resolution Image Synthesis with Latent Diffusion Models CVPR 2022
通过将图像形成过程分解为降噪自编码器的顺序应用,扩散模型(DMs)在图像数据和其他数据上实现了最先进的合成结果。此外,它们的形成过程允许引导机制来控制图像生成过程而无需再训练。然而,由于这些模型通常直接在像素空间中操作,优化功能强大的DM通常会消耗数百个GPU数天,而且由于顺序计算,推理也非常昂贵。为了在有限的计算资源上进行DM的训练,同时保持其质量和灵活性,本文将其应用于预训练的自编码器的潜在空间。原创 2024-09-11 13:31:30 · 1729 阅读 · 0 评论 -
SRDiff: Single image super-resolution with diffusion probabilistic models 2022 Neurocomputing
此外,理论和性能都表明,我们的方法能够分别解决面向 PSNR 的方法、GAN 驱动方法和基于流的方法中出现的过度平滑、模式崩溃和大量占用问题。因此,文章提出了一种新颖的扩散概率模型(SRDiff),旨在通过逐步将高斯噪声转化为超分辨率图像,从而生成多样且高质量的超分辨率结果,同时保持较小的模型规模和高效的训练过程。:在每个步骤中,条件噪声预测器使用当前的潜在变量、扩散时间步和通过LR编码器生成的隐藏条件,以生成更准确的输出。:GAN驱动的方法容易陷入模式崩溃,生成的图像缺乏多样性,无法覆盖所有可能的结果。原创 2024-09-06 17:14:13 · 1563 阅读 · 0 评论 -
(2-论文精读、代码分析)Restormer: Efficient Transformer for High-Resolution Image Restoration CVPR2022
这个论文的主要想法是将 Transformer 模型应用到图像修复中,不过和一般的VIT模型不同的是,没有使用patch 级的特征进行 token 建模,可以理解为每个像素就是一个 token。Transformer block 主要包括两部分:一部分是self-attention 的计算,另一部分是 FFN 部分。作者也很自然的想到了改进这两个部分,提出了两个模块,分别是:Multi-Dconv Head Transposed Attention,主要改进 self-attention 部分。原创 2024-07-28 20:18:06 · 1596 阅读 · 2 评论 -
(1-复现使用手册)Restormer: Efficient Transformer for High-Resolution Image Restoration CVPR2022
记得修改对应的路径哈~,比如我的就会这么改,不然就会安到默认路径(比如我的是home/ )Go 的可执行文件目录添加到系统 PATH 变量中了。后面三个指令就是解压并安装 Go。不想上面这么麻烦的话,直接下载呗。文件会被下载到当前工作目录下。原创 2024-07-26 20:42:39 · 1280 阅读 · 0 评论 -
Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge CVPR2024
图1(b)展示了使用无监督的图像翻译方法FastCUT将红外(IR)图像作为输入,并转换成伪RGB图像。这种方法关注于图像重建质量,而不是最终的检测性能。图1(c)展示了直接fine-tuning预训练的检测模型到IR图像上。虽然可以适应新的模态,并且只需要红外数据,但会造成catastrophic forgetting,即模型遗忘了之前在RGB图像上学习的知识。图1(d)展示了论文提出的ModTr方法,将重点放在检测上,它通过一个小型转换网络将IR图像翻译到适合预训练检测模型的特征空间。原创 2024-07-25 16:50:45 · 1066 阅读 · 0 评论 -
GLEAN: Generative Latent Bank for Large-Factor lmage Super-Resolution CVPR 2021/IEEE TPAMI 2023 含代码
Generative Adversarial Network (GAN) 已在超分辨率任务中被广泛使用,其目的是丰富复原图像中的纹理细节。现有方法一般可以分为两种:1)第一种方法(如 ESRGAN [1])训练生成器以处理放大任务,其中通过使用鉴别器将真实图像与生成器生成的放大图像区分开来进行对抗训练。在这种设置下,生成器既负责捕获自然图像特征,又负责保持对 GT 的保真度。这不可避免地限制了逼近自然图像流形的能力。因此, 这些方法经常产生伪像和不自然的纹理。原创 2024-07-03 20:09:06 · 1173 阅读 · 0 评论 -
SwinIR: Image Restoration Using Swin Transformer(ICCV 2021)含代码复现
在图像超分辨率、图像去噪、压缩等图像修复(Image restoration)任务中,目前仍然是主流。但卷积神经网络有以下缺陷:(1)是与内容无关的;(2)在局部处理的原则下,卷积对于建模是无效的。作为卷积的一个替代操作,Transformer设计了来捕捉全局信息,但视觉Transformer因为需要划分patch,因此具有以下两个缺点:(1)边界像素进行图像恢复;(2)恢复后的图像可能会在每个patch周围,这个问题能够通过patch overlapping缓解,但会增加计算量。原创 2024-07-03 16:42:53 · 1844 阅读 · 0 评论 -
《Boosting Object Detection with Zero-Shot Day-Night Domain Adaptation》2024CVPR
它是用于衡量预测值与真实值之间差异的一种常见的评估指标。Rl和Rn为什么可以互换:反射分量r和照明分量i相乘可以得到原图像img这是retinex的理论,而反射分量仅和物体的摆放以及物体本身的物理特性没关系,即使光照是好是坏,同一场景反射分量r都应该是相同的。实施域不变特征需要充分理解数据的特点和域间的差异,并选择合适的方法来处理域变化带来的挑战,从而提高模型的性能和泛化能力。weight设置的太多了,而且两个weight都直接设置了定值,另两个权重估计也是自己调的(直接调的效果其实是最好最便捷的)原创 2024-05-10 11:27:54 · 949 阅读 · 1 评论 -
Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery (2024CVPR)
无监督学习的最新进展表明,通过对大量未标记数据进行预训练,大型视觉模型能够在下游任务上取得有希望的结果。由于大量未标记数据的可用性,这种预训练技术最近也在遥感领域进行了探索。与标准的自然图像数据集不同,遥感数据是通过各种传感器技术获取的,并且表现出不同范围的尺度变化和模式。现有的卫星图像预训练方法要么忽略遥感图像中存在的尺度信息,要么限制自己只使用单一类型的数据模式。在本文中,我们重新访问变压器预训练和利用多尺度信息,有效地利用了多种模式。我们提出的方法,名为SatMAE++,原创 2024-04-29 20:36:38 · 1202 阅读 · 0 评论 -
《InfMAE: A Foundation Model in Infrared Modality》CVPR2024
整体架构差不多,不一样的地方值得研究,就可以考虑A+B。2. 利用跨模态的基础模型去做我们领域的基础研究。3. 每天泛读3-5篇文献,精读1篇获取经验。以后的研究中必须把大模型和基础模型耦合进来。原创 2024-03-21 19:59:15 · 517 阅读 · 0 评论 -
《Positive-incentive Noise》IEEE Transactions on Neural Networks and Learnin S stems,论文精读
本文对噪声是否总是产生负面影响进行了反思。这种怀疑来自于对噪音的松散定义。通过对任务T和噪声的互信息建模,将传统的“噪声”分为π噪声和纯噪声两类。简而言之,π噪声是一种可以简化目标任务的随机信号。通过一些令人信服的实验,并表明一些已有的课题(如随机共振、多任务学习、对抗训练)可以作为特例来解释,我们从经验和理论上得出π噪声在各个领域都是普遍存在的结论。π噪声的一般性质、π噪声量的上界、π噪声在一般条件下的存在性、π噪声模型设计的新原则等仍有许多值得深入研究的问题。重要的是,π噪声也与信息容量的研究有关。这原创 2024-03-17 20:28:43 · 1187 阅读 · 0 评论