- 博客(305)
- 资源 (5)
- 问答 (1)
- 收藏
- 关注
原创 LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers
本文提出LoRAShop,首个基于LoRA模型的多概念图像编辑框架。通过分析矫正流扩散变压器内部的特征交互模式,发现特定概念的变压器特征在去噪早期激活空间连贯区域。利用这一特性,通过前向传播为每个概念推导解耦的潜在掩码,并仅在目标概念的边界区域融合对应的LoRA权重。实验表明,LoRAShop在保留全局上下文、光照和细节的同时,能将多个主题或风格无缝集成到原始场景中,且身份保留效果优于基线方法。该框架无需重新训练或外部约束,使个性化扩散模型成为实用的“LoRA版Photoshop”,为组合视觉叙事和快速创意
2025-06-02 21:50:00
709
原创 [Arxiv 25] AlignGen: Boosting Personalized Image Generation with Cross-Modality Prior Alignment
个性化图像生成旨在将用户提供的概念融入文本到图像模型中,但现有零样本方法在提示词与参考图像存在模态先验不一致时,生成结果更偏向文本先验,导致参考内容丢失。为此,本文提出AlignGen模型,通过跨模态先验对齐机制解决这一问题:引入可学习令牌桥接文本与视觉先验,利用偏差提取模块(DEM)捕捉模态差异,结合选择性跨模态注意力掩码(SCMAM)强化概念词与视觉特征的关联,并通过随机丢弃参考图像和概念词替换的训练策略提升模型鲁棒性。实验表明,AlignGen在DreamBench++基准上显著优于现有零样本方法,甚
2025-06-02 21:28:26
2767
原创 [Arxiv 25] DreamBoothDPO: Improving Personalized Generation using Direct Preference Optimization
个性化扩散模型在文本到图像生成中成功注入用户定义概念,但平衡概念保真度与上下文对齐仍是挑战。本文提出基于强化学习的方法,利用文本到图像模型的多样输出,通过外部质量指标生成合成“更好-更差”配对数据集,避免人工标注。该方法支持灵活调整图像保真度与文本对齐的权衡,通过多步骤训练提升收敛速度和输出质量。实验表明,其在多种架构和微调技术上有效,源码可在github.com/ControlGenAI/DreamBoothDPO获取。
2025-06-02 17:51:33
1078
原创 [Arxiv]Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter
个性化文本到图像生成旨在根据用户提供的概念合成多样化场景的图像。尽管多概念个性化研究取得进展,但多数方法局限于对象概念,难以定制姿势、光照等抽象概念。部分支持抽象概念的方法需对每个新概念进行测试时微调,耗时且易过拟合。本文提出免调优框架Mod-Adapter,通过调制适配器利用预训练扩散变压器(DiTs)的调制空间特性,同时处理对象与抽象概念。设计的Mod-Adapter模块结合视觉语言交叉注意力提取概念特征,通过专家混合(MoE)层将特征映射到调制空间,并引入视觉语言模型(VLM)引导的预训练策略缓解训练
2025-06-02 17:37:08
1002
原创 【Arxiv 25】DynASyn: Multi-Subject Personalization Enabling Dynamic Action Synthesis
近年来,文本到图像扩散模型的发展推动了个性化研究,即在参考图像中对主体进行定制化图像合成。现有个性化方法虽能改变主体位置或同时个性化多个主体,但**难以修改主体行为或动态交互,且在单张参考图像下易因过拟合导致性能下降**。为此,本文提出**DynASyn**,一种从单张参考图像实现多主体个性化的方法,通过将基于概念的先验与主体外观和动作对齐,在个性化过程中保留主体身份。具体通过基于概念的先验正则化主体标记与图像之间的注意力图,并提出基于概念的**提示-图像**增强技术,平衡身份保留与动作多样性。
2025-06-02 17:08:17
613
原创 [SIGGRAPH‘25]TokenVerse: Versatile Multi-concept Personalization in Token Modulation Space
本文提出TokenVerse,一种基于预训练文本到图像扩散模型的多概念个性化方法。该框架可从单张图像中解缠复杂视觉元素和属性,并支持从多张图像中提取的概念进行即插即用的组合生成。与现有方法不同,TokenVerse能处理每张图像包含多个概念的情况,支持对象、配饰、材质、姿势、光照等广泛概念。通过利用DiT(扩散Transformer)模型的调制空间,为每个文本令牌学习个性化的调制向量偏移,实现了语义上的局部控制。实验表明,TokenVerse在挑战性个性化场景中表现优异,优于现有方法,为故事创作和个性化内容
2025-05-29 17:14:37
747
原创 【Arxiv 2025】IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait Generation
现有扩散模型在保持身份的生成任务中展现出巨大潜力,但由于用户肖像在外观和光照条件上的多样性,个性化肖像生成仍然具有挑战性。为此,本文提出IC-Portrait框架,通过将肖像生成重构为两个子任务实现精准的身份编码:1)光照感知缝合,利用高比例掩码(如80%)的自监督学习提取参考图像的光照特征;2)视角一致适应,借助合成多视角数据集学习上下文对应关系,将参考轮廓扭曲到任意姿态以实现空间对齐的视角条件约束。通过串联潜在特征形成类似ControlNet的监督信号,该框架显著提升了身份保持的保真度和稳定性。实验表明
2025-05-27 11:23:13
697
原创 【EMNLP 2023】Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment
本文提出了一种语言引导的自适应超模态学习方法(ALMT)用于多模态情感分析,通过抑制视觉和音频模态中的情感无关冗余信息并解决跨模态冲突问题。核心创新包括:1)设计自适应超模态学习(AHL)模块,利用语言特征的多尺度信息动态引导辅助模态生成互补表示;2)采用跨模态融合Transformer实现高效的情感特征聚合。在MOSI、MOSEI和CH-SIMS数据集上的实验表明,该方法在分类和回归任务中均优于现有模型,尤其在细粒度情感分析中提升显著。该研究为多模态情感分析中的冗余抑制和跨模态融合提供了有效解决方案。
2025-05-25 22:59:51
877
原创 【NIPS 2024】Towards Robust Multimodal Sentiment Analysis with Incomplete Data
多模态情感分析(MSA)在实际应用中常面临数据不完整问题,如传感器故障或自动语音识别错误。现有方法多依赖完整数据学习联合表示,在严重缺失场景下性能显著下降,且评估框架缺乏统一性。本文提出**语言主导抗噪声学习网络(LNLN)**,通过**主导模态纠正(DMC)模块**利用对抗学习增强语言模态特征完整性,结合**基于主导模态的多模态学习(DMML)模块**实现动态特征融合,并引入重构器恢复缺失信息。在MOSI、MOSEI和SIMS数据集上的实验表明,LNLN在随机缺失场景下显著优于现有基线方法,尤其在高缺失
2025-05-25 22:38:48
1081
原创 【MM 2024】 Leveraging Knowledge of Modality Experts for Incomplete Multimodal Learning
在多模态情感识别(MER)中,实际应用常因传感器损坏或隐私保护等问题面临不完整多模态场景。现有方法聚焦于学习更好的跨模态联合表示,但缺乏对判别性单模态表示的学习。为此,本文提出一种新颖的两阶段训练框架MoMKE(模态知识专家混合模型)。在单模态专家训练阶段,各专家从对应模态中学习单模态知识;在专家混合训练阶段,利用所有模态专家的知识学习单模态和联合表示,并设计软路由(Soft Router)通过动态混合单模态与联合表示来丰富模态表示。在三个基准数据集上的多组不完整多模态实验表明,MoMKE性能稳健,尤其在严
2025-05-25 18:29:36
693
原创 【论文解析】Beyond Fine-Tuning: A Systematic Study of Sampling Techniques in Personalized Image Generation
个性化文本到图像生成旨在创建符合用户定义概念和文本描述的图像,平衡所学概念的保真度与其在各种上下文中的生成能力是一项重大挑战。现有方法常通过多样化的微调参数化和改进的采样策略(在扩散过程中整合超类轨迹)来解决这一问题。尽管改进的采样为增强微调模型提供了一种经济高效、无需训练的解决方案,但对这些方法的系统分析仍然有限。当前方法通常将采样策略与固定的微调配置绑定,难以孤立分析其对生成结果的影响。为此,本文系统分析了超越微调的采样策略,探讨了概念和超类轨迹对结果的影响,并提出了一个评估文本对齐、计算约束和保真度目
2025-05-23 12:10:30
878
原创 【AAAI 2025】 Local Conditional Controlling for Text-to-Image Diffusion Models
本文针对文本到图像扩散模型的局部控制问题,提出一种无需训练的推理阶段优化方法。现有全局控制(如ControlNet)无法灵活约束特定区域,直接添加局部条件会导致“局部控制主导”(图2),忽视非控制区域的文本对齐。作者设计了**区域判别损失(RDLoss)**(公式5)、**聚焦令牌响应(FTR)**(公式8)和**特征掩码约束(FMC)**(公式9)三大模块:RDLoss通过最大化局部/非局部注意力差异更新隐变量,FTR抑制弱响应令牌减少重复,FMC通过掩码控制ControlNet特征泄漏。实验表明
2025-05-14 23:33:11
949
原创 【Arxiv】SelfAge: Personalized Facial Age Transformation Using Self-reference Images
本文提出首个基于扩散模型的个性化面部年龄变换方法SelfAge,利用3-5张自参考图像实现精确年龄编辑并保持身份。通过微调预训练潜扩散模型,结合低秩适应(LoRA)避免过拟合,设计含整数年龄的提示词(如“α-year-old”)及极端年龄token替换策略,显式分离身份与年龄特征。实验基于CelebA-Dialog和AgeDB数据集,结果表明,相较SAM、FADING等方法,该方法在年龄编辑精度(AGE指标)和身份保持(ID指标)上更平衡,3张自参考图像即达最优。局限在于极端年龄可能产生结构伪影或性别偏差
2025-04-27 12:12:36
1044
原创 【Arxiv 2025】Single Image Iterative Subject-driven Generation and Editing
本文提出 SISO,一种无需训练的单图像主题驱动生成与编辑方法,通过迭代优化 DINO 和 IR 特征相似度损失,结合 LoRA 微调扩散模型,实现主题身份保留与背景过滤。实验表明,其在图像质量、主题保真度和背景保留上显著优于基线,为单图像个性化生成开辟新方向。
2025-04-27 11:46:43
1075
原创 [AAAI 2025] MagicNaming: Consistent Identity Generation by Finding a “Name Space” in T2I
本文通过引入N空间,提出了一种新的一般恒等式的一致恒等式生成方法。具体来说,我们构建了一个大规模的身份名称数据集,LaionCele,并训练了一个图像编码器,将真实图像映射到这个N空间。该编码器独立于生成器运行,允许与任何基于sdxml的生成模型集成,以实现一致的ID生成,提供广泛的实际应用。我们的方法的一个关键优点是保留了生成器模型原有的生成能力,包括场景构建、风格化、情感编辑、动作控制等,从而增强了一致性ID生成的灵活性和创造性。大量的实验结果表明,我们的方法在生成图像的ID一致性、语义一致性、图像质量
2025-02-02 11:59:10
1087
原创 [CVPR 2024]InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning
我们提出了一种方法,该方法扩展了现有的预训练文本到图像扩散模型,用于个性化图像生成,而无需测试时间微调。其核心思想是将输入图像转换为通用概念学习的全局令牌,并引入适配器层来合并丰富的局部图像表示,以生成精细的身份细节。大量的结果表明,我们的模型可以在未见过的概念上生成语言对齐和身份保留的图像,只需一次向前传递。这种显著的效率改进将使各种实际的个性化应用成为可能。
2025-02-01 22:13:23
945
原创 [CVPR 2024] Animate Anyone: Consistent and Controllable Image-to-Video Synthesis
在本文中,我们提出了Animate Anyone,这是一个能够将角色照片转换为由所需姿势序列控制的动画视频的框架。我们提出的ReferenceNet既能真实地保留复杂的人物外观,又能实现有效的姿态可控性和时间连续性。我们的方法不仅适用于一般的角色动画,而且优于现有的方法。
2025-02-01 17:42:36
1041
原创 [CVPR 2024] AnyDoor: Zero-shot Object-level Image Customization
我们提出AnyDoor用于物体传送。其核心思想是使用鉴别ID提取器和频率感知细节提取器来表征目标对象。在大量视频和图像数据的组合训练下,我们合成了场景图像中特定位置的物体,并进行了有效的形状控制。AnyDoor为一般的区域到区域映射任务提供了一个通用的解决方案,可以为各种应用带来利润。
2025-02-01 15:59:26
898
原创 [arXiv]Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator
我们提出了Diptych prompts,这是一种基于绘画的方法,用于零拍摄主题驱动的文本到图像生成。连环画提示执行文本条件双拼绘画:左面板是包含主题的参考图像,右面板是基于描述包含所需上下文的连环画的文本提示进行绘画。通过去除背景和增强参考关注,我们消除了不必要的内容泄漏,并改善了主题对齐。
2025-02-01 11:43:16
1159
原创 [CVPR 2024] Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation
我们研究了一个尚未开发的文本到图像的生成任务,即动作定制。为了理解任务的挑战,我们首先可视化现有的主题驱动方法在从动作不可知论上下文特征的纠缠中提取动作相关特征方面的不足。然后,我们提出了一种名为ADI的新方法,从给定的图像中学习特定于动作的标识符。为了增加与操作相关的知识的适应性,ADI使用分层标识符令牌扩展了反转过程。
2025-01-31 23:54:52
923
原创 [NeurIPS 2023] Subject-driven Text-to-Image Generation via Apprenticeship Learning
我们的方法SuTI已经显示出无需优化测试时间即可立即生成个性化图像的强大能力。我们的人工评估表明,SuTI在总分上已经优于DreamBooth.
2025-01-31 15:38:44
675
原创 基于diffusers的text-to-image系列generation复现体验
分两类来说,第一种是不需要token就行下载的。第二种是需要token才能下载的。根据huggingface网站中的模型名称(model_id)即可下载模型。对于需要token才能下载的,需要先登录一下huggingface_cli。安装diffusers github repo的提示,逐步配置环境。个人感觉这种下载后目录结构比较乱,就没有采用这种方式。复现第一步,配置环境。输入你的授权token即可。自动下载,下载模型默认存储在。下载需要token的模型了。是指定下载的目的路径。
2025-01-25 11:27:24
273
原创 【Stable Diffusion XL】huggingface diffusers 官方教程解读
为了方便,DiffusionPipeline将这些组件捆绑在一起,你也可以解绑pipeline,分别使用模型和调度程序来创建新的扩散系统。在本教程中,您将学习如何使用模型和调度器来组装用于推理的扩散系统,从基本pipeline开始,然后进展到Stable Diffusion pipeline.本教程向您展示如何使用autoppipeline在给定预训练权值的情况下,自动推断要为特定任务加载的管道类。到目前为止,您已经拥有了开始训练模型的大部分部分,剩下的就是将所有内容组合在一起。
2023-09-09 18:18:10
3021
原创 Stable Diffusion with Diffusers 学习笔记: 原理+完整pipeline代码
这是standard diffusion和Latent diffusion模型之间的关键区别:在Latent diffusion中,模型被训练成生成图像的latent(压缩)表示。编码器将图像表示压缩为较低分辨率的图像表示,解码器将较低分辨率的图像表示解码回假定噪声较小的原始较高分辨率的图像表示。在这篇文章中,我们想展示如何使用Stable Diffusion with the 🧨 Diffusers library,,解释模型是如何工作的,最后深入探讨扩散器是如何允许自定义图像生成pipeline的。
2023-09-08 17:32:03
7180
1
原创 vim操作学习笔记
VIM 的正常模式下(参考上文关于正常模式的描述)按下键盘上的冒号 :这时会在显示屏底部出现冒号 :(进入了 VIM 的命令模式),然后在输入 ls ,屏幕上会出现打开的所有文件的序号和文件名,我们继续输入冒号 : ,然后输入 bn (这里的 n需要做一个解释并不是键盘上的 n ,而是文件序号的代指,如 b1 代表显示屏上切换到第一个文件,b2 代表显示屏上切换到第二个文件)。nfa 移动到本行光标处开始的第 n 个 字符为 a 的地方(n 是 1,2,3,4 …ta 移动光标至 a 字符的前一个字符。
2023-08-21 17:30:54
601
原创 认识Transformer:入门知识
视频链接:https://www.youtube.com/watch?v=ugWDIIOHtPA&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4&index=60Seq2SeqRNN不容易被平行化提出用CNN来代替RNN,CNN 可以平行化,但是需要的层数比较深,才能看完所有的输入内容。b1 到b4 是可以同时被算出。可以用来取代RNN。来源: Attention is all you need然后用每一个a 去对每个k 做attention加速的矩阵乘法过程
2023-08-14 18:54:29
1580
原创 Magic3D: High-Resolution Text-to-3D Content Creation(高分辨率文本到3d内容创建)
在第一阶段,我们使用eDiff-I[2]中描述的基础扩散模型,它类似于DreamFusion中使用的Imagen[38]的基础扩散模型。具体来说,我们使用来自即时NGP[27]的基于密度的体素修剪方法,以及基于八叉树的射线采样和渲染算法[46]。我们的方法被称为Magic3D,可以在40分钟内创建高质量的3D网格模型,这比DreamFusion快2倍(据报道平均需要1.5小时),同时也实现了更高的分辨率。Magic3D是一个两阶段的从粗到精的框架,使用高效的场景模型,实现高分辨率的文本到3d合成(图2)。
2023-07-13 08:58:19
3283
1
原创 Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑)
最后,我们继承了体积表示的局限性。请注意,与最近的神经 3D 场景表示(包括 ReLU Fields)相比,我们没有对视图相关的外观效应进行建模,因为我们发现当以 2D 基于扩散的模型引导时,它会导致不希望的伪影。在上一节中描述的初始体素网格 Gi的基础上,我们通过优化 Ge 来执行文本引导的对象编辑,Ge 是一个网格,表示从 Gi 初始化的编辑对象。我们引入了一种新的体积正则化损失,直接在3D空间中操作,利用我们的3D表示的显式性质来加强原始和编辑对象的全局结构之间的相关性。
2023-07-01 09:27:31
940
原创 [PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成
Fig 1. 原始图像(上)和离散VAE重建图像(下)的比较。编码器对空间分辨率进行8倍的下采样。虽然细节(例如,猫毛的纹理、店面上的文字和插图中的细线)有时会丢失或扭曲,但图像的主要特征通常仍然是可识别的。我们使用8192的大词汇量来减轻信息的丢失。
2023-06-29 08:38:02
1888
原创 Tune-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning
我们的方法可以很容易地与个性化的T2I模型集成(例如,DreamBooth[39],它以3-5张图像作为输入,并返回一个个性化的T2I模型),直接对它们进行细化。我们的方法还可以与T2I适配器[29]和ControlNet[52]等条件T2I模型集成,在不需要额外训练成本的情况下对生成的视频进行不同的控制。大量的实验证明了我们的方法在广泛的应用中取得了显著的效果。相比之下,我们的方法生成了时间连贯的视频,保留了输入视频中的结构信息,并与编辑过的单词和细节保持一致。每个设计都是单独的,以分析其影响。
2023-06-28 08:37:56
2200
原创 Text2Video-Zero:Text-to-Image扩散模型是Zero-Shot视频生成器
此外,我们的方法更忠实于输入细节,例如,Video instruction-pix2pix完全按照提供的姿势绘制舞者(图9左),并显示输入视频中出现的所有滑雪人员(对比图9最后一帧(右)),与Tune-A-Video相比。我们对该领域的贡献包括提出了zero-shot文本到视频合成的新问题,展示了文本到图像扩散模型用于生成时间一致视频的使用,并提供了我们的方法在各种视频合成应用中的有效性的证据。我们证明了我们的方法在各种应用中的有效性,包括条件和专业视频生成,以及视频指导-pix2pix,即指导视频编辑。
2023-06-27 16:27:02
2230
原创 [CVPR 2023] Imagic:使用扩散模型进行基于文本的真实图像编辑
当任务是复杂的非刚性编辑时,如让狗坐,我们的方法明显优于以前的技术。相比之下,微调从输入图像中施加的细节不仅仅是优化的嵌入,允许我们的方案在η的中间值中保留这些细节,从而实现语义上有意义的线性插值。与其他编辑方法相反,我们的方法可以产生复杂的非刚性编辑,可以根据要求改变图像内对象的姿势,几何形状和/或组成,以及更简单的编辑,如风格或颜色。我们使用两种不同的最先进的文本到图像生成扩散模型来证明我们的框架是通用的,可以与不同的生成模型相结合:Imagen[53]和Stable diffusion[50]。
2023-06-25 22:17:16
2669
3
原创 Diffusion Models: 方法和应用的综合调查 【01】Diffusion Models基础
我们还讨论了将扩散模型与其他生成模型相结合的可能性,以增强结果。我们进一步回顾了扩散模型在计算机视觉、自然语言处理、时间数据建模以及其他科学学科的跨学科应用等领域的广泛应用。对于每个任务,我们提供了一个定义,描述了如何使用扩散模型来解决它,并总结了相关的先前工作。本调查旨在为扩散模型的状态提供一个情境化的、深入的观察,确定重点领域,并指出进一步探索的潜在领域。
2023-06-24 08:46:40
669
原创 【NeRF大总结】基于NeRF的三维视觉年度进展报告
NeRF:基于可微体渲染和神经场三维表征的新视角合成方法。隐式神经场:用基于坐标的全连接网络标识颜色场与体密度场体渲染公式:将颜色场合体密度场渲染为图像。
2023-06-21 09:06:56
8323
原创 Stable Diffusion: 利用Latent Diffusion Models实现高分辨率图像合成
We have presented latent diffusion models, a simple and efficient way to significantly improve both the training and sampling efficiency of denoising diffusion models without degrading their quality.Based on this and our cross-attention conditioning mecha
2023-06-20 10:09:27
1979
原创 ubuntu下docker配置:python,cuda
后面跟着的’-zxvf’是参数。安装部分$ make altinstall 命令:这里使用了altinstall,你也可以使用install,代价是它可能会更改自带的python3安装,使得卸载变得困难,甚至使自带的python3变得不可用,但一般不会出现这些恶性错误。配置编译参数:’–prefix=/opt/python3.9’用来指定安装位置,’–with-pydebug’是添加调试工具用的,’–enable-optimizations’用来对编译结果进行优化,提高运行效率的,但会增加编译时间。
2023-06-07 15:09:48
1512
原创 图像生成 FID 分数计算 python 实现
FID(Frechet Inception Distance)分数是一种用于衡量生成模型与真实数据集之间相似性的指标,它是通过计算生成的样本与真实样本在Inception网络中特征表示上的差异程度来计算得出的。FID分数越低,表示生成的样本与真实样本之间的差异越小,生成模型的性能越好。
2023-06-02 10:40:17
5274
3
原创 图像相似性评估:SSIM、PSNR,MES, python代码实现
SSIM : 值越接近1,说明图像越相似PSNR:PSNR越大说明失真越少,生成图像的质量越好MES:MSE值越小,说明图像越相似 需要注意的是,这些相似性评估指标的计算,要求图像具有相同的shape。
2023-05-31 18:09:33
2013
原创 CLIP score:Text-image similarity 以及image-image similarity 评估代码实现
利用CLIP 计算 Text-to-Image task中 生成的图像与对应的prompt的相似程度,该指标越大越好。对应的输出分数是分别对应了test.jpg和的相似程度。值得注意的是,预训练模型需要提前下载好,并放在项目目录下。(可能需要逐个文件下载)
2023-05-31 17:11:27
9648
6
Hands-onPythonTutorial.pdf
2020-05-27
工程领域大数据和人工智能原则.pdf
2020-05-27
Simple_Rules_AI.pdf
2020-05-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人