XVerse:通过 DiT 调制实现对身份和语义属性的一致性多主体控制
一、引言
XVerse 提出了一种新颖的多主体图像合成方法,能够在不破坏整体图像潜在特征的情况下,对各个主体进行精准且独立的控制。它通过将参考图像转化为针对特定标记的文本流调制偏移量来达成这一目标。使得高保真、可编辑图像生成成为可能,用户可以稳固地掌控各个主体的特征(身份)以及语义属性,极大地提升了个性化和复杂场景生成的能力。
二、方法
-
XVerse 的核心在于对参考图像的处理,将其转化为用于调制的偏移量,这些偏移量针对特定的标记,作用于文本流调制过程。实现了对不同主体的独立控制,且不会干扰到图像的整体潜在特征。
-
在图像生成过程中,能够确保各个主体的身份特征和语义属性得到精准呈现,同时保持图像整体的自然性和一致性。
三、实验
-
提供了 QuickStart 指南,指导用户如何搭建环境,包括创建 conda 环境、安装相关依赖等。并给出了下载检查点以及运行本地 GradioDemo 的具体步骤。
-
对输入设置进行了解释,包括文本提示(Prompt)、生成图像的尺寸调整、权重参数(Weight_id/ip)、LoRA 尺度(latent_lora_scale 和 vae_lora_scale)以及 VAE 跳过迭代(vae_skip_iter_before 和 vae_skip_iter_after)等方面的说明。
-
介绍了输入图像的相关操作,如展开面板、上传图像、添加图像描述、进行目标检测与分割、裁剪人脸以及设置 ID 相关权重等。并强调了提示构建的注意事项,即主文本提示必须包含每个活动图像的图像描述字段中输入的准确文本,同时指出了活跃图像的判定依据(展开或折叠的面板)。
四、总结
XVerse 为多主体图像合成领域带来了创新性的方法,通过精准的调制方式,实现了对各个主体身份和语义属性的一致性控制,为个性化和复杂场景生成提供了强有力的支持,其详细的操作指南也为用户提供了便利,推动了该领域相关技术的发展和应用。