论文复现３：Stable Diffusion v1_stable diffusion paper-CSDN博客

本文链接：https://blog.csdn.net/github_38060285/article/details/137126255

该博客介绍了如何复现Stable Diffusion模型，这是一种使用潜在空间中的扩散模型进行图像生成的方法，旨在减少计算需求并提高视觉保真度。作者分享了论文链接、代码库和Hugging Face模型，还详细描述了模型的训练和权重使用，以及在复现过程中遇到的问题和解决策略。未来计划进一步复现DAAM并应用于机械臂动作序列生成任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

abstract: 通过将图像形成过程分解为去噪自动编码器的顺序应用，扩散模型 (DM) 在图像数据及其他方面实现了最先进的合成结果。此外，他们的公式允许一种指导机制来控制图像生成过程，而无需重新训练。然而，由于这些模型通常直接在像素空间中运行，因此强大的 DM 的优化通常会消耗数百个 GPU 天，并且由于顺序评估，推理成本很高。为了在有限的计算资源上进行 DM 训练，同时保持其质量和灵活性，我们将它们应用在强大的预训练自动编码器的潜在空间中。与之前的工作相比，在这种表示上训练扩散模型首次允许在复杂性降低和细节保留之间达到接近最佳的点，从而极大地提高了视觉保真度。通过将交叉注意力层引入模型架构中，我们将扩散模型转变为强大而灵活的生成器，用于一般调节输入（例如文本或边界框），并且以卷积方式使高分辨率合成成为可能。我们的潜在扩散模型 (LDM) 在图像修复和类条件图像合成方面实现了新的最先进分数，并在各种任务上实现了极具竞争力的性能，包括无条件图像生成、文本到图像合成和超分辨率，同时显着与基于像素的 DM 相比，减少了计算要求。

paper:https://openaccess.thecvf.com/content/CVPR2022/html/Rombach_High-Resolution_Image_Synthesis_With_Latent_Diffusion_Models_CVPR_2022_paper.html
code:https://github.com/C