AIGC图像分辨率太低?快来试试像素感知扩散超分模型,你想要的细节都在这里

 FaceChain写真开源项目插播:

       最新 FaceChain支持多人合照写真、上百种单人写真风格,项目信息汇总:ModelScope 魔搭社区 。
       github开源直达(觉得有趣的点个star哈。):GitHub - modelscope/facechain: FaceChain is a deep-learning toolchain for generating your Digital-Twin.

摘要

阿里巴巴最新自研的像素感知扩散超分模型已经开源,它把扩散模型强大的生成能力和像素级控制能力相结合,能够适应从老照片修复到AIGC图像超分的各种图像增强任务和各种图像风格,并且能够控制生成强度和增强风格。这项技术的直接应用之一是AIGC图像的后处理增强和二次生成,能够带来可观的效果提升。

论文&代码

论文链接:[arxiv]

代码:[模搭社区][github]

背景介绍

随着大模型,特别是以文生图、ChatGPT为代表的AIGC大模型的快速发展,人工智能进入到发展的新时代和快车道。以文生图为例,基于大数据大模型训练的模型展示出惊人的生成能力,能够根据文本prompt输出逼真的自然图像,达到以假乱真的程度。创业公司StabilityAI基于latent diffusion框架训练并开源了Stable Diffusion(SD)文生图预训练模型,给普通大众接触和使用大模型的机会,其优越的性能也带来了学术研究和开源社区的热潮,在包括可控生成、个性化定义、图像编辑等等下游任务中都得到了广泛的应用和深刻的影响。本文着眼于底层视觉任务中的超分辨率与修复算法,这类任务需要特别倚重模型的生成能力以恢复栩栩如生、真实感的纹理细节,而这正是SD这一类的生成模型所擅长的,因此将SD应用到超分辨率任务正在成为一个研究热点,已经有包括LDM、StableSR等工作涌现,本文介绍了一种全新的基于SD生成先验的图像超分辨率和修复算法,在多个任务上都有着SOTA的表现。

先看看成品

研究基础

在介绍图像超分辨率与修复之前,我们先回顾一下基于SD的可控图像翻译任务 (Image-to-Image Translation),即给定一张控制图像如canny、pose、depth等生成出符合控制图像结构的结果。大规模文生图模型如SD我们可以理解为具备了生成自然界任意图像的能力,那么可控图像翻译任务本质上就是要在SD的潜空间中找到符合控制图像的结果,所以代表性工作如ControlNet、T2I-Adapter等都是通过引入额外的分支网络,将控制条件引入到SD主网络中,实现其潜能的激发。超分辨率任务和图像翻译本质上是一样的,都是Image-to-Image的mapping,但不同的是,超分辨率任务的控制条件是一张低分辨率的图像,期待输出的结果需要与这张低分辨率图像做到像素层面上的对应,因此是一种更强约束的图像翻译。考虑到这一点,我们可以从前人的工作如ControlNet中得到启发。一个初步的想法就是直接拿ControlNet来做超分,但遗憾的是,实验发现,用ControlNet做超分,往往做不到像素级的精确控制,会出现输出高清图与输入低清图存在语义结构上差异,如下图所示:

这主要是因为ControlNet只采用了加的方式传入控制条件信息,而这种方式的控制相对较弱,达不到像素级的感知。

我们的方法

PACA模块

所以我们核心要解决的问题就是如何强化SD对像素级控制信息的感知。我们设计的主要框架图如下:

与ControlNet采用的简单的加的方式不同,我们引入特别的Pixel-Aware Cross Attention (PACA) 模块来强化像素级信息的传输,其形式与经典的cross attention类似:

其中Q的来源是SD得到的特征x,而QV则是来源于类ControlNet分支网络得到的特征y。这里的yx有着完全相同的size,我们会把y映射成长度为h*w的embedding。这里的长度h*w蕴含了像素级的信息,因为类ControlNet分支没有使用VAE中的encoder,我们认为y依然保留着控制图像原始的像素信息。正因为此,我们认为PACA强化了像素级信息的感知能力。

降质去除模块

特别的对于真实超分场景,因为输入低清图像往往存在着各类的降质因素,而我们希望基于SD的模块专注于生成能力,所以引入了一个前置的Degradation Removal模块来对真实降质图像做一个简单的去degradations的操作,我们的实验也发现这样的结构有利于改善真实超分的效果。

High-Level信息

为了进一步的增强超分和修复的效果,我们实验发现high-level的语义信息往往对结果有正向的助益,所以我们引入分类、检测、图像打标等网络来提供额外的语义信息,并将这些信息结构化整理成文本prompt输入到SD中。同时,根据Classier-free Guidance理论,我们引入一些负向prompt包括noisy、blurry、lowres等,实验也表明这些信息的因素对结果也有帮助。

实验结果

图像超分辨率

我们在多个合成和采集的benchmark上验证了我们的算法,在多项指标上有着SOTA的表现:

在视觉对比实验中也有类似的发现:

自定义风格化

除了超分辨和修复任务之外,我们还发现,通过切换基模,我们的算法能够方便的实现任意的风格变换:

这本质上是把Image-to-Image mapping与stylization的生成能力分开,我们引入的分支网络解决pixel-wise的image-to-image mapping,而基模解决stylization的生成。这打开了图像风格化的一个全新思路。

图像上色

因为我们提出的算法本质上是一个Pixel-Aware的图像翻译,因此它适合于任意的相关任务,包括图像上色等。我们也在图像上色任务中进行了训练,初步的实验也显示了优于SOTA的效果:

参考文献

Robin Rombach and Andreas Blattmann and Dominik Lorenz and Patrick Esser and Björn Ommer. High-Resolution Image Synthesis with Latent Diffusion Models. Arxiv. 2021.

Lvmin Zhang and Maneesh Agrawala. Adding Conditional Control to Text-to-Image Diffusion Models. Arxiv. 2023.

Chong Mou, Xintao Wang, Liangbin Xie, Yanze Wu, Jian Zhang, Zhongang Qi, Ying Shan, Xiaohu Qie. T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models. Arxiv. 2023.

Wang, Jianyi and Yue, Zongsheng and Zhou, Shangchen and Chan, Kelvin CK and Loy, Chen Change. Exploiting Diffusion Prior for Real-World Image Super-Resolution. Arxiv. 2023.

视觉算法招募

长期开放视觉算法实习生和正式员工岗位,欢迎添加微信(309107918)联系!

关于我们通义开放视觉智能是阿里巴巴应用视觉能力研发和开放中心,在视觉感知理解和视觉生成编辑两大技术方向上研发并开放了数以百计的视觉能力、模型及实用套件;并将视觉各领域、应用场景的大模型服务,通过通义万相、ModelScope等开放给开发者和各行业,持续推进视觉技术的应用创新和产品研发,从而带来规模化的视觉AI用户生态及云智能服务价值。

AIGC时代,结合多模态知识工程优化自然语言处理(NLP)和图像生成的效果,是一项复杂的任务,但以下步骤将提供一个具体的方向和方法。 参考资源链接:[AIGC时代:多模态知识工程的挑战与机遇](https://wenku.csdn.net/doc/6dz04tabi1?spm=1055.2569.3001.10343) 首先,多模态知识工程涉及整合来自不同感官模态的信息,如文本、图像、音频和视频。为了提高NLP和图像生成的效果,我们需要构建一个包含丰富语义信息和视觉特征的知识图谱(KG)。这可以通过提取和融合来自不同模态的数据来实现,确保模型能够理解和利用这些信息来增强生成内容。 其次,NLP和图像生成模型应被训练为能够理解多模态数据的语义。这可以通过迁移学习或多任务学习来实现,其中模型在处理一种模态时也考虑到其他模态的信息。例如,一个NLP模型在翻译或摘要文本时,可以参考知识图谱中与文本内容相关联的图像来更好地理解语境和词汇的含义。 另外,深度学习技术在处理这些问题时至关重要,尤其是卷积神经网络(CNN)用于图像识别和处理,循环神经网络(RNN)和Transformer架构用于NLP任务。这些技术通过自适应和学习特征来提高模型的性能。在多模态场景下,注意力机制和交互式神经网络架构有助于模型更好地关联和融合来自不同模态的信息。 为了确保生成内容的质量和准确性,多模态知识工程还应该包括质量评估和控制机制。这可能包括自动检测生成内容中的错误和不一致性,以及实时的反馈循环来优化模型参数。 最后,伦理和数据隐私问题必须得到妥善处理。为了确保多模态知识工程的可持续发展,研究者和开发者需要遵循严格的伦理指导原则,并采取适当的数据安全措施来保护用户数据。 综上所述,通过建立强大的多模态知识图谱,采用先进的深度学习架构,以及实施质量控制和伦理实践,可以显著提高自然语言处理图像生成的效果。为了深入理解这些概念和技术细节,建议查阅《AIGC时代:多模态知识工程的挑战与机遇》,该资料详细探讨了相关技术和应用,为解决当前问题提供了理论支持和实践指南。 参考资源链接:[AIGC时代:多模态知识工程的挑战与机遇](https://wenku.csdn.net/doc/6dz04tabi1?spm=1055.2569.3001.10343)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI记忆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值