全名:Show-o: One Single Transformer to Unify Multimodal Understanding and Generation
8月22发表的,一个名为Show-o的统一变换器(transformer)
能够同时处理多模态理解和生成任务。Show-o模型的创新之处在于它将自回归(autoregressive)和(离散)扩散(diffusion)建模融合在一起,以适应各种不同和混合模态的输入和输出。
摘要:
我们提出了一个统一的转换器,即 Show-o,它统一了多模态理解和生成。与完全自回归模型不同,Show-o 统一了自回归和(离散)扩散建模,以自适应地处理各种混合模态的输入和输出。统一模型灵活地支持广泛的视觉语言任务,包括视觉问答、文本到图像生成、文本引导修复/外推和混合模态生成。在各种基准测试中,它展示了与现有单个模型相当或更好的性能,这些模型具有等效或更多为理解或生成而定制的参数。这显著凸显了其作为下一代基础模型的潜力。
听着很厉害,不同模态完全混合