1. 多模态增强学习 1.1 多模态分类 情感分类 2. 多模态转换学习 文图转换(text2image) 视觉问答(VQA) 图文匹配(Image-Text Retrieval) 视觉蕴涵(Visual Entailment) 视觉推理(Natural Language for Visual Reasoning) 文本3D转换 (text23D)