24年2月来自曲阜师范、华东师大和哈工大的论文“Vision-Language Navigation with Embodied Intelligence: A Survey”。
作为人工智能领域的长期愿景,具身智能的核心目标是提升智体与环境的感知、理解和交互能力。视觉-语言导航(VLN)作为实现具身智能的重要研究路径,致力于探索智体如何利用自然语言与人进行有效沟通,接收并理解指令,并最终依靠视觉信息实现精准导航。VLN集人工智能、自然语言处理、计算机视觉和机器人技术于一体,该领域面临技术挑战,但在人机交互等应用方面具有广阔的前景。但由于VLN从语言理解到动作执行的过程复杂,面临着视觉信息与语言指令的对齐问题、提升泛化能力等诸多挑战。本文系统回顾VLN的研究进展,并详细阐述具有具身智能的VLN研究方向。在详细总结其体系架构、基于方法的研究以及常用基准数据集的基础上,全面分析当前研究面临的问题与挑战,探索该领域未来的发展方向。
自 1956 年约翰·麦卡锡 (John McCarthy) 创造人工智能 (AI) 一词以来,该领域经历从符号主义到联结主义的多个阶段[1]。在过去的几十年里,深度学习技术的快速发展,例如卷积神经网络 (CNN) 和循环神经网络 (RNN) 的兴起,尤其是生成式预训练 Transformer (GPT) 等大型语言模型的进步,推动了计算机视觉和自然语言处理领域人工智能的重大突破。
在人工智能的发展轨迹中,汉斯·莫拉维克 (Hans Moravec) 提出的“莫拉维克悖论”强调高级认知和基本感官任务之间的对比表现[2]。这一启示促使研究人员逐步探索人工智能理解和与物理世界互动的能力,即具身智能。体现智能旨在将人工智能系统与真实或模拟环境相结合,使它们能够以类似人类的方式与这些环境交互并在其中执行任务[3]。
视觉语言导航(VLN)[12–14] 是具身智能领域的一个重要研究方向,它将人工智能、自然语言处理、计算机视觉和机器人技术融为一体。它的目的是通过理解自然语言指令和解释视觉信息,使智体能够在虚拟和现实环境中导航[15–17]。这种方法不仅为更自然、更高效的人机交互铺平道路,也符合人类对人工智能未来发展的期望。如图所示,VLN 智体通常将视觉信息和语言指令作为输入,输出包括