视觉语言导航-CSDN博客

原创数字孪生映射探索驱动的具身导航！MorphoNavi：面向对象映射的空地机器人导航

论文提出利用单目相机的通用空地机器人映射方法MorphoNavi，能够在复杂环境中检测多种物体并估计其位置，无需针对特定环境进行微调！

2025-07-26 15:22:23 360

原创上海AI Lab长时序感知具身导航！StreamVLN：基于慢快上下文建模的流式视觉语言导航

StreamVLN通过其混合上下文建模策略，在保持低延迟的同时，实现了长视频流上的高效、连贯且可扩展的动作生成，为实时、内存高效和长时序感知导航提供了一种新的解决方案。

2025-07-25 19:38:47 592

原创 IROS-2025 | OIKG：基于观察-图交互与关键细节引导的视觉语言导航

论文提出视觉语言导航框架OIKG，通过解耦视觉与角度信息、增强导航空间中的边表示以及动态提取指令中的细粒度位置和物体信息，显著提高了导航精度和成功率！

2025-07-24 19:03:27 496

原创清华大学层次化空间记忆助力具身导航！Mem4Nav：基于层次化空间认知长短期记忆系统的城市环境视觉语言导航

Mem4Nav通过将可逆记忆Token嵌入稀疏八叉树和语义拓扑图中，并结合短期记忆缓存，为VLN智能体提供了层次化的空间回忆和适应能力！

2025-07-23 20:49:58 881

原创检索增强型生成助力无人机精准数学推理！RAG-UAV：基于RAG的复杂算术推理方法

RAG-UAV通过为大语言模型（LLMs）提供无人机领域的相关文献资料，显著提升了其在无人机特定场景下的数学推理能力！

2025-07-22 20:27:42 1029

原创低成本、高泛化能力的无人机自主飞行！VLM-Nav：基于单目视觉与视觉语言模型的无地图无人机导航

VLM-Nav 通过结合深度估计和视觉语言模型，实现了在复杂未知环境中的高效自主导航！

2025-07-22 20:23:13 1370

原创北航基于视觉的无人机定位与导航方法研究综述

本文系统性地梳理了基于视觉的无人机定位与导航技术，全面总结了该领域的研究现状和发展趋势，详细介绍了无人机视觉定位和导航的方法，并对这些方法在不同场景中的性能进行了定性和定量分析，同时探讨了该领域面临的挑战和未来研究方向。

2025-07-20 12:59:21 619

原创南洋理工空中导航零样本迁移与泛化！VLFly：基于开放词汇目标理解的无人机视觉语言导航

VLFly通过将自然语言指令转化为结构化提示、匹配目标图像并生成连续控制指令，实现了在复杂环境中的零样本迁移和开放词汇目标理解，显著提升了无人机在模拟和现实环境中的导航性能！。

2025-07-19 16:00:26 1052

原创慕尼黑工业大学具身机器人实时环境探索！FindAnything：基于开放词汇对象中心映射的机器人任意环境认知与导航

论文提出实时开放词汇对象中心的映射和探索框架FindAnything ，能够利用基础模型实现开放词汇引导的机器人探索！

2025-07-19 15:39:24 856

原创复旦大学具身导航与操作的完美融合！MoMa-Kitchen：面向移动操作“最后一英里”导航基准数据集

MoMa-Kitchen 基准数据集通过提供大规模的、高质量的真实可供性地图，解决了移动操作中导航与操作之间的“最后一英里”挑战！

2025-07-17 19:55:13 1219

原创 ICMR-2025 | 杭电多智能体协作具身导航框架！MMCNav：基于MLLM的多智能体协作户外视觉语言导航

MMCNav通过多智能体协作，有效地解决了户外视觉语言导航任务中的复杂挑战！

2025-07-16 19:25:55 652

原创 AAAI-2025 | 同济大学面向嘈杂环境的音频视觉导航！BeDAViN：大规模音频-视觉数据集与多声源架构研究

BeDAViN 能够模拟不同声源配置的多样化场景，为在多声源环境中训练和测试智能体提供了支持。

2025-07-15 16:57:46 493

原创波兰无人机具身导航基准测试与最新进展！FlySearch：探索视觉语言模型的探索能力

FlySearch通过在复杂三维环境中导航和寻找目标对象的任务，揭示了VLMs在探索能力上与人类基线相比存在显著差距！

2025-07-14 13:01:58 936

原创清华&北大&西工大！具身导航最新综述

具身导航在近年来取得了显著进展，但在真实世界适用性、多智能体协作、生物启发神经架构以及安全和隐私等方面仍面临挑战。这些挑战需要进一步的研究来解决，以推动该领域的发展。

2025-07-13 13:41:41 1011

原创 AAAI-2025 | 西交模拟人类空间推理策略的具身导航！REGNav：房间专家引导的图像目标导航

EGNav通过模仿人类的空间关系推理策略，利用预训练的房间专家模型，有效解决了智能体在图像目标导航任务中的无效动作问题！

2025-07-12 14:44:46 339

原创港科大 NMPC 控制下的高效自主导航！SkyVLN：城市环境无人机视觉语言导航与非线性模型预测控制

SkyVLN 框架为无人机在复杂城市环境中的视觉与语言导航提供了一种有效的解决方案，通过多模态感知、提示优化和非线性模型预测控制的有机结合！

2025-07-11 13:15:56 1298

原创长期记忆在导航与操作任务中的评估！FindingDory：具身智能体记忆能力评估基准测试

FINDINGDORY用于评估具身智能体在长期任务中的记忆能力，通过构造需要回忆过去交互经验的多样化任务，揭示了现有视觉语言模型（VLM）在处理长时序记忆和复杂推理时的局限性！

2025-07-11 13:14:59 749

原创港科大零样本环境中的高效具身导航！ApexNav：基于目标中心语义融合的零样本目标导航自适应探索策略

ApexNav 通过自适应探索策略和目标中心语义融合方法，显著提高了零样本目标导航的效率和可靠性！

2025-07-09 21:49:45 638

原创 RAL-2025 | 华盛顿大学厘米级精度具身导航新进展！Aim My Robot：面向任意目标的精准导航

AMR是基于视觉的导航模型，能够以厘米级精度导航到任何物体！

2025-07-09 21:46:07 1039

原创南京大学具身机器人万字长文全面综述！从物理模拟器和世界模型中学习具身智能

本文综述了通过物理模拟器和世界模型学习具身智能的最新进展，提出了智能机器人的五级分级标准，并分析了物理模拟器与世界模型在提升机器人自主性、适应性和泛化能力中的作用！

2025-07-07 19:57:46 1031

原创 ICCV-2025 | 复杂场景的精准可控生成新突破！基于场景图的可控 3D 户外场景生成

本文提出了一种基于场景图的可控3D户外场景生成方法，通过将稀疏的场景图转换为密集的鸟瞰图嵌入图，进而引导条件扩散模型生成与场景图描述匹配的高质量3D场景！

2025-07-06 14:55:34 644

原创 RAL-2025 | 触觉助力无人机空中探索！基于柔顺机器人手指的无人机触觉导航

本文提出通过从顺应性的人类手指推断触觉反馈，指导四旋翼无人机在未知轮廓上自主导航！

2025-07-05 19:07:46 614

原创 RAL-2025 | 清华大学数字孪生驱动的机器人视觉导航！VR-Robo：面向视觉机器人导航与运动的现实-模拟-现实框架

VR-Robo框架能够在逼真且可交互的模拟环境中训练视觉运动策略，并成功地将这些策略零样本部署到多样化的真实世界场景中！

2025-07-05 19:02:31 587

原创香港大学强化学习驱动连续环境具身导航！VLN-R1：基于强化微调的视觉语言导航

VLN-R1通过整合LVLM和强化学习微调，为连续环境中的视觉语言导航提供了一种有效的解决方案

2025-07-03 18:53:36 1083

原创 CVPR-2025 | 中山大学先验信息赋能具身导航！NaviBridger：基于去噪扩散桥模型的视觉导航

NaviBridger框架通过利用先验动作信息，显著提高了视觉导航任务中的动作生成效率和准确性！

2025-07-03 18:52:32 1613

原创西交从语义到关系、重塑具身导航策略！RSRNav：基于空间关系推理的图像目标导航

RSRNav通过推理目标与当前观测之间的空间关系来指导导航，显著提高了图像目标导航的效率和鲁棒性！

2025-07-01 20:52:14 757

原创机器学习驱动的水下声目标跟踪最新前沿！水下声目标定位与跟踪全面综述：进展、挑战与展望

论文通过提出一个多维度的分类框架，系统地总结了水下声学目标跟踪领域的最新进展，并强调了机器学习技术在提高跟踪精度、适应性和智能化方面的潜力！

2025-06-30 11:41:56 731

原创当无人机遇到AI智能体：多领域自主空中智能和无人机智能体综述

本文全面探讨了自主智能无人机（Agentic UAVs）在精准农业、灾难响应、环境监测等多领域的应用，分析了其架构、技术、挑战，并展望了未来发展方向，旨在为该领域的发展提供基础框架和战略指导！

2025-06-29 19:39:27 1005

原创上交零样本具身导航最新进展！DyNaVLM：基于动态视角与自精炼图记忆的零样本视觉语言导航

DyNaVLM 通过动态编码拓扑空间关系，使智能体能够在没有固定动作空间或特定任务训练的情况下灵活导航！

2025-06-28 11:38:26 848

原创新国立动态3D表示助力具身导航！Dynam3D：基于动态分层3D标记视觉语言模型的视觉语言导航

Dynam3D 通过其动态分层的 3D 表示模型，在 VLN 任务中实现了对 3D 环境的深度理解和有效导航！

2025-06-27 12:53:29 1018

原创 CVPR-2025 | 缩小仿真与现实差距的具身导航新突破！Vid2Sim：从视频到逼真交互式仿真环境的城市导航

Vid2Sim框架为从单目视频创建逼真且可交互的仿真环境提供了一种有效的方法，显著缩小了sim-to-real差距！

2025-06-26 22:12:18 647

原创 CVPR-2025 | 上交拥挤无序环境下的具身导航最新基准！RoboSense：以机器人为中心的具身感知与导航大规模数据集

论文提出了RoboSense数据集，针对拥挤和非结构化环境中自主智能体导航的自我中心感知任务的大规模多模态数据集和基准，包含丰富的标注信息和多种任务设置！

2025-06-25 19:47:19 676

原创同济大学多模态感知具身导航全面综述

论文将目标导向导航方法按照推理域进行分类，涵盖了多种任务范式。这种分类方法揭示了不同任务之间的共性和差异，为理解导航方法提供了统一的框架！

2025-06-24 20:19:46 1367

原创中南大学面向具身人工智能的物体目标导航综述

文章全面梳理了当前物体目标导航相关工作，从任务类型、模型结构和发展进程三个角度对现有方法进行了分类和分析，为研究人员提供了一个清晰的框架来理解该领域的研究现状！

2025-06-23 12:50:29 1071

原创多模态大模型在视觉驱动的具身导航与操作能力评估！EmbodiedBench：从高级任务到低级别动作的全面基准测试

EmbodiedBench为评估基于MLLM的具身智能体提供了一个全面的标准化评估平台，揭示了当前智能体在低级别操作和长期规划方面的挑战！

2025-06-22 16:26:40 1066

原创浙大深度思考赋能具身场景新框架！Embodied-Reasoner：通过视觉搜索、推理和行动协同攻克复杂具身交互任务

Embodied-Reasoner将深度思考范式扩展到了具身交互任务中，通过设计的数据引擎和三阶段训练流程，使模型具备了更强的交互和推理能力！

2025-06-21 16:16:53 813

原创上交&中山导航智能体的自我进化！EvolveNav：大模型驱动的自改进式具身推理与导航

EvolveNav通过引入形式化CoT监督微调和自反思后训练，有效提升了LLM在VLN任务中的推理能力和决策准确性！

2025-06-20 16:51:14 323

原创 TPAMI-2025 | 中科院计算所未知环境中的精准目标定位！HOZ++：基于多功能层次化对象区域场景图的目标导航

HOZ++图能够有效地捕捉对象在典型区域中的先验知识，通过帮助智能体定位当前区域和目标区域，并规划从区域到区域的最优路径，为智能体提供导航指导！

2025-06-20 16:48:21 619

原创 TPAMI-2025 | 中科大高斯溅射助力视觉导航！GaussNav：基于高斯溅射的实例级目标定位与导航

GaussNav通过引入语义高斯地图表示，为具身视觉导航提供了一种新的解决方案，在IIN任务中取得了显著的性能提升。

2025-06-19 15:41:18 1113

原创中科大融合图像、文本与 3D 点云的具身导航新框架！CoNav：多模态协同推理赋能具身导航

CoNav通过引入3D-文本模型的指导，有效解决了具身导航中不同模态数据融合的挑战，通过跨模态信念对齐实现了视觉线索与空间语义知识的整合，从而在导航过程中解决歧义问题！

2025-06-19 15:40:10 764

复旦大学视觉语言导航研究重磅调研！

空空如也