点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章针对复杂城市环境中的无人机自主视觉目标搜索(AVOS)任务展开研究,首次系统性地形式化该任务,并构建了首个专用基准数据集 CityAVOS,涵盖多样化的城市目标和场景。为有效完成该任务,作者提出了一种新颖的方法——PRPSearcher,它构建了类人三层认知架构,通过语义图、认知图和不确定性图模拟人的感知、推理与规划过程,同时引入了IPT提示机制,引导无人机在探索与利用之间动态权衡。实验结果表明,PRPSearcher在搜索效率和成功率方面显著优于现有方法,展示了其在复杂城市空间中高效搜索目标的潜力。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:Towards Autonomous UAV Visual Object Search in City Space: Benchmark and Agentic Methodology
作者:Yatai Ji, Zhengqiu Zhu等
作者机构:State Key Lab of Digital-Intelligent Modeling and Simulation Changsha, China等
论文链接:https://arxiv.org/pdf/2505.08765
2. 摘要
城市环境中的空中视觉目标搜索(Aerial Visual Object Search,AVOS)任务要求无人机(UAV)在无外部指导的情况下,利用视觉和文本线索自主搜索并识别目标物体。现有方法在复杂的城市环境中面临语义处理冗余、相似物体区分困难以及探索与利用的权衡难题,表现受限。为弥补这一不足并支持AVOS任务,我们提出了CityAVOS——首个面向常见城市目标自主搜索的基准数据集。该数据集涵盖六类目标,共2420个任务,难度各异,可用于全面评估无人机智能体的搜索能力。 为解决AVOS任务,我们还提出了PRPSearcher(感知-推理-规划搜索器),这是一种基于多模态大型语言模型(MLLMs)的创新智能体方法,模仿人类的三层认知结构。具体而言,PRPSearcher构建了三种专用地图:以目标为中心的动态语义地图以增强空间感知,基于语义吸引值的三维认知地图用于目标推理,以及用于平衡探索与利用的三维不确定性地图。此外,我们的方法引入了去噪机制以减少相似目标的干扰,并采用灵感促进思考(IPT)提示机制实现自适应行动规划。 在CityAVOS上的实验结果表明,PRPSearcher在成功率和搜索效率方面均优于现有基线方法(平均提升:成功率+37.69%,SPL+28.96%,MSS减少30.69%,NE减少46.40%)。尽管表现令人鼓舞,但与人类表现的差距表明AVOS任务仍需进一步提升语义推理和空间探索能力。该工作为未来具身目标搜索研究奠定了基础。 数据集与源码可访问:https://anonymous.4open.science/r/CityAVOS-3DF8。

3. 效果展示
2例PRPSearcher的2次发作。一个是成功的案例,演示了与基线模型相比,我们提出的方法如何以及为什么有效地发现和识别目标。而另一个是失败的案例,突出了与人类代理相比,我们的方法在视觉推理能力方面的局限性。

4. 主要贡献
首次提出面向城市空间AVOS任务的基准数据集CityAVOS。
受人类三层认知启发,提出基于MLLM的智能体方法,通过构建语义地图、认知地图和不确定性地图,提升智能体的空间感知、目标推理和行动规划能力。
实验验证了该方法在AVOS任务中的优越性能,尽管与人类表现仍有差距,体现了未来提升具身目标搜索中语义推理与空间探索能力的研究潜力。
5. 基本原理是啥?
任务形式化将无人机在复杂城市环境中自主寻找视觉目标的问题定义为“自主视觉目标搜索(AVOS)”任务,明确了任务目标和评价标准。
三层认知架构模拟人类思维PRPSearcher方法基于模仿人类认知过程,设计了三个层级的认知地图:
语义图(Semantic Map):理解和定位场景中的具体目标和物体类别;
认知图(Cognitive Map):对环境结构、已探索区域及路径规划进行推理;
不确定性图(Uncertainty Map):评估对环境未知区域或目标位置的不确定性,帮助指导探索。
IPT提示机制设计了一种引导机制,让无人机在规划动作时能够动态平衡“探索未知区域”和“利用已知信息寻找目标”之间的关系,提高搜索效率和成功率。推荐课程:零基础入门四旋翼建模与控制(MATLAB仿真)[理论+实战]。
标准化评测和数据集通过构建CityAVOS数据集,涵盖多种复杂的城市场景和目标,使得算法的评估更加客观和标准化。
6. 实验结果
搜索效率提升PRPSearcher相比现有的方法,能够更快地定位目标,减少搜索所需的时间和路径长度,表现出更高的行动效率。
成功率显著提高在复杂的城市环境中,PRPSearcher实现了更高的目标搜索成功率,表明其在面对多样化目标和复杂场景时具有更强的鲁棒性和适应能力。
平衡探索与利用通过IPT提示机制,无人机能够有效地在探索未知区域和利用已知信息之间做出合理选择,避免无效搜索或遗漏目标,进一步提升整体性能。
多样化场景表现优异在CityAVOS数据集覆盖的各种城市物体和场景中,PRPSearcher均表现出了稳定且优异的搜索表现,验证了方法的通用性。
7. 总结 & 未来工作
本研究提出了一项较少涉足的研究任务——面向复杂城市环境的无人机自主视觉目标搜索(Autonomous Visual Object Search, AVOS)。我们对AVOS任务进行了形式化定义,并构建了首个专用于该任务的基准数据集 CityAVOS,该数据集涵盖了多样化的城市目标与场景,有助于实现标准化评估。
为解决该任务,我们提出了一种新颖的智能体方法 PRPSearcher,首次构建了模仿人类感知、推理和规划过程的三层认知架构,分别通过语义图、认知图和不确定性图进行建模。同时,我们设计了 IPT提示机制,在智能体的动作规划阶段,引导其在探索(exploration)与利用(exploitation)之间实现平衡。
实验结果表明,PRPSearcher在搜索效率与成功率方面均显著优于现有方法。这项工作标志着使具身无人机在复杂城市空间中具备目标搜索能力迈出了关键一步。
未来,我们计划通过引入人机协同或多智能体协作策略,进一步提升PRPSearcher的能力,以应对更复杂的AVOS任务(例如:长时序多目标搜索)。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉硬件
3D视觉学习圈子
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
3D视觉全栈学习课程:www.3dcver.com
3D视觉交流群成立啦
添加微信:cv3d001,备注:方向+单位,邀请入群 点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~