
经典文献
文章平均质量分 94
敢敢のwings
欢迎来到「敢敢のwings」!本人是一位前自动驾驶的具身智能行业从业人员,著有《从ROS1到ROS2无人机编程实战指南》一书。作为阿里云专家博主、华为云享专家、古月居优秀创作者及签约作者、CSDN博客专家,握有多篇发明专利授权和SCI、EI论文。之前主要侧重机器人运动学、定位感知算法、深度学习研究,目前主要关注端到端、具身智能等方面,平时涉猎较广。正在努力成长并胜任架构师的角色!有商务合作或咨询需求可站内私信,或关注我团队的微信公众号【敢敢AUTOHUB】以及微信【mpl9725440】。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
经典文献阅读之--CityWalker(从大规模网络视频中学习具身城市导航)
摘要: 《CityWalker》提出了一种基于大规模网络视频的具身城市导航方法,通过视觉里程计从数千小时的行走和驾驶视频中提取动作监督,实现无需人工标注的模仿学习。该方法利用Transformer架构处理观测和位置信息,结合特征幻觉和方向误差损失优化策略,显著提升了动态城市场景中的导航性能。实验表明,跨领域训练(行走+驾驶数据)能进一步增强泛化能力,为自主代理(如配送机器人)提供了可扩展的解决方案。代码已开源。原创 2025-08-03 18:30:58 · 1040 阅读 · 0 评论 -
论文速读《A Survey on Vision-Language-Action Models for Autonomous Driving:视觉-语言-行动融合的智能驾驶新范式》
摘要 视觉-语言-行动(VLA)模型正推动自动驾驶技术从传统模块化架构向智能化融合系统演进。VLA模型通过统一架构整合视觉感知、语言理解和动作控制三大核心能力,实现了端到端的驾驶决策。其发展经历了四个阶段:从被动解释器到主动规划者,再到统一网络和推理增强系统。该模型的核心优势在于多模态数据融合能力,能够处理视觉、语言等多种输入,并通过先进编码器转换为统一表示。最新研究显示,VLA模型已能实现从传感器输入到驾驶动作的直接映射,并在长时程推理和细粒度决策方面取得突破。尽管仍面临挑战,VLA模型为构建更智能、可解原创 2025-07-07 11:21:34 · 3526 阅读 · 0 评论 -
经典文献阅读之--ALOcc(基于自适应提升的3D语义占用与基于代价体积的流动预测)
ALOcc提出了一种创新的自适应提升方法,用于3D语义占用和流动预测,显著提升了自动驾驶等应用的性能。该方法通过遮挡感知机制和深度去噪技术增强2D到3D特征转换的鲁棒性,减少了对深度先验的依赖。此外,引入基于BEV的成本体积方法,结合分类-回归监督策略,优化了流动预测。共享语义原型的设计加强了2D与3D特征的语义一致性,并通过选择性采样缓解了类别不平衡问题。实验表明,ALOcc在速度和精度上达到最佳平衡,在Occ3D等基准测试中实现了2.5%的绝对性能提升,同时保持实时计算效率。代码将开源。原创 2025-07-07 08:54:12 · 3384 阅读 · 0 评论 -
论文速读《UAV-Flow Colosseo: 自然语言控制无人机系统》
北航团队提出UAV-Flow新范式,将语言引导的无人机控制聚焦于短距离精细飞行任务。研究构建了首个真实世界大规模数据集(3万+轨迹),并提出地面-无人机协作框架解决机载计算瓶颈。通过模仿学习实现多模态信息融合,系统在成功率(SR)和轨迹质量(NDTW)指标上显著优于传统方法。该工作首次在开放环境中实现了基于自然语言对话的无人机精细化控制,为无人机智能化发展开辟新方向。原创 2025-05-30 16:50:24 · 1837 阅读 · 2 评论 -
经典文献阅读之--RT-Grasp(通过MLLM进行推理调优的机器人抓取)
本文提出了一种创新的机器人抓取方法RT-Grasp,通过推理调优(Reasoning Tuning)将多模态大语言模型(LLMs)的推理能力与机器人抓取任务相结合。该方法先进行推理阶段分析物体属性,再生成可调的数值抓取位姿预测,克服了传统CNN方法缺乏适应性和纯LLMs方法精度不足的局限。研究开发了包含推理模板的VLM抓取数据集,并采用预训练和LoRA微调两种高效训练策略。实验证明该方法能基于用户指令优化抓取预测,为LLMs在机器人领域的数值预测任务提供了新思路。未来工作将扩展验证到更复杂的数据集和任务。原创 2025-05-26 13:45:04 · 4671 阅读 · 0 评论 -
经典文献阅读之--OpenVLA(一个开源的视觉-语言-动作模型)
OpenVLA:开源视觉-语言-动作模型为机器人控制带来新突破 OpenVLA项目推出了一个开源的70亿参数视觉-语言-动作(VLA)模型,基于OpenX-Embodiment数据集的97万条机器人演示训练而成。该模型通过整合SigLIP和DinoV2视觉编码器与Llama2语言模型,实现了对7维机器人动作的预测能力。研究发现,微调视觉编码器对模型性能至关重要,而图像分辨率对计算需求影响显著。相比现有封闭模型,OpenVLA提供了更好的泛化能力和适应性,支持在消费级GPU上部署。项目代码已在GitHub开源原创 2025-05-26 13:43:21 · 4817 阅读 · 0 评论 -
论文速读《UniVLA:让机器人学会通用技能的新方法》
如何让机器人在各种环境中高效工作是当前AI领域的重大挑战。传统方法往往依赖大量带标注的动作数据,这使得机器人很难从一个场景迁移到另一个场景,更难以适应不同的物理形态。UniVLA(通用视觉-语言-动作框架)通过一个巧妙的方法解决了这个问题。它引入了"任务中心的潜在动作"概念,让机器人能够从互联网视频中学习,并将知识迁移到不同环境和不同机器人平台。最令人印象深刻的是,UniVLA在计算资源只有OpenVLA(之前最先进方法)的1/20、训练数据仅有其1/10的情况下,性能表现却大幅领先。原创 2025-05-21 11:17:20 · 5739 阅读 · 0 评论 -
论文速读《物理模拟器在具身AI时代的机器人导航与操控研究综述》
***城市大学、墨尔本大学和汉堡大学的研究人员发表了一篇综述论文,探讨了具身智能中机器人导航和操控的核心能力,并分析了物理模拟器在缩小模拟-到-现实差距中的作用。论文指出,尽管模拟器为训练机器人提供了经济高效的解决方案,但模拟环境与真实世界之间的物理和视觉差异仍然存在。通过分析模拟器的特性、任务需求、硬件限制以及前沿方法(如世界模型和几何等变性),论文为研究人员提供了选择合适工具和方法的指导。此外,论文还总结了近年来导航和操控技术的进展,强调了大规模数据集、基础模型和多模态策略的重要性,并提供了相关资源以推转载 2025-05-19 10:36:44 · 4531 阅读 · 0 评论 -
论文速读《GaussianLSS:一种基于深度不确定性的高效鸟瞰图感知方法》
鸟瞰图(BEV)感知作为自动驾驶领域的关键技术,对于三维目标检测和BEV分割等任务至关重要。准确的BEV表示能够帮助自动驾驶系统更好地理解周围环境,为下游的运动预测和路径规划提供可靠基础。现有的BEV感知方法主要分为两类:2D反投影方法(通过深度估计将2D特征提升到3D空间)和3D投影方法(将预定义的3D坐标投影到图像平面采样特征)。虽然这些方法在各自的优势领域取得了显著进展,但它们在准确度、计算效率和实时性之间存在难以平衡的权衡。本文介绍的GaussianLSS方法从一个全新角度出发,原创 2025-05-19 09:31:38 · 5352 阅读 · 0 评论 -
论文速读《DARE:基于扩散模型的自主机器人探索新范式》
自主机器人探索任务要求机器人在未知环境中高效地构建地图。传统方法多依赖于当前认知状态进行路径优化,难以充分利用历史经验。新加坡国立大学提出的DARE(Diffusion Policy for Autonomous Robot Exploration)是一种基于扩散模型的生成式探索方法,通过专家演示数据训练,能够一次性生成高效的探索路径,并在模拟与现实环境中展现出优异的泛化能力。图1:来自DARE的示意路径。基于机器人对环境的认知(以占用栅格图表示),机器人(由坐标轴表示)构建了一个信息丰富的图谱。原创 2025-05-08 09:46:58 · 10532 阅读 · 0 评论 -
论文速读《Embodied-R: 基于强化学习激活预训练模型具身空间推理能力》
具身智能是通用人工智能的重要组成部分。我们希望预训练模型不仅能在信息空间中实现问答、多模态理解,还能像人一样在真实三维空间中基于连续的视觉观测实现感知、思考和动作。这意味着预训练模型在感知基础上,形成对环境的形而上的理解,并结合意图规划自我动作,比如:“总结历史动作轨迹”、“归纳自身与周围对象的空间关系”、"根据导航目标确定下一步的动作"等。图1:具身空间推理:任务与思维过程。我们从公共的具身视频数据集中识别出具有挑战性的任务,涵盖室内和室外场景。我们引入了慢思考的概念,以提升推理性能。原创 2025-05-06 11:39:31 · 6726 阅读 · 0 评论 -
论文速读:《CoM:从多模态人类视频中学习机器人操作,助力视觉语言模型推理与执行》
现代机器人教学的一个重要方向是让机器人通过观看人类的视频演示,自动学习并执行复杂的物理操作任务,比如拧瓶盖、插插头、打鼓等。然而,单纯依靠视觉信息,机器人很难捕捉到诸如施力大小、动作力度等细节参数,导致执行效果不佳。原创 2025-05-06 10:34:37 · 6201 阅读 · 0 评论 -
论文速报《Flying Hand:以末端执行器为中心的统一空中操作框架》
在机器人技术飞速发展的今天,无人空中操纵器(UAMs)凭借其在高空复杂任务中的巨大潜力,正逐渐改变传统行业的作业模式。无人机辅助的高空设备维护、桥梁检测等应用可以大幅降低人力成本并提升作业安全性。然而,现有的空中操作研究往往面临一个关键问题:大多数平台和控制算法都是为特定任务量身定制,这极大地限制了技术的通用性和跨任务适应能力。图1. 所提出的框架和系统能够精准且稳健地完成多种典型的空中操作任务,例如(a) 写下“2025”,(b) 插钉入孔,© 拿取与放置,以及(d) 更换灯泡。原创 2025-04-30 15:14:24 · 6184 阅读 · 0 评论 -
经典文献阅读之--KISS-Matcher(快速且稳健的点云注册)
我们的目标是对齐两个无序的体素化点云,体素大小为vvv,即源点云PPP和目标点云QQQ。为此,我们在两个点云之间建立对应关系,随后进行稳健估计,以抑制异常值的不良影响。形式上,假设通过匹配获得的第kkk对(或第kkk个对应关系)由3D点ai∈Pa_i \in Pai∈P和3D点bj∈Qb_j \in Qbj∈Q组成。那么,第kkkbjRaitϵij(1)bjRaitϵij1其中R∈S。原创 2025-04-21 19:32:04 · 6350 阅读 · 0 评论 -
论文速报《A2I-Calib: 一种四足主动抗噪声的多IMU标定框架》
在腿式机器人技术的快速发展中,实时、低功耗和高精度的状态估计是其成功的关键。尤其是在具身导航系统中,腿式机器人的运动控制、速度跟踪和路径规划均依赖于准确的状态估计。近年来,基于多IMU(惯性测量单元)的里程计因其低成本和高能效特性而成为一种有前景的解决方案。然而,现有的多IMU外参标定方法在腿式机器人上面临着显著的局限性,尤其是在传统步态无法提供足够激励以及对IMU噪声敏感性增强的情况下。原创 2025-03-19 11:13:16 · 6861 阅读 · 0 评论 -
论文速报《BEV-LIO(LC): 提升稀疏点云SLAM精度的新框架》
随着LiDAR-惯性里程计(LIO)技术的快速发展,结合LiDAR和惯性传感器的SLAM(同时定位与建图)系统在精度和效率上取得了显著进展。然而,稀疏点云的挑战依然存在,尤其是在特征提取和定位精度方面。为了应对这些挑战,本文提出了一种新的LIO框架——BEV-LIO(LC),该框架通过将LiDAR数据的鸟瞰视图(BEV)表示与几何配准相结合,并通过特征匹配实现鲁棒的回环闭合检测,显著提升了稀疏点云SLAM的性能。原创 2025-03-07 18:21:47 · 7956 阅读 · 0 评论 -
论文速报《OccProphet: 提升相机基础4D占用预测的效率边界》
在自动驾驶技术迅速发展的背景下,提升车辆对周围动态环境的感知与预测能力,成为了确保安全驾驶的关键需求。香港理工大学最近在ICLR 2025会议上公开了一篇名为《OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework》的论文。作者提出了一种轻量级的观察器-预报器-细化器框架(OccProphet)原创 2025-03-02 10:15:16 · 8270 阅读 · 0 评论 -
论文速报《FlexCloud: 点云地图的直接、模块化地理配准和漂移校正》
在自动驾驶技术迅速发展的背景下,高精度(HD)地图的生成与应用显得尤为重要。HD地图为车辆提供了周围静态环境的关键信息,使其可以更可靠地进行定位、路径规划和运动预测。然而,当前的点云地图生成方法,尤其是在同时定位与建图(SLAM)领域,往往缺乏有效的全局地理配准,导致生成的地图存在内部畸变和漂移问题。为了解决这一问题,本文提出了FlexCloud,一个模块化的点云地图地理配准与漂移校正方法。FlexCloud为从SLAM构建的局部点云地图实现直接地理配准和漂移校正提供了一个框架。原创 2025-03-02 10:14:17 · 8544 阅读 · 0 评论 -
论文速报《资源有限的机器人实现实时LiDAR点云压缩与传输》
随着激光雷达(LiDAR)技术的广泛应用,自主机器人在环境感知和导航中得到了极大的提升。然而,LiDAR生成的点云数据量庞大,给数据存储和传输带来了挑战。为了解决这一问题,Yuhao Cao等人提出了一种名为RCPCC的新型点云压缩与传输框架,旨在为资源受限的机器人提供高效、实时的点云处理方案。图1. 资源受限机器人云服务解决方案示意图(左)。以及使用压缩点云的下游任务结果(右)RCPCC(实时LiDAR点云压缩与传输框架)旨在为资源受限的场景提供高效的点云处理。原创 2025-03-02 10:13:41 · 8615 阅读 · 0 评论 -
论文速报《端到端自动驾驶真的需要感知任务吗?》
不得不感叹的是,自动驾驶行业的技术的发展日新月异,技术热点已经从BEV迅速地转移到了端到端上。不管如何看待端到端,最近一年端到端的火热已经切实影响到了这个行业的每一个人。相比于在紧锣密鼓恶补各种模型知识的传统规划的工程师而言,大家似乎往往默认感知算法工程师在端到端时代是有优势的。原创 2025-03-02 10:13:05 · 8324 阅读 · 0 评论 -
经典文献阅读之--GS-LIVO(在嵌入式系统部署的高斯SLAM)
翻译如下:结论在本文中,我们提出了GS-LIVO,这是一种新颖的实时SLAM系统,结合了传统的激光雷达-惯性视觉里程计与新颖的3D高斯点云映射表示。通过用基于高斯的场景表示替代传统的彩色点云和稀疏贴图,我们的系统实现了准确的定位和高保真的映射。我们的主要贡献包括:(1)一种空间哈希索引的八叉树结构,用于高效的全局高斯地图管理;(2)激光雷达与视觉的联合初始化,以实现高保真的映射;(3)一种增量滑动窗口策略,用于实时地图优化;(4)一个紧密耦合的多传感器融合框架,采用增量扩展卡尔曼滤波(IESKF)。原创 2025-02-26 20:51:19 · 13008 阅读 · 0 评论 -
经典文献阅读之--MapGS(基于GS来完成恢复的在线建图新SOTA)
MapGS 框架专为应对特定传感器配置下在线建图模型训练中数据不足的问题。MapGS 利用高斯点云渲染重建场景,并渲染目标传感器配置视图的图像。通过这项工作,提出了一种数据再生成的方案,并引入了 nuAV2 数据集,将 Argoverse 2 数据集的图像转换为 nuScenes 数据集视图,用于训练。我们证明了该方法可以缩小传感器配置之间的差距。此外,它是一种有效的数据增强技术,能够在在线建图任务中实现预训练或联合训练。原创 2025-02-26 20:50:59 · 8991 阅读 · 0 评论 -
经典文献阅读之--HeightMapNet(静态感知如何集成高度先验)
图1展示了我们方法的工作流程。该流程始于一个特征编码器,从原始图像III中提取多尺度的PV特征FF1F2FsFF1F2Fs(其中sss为尺度的数量)。这些PV特征在前景-背景分离网络中经过精炼,该网络有效地区分道路元素与非道路元素,从而增强特征信号的纯度。随后,一个高度预测机制促进了特征从传统PV到BEV的转换。这一转换通过对场景的全面空间表示显著提高了感知精度。之后,应用多尺度特征融合技术,通过整合在不同尺度下捕获的BEV特征,增强了模型对复杂场景的适应性。原创 2025-02-13 11:15:10 · 10282 阅读 · 0 评论 -
经典文献阅读之--ReMEmbR(带有记忆能力的具身导航智能体)
在复杂环境中进行导航和理解,并持续较长时间,是机器人面临的一项重大挑战。,这就要求机器人能够对其部署的长时间历史进行推理。为了解决这一问题,我们提出了一种用于具身机器人的检索增强记忆系统,称为ReMEmbR。》该系统旨在实现机器人导航的长时间视频问答。为了评估ReMEmbR,我们引入了。ReMEmbR采用了一种。我们的实验表明,ReMEmbR在性能上优于大型语言模型(LLM)和视觉语言模型(VLM)基线,使ReMEmbR能够以低延迟实现有效的长时间推理。原创 2025-02-12 17:13:25 · 11322 阅读 · 0 评论 -
经典文献阅读之--GSPR(基于3D高斯点云的多模态地点识别在自动驾驶中的应用)
地点识别的任务是通过。在自动驾驶系统中,。然而,由于光照、季节和天气的变化,特别是在大规模的室外环境中,。相比之下,。然而,LPR的识别性能仍然受到激光雷达点云自然稀疏性以及缺乏纹理和语义信息的限制。大多数,导致未能充分利用。因此,如何有效地将多模态传感器数据融合为统一的场景表示,并充分提取多模态的时空相关性,仍是一个值得进一步研究的话题。3D-GS方法通过3D高斯建模构建了显式的场景表示,能够快速渲染新视角,同时有效捕捉精确的几何信息。原创 2025-01-22 10:02:27 · 11567 阅读 · 1 评论 -
经典文献阅读之--High Definition Map Mapping and Update...(高精度地图的构建与更新:概述与未来发展方向)
高精度地图的核心理念源于在自主驾驶模式下尽可能准确地定位车辆的必要性,以确保安全。早期的数字地图无法满足这一要求,因为其仅能达到车道级别的精度[16]。尽管车辆定位技术取得了显著进展,但在没有准确地图作为参考的情况下,其精度很快就达到了可实现的极限。高精度地图的功能明确地可以归结为提供详细的数字地图信息,以支持三级及以上自动驾驶车辆的应用。高精度地图通常包含多个层次,每一层代表环境的不同方面。原创 2025-01-22 10:01:53 · 10907 阅读 · 0 评论 -
经典文献阅读之--Revisit Anything(通过图像片段检索的视觉位置识别)
我们使用开放集分割器(SAM)提取分段掩码,并利用相邻图像段将其转换为超分段(SuperSegments)。通过使用。原创 2025-01-22 10:01:27 · 11082 阅读 · 0 评论 -
经典文献阅读之--Hierarchical End-to-End Autonomous Driving...(实现感知和决策的无缝衔接)
端到端自动驾驶为。虽然。在本文中,作者通过将。通过利用鸟瞰图(BEV)表示,《》提出了一种基于DRL的新型端到端驾驶框架,。这个基于BEV的系统提取关键环境特征并将其转换为DRL的高级抽象状态,从而促进更明智的控制。大量的实验评估表明,作者的方法不仅提高了可解释性,而且在自动驾驶控制任务中也明显优于最先进的方法,将碰撞率降低了20%。原创 2025-01-22 10:01:01 · 11089 阅读 · 0 评论 -
经典文献阅读之--DROID-SLAM(完美的深度学习slam框架)
深度学习和SLAM现在结合越来越紧密了,但是实际上很多时候深度学习只会作为一个block放在slam系统中。而很多深度学习slam算法,在slam这边的性能都不是太好,尤其是回环和全局优化这块。因为有一些深度学习的工作就不太适合做回环检测。。而回环是目前唯一一个可以用来修正累积误差的。回环检测需要去评估两个图片的相似性,。基本上回环和前端定位用的是一套方案,这样不需要增加额外的算力,就能实现回环检测,但是很多基于深度学习的方法,要么没有回环,要么增加额外的特征做回环(这样就需要额外的算力和存储)。而《原创 2024-11-10 12:27:49 · 13888 阅读 · 0 评论 -
经典文献阅读之--Camera calibration for the surround-view system(环绕视图系统的摄像头标定)
现在虽然以Transformer为代表的BEV深度学习占用网格已经占据了主流的方法,但是对于AVM,APA这些来说,还是需要比较好的在线自标定来完成比较好的360环视状态监测的。这里我们可以看到已经比较好的归纳出最近几年比较新的方法。作者将会围绕着自标定来开一个专题,来看一些比较有意思的算法。环视系统(SVS)广泛应用于先进驾驶辅助系统(ADAS)中。。目前,内参校准可以通过使用棋盘格算法进行流水线处理,而外参校准仍处于不成熟阶段。因此,我们提出了一个特定的校准流程来稳健地估计外参参数。原创 2024-11-10 12:27:24 · 11243 阅读 · 0 评论 -
经典文献阅读之--AirSLAM(抗复杂光照点线视觉SLAM)
高效率。系统应在资源受限的平台上具备实时性能。可扩展性。系统应易于扩展,以满足各种目的和实际应用。易于部署。系统应易于在真实机器人上部署,并能够实现鲁棒的定位。因此,我们设计了如图1所示的系统。所提出的系统是一个混合系统,因为我们需要数据驱动方法的鲁棒性和几何方法的准确性。它由三个主要组件组成:立体视觉里程计(VO/VIO)、离线地图优化和轻量级重定位。图1. 所提出的系统由三个主要部分组成:在线立体视觉里程计(VO/VIO)、离线地图优化和在线重定位。原创 2024-11-10 12:24:23 · 18367 阅读 · 0 评论 -
经典文献阅读之--Automated Parking Planning with Vision-Based BEV Approach (使用基于视觉的BEV方法实现自动泊车规划)
本文介绍了使用基于视觉的BEV方法实现自动泊车规划。自动代客泊车(AVP)是高级自动驾驶系统的重要功能,着重于“人机交互”过程中的终点任务,以应对“最后一公里”的挑战。自动泊车算法的感知模块已经从使用超声波雷达和全局场景精确地图匹配实现定位的局部感知演变为高级无地图鸟瞰图(BEV)感知的解决方案。BEV场景对自动泊车规划任务的实时性能和安全性提出了更高的要求。》基于A*算法提出了一种改进的自动泊车算法,其集成了车辆运动学模型、启发式函数优化、双向搜索和贝塞尔曲线优化来提高规划算法的计算速度和实时性。原创 2024-10-28 13:46:35 · 13433 阅读 · 0 评论 -
经典文献阅读之--Monocular Localization with Semantics Map for Autonomous Vehicles(基于语义地图的单目定位用于自动驾驶车辆)
精确且稳健的定位仍然是自动驾驶车辆面临的重大挑战。传感器的成本和本地计算效率的限制使其难以扩展到大型商业应用。传统的基于视觉的方法主要关注纹理特征,这些特征易受光照、季节、视角和外观变化的影响。此外带有描述子的地图的巨大存储需求和复杂的优化过程也阻碍了系统性能。为了在效率和准确性之间取得平衡,《》提出了一种新型的轻量级视觉语义定位算法,该算法使用稳定的语义特征而非低级纹理特征。首先通过使用摄像头或激光雷达传感器检测语义对象(如地面标记、车道线和电线杆)离线构建语义地图。原创 2024-10-28 13:45:53 · 8851 阅读 · 0 评论 -
经典文献阅读之--ParkingE2E(基于摄像头的端到端停车网络:从图像到规划)
我们使用端到端神经网络NθN_θNθDIijkPijSi(1)D{(IijkPijSi)}1其中,轨迹索引i∈1Mi∈1M,轨迹点索引j∈1Nij∈1Ni,相机索引k∈1Rk∈1R,RGB 图像III,轨迹点PPP和目标槽SSS。将数据集重新组织为(这里TijT_{i,j}TijTijPiminjbNib12Q(2)T。原创 2024-08-31 16:22:17 · 10065 阅读 · 0 评论 -
经典文献阅读之--DTCLMapper(双重时间一致性学习用于矢量化高清地图构建)
本文详细介绍了DTCLMapper框架,它由两个核心模块组成:实例一致性学习(ICL)和地图一致性学习(MCL)。ICL模块通过矢量点预选和聚合实例特征一致性学习,强化了实例特征在时间维度上的一致性。而MCL模块则通过全局的几何和状态一致性约束,确保了地图的整体一致性和泛化能力。这两个模块的协同作用显著提高了矢量化高精地图的构建精度和质量。作者计划进一步优化和扩展DTCLMapper框架,以适应更复杂的驾驶环境和处理更大规模的数据集。转载 2024-07-15 15:37:02 · 2884 阅读 · 0 评论 -
经典文献阅读之--iDet3D(交互式3D目标检测器)
在激光雷达场景中准确标注多个3D物体是费时且具有挑战性的工作。虽然之前有一些研究尝试利用半自动方法进行成本效益高的包围盒标注,但这些方法在有效处理大量多类别物体时存在局限。为了有效加速3D标注流程,《》提出了iDet3D,一个高效的交互式3D物体检测器。iDet3D支持用户友好的2D界面,该界面可以减轻用户在3D空间中进行点击交互的认知负担,使用户能够通过最少的交互完成每个场景中全部物体的标注。考虑到3D点云的稀疏性,我们设计了一种负点击模拟(NCS)机制来提高准确性,通过减少误报预测。原创 2024-07-01 18:45:20 · 13958 阅读 · 0 评论 -
经典文献阅读之--BTC(解决点云密度不均、视角变换的问题)
BTC是一种用于3D点云的地点识别,新的二进制和三角形结合描述子。三角形描述子负责全局描述;二进制描述子负责局部。三角形描述子通过三个关键点的边长捕捉点云的全局外观,并提供了旋转和平移不变性,同时二进制描述子编码了每个关键点的局部几何信息,增强了描述子的描述性和辨别力。未来方向进一步优化BTC描述子的计算效率探索其在其他应用场景中的潜力。转载 2024-06-19 15:55:32 · 4599 阅读 · 1 评论 -
经典文献阅读之--LESS-Map(长期定位轻量级和逐渐演进的语义地图方案)
我们利用四个环视鱼眼摄像头、惯性测量单元(IMU)和轮子编码器来捕捉周围环境并估计车辆的轨迹。所提出的算法包括两个主要组成部分:建图和定位,如图2所示。图2. 提出算法的概述。我们利用四个周围摄像头提取准确的参数化地面特征。系统主要分为两个部分。第一个(左侧)部分是建图部分,当首次访问环境时,它创建一个全局地图。第二个(右侧)部分是定位和地图更新部分,它进行定位并使用新捕获的环境数据更新先前的地图。建图:当车辆首次进入环境时,一个基本任务是构建一个全局地图,作为后续定位和地图更新的基础。原创 2024-04-09 10:24:15 · 16843 阅读 · 0 评论 -
经典文献阅读之--MV-Map(具有多视图一致性的非车载高精度地图生成)
局部的高精地图现在在自驾领域越来越受到关注,鸟瞰图(BEV)感知模型可以用于通过更少的人力构建高精度地图(HD-Maps)。虽然在线的局部地图推算是非常有必要的,但是它们的结果通常不可靠,并且表明从不同视角预测的高精度地图存在明显的不一致性。这是因为BEV感知通常是以“车载”方式设置的,其计算资源有限,这阻碍了算法同时推断多个视图。》通过一种更实用的“非车载”高精度地图生成方式,以消除计算限制。原创 2024-03-25 10:03:45 · 12911 阅读 · 0 评论 -
经典文献阅读之--HBA(大规模LiDAR一致性建图BA)
我们提出的方法的系统工作流程如图2所示。输入是每个LiDAR扫描的原始或校正后的点云以及它们在全局坐标系中的初始估计姿态,这些姿态可以从通用的LiDAR里程计或同时定位和建图(SLAM)算法中获得。该方法包括两个过程,自下而上(见第3节)和自上而下(见第4节),直到收敛为止。在自下而上的过程中,对较小的局部窗口内的LiDAR帧进行局部BA,从第一层到第二层构建关键帧(见图1)。这个过程按层次进行,直到满足最佳层数,并对顶层关键帧进行全局BA。然后,使用来自每个优化层和相邻层之间的因素构建姿态图(见图1)。原创 2024-03-22 10:36:48 · 13987 阅读 · 0 评论