计算机视觉工坊
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
KDD24 通用的多源空间点数据预测:以PM2.5预测为例
随着数字化世界的发展,空间数据已经成为人们认识世界并与其交互的关键要素。空间数据的主要特征是具有2D/3D空间坐标和与之关联的属性。空间预测(spatial predidction)利用空间数据来预测某一地点或区域的事件或某一具体属性,在环境监测、自然资源管理、交通规划等领域有着重要应用。空间数据可以大致细分为矢量数据(vector)与栅格数据(raster):矢量数据包含点,线,面(point,line,polygon),其特征是具有精确的坐标值;原创 2024-08-16 11:29:35 · 119 阅读 · 0 评论 -
上交最新开源!涨点36%!DMESA:最强匹配一切!吊打SuperGlue和LoFTR!
我们提出了MESA和DMESA这两种新颖的特征匹配方法,它们利用“万事皆可分割”模型(Segment Anything Model, SAM)来有效减少匹配冗余。我们方法的关键见解是,在点匹配之前,基于SAM的高级图像理解能力,建立隐式语义区域匹配。然后,具有一致内部语义的信息丰富区域匹配能够进行密集特征比较,从而促进精确的区域内点匹配。具体来说,MESA采用稀疏匹配框架,首先通过新颖的区域图(Area Graph, AG)从SAM结果中获取候选区域。原创 2024-08-06 20:52:28 · 196 阅读 · 0 评论 -
BMVC‘24开源 | BaseBoostDepth:更强大的自监督单目深度估计
在多基线立体视觉领域,传统观念普遍认为,增加基线间距通常可以显著提升深度估计的准确性。然而,当前主流的自监督深度估计架构主要使用最小帧间距和受限的立体基线。虽然可以使用更大的帧间距,但我们研究表明,由于亮度变化显著和遮挡区域增加等各种因素,这会导致深度质量下降。为了应对这些挑战,我们提出的方法采用了一种受课程学习启发的优化策略,以有效利用更大的帧间距。然而,我们证明仅采用受课程学习启发的策略并不足够,因为更大的基线仍然会导致位姿估计的漂移。原创 2024-08-06 20:48:22 · 265 阅读 · 0 评论 -
还在用COLMAP?北大最新开源Cycle3D:由图像生成高质量3D模型!
最近的3D大型重建模型通常采用两阶段过程,包括首先通过多视角扩散模型生成多视角图像,然后利用前馈模型将图像重建为3D内容。然而,多视角扩散模型往往产生低质量和不一致的图像,这会对最终3D重建的质量产生不利影响。为了解决这个问题,我们提出了一个统一的3D生成框架Cycle3D,该框架在多步扩散过程中循环使用基于2D扩散的生成模块和前馈3D重建模块。具体来说,2D扩散模型用于生成高质量的纹理,而重建模型则保证多视角的一致性。原创 2024-08-06 20:46:03 · 223 阅读 · 0 评论 -
双重SOTA!同时实现SfM和深度估计!三维重建新范式!
自监督深度估计和结构从运动恢复(Structure-from-Motion,SfM)均从RGB视频中恢复场景深度。尽管它们的目标相似,但这两种方法并不相关。自监督的先前工作通过反向传播相邻帧内定义的损失。与通过损失进行学习不同,本工作提出了一种通过执行局部SfM的替代方案。首先,使用校准后的RGB或RGB-D图像,我们采用深度和对应估计器来推断深度图和成对对应图。然后,一种新颖的bundle-RANSAC调整算法联合优化相机姿态和每个深度图的深度调整。原创 2024-08-06 20:42:25 · 188 阅读 · 0 评论 -
ECCV‘24开源 | 真实感拉满!DiverseDream:生成超高质量的3D模型!
文本到3D合成最近作为一种新的方法出现,它采用预训练的文本到图像模型作为指导的视觉先验来采样3D模型。现有的文本到3D方法中存在一个有趣但研究不足的问题是,通过采样优化过程获得的3D模型往往会出现模式崩溃,从而导致结果多样性较差。在本文中,我们进行了分析,并确定了这种有限多样性的潜在原因,这促使我们设计了一种新方法,该方法考虑了从同一文本提示中联合生成不同的3D模型。我们建议使用参考图像的文本反演来增强文本提示,以实现联合生成的多样性。我们证明了我们的方法在定性和定量上均能提高文本到3D合成的多样性。原创 2024-08-06 20:35:43 · 170 阅读 · 0 评论 -
ECCV‘24开源 | 完虐COLMAP!百倍加速!ACEZero:全新SfM革新三维重建!
我们研究了从一组描绘场景的图像中估计相机参数的任务。流行的基于特征的运动结构(Structure-from-Motion, SfM)工具通过增量重建来解决此任务:它们重复对稀疏3D点进行三角测量,并将更多相机视图注册到稀疏点云中。我们重新解释了增量运动结构,将其视为视觉重定位器的迭代应用和细化,即一种将新视图注册到当前重建状态的方法。这一视角使我们能够研究不依赖于局部特征匹配的替代视觉重定位器。我们展示了场景坐标回归(一种基于学习的重定位方法)允许我们从无姿态图像中构建隐式的神经场景表示。原创 2024-08-06 20:34:38 · 570 阅读 · 0 评论 -
势不可挡!RT-DETRv2震撼来袭!挑战全部YOLO和DETR目标检测网络!
在本报告中,我们介绍了RT-DETRv2,即一种改进的实时检测Transformer(Real-Time DEtection TRansformer,RT-DETR)。RT-DETRv2建立在先前的最先进的实时检测器RT-DETR的基础上,并开放了一系列“免费午餐”选项,以提高灵活性和实用性,同时优化训练策略以实现性能提升。为了提高灵活性,我们建议为可变形注意力中不同尺度的特征设置不同数量的采样点,以实现解码器对多尺度特征的选择性提取。原创 2024-07-29 19:28:38 · 1143 阅读 · 0 评论 -
ECCV‘24开源 | 涨点10%!Mask2Map:端到端在线高精地图最新SOTA!
在本文中,我们介绍了Mask2Map,这是一种专为自动驾驶应用设计的新型端到端高清地图构建方法。我们的方法侧重于预测场景中地图实例的类别和有序点集,这些实例以鸟瞰图(BEV)的形式表示。Mask2Map由两个主要组件组成:实例级掩码预测网络(IMPNet)和掩码驱动地图预测网络(MMPNet)。IMPNet生成掩码感知查询和BEV分割掩码,以全局捕获全面的语义信息。随后,MMPNet通过两个子模块:位置查询生成器(PQG)和几何特征提取器(GFE),利用局部上下文信息增强这些查询特征。原创 2024-07-29 19:26:47 · 210 阅读 · 0 评论 -
ECCV‘24开源 | 塑造SLAM新纪元!6倍加速!LocoTrack:跟踪一切最新SOTA!
我们引入了LocoTrack,这是一个为跨视频序列跟踪任意点(TAP)任务而设计的高度准确且高效的模型。在此任务中,之前的方法通常依赖于局部2D相关图,以建立查询图像中的一个点到目标图像中局部区域的对应关系,但这种方法在处理同质区域或重复特征时往往会遇到困难,从而导致匹配模糊。LocoTrack通过一种新颖的方法克服了这一挑战,该方法利用跨区域的全对对应关系(即局部4D相关性)来建立精确的对应关系,通过双向对应关系和匹配平滑性显著提高了对抗模糊性的鲁棒性。原创 2024-07-29 19:25:23 · 128 阅读 · 0 评论 -
ECCV‘24开源 | 加速73%!在线建图 & 轨迹预测双重SOTA!
理解道路几何形状是自动驾驶汽车(AV)技术栈的关键组成部分。虽然高清(HD)地图可以很容易地提供此类信息,但它们存在高标注和维护成本的问题。因此,许多最新研究提出了从传感器数据中在线估计高清地图的方法。最近的大多数方法都将多摄像头观测编码为中间表示(例如,鸟瞰图(BEV)网格),并通过解码器生成矢量地图元素。虽然这种架构性能良好,但它消除了中间表示中编码的大量信息,从而阻止了下游任务(如行为预测)利用这些信息。原创 2024-07-28 07:16:34 · 124 阅读 · 0 评论 -
自动驾驶决策模拟器问世?OccSora:4D占用生成模型颠覆行业!
理解3D场景的演变对于实现有效的自动驾驶至关重要。虽然传统方法通过单个实例的运动来模拟场景发展,但世界模型作为一种生成框架,被用于描述一般的场景动态。然而,大多数现有方法采用自回归框架来进行下一个标记的预测,这在建模长期时间演变方面存在效率低下的问题。为了解决这一问题,我们提出了一种基于扩散的4D占用生成模型OccSora,以模拟自动驾驶中的3D世界发展。我们采用4D场景标记器来获取紧凑的离散时空表示,用于4D占用输入,并实现了长序列占用视频的高质量重建。原创 2024-07-27 21:22:09 · 214 阅读 · 0 评论 -
号称替代MLP的KAN,在视觉任务中有哪些应用?
在深度学习领域,Kolmogorov-Arnold网络(KAN)作为多层感知机(MLP)的潜在替代方案已经出现。然而,其在视觉任务中的适用性尚未得到广泛验证。在本研究中,我们通过在MNIST、CIFAR10和CIFAR100数据集上进行多次试验,使用训练批次大小为32的KAN-Mixer来展示KAN在视觉任务中的有效性。我们的结果表明,虽然KAN在CIFAR10和CIFAR100上优于原始MLP-Mixer,但其性能略逊于最先进的ResNet-18。原创 2024-07-27 21:18:51 · 250 阅读 · 0 评论 -
SIGGRAPH‘24开源 | TexPainter:为任意Mesh生成高质量纹理!
最近,预训练扩散模型的成功解锁了为野外任意3D网格自动生成纹理的可能性。然而,这些模型是在屏幕空间中训练的,而将它们转换为多视角一致的纹理图像则对输出质量构成了主要障碍。在本文中,我们提出了一种新方法来强制实现多视角一致性。我们的方法基于以下观察:在预训练的扩散模型中,每个相机视角的潜在空间是分别加噪的,这使得通过直接操作潜在代码来实现多视角一致性变得困难。基于著名的去噪扩散隐式模型(DDIM)方案,我们提出使用基于优化的颜色融合来强制实现一致性,并通过梯度反向传播间接修改潜在代码。原创 2024-07-27 21:13:26 · 151 阅读 · 0 评论 -
打破3D标注限制!DICE:首个端到端从单张图像中进行手脸交互恢复框架!
从单张图像中重建具有变形的3D手脸交互是一个具有挑战性但至关重要的任务,在AR、VR和游戏领域有广泛的应用。挑战源于单视角手脸交互过程中自遮挡、手和脸之间多样的空间关系、复杂的变形以及单视角设置的模糊性。现有唯一的手脸交互恢复方法Decaf通过全球拟合优化引入了基于接触和变形估计网络的工作,这些网络在带有3D注释的工作室数据上进行了训练。然而,Decaf由于依赖于手脸交互数据的3D注释,存在耗时的优化过程和有限的泛化能力。原创 2024-07-27 21:12:30 · 138 阅读 · 0 评论 -
做SLAM没有位姿真值?Director3D:直接生成真实相机轨迹和3D场景!
近年来,在3D生成领域的进步已经利用了具有真实3D资产和预定义相机轨迹的合成数据集。然而,采用能够生成更加逼真的3D场景的真实世界数据集的潜力仍然在很大程度上尚未被探索。在本文中,我们深入研究了在真实世界捕获中发现的复杂且特定于场景的相机轨迹这一关键挑战。我们引入了Director3D,一个强大的开放世界文本到3D生成框架,旨在生成真实世界的3D场景和自适应相机轨迹。原创 2024-07-18 20:42:17 · 191 阅读 · 0 评论 -
必读综述!YOLO十年之约:从起源到YOLOv10
本文系统地回顾了You Only Look Once(YOLO)目标检测算法从YOLOv1到最近发布的YOLOv10的发展历程。采用逆时间顺序分析,本研究从YOLOv10开始,逐步追溯至YOLOv9、YOLOv8及更早版本,深入探讨了每个版本在提升实时目标检测的速度、准确性和计算效率方面的贡献。研究强调了YOLO在五个关键应用领域——汽车安全、医疗健康、工业制造、监控和农业中的变革性影响。通过详细阐述后续YOLO版本中逐步增加的技术进步,本文记录了YOLO的演进历程,并讨论了各早期版本面临的挑战和局限性。原创 2024-07-12 22:23:40 · 694 阅读 · 0 评论 -
CVPR‘24开源 | ADA-Track:端到端3D多目标跟踪最新SOTA!
许多基于查询的3D多目标跟踪(MOT)方法采用基于注意力的跟踪范式,利用跟踪查询进行身份一致的检测,并使用对象查询进行身份无关的跟踪生成。然而,基于注意力的跟踪将检测和跟踪查询在一个嵌入中纠缠在一起,分别用于检测和跟踪任务,这是次优的。其他方法类似于基于检测的跟踪范式,使用解耦的跟踪和检测查询来检测对象,随后进行关联。然而,这些方法没有利用检测和关联任务之间的协同作用。结合两种范式的优点,我们提出了ADA-Track,一个从多视角摄像机进行3D MOT的全新端到端框架。原创 2024-07-01 22:28:35 · 485 阅读 · 0 评论 -
无人机算法竟如此简单!DroneVis:一个开源库搞定全部UAV感知任务!
本文介绍了DroneVis,这是一个旨在自动化鹦鹉无人机计算机视觉算法的新型库。DroneVis提供了一套多功能,并提供了各种各样的计算机视觉任务以及各种型号可供选择。该库以Python实现,遵循高质量的代码标准,便于根据用户需求轻松进行定制和功能扩展。此外,还提供了全面的文档,包括使用指南和说明性用例。我们的文档、代码和示例可在https://github.com/ahmedheakl/drone-vis中获得。原创 2024-06-30 07:06:33 · 310 阅读 · 0 评论 -
智源联合多所高校推出首个多任务长视频评测基准MLVU
使用MLLM进行长视频理解具有极大的研究和应用前景。然而,当前研究社区仍然缺乏全面和有效的长视频评测基准,它们主要存在以下问题:视频时长不足:当前流行的 Video Benchmark[1,2,3] 主要针对短视频设计,大部分视频的长度都在1分钟以内。视频种类和任务类型不足:现有评测基准往往专注在特定领域的视频(例如电影[4, 5],第一视角[6])和特定的视频评测任务(例如Captioning[2],Temporal Perception[7],Action Understanding[8])原创 2024-06-29 21:24:03 · 149 阅读 · 0 评论 -
清华&地平线最新开源!全任务SOTA!SparseDrive:端到端自动驾驶新范式!
传统的模块化自动驾驶系统被解耦成不同的独立任务,如感知、预测和规划,这导致跨模块的信息丢失和误差累积。相比之下,端到端范式将多任务统一到一个完全可微的框架中,允许以规划为导向的优化。尽管端到端范式具有巨大潜力,但现有方法的性能和效率并不理想,尤其是在规划安全性方面。我们认为这是由于计算成本高昂的BEV(鸟瞰图)特征和预测与规划的直接设计导致的。为此,我们探索了稀疏表示,并回顾了端到端自动驾驶的任务设计,提出了一种名为SparseDrive的新范式。原创 2024-06-29 21:18:40 · 622 阅读 · 0 评论 -
清晰度提升30%!2D扩散模型助力3D纹理重建:最新开源框架PointDreamer
PointDreamer 是一种创新的零样本框架,通过将 3D 重建任务转化为 2D 图像修复,实现了高保真度和强泛化能力的纹理网格重建。它在各种基准数据集上取得了 SOTA 性能,并具有易于使用和强大的抗噪声能力等优点,在 3D 重建领域具有广阔的应用前景。本文仅做学术分享,如有侵权,请联系删文。原创 2024-06-27 20:28:55 · 188 阅读 · 0 评论 -
3D场景重建史诗级新突破 | RetinaGS 驱动十亿级3D场景重建
RetinaGS 是一种基于模型并行的分布式训练方法,旨在实现大规模 3D 场景重建。该方法通过 KD 树分割场景空间,将模型参数分配到多个 GPU 上进行训练,并结合 MVS 初始化和分布式通信等技术,实现了高效、高质量的 3D 场景重建。RetinaGS 的实验结果表明,该方法在多个方面取得了显著的成功。与 3DGS 相比,RetinaGS 能够实现更高的重建质量和更低的内存占用,并且可以轻松扩展到十亿级规模的 3DGS 模型。原创 2024-06-25 20:42:00 · 203 阅读 · 0 评论 -
计算更少,精度更高:Voxel Mamba革新三维目标检测的无需分组模型
本文提出了一种名为 Voxel Mamba 的新型三维目标检测骨干网络,该网络采用无需分组的策略,将整个场景的体素序列化成一个序列,并通过双尺度状态空间模块和隐式窗口划分技术,有效地保留了体素的空间邻近度。实验结果表明,Voxel Mamba 在 Waymo 和 nuScenes 数据集上取得了优于现有方法的性能,并且在计算效率方面也具有显著优势。Voxel Mamba 为三维目标检测任务提供了一种高效且有效的解决方案,具有广阔的应用前景。原创 2024-06-22 19:38:52 · 217 阅读 · 0 评论 -
CVPR‘24开源 | Symphonies:深入自动驾驶中的3D语义场景补全
3D语义场景补全(SSC)已成为自动驾驶中新兴而重要的任务,旨在预测体积场景内的体素占用情况。然而,当前的方法主要集中在体素级特征聚合上,而忽略了实例语义和场景上下文。本文提出了一种名为Symphonies(从实例到场景)的新范式,深入探讨了将实例查询整合到2D到3D重建和3D场景建模中。利用我们提出的串行实例传播注意力,Symphonies动态地编码了以实例为中心的语义,促进了图像域和体积域之间的复杂交互。原创 2024-06-22 19:37:01 · 204 阅读 · 0 评论 -
CVPR‘24开源 | MASA:万能匹配一切、跟踪一切!
在复杂场景中跨视频帧稳健地关联相同对象是许多应用的关键,尤其是多目标跟踪(MOT)。当前方法主要依赖于标记的特定领域视频数据集,这限制了学习到的相似嵌入的跨领域泛化能力。我们提出了MASA,一种新颖的方法,用于稳健的实例关联学习,能够在没有跟踪标签的情况下,匹配不同领域中视频内的任何对象。MASA利用Segment Anything Model(SAM)丰富的对象分割功能,通过详尽的数据变换来学习实例级别的对应关系。我们将SAM的输出视为密集的对象区域提议,并学习从庞大的图像集合中匹配这些区域。原创 2024-06-21 18:49:44 · 438 阅读 · 0 评论 -
目标检测的极限在哪里?LW-DETR:干翻YOLOv10!
在本文中,我们提出了一种轻量级的检测转换器LW-DETR,它在实时对象检测方面优于YOLOs。该架构是一个简单的ViT编码器、投影仪和浅层DETR解码器的堆栈。我们的方法利用了最近的先进技术,例如训练有效的技术,例如改进的损失和预训练,以及交错窗口和全局关注,以降低ViT编码器的复杂性。我们通过聚合多级特征图以及ViT编码器中的中间和最终特征图来改进ViT编码器,形成更丰富的特征图,并引入窗口主特征图组织,以提高交错注意力计算的效率。原创 2024-06-21 18:48:25 · 492 阅读 · 0 评论 -
IEEE最新!融合目标跟踪与多视图几何,TKG-SLAM 实现动态场景下的精准定位与建图
场景的动态特性违反了SLAM算法的静态环境假设,降低了摄像机定位的精度。近年来,许多研究试图通过结合语义约束和几何约束来解决动态对象,但实时性能差、错误地将人视为静态对象的可能性以及在高度动态环境中表现不佳等问题仍然存在。该文基于目标检测、卡尔曼滤波和多视图几何,提出了一种基于目标跟踪和多视图几何的动态场景视觉SLAM算法(TKG-SLAM)。该算法同时考虑了实时性能和算法准确性。它结合了语义约束和多视图几何约束,在不同场景中有选择地运行算法,过滤和保留静态点以进行摄像机姿态估计。原创 2024-06-21 18:45:41 · 146 阅读 · 0 评论 -
性能提升10倍 | 实时大场景渲染:3D高斯分层表示新突破
本文提出了一种名为“Hierarchical 3D Gaussian Representation”的方法,旨在实时渲染大规模场景。该方法利用 3D 高斯函数的层次结构来表示场景,并通过 LOD 机制实现高效渲染。为了处理大规模场景,该方法将场景划分为多个分块进行独立优化,并引入了深度监督和改进的密度策略来解决稀疏数据带来的挑战。实验结果表明,该方法能够实时渲染大规模场景,并取得优于其他方法的渲染质量。本文仅做学术分享,如有侵权,请联系删文。原创 2024-06-21 18:44:02 · 300 阅读 · 0 评论 -
10倍加速!今年最火的深度估计模型升级:Depth Anything V2 来了!
本项工作介绍了Depth Anything V2。我们不追求花哨的技术,而是旨在揭示关键发现,为构建强大的单目深度估计模型铺平道路。特别是,与V1版本相比,该版本通过三个关键实践产生了更精细、更鲁棒的深度预测:1) 将所有标记的真实图像替换为合成图像;2) 扩大教师模型的容量;3) 通过大规模伪标签真实图像的桥梁来教授学生模型。与基于Stable Diffusion的最新模型相比,我们的模型在效率和准确性上均显著更优(速度快10倍以上)。原创 2024-06-19 19:17:42 · 1154 阅读 · 0 评论 -
无需标定板!Galibr:无需目标的LiDAR相机外参标定新方法
这篇文章介绍了一种名为 Galibr 的新型激光雷达-相机外参标定方法,该方法无需任何标定板,即可在任何自然环境中进行。Galibr利用地面平面和边缘信息,通过两个主要步骤进行标定:基于地面平面的初始位姿估计(GP-init) 和基于边缘提取和匹配的细化阶段。该方法在非结构化自然环境中展现出优异的性能,并在KITTI数据集和 KAIST 四足机器人数据集上进行了测试。图1:Galibr估计激光雷达相机的外部校准结果分为两个步骤:使用地平面进行初始相对姿态估计和基于边缘匹配的外部校准。原创 2024-06-19 19:14:14 · 418 阅读 · 0 评论 -
克服室内环境挑战:NV-LIO 带来激光雷达-惯性里程计新篇章
NV-LIO是一种基于法向量的激光雷达-惯性里程计框架,旨在实现多楼层室内环境的鲁棒SLAM。它利用激光雷达扫描生成的点云的法向量进行匹配,以提高点云配准的准确性。此外,NV-LIO还分析了法向量的分布,以检测退化解并调整匹配的不确定性,并引入了基于视角的闭环检测模块,以避免墙壁遮挡造成的错误匹配。实验结果表明,NV-LIO在各种数据集上均表现出色,尤其是在狭窄走廊和楼梯等具有挑战性的室内环境中。NV-LIO 是一种鲁棒且准确的激光雷达-惯性里程计框架,适用于多楼层室内环境的 SLAM。原创 2024-06-17 21:18:49 · 203 阅读 · 0 评论 -
北航&图森最新开源!Topo2D:利用2D车道线先验增强3D车道线检测和拓扑推理
在自动驾驶场景中,3D车道检测和拓扑推理是至关重要的任务,不仅需要检测车道线上的准确3D坐标,还需要推理车道与交通元素之间的关系。目前的基于视觉的方法,无论是否明确构建BEV特征,都在3D空间中建立车道锚点/查询,而忽略了2D车道先验。在本研究中,我们提出了Topo2D,一个基于Transformer的新颖框架,利用2D车道实例来初始化3D查询和3D位置嵌入。此外,我们明确地将2D车道特征融入车道中心线之间以及车道中心线与交通元素之间的拓扑关系识别中。原创 2024-06-17 21:16:45 · 250 阅读 · 0 评论 -
上交最新开源MotionGS:全面提升定位、建图、内存、速度
凭借其高保真场景表示能力,Neural Radiation Field (NeRF) 和 3D Gaussian Splatting (3DGS) 深深吸引了 SLAM 领域的注意。最近,基于 NeRF 的 SLAM 激增,而基于 3DGS 的 SLAM 则较为稀少。本文提出了一种结合深度视觉特征、双关键帧选择和 3DGS 的新型 3DGS 基 SLAM 方法。与现有方法相比,所提出的选择性跟踪通过每帧的特征提取和运动滤波来实现。位姿和 3D 高斯的联合优化贯穿整个映射过程。原创 2024-06-15 22:17:22 · 190 阅读 · 0 评论 -
革命VINS领域 | AB-VINS:深度学习赋能的视觉惯性SLAM系统、高效且鲁棒
总结:AB-VINS通过结合深度学习和新颖的数据结构,实现了高效、鲁棒且能够提供稠密深度信息的视觉惯性SLAM系统,为VINS领域带来了新的思路和方法。注:今天给大家分享一篇新工作:AB-VINS是一种新型的视觉惯性SLAM系统,它结合了深度学习与传统方法的优势。如果您有相关工作需要分享,欢迎联系:cv3d008本文仅做学术分享,如有侵权,请联系删文。原创 2024-06-15 22:15:22 · 224 阅读 · 0 评论 -
CMU最新 | iMESA 算法:将多机器人协作建图的通信成本降低50%,运行时间缩短10倍
本文提出了一种名为iMESA的增量分布式后端算法,用于协作式同时定位与建图(C-SLAM)。该算法旨在解决多机器人团队在实际部署中面临的挑战,例如稀疏通信和计算限制。iMESA基于先前的工作MESA,并将其扩展为增量版本。它使用边缘变量和双重变量来约束共享变量,并通过iSAM2算法进行局部更新。iMESA能够逐步融合循环闭合信息,并提供实时、准确的估计结果。注:今天给大家分享一篇新工作:一种名为iMESA的新型增量分布式协同定位与建图(C-SLAM)后端算法。原创 2024-06-15 22:12:54 · 136 阅读 · 0 评论 -
华科大最新!首个点云SSM模型PointMamba再迎更新:高效点云分析的新架构
总结来说,PointMamba作为首个状态空间的点云分析模型,通过设计输入序列化为单向建模的Mamba具备高效的全局建模能力,用最简洁的Vanilla架构验证了新架构相比Transformer的优势,在点云分析任务中取得优越的性能并展现了巨大的潜力。今天给大家分享一篇华中科技大学的新工作:PointMamba.首个基于状态空间模型的点云分析方法PointMamba再次迎来更新,带来了架构和性能的全面升级。如果您有相关工作需要分享,欢迎联系:cv3d008本文仅做学术分享,如有侵权,请联系删文。原创 2024-06-13 22:13:14 · 346 阅读 · 0 评论 -
超越ORB-SLAM2 | 多相机SLAM实现更高精度和鲁棒性
Multicam-SLAM是一种高效、鲁棒的视觉 SLAM 系统,利用多相机优势克服了单相机 SLAM 的局限性,在室内导航、机器人感知等领域具有广泛的应用前景。注:今天给大家分享一篇新工作:一种新的视觉SLAM方法,名为Multicam-SLAM,它使用多个RGB-D相机来提高SLAM系统的鲁棒性和准确性。如果您有相关工作需要分享,欢迎联系:cv3d008本文仅做学术分享,如有侵权,请联系删文。原创 2024-06-13 22:11:21 · 147 阅读 · 0 评论 -
CVPR‘24|ETH Zurich等团队:重新审视小样本3D分割任务,新benchmark开启广阔提升可能性!
该文章的研究在FS-PCS领域的贡献如下。首先,作者确定了当前FS-PCS setting中的两个关键问题(前景泄露和稀疏点分布),这两个问题降低了对过往方法的评价基准的准确性。为了解决过往setting中的问题,文中引入了一个全新的标准化的setting以及评价benchmark。此外,在标准化FS-PCS setting下,作者提出一个新的correlation优化范式,显著提高了模型在few-shot任务上的泛化性能。文中的模型。原创 2024-06-11 18:21:49 · 158 阅读 · 0 评论 -
RAL‘24开源 | 港科大最新力作!BeautyMap:全局地图中动态点的剔除
全局点云正确表示静态环境特征,有助于准确定位和稳健路径规划。然而,动态对象引入了不希望出现的幽灵轨迹,与静态环境混合在一起。现有的动态去除方法通常无法在计算效率和准确性之间取得平衡。为此,我们提出了BeautyMap,以高效去除动态点并保留静态特征,以获得高保真度的全局地图。我们的方法利用二进制编码矩阵来有效提取环境特征。通过对每帧矩阵和相应地图区域的逐位比较,我们可以提取出潜在的动态区域。然后,我们使用z轴的粗到细的分层分割来处理地形变化。原创 2024-06-10 22:18:39 · 426 阅读 · 0 评论