Yolo-6D(Real-Time Seamless Single Shot 6D Object Pose Prediction)理解

最新推荐文章于 2025-06-11 09:05:31 发布

KirutoCode

最新推荐文章于 2025-06-11 09:05:31 发布

阅读量1w

点赞数 5

CC 4.0 BY-SA版权

分类专栏： 6DEoF

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/McEason/article/details/103332687

Yolo-6D是一种实时的6D目标位姿预测方法，无需多阶段处理或精确的目标纹理模型。通过全新的CNN结构，直接预测3D边界框顶点在2D图像的投影位置，利用PnP算法估计3D位姿。相较于其他算法，Yolo-6D在目标数量增加时，运行时间保持稳定，且无需后期处理。然而，该方法需要预先知道3D模型信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

本文创新点
作者Ideal来源
作者方法
实验
性能
参考文献

文中所有灰色引用部分都是在阅读文章时的思考，阅读时可直接跳过灰色部分，不会影响内容

本文创新点

从一个RGB图像预测他的6D位姿估计，不需要多阶段也不需要检验多种假设，也不需要精确的目标纹理模型，精准度足够不需要后期处理。
提出了一个新的CNN结构，直接预测目标的射影顶点的2D图像位置，然后用PnP算法估计目标的3D位姿。

相比之下其他的算法：

运行速度随着检测物体的数量直线上升，而作者的方法运行时间和目标数量关系不大，保持稳定。
现存的一些算法都需要微调他们的结果，这样就导致了每个物体检测都超时了，作者不需要微调速度更快

但是：
作者的方法需要先验3D模型知识

作者Ideal来源

ta mu gong, o mu zi a

作者方法

没什么很新的方法，就把方法和训练写一起了

核心思想

用网络预测3D包围盒角落的射影的2D位置，这涉及到预测比2D包围盒回归更多的2D点。得到了2D的角落射影，再加上先验3D点信息，直接用PnP算法就是能求出6D位姿

Deep3Dbox只用了四个点，难道是预测的物体的中心点？再加上一些看似立体的、Deep3Dbox并没有预测的点？

算法流程

点的信息

用9个控制点参数化每个目标的3D模型，好处：
这几个参数能用在任意形状和拓扑的刚体上，九个点展开到2D图像很方便，而且对许多人造物体有语义意义。

咋还用这么多？八个不够吗，中心点有啥用
答：也不一定非要用9点法表示，也可以用其他方法
在这些点里面，选择紧凑的3D包围盒的八个角点来拟合3D模型。
第九个点当形心
有了形心是不是比较好判断方向？

网络结构

用全卷积加工输入的2D图片，如Figure 1 (a)
在这里插入图片描述
$Figure\ 1\ (a)$
用的是v2的yolo，共使用23个卷积层和5个最大池化层，选择 $S = 13$ 。还允许网络高层添加转移层来使用fine-grained特征。从维度是 $26\times 26 \times 512$ 的层提取出了特征，卷积成 $13 \times 13 \times 256$ 后和 $13\times 13 \times 1024$ 特征图结合。

为了获得更精细的特征？很像残差，这样对预测小尺度物体有好处，是为了这个吗？

在这里插入图片描述

当网络的下采样用32因子的时候，就用32的倍数的分辨率作为图象输入 ${320,352,...,608\}$ ，以此来增强对不同size物体的鲁棒性。

然后将图片分到2D规则网格 $S\times S$ 中去。

在这里插入图片描述
$Figure\ 1\ (c)$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。