论文阅读2021——Motion Basis Learning for Unsupervised Deep Homography Estimation with Subspace Projection

最新推荐文章于 2023-11-30 15:36:46 发布

小玺玺

最新推荐文章于 2023-11-30 15:36:46 发布

阅读量1.1k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/Zhaoxi_Li/article/details/119773395

深度学习专栏收录该内容

10 篇文章

订阅专栏

该博客介绍了基于深度学习的单应矩阵估计新方法，通过预测单应流而非传统的对应点来计算。作者提出了一种低秩表示（LRR）块和特征识别损失（FIL），以减少运动噪声并保持特征的一致性。网络结构包括特征提取和单应估计部分，使用8个正交单位单应流进行参数预测。实验结果显示方法在小基线场景中表现出色，并进行了消融实验验证各组件的有效性。这种方法有望应用于小场景变化的图像匹配，未来可能扩展到大场景或相机姿态估计任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 介绍

基于深度学习的单应矩阵的估计，单应矩阵是个3*3的矩阵，表示两个图像之间的变换关系。传统方法是预测一个图像4个点之间的对应关系来计算单应矩阵的，但是本文作者通过预测流来计算单应矩阵的，（直接预测单应矩阵参数是不现实的）。

这个网络似乎适用于较小幅度的单应变换。In small-baseline scenarios, a homography flow can be reconstructed inside the space spanned by these flow bases by learning combinational weights.

在这里插入图片描述

网络中的LRR块叫做Low Rank Representation，低秩表示。除了这个还提出了一个FIL损失，Feature Identity Loss，特征识别Loss。主要就是表示同一个位置的像素的特征经过任何变换应该是一样的。

作者的创新点

单应流的新表达。单应流可以由8个预计算好的单位单应流加权表示，而且是无监督算法。
提出了一个新的LRR块，可以减少运动特征的rank，进而隐式且有效的减少运动噪声。
提出了一个新的FIL损失，能够更好的训练学习。

2 算法

2.1 网络结构

网络结构如下所示，输入两个图片 $I_a,I_b$ ，经过特征提取和单应估计网络，输出8个参数。作者实际上参考光流的思想去计算单应矩阵的，先计算出8个单位单应流，然后利用这8个预测出参数与8个单位流加权求和。
在这里插入图片描述
单应流和它的基本形式。单应矩阵有8个自由度，可以利用4对对应点直接通过直接馅饼变换计算得到。每个流的维度是 $H * W * 2$ 。因为单应矩阵有8个自由度，因此单应流的空间由8个2HW的单位流构成。如下公式所示，其中问题就变为我们要如何计算出 $h_i$ 。值得注意的是这8个流是正交的。
在这里插入图片描述
这段给出正交单位流的计算方法。先定义一个单位流（我理解可能就是单位矩阵），然后对单位矩阵的每个维度进行分别调整，这样就得到8个单应矩阵，一个单应矩阵对应一个流图，因此这里就可以得到8个流图。把每个图展开成一个列向量，拼在一起，得到矩阵 $M∈R2HW∗2M\in R^{2HW*2}$ ，对这个进行QR分解，得到 $M=Q⋅RM=Q\cdot R$ ，这里的矩阵 $Q∈R2HW∗8Q\in R^{2HW*8}$ 是正交的，因此取出Q的每一列作为一个单位基本流 $h_i$ ，即 $h_1,h_2,...,h_8]=Q$ 。下图是8个基本流可视化的结果，颜色表示方向，颜色强度表示梯度幅值。
在这里插入图片描述

等变warp特征提取器。最早的loss是最小化warp之后的像素差异。之后有人认为同一个块学到的特征应该是相似的，因此最小化warp特征之后对应的特征值差异。给定一个特征提取器f， $W (f (I)) = f (W (I))$ 。输入的两张图片 $I_a,I_b$ ，对应生成的特征为 $F_a,F_b$ ，因此产生了一个loss，即 $L_w=|W(f(I))|-f(W(I))$ 。

基于LRR块的单应估计器。这个block用于预测8个参数，后面的部分主体结构是ResNet-34，插了两个LRR块。每个输入的 $Min∈RH∗W∗CM_{in} \in R^{H*W*C}$ 经过浅层残差网络后得到 $Mv∈RH∗W∗KM_v \in R^{H*W*K}$ ，将每一维展开拼在一起，得到矩阵 $V∈RHW∗KV\in R^{HW*K}$ ，然后与输入 $M_{in}$ 结合，得到 $M_{out} = V(V^TV)^{-1}V^TM_{in}$ ，再重组维度得到 $Mout∈RH∗W∗CM_{out}\in R^{H*W*C}$ 的输出特征图。这里的K设置为16。看了消融实验，这个LRR提升的效果还挺明显，但这个思路提出的有点突兀，不知道是参考了哪个网络想到了这个Idea。我理解可能是降秩之后特征更清晰了，更好的表达关键信息，训练效果会更好。
在这里插入图片描述

2.2 Loss函数相关

当单应流 $H_{ab}$ 估计出来之后，可以变换特征图 $Fa→Fa′F_a\rightarrow F'_a$ ，这样就可以构造出一个Loss。值得注意的是，Loss第一项是要求变换后对应特征值因该相似，第二项是要求两张图的特征图应该是不一样的，防止训练时候出现特征值全是0的情况。
在这里插入图片描述
然后构造出一个特征识别Loss，就是相同像素区域附近构成的特征值应该是一样的。也就是，变换特征值或变换图像再算特征值应该是等价的。

理论上，交换两个图片也应该是一样的。