Event-Based Fusion for Motion Deblurring with Cross-modal Attention论文阅读-CSDN博客

本文链接：https://blog.csdn.net/yangqoor/article/details/148620791

Event-Based Fusion for Motion Deblurring with Cross-modal Attention

1. 论文的研究目标与实际意义

1.1 研究目标

论文旨在解决传统帧相机在长曝光下因物体或相机运动导致的图像模糊问题。通过结合事件相机（Event Camera） 的高时间分辨率特性（微秒级），提出一种端到端的双阶段网络（EFNet），利用事件数据提供的运动信息辅助图像去模糊。

1.2 实际问题与产业意义

实际问题：传统去模糊方法依赖图像先验或合成数据，难以处理极端模糊或真实场景噪声；事件相机虽能捕捉动态信息，但噪声和阈值不确定性限制了其单独使用。
产业意义：
- 自动驾驶/无人机：高速运动下需清晰图像实时决策。
- 高速摄影：还原快速运动的细节（如工业检测、体育分析）。
- AR/VR：提升动态场景的视觉质量。

引用：

“Event cameras encode the intensity change information within the exposure time… making it possible to deblur an image frame with events.”
“EFNet sets the new state of the art in motion deblurring, surpassing… on GoPro dataset (by up to 2.47dB) and REBlur dataset.”

2. 创新方法：EFNet的核心设计与公式

EFNet的核心创新在于对称累积事件表示（SCER）、事件-图像跨模态注意力（EICA） 和事件掩码门控连接（EMGC） 三大模块，结合双阶段U-Net架构实现端到端去模糊。

2.1 整体网络架构

EFNet架构图（图1）：

说明：双阶段U-Net + SCER输入 → EICA多级融合 → EMGC跨阶段门控。

EFNet采用双阶段渐进式U-Net（图1）：

Stage 1：
- 输入：模糊图像 $B$ + SCER事件表示 $\in \mathbb{R}^{H \times W \times 2N}$ （ $N = 3$ ）。
- 分支：
  - 图像分支：4层下采样（SConv）→ 特征提取。
  - 事件分支：同图像分支结构，输出多尺度特征。
- 融合：在每级下采样后通过EICA模块融合双模态特征。
Stage 2：
- 输入：Stage 1的输出 + EMGC传递的特征（含事件空间先验）。
- 输出：精细化去模糊图像 $L_{\text{final}}$ 。
跨阶段连接：
- 监督注意力模块（SAM）传递粗粒度特征。
- EMGC模块选择性传递编码器/解码器特征（详见图1b）。

架构优势：

渐进式复原（Stage 1粗去模糊 → Stage 2去噪细化）。

多层级融合避免信息损失。

2.2 对称累积事件表示（SCER）

2.2.1 设计动机

基于事件双积分模型（EDI）（公式2），将连续事件流离散化为3D体素网格，保留运动轨迹的时序信息：
$\frac{L(N)}{2N+1} \sum_{i=0}^{2N} \exp \left( c \cdot \operatorname{sgn}(i-N) \sum_{j: m \leq t_j \leq M} p_j \delta_{x_j y_j} \right) \quad \text{(公式3)}$