多走几步_-CSDN博客

原创 YOLOv12: Attention-Centric Real-Time Object Detectors

与端到端检测器 RT-DETR-R18[66] / RT-DETRv2-R18 [41] 相比，YOLOv12-S 取得了可比拟的性能，但推理速度更快，计算成本更低，参数也更少。提出简单有效的区域注意力模块（A²），通过简单的特征图划分方式，在减少注意力计算复杂度的同时，保持较大的感受野，显著提升计算速度，且对性能影响较小。突破传统 YOLO 依赖 CNN 架构的局限，以注意力机制为核心设计 YOLOv12 框架，发挥注意力机制强大的建模能力，打破 CNN 模型在 YOLO 系列中的主导地位。

2025-04-16 15:36:00 447

原创学习了解多模态的水下目标检测

旨在通过跨模态信息互补解决水下伪装目标跟踪的挑战，为视觉-语言联合建模提供了首个大规模基准。该数据集由220个水下视频序列组成，跨越96个类别，约159，000帧，是首个大规模多模态水下目标跟踪数据集。（如光学图像、声呐、激光雷达、深度信息、热成像等），综合利用不同模态的互补优势，提升水下复杂环境下的目标检测性能。——通过多模态数据打破单一传感器的局限性，解决水下环境的光学退化、遮挡、低对比度等问题。联合去噪与检测（如扩散模型生成干净数据，联合优化去噪和检测损失）。：遮挡问题严重（如珊瑚缝隙中的生物）。

2025-04-16 15:34:23 1106 1

原创论文阅读笔记：水下图像增强和目标检测：由于缺少人类标签，增强图像上的目标检测结果很差吗？【WACV2025】

图1a和图1b在图像的顶部，有一个没有标记的海星，但是在增强和未增强的情况下被检测到。图1a和图b中海星旁边是一只海参，它只在增强图像中被检测到。在未增强的图像中可以清楚地看到检测到的鱼类和珊瑚，尽管有趣的是，除非图像增强，否则它们不会被检测到。图1c和d显示了一个不同的现象，即错误的标签-签应该是echinus，但是在原始标注中是海星starfish。第三行示出了在原始图像上训练的对象检测器没有检测到的丢失的人类标签的示例。第二行示出了可能由于低质量的初始图像而导致的不正确的人类标签的示例。

2025-04-16 15:27:52 357 1

原创论文阅读笔记：DifIISR：具有梯度引导的红外图像超分辨率扩散模型 [CVPR 2025]

红外图像在自动驾驶和机器人操作中非常重要，但由于红外相机的限制，如低空间分辨率和复杂退化，导致图像质量差，影响后续的视觉任务。现有的超分辨率方法（如基于CNN和Transformer的方法）虽然有一定效果，但忽略了红外图像的独特模态特性（如热光谱分布）以及机器感知的需求。将两类损失的梯度直接注入扩散模型的反向过程噪声预测中，迭代优化去噪步骤，实现视觉与感知的协同优化。针对红外图像长波长、低大气散射的特点，强制模型学习其独特的频域分布，提升细节重建能力。DifIISR的创新之处在于引入了。

2025-04-16 15:27:04 1234 1

原创论文阅读复现笔记：自适应深度学习框架，用于强大的无监督水下图像增强

（a）用于生成参考图的统计引导多色空间拉伸（SGMCSS），（b）用于特征提取的编码器，（c）用于图像重建的解码器，（d）用于计算和采样高斯分布以进行特征适应的先验/后验块，以及（e）生成增强水下图像的输出块。这篇论文介绍了 UDNet，这是一个用于水下图像增强的无监督框架，无需配对训练数据，解决了现有方法的一个关键限制，提出了一个 SGMCSS 模块来生成不同的参考地图，并结合一个 PAdaIN 模块进行自适应增强，从而在各种水下条件下实现稳健和通用的性能。，以生成增强的输出图像。

2025-04-16 15:21:29 701 2

原创论文阅读笔记：【ACCV 2024】基于小波变换的通道Mamba块，即插即用，捕获全局信息

研究了三种模块设置：“FFAB-WMB-FFAB”（交换WMB和FFAB模块的顺序）、“only FFAB w/o WMB”（仅使用FFAB模块，移除WMB模块）和“only WMB w/o FFAB”（仅使用WMB模块，移除FFAB模块）。本文介绍了一种名为WalMaFa的新型低光图像增强模型，该模型结合了小波变换和快速傅里叶变换（FFT）的优势，通过引入基于通道的Mamba模块和快速傅里叶调整块（FFAB），实现了对低光图像的全局亮度增强和局部纹理细节的精细调整。WalMaFa架构的概述。

2025-04-16 15:18:40 717 2

原创论文阅读：【NeurIPS2024】YOLA——仅环视学习光照不变特征用于低光环境下的目标检测

【NeurIPS2024】You Only Look Around: Learning Illumination Invariant Feature for Low-light Object Detection YOLA——仅环视学习光照不变特征用于低光环境下的目标检测洪明波(1)，沈成(1)，黄海斌(2)，范浩强(1)，刘帅成(3) (1)旷视科技(2)快手科技(3)电子科技大学

2025-04-16 15:14:37 1153 1

原创论文阅读笔记：利用水下图像质量 Attention 和多尺度聚合 Attention 改进水下语义分割

然而，水下环境的低光照会降低成像质量，进而严重影响水下语义分割的性能，特别是在物体区域边界划分方面。本文提出的UWSegFormer方法通过水下图像质量注意力(UIQA)和多尺度聚合注意力(MAA)模块，有效提升了在低光照水下环境中的分割性能，在SUIM和DUT数据集上分别达到了82.12%和71.41%的mIoU。但这也带来了1.2%的误检率上升，说明。通过计算不同特征通道的重要性权重（如图2所示），模型能自动抑制受水下散射影响严重的特征通道，这解释了为何在低对比度区域的分割精度提升了15.7%。

2025-04-16 15:11:13 561 1

原创论文阅读：VanillaNet: the Power of Minimalism in Deep Learning（CVPR，华为诺亚团队）

VanillaNet-6的结构如图(1)所示，具体包括：stem部分是一个stride=4的4x4x3xC的卷积层将3通道的输入图片映射为C通道的feature map。本文提出了VanillaNet，一种新的神经网络架构，有着简单而优雅的设计，同时在视觉任务中保持了显著的性能。VanillaNet通过舍弃过多的深度、shortcut以及self-attention等复杂的操作，解决了复杂度的问题，非常适合资源有限的环境。本文提出的VanillaNet也遵循这种流行的设计架构，不同的是，

2025-04-15 19:42:51 329 1

原创如何绘制多个模型的P-R曲线和Map曲线在一张图上【附源码】

得到的结果如下图。

2025-03-31 20:59:03 710 1

原创（水下）目标检测/深度学习/计算机视觉国内外知名课题组

北京大学智能机器人开放实验室（Open Lab on Human Robot Interaction，Peking University，简称PKU-HRI），以机器人视觉感知与自主学习技术为核心，在环境的视觉感知、物体的视觉感知、人体的视觉感知和机器人本体的视觉感知等领域，开展长期、系统、深入的研究。同时，在智能机器人的视觉感知与决策方面也有深入的研究，致力于提高机器人的自主感知和决策能力。：在机器人视觉、目标检测、场景理解等方面的研究与机器人技术紧密结合，为机器人的自主感知和操作提供了重要的技术支持。

2024-11-11 16:34:29 1888