YOLO小行家-CSDN博客

原创 YOLOv11中添加BiLevelRoutingAttention实现网络改进

BRA旨在解决传统全局自注意力计算复杂度高的问题，通过双层路由机制（窗口内+窗口间）动态选择最相关的键值对，减少冗余计算。计算窗口间相似度矩阵：attn_logit = (Q_hat @ K_hat.T) scale。2. QKV生成：通过线性投影得到Q/K/V，其中Q用于细粒度注意力，K/V同时用于路由和注意力。取Topk最相关的窗口索引和权重（r_weight, r_idx）1. 窗口划分：将输入划分为n_win x n_win的非重叠窗口。输入窗口平均池化后的Q/K (q_win, k_win)

2025-04-09 14:58:46 306

原创在YOLOv11中添加seaformer实现算法改进

总的来说，SeaFormer通过创新性地结合挤压操作与轴向注意力机制，在不牺牲性能的前提下大幅降低了计算成本和内存需求，提供了一个新的方向来优化Transformer模型在移动设备上的部署。这一策略不仅提高了效率，而且增强了模型捕捉全局信息的能力，同时通过细节增强模块补充了局部细节，确保了高质量的语义分割结果。- SeaFormer引入了一种新颖的注意力机制——挤压增强轴向注意力（SEA Attention），旨在降低传统全局自注意力机制的计算复杂度。

2025-04-02 19:56:12 183

原创在YOLOv11中添加SlideAttention实现算法改进

SlideAttention 是一个自定义的注意力模块，旨在通过结合卷积操作和自注意力机制，增强模型对局部和全局特征的建模能力。- 深度可分离卷积将标准卷积分解为两个更小的操作：深度卷积（对每个输入通道单独卷积）和逐点卷积（1x1 卷积）。- 这种设计类似于 Transformer 中的相对位置编码，通过为每个注意力头添加一个可学习的偏置项，来调整不同位置之间的注意力权重。这种设计在处理图像特征时，既能利用卷积的局部感受野优势，又能通过自注意力机制捕捉全局信息，适用于需要同时建模局部和全局特征的视觉任务。

2025-04-02 18:49:30 1181

原创 YOLOv11检测头代码详细分析

如果处于导出模式（export），根据不同的导出格式（如 tflite、edgetpu 等），对边界框回归和类别预测的特征进行处理，以提高数值稳定性。cv2 的输出用于边界框回归，cv3 的输出用于类别预测。- 在 End-to-End 模式下，模型会同时进行 one-to-many 和 one-to-one 的检测。- 如果处于推理模式，对 one-to-one 的检测结果进行后处理，并返回最终的检测结果。- 如果处于训练模式，返回 one-to-many 和 one-to-one 的检测结果。

2025-04-02 16:11:16 466

原创在YOLOv11中添加Swin Transformer模块

输出：将输入张量划分为多个窗口，每个窗口的大小为 window_size × window_size，输出形状为 (num_windows B, window_size, window_size, C)。- 输入：in_features 是输入特征的维度，hidden_features 是隐藏层的维度（如果没有指定，则默认为输入维度），out_features 是输出特征的维度（如果没有指定，则默认为输入维度）。- 输入处理：首先对输入图像进行填充，使其高度和宽度能够被窗口大小整除，以方便窗口划分。

2025-04-02 15:46:04 1825

原创 YOLOv11配置文件详解

[256, False, 0.25]：模块的参数，表示输出通道数为 256，False 表示不使用某种特定的配置（具体含义需参考代码实现），0.25 可能是某种缩放比例或其他参数。- [64, 3, 2]：卷积层的参数，分别表示输出通道数为 64，卷积核大小为 3×3，步幅为 2。主干网络是模型的核心部分，用于提取图像的特征。- 含义：定义一个卷积层，输出通道数为 256，卷积核大小为 3×3，步幅为 2。- 含义：定义一个卷积层，输出通道数为 512，卷积核大小为 3×3，步幅为 2。

2025-04-02 15:18:33 1597 1