- 博客(6)
- 收藏
- 关注
原创 YOLOv11中添加BiLevelRoutingAttention实现网络改进
BRA旨在解决传统全局自注意力计算复杂度高的问题,通过双层路由机制(窗口内+窗口间)动态选择最相关的键值对,减少冗余计算。计算窗口间相似度矩阵:attn_logit = (Q_hat @ K_hat.T) scale。2. QKV生成:通过线性投影得到Q/K/V,其中Q用于细粒度注意力,K/V同时用于路由和注意力。取Topk最相关的窗口索引和权重(r_weight, r_idx)1. 窗口划分:将输入划分为n_win x n_win的非重叠窗口。输入窗口平均池化后的Q/K (q_win, k_win)
2025-04-09 14:58:46
306
原创 在YOLOv11中添加seaformer实现算法改进
总的来说,SeaFormer通过创新性地结合挤压操作与轴向注意力机制,在不牺牲性能的前提下大幅降低了计算成本和内存需求,提供了一个新的方向来优化Transformer模型在移动设备上的部署。这一策略不仅提高了效率,而且增强了模型捕捉全局信息的能力,同时通过细节增强模块补充了局部细节,确保了高质量的语义分割结果。- SeaFormer引入了一种新颖的注意力机制——挤压增强轴向注意力(SEA Attention),旨在降低传统全局自注意力机制的计算复杂度。
2025-04-02 19:56:12
183
原创 在YOLOv11中添加SlideAttention实现算法改进
SlideAttention 是一个自定义的注意力模块,旨在通过结合卷积操作和自注意力机制,增强模型对局部和全局特征的建模能力。- 深度可分离卷积将标准卷积分解为两个更小的操作:深度卷积(对每个输入通道单独卷积)和逐点卷积(1x1 卷积)。- 这种设计类似于 Transformer 中的相对位置编码,通过为每个注意力头添加一个可学习的偏置项,来调整不同位置之间的注意力权重。这种设计在处理图像特征时,既能利用卷积的局部感受野优势,又能通过自注意力机制捕捉全局信息,适用于需要同时建模局部和全局特征的视觉任务。
2025-04-02 18:49:30
1181
原创 YOLOv11检测头代码详细分析
如果处于导出模式(export),根据不同的导出格式(如 tflite、edgetpu 等),对边界框回归和类别预测的特征进行处理,以提高数值稳定性。cv2 的输出用于边界框回归,cv3 的输出用于类别预测。- 在 End-to-End 模式下,模型会同时进行 one-to-many 和 one-to-one 的检测。- 如果处于推理模式,对 one-to-one 的检测结果进行后处理,并返回最终的检测结果。- 如果处于训练模式,返回 one-to-many 和 one-to-one 的检测结果。
2025-04-02 16:11:16
466
原创 在YOLOv11中添加Swin Transformer模块
输出:将输入张量划分为多个窗口,每个窗口的大小为 window_size × window_size,输出形状为 (num_windows B, window_size, window_size, C)。- 输入:in_features 是输入特征的维度,hidden_features 是隐藏层的维度(如果没有指定,则默认为输入维度),out_features 是输出特征的维度(如果没有指定,则默认为输入维度)。- 输入处理:首先对输入图像进行填充,使其高度和宽度能够被窗口大小整除,以方便窗口划分。
2025-04-02 15:46:04
1825
原创 YOLOv11配置文件详解
[256, False, 0.25]:模块的参数,表示输出通道数为 256,False 表示不使用某种特定的配置(具体含义需参考代码实现),0.25 可能是某种缩放比例或其他参数。- [64, 3, 2]:卷积层的参数,分别表示输出通道数为 64,卷积核大小为 3×3,步幅为 2。主干网络是模型的核心部分,用于提取图像的特征。- 含义:定义一个卷积层,输出通道数为 256,卷积核大小为 3×3,步幅为 2。- 含义:定义一个卷积层,输出通道数为 512,卷积核大小为 3×3,步幅为 2。
2025-04-02 15:18:33
1597
1
空空如也
ArkTS开发过程中出现黑屏现象
2023-11-17
TA创建的收藏夹 TA关注的收藏夹
TA关注的人