一碗白开水一-CSDN博客

原创【模型细节】FPN经典网络模型 (Feature Pyramid Networks)详解及其变形优化

FPN（Feature Pyramid Network）是一种多尺度特征融合模型，广泛应用于目标检测任务中，通过构建自顶向下和横向连接的金字塔结构，有效融合不同分辨率的特征图，提升多尺度目标检测性能。其变型如PANet、NAS-FPN和BiFPN进一步优化了特征融合方式，通过双向路径、神经架构搜索或加权连接增强精度与效率。FPN及其变型在通用目标检测、实例分割等领域表现优异，兼顾计算成本与性能。

2025-08-01 16:37:18 710

原创【YOLO系列】YOLOv11详解：模型结构、损失函数、训练方法及代码实现

YOLOv11在目标检测领域实现重大突破，通过动态骨干网络(Dyna-Backbone)和FPN++架构，在保持高帧率(≥60FPS)的同时提升小目标检测精度(AP_S提升5.6%)。创新采用CIoU++损失函数和类别平衡Focal Loss，结合Mosaic-Plus数据增强，参数量减少18%至6.5M。实验显示，该模型在COCO数据集上实现更高mAP，特别适合移动端部署，Jetson Xavier平台能耗比优化至3.2W·ms⁻¹，支持目标检测、实例分割等多任务场景。关键创新包括动态深度调整和双向特征金

2025-08-01 15:57:00 577

原创【损失函数】L1 Loss 和 Smooth L1 Loss 的推导、区别及代码解析

对于预测值。

2025-07-31 14:49:06 561

原创【YOLO系列】YOLOv10详解：模型结构、损失函数、训练方法及代码实现

YOLOv10详解：高效无NMS目标检测框架 YOLOv10针对目标检测领域的关键挑战进行了创新优化：1) 提出NMS-free架构，通过双分支标签分配策略（one-to-one和one-to-many）在训练时联合监督，推理时仅用one-to-one分支实现无NMS检测；2) 采用高效模型结构设计，包括轻量化分类头、空间通道解耦下采样等；3) 改进特征金字塔网络增强多尺度特征融合能力。实验表明，YOLOv10在COCO数据集上相比前代提升3.2% mAP，推理速度提高25-40%，参数量仅3.1-98.7

2025-07-31 14:28:46 813

原创【模型细节】Cross-Attention:多头交叉意力机制 (Multi-head Cross-Attention) 详细解释，使用 PyTorch代码示例说明

摘要：交叉注意力机制是一种序列间动态权重计算技术，广泛应用于多模态任务和Transformer架构。其核心是通过查询序列(Q)与键值序列(K,V)的交互，计算注意力权重并加权融合信息。数学上分为相似度计算、权重归一化和加权输出三步。PyTorch提供了nn.MultiheadAttention实现，支持多头并行计算。自实现版本需完成Q/K/V投影、点积注意力、softmax归一化和加权求和四个步骤。该机制具有动态权重分配、序列长度无关、并行计算和可解释性等优势，是实现序列间信息交互的关键技术。

2025-07-30 16:21:22 758

原创【模型细节】MHSA:多头自注意力 (Multi-head Self Attention) 详细解释，使用 PyTorch代码示例说明

MHSA多头自注意力机制解析多头自注意力(MHSA)是Transformer的核心组件，通过并行计算实现高效序列建模。其核心流程包括：1）将输入投影为Q/K/V矩阵；2）分割为多个注意力头独立计算；3）合并多头输出。每个头计算缩放点积注意力softmax(QKᵀ/√dₖ)V，使模型能在不同子空间捕获多样特征（如语法/语义）。多头设计通过并行处理增强模型表达能力，同时保持计算效率，广泛应用于机器翻译、文本生成等任务。PyTorch实现展示了如何通过矩阵操作高效完成多头分割、注意力计算和结果融合。

2025-07-30 15:27:01 1059

原创【YOLO系列】YOLOv9详解：模型结构、损失函数、训练方法及代码实现

信息瓶颈问题：深层网络导致浅层特征信息丢失，影响小目标检测精度实时性瓶颈：在保持高精度的同时突破推理速度极限多尺度适应性：提升模型对尺度变化的鲁棒性通过重新设计特征提取路径和优化计算范式，YOLOv9 在 MS COCO 数据集上实现了，同时保持83 FPS的实时性能。YOLOv9 通过特征路径优化和可编程梯度信息，在保持YOLO系列实时性的同时，显著提升了检测精度。轻量级自注意力增强特征表达动态Anchor分配提升定位精度知识蒸馏引导浅层特征学习。

2025-07-30 13:49:28 955

原创【YOLO系列】YOLOv8详解：模型结构、损失函数、训练方法及代码实现

YOLOv8是Ultralytics团队2023年推出的高效目标检测框架，在速度与精度平衡、多任务支持和易用性方面实现突破。模型采用改进的CSPDarknet主干网络、C2f模块和SPPF加速结构，结合PAN-FPN特征融合和解耦检测头设计，支持目标检测、实例分割和关键点检测任务。创新性地使用CIoU定位损失、Focal Loss置信度损失和动态样本分配策略，显著提升检测性能。实验表明，YOLOv8较前代模型mAP提升5-10%，在TensorRT加速下可达1000FPS，提供5种尺寸灵活选择，成为实时目标

2025-07-29 15:46:49 888

原创【可视化】 matplotlib（plt）绘制四边形详解及代码实现

摘要：本文介绍了使用matplotlib绘制四边形的四种方法。1）plt.Rectangle适合轴对齐矩形，需指定左下角坐标和宽高；2）plt.Polygon可绘制任意四边形，通过定义顶点实现；3）plot函数连接顶点绘制边框；4）fill函数填充四边形区域。还提供了旋转矩形的实现方法，通过旋转顶点坐标完成。这些方法覆盖了从简单矩形到复杂四边形的绘制需求，可根据实际场景选择合适方式。代码示例完整，包含关键参数说明。

2025-07-29 10:46:41 119

原创【YOLO系列】YOLOv7详解：模型结构、损失函数、训练方法及代码实现

YOLOv7是一种高效的目标检测模型，通过改进模型结构和训练策略，在精度和速度上实现突破。其核心创新包括ELAN模块、优化的多尺度特征融合和动态标签分配。模型采用多阶段数据增强和CIoU损失函数，结合两阶段训练和余弦退火学习率调度。实验表明，YOLOv7在COCO数据集上相比前代模型提升显著（[email protected]最高60.2%），同时保持高速推理（最高161 FPS）。该模型通过模块化设计和高效特征处理机制，为工业部署提供了优秀的精度-速度平衡。

2025-07-28 14:07:02 1150

原创【图像处理】霍夫变换:霍夫变换原理、霍夫空间、霍夫直线、霍夫圆详解与代码示例

霍夫变换是一种利用参数空间映射检测图像中几何形状的特征提取技术。它通过将图像空间的点转换为参数空间的曲线（如直线转换为极坐标方程ρ=xcosθ+ysinθ），采用累积投票机制识别几何特征。该方法对噪声和部分遮挡具有鲁棒性，但计算复杂度随参数维度增加。文章详细推导了霍夫变换原理，阐述了直线和圆的检测方法，并提供了基于OpenCV的Python实现代码示例，包括Canny边缘检测预处理、霍夫空间离散化和参数优化技巧。霍夫变换广泛应用于计算机视觉领域，如车道检测和工业质检，通过调整阈值参数可平衡检测精度与效率。

2025-07-28 13:53:33 896

原创【YOLO系列】YOLOv1详解：模型结构、损失函数、训练方法及代码实现

YOLOv1：单阶段目标检测的开创性模型 YOLOv1是2016年提出的革命性目标检测模型，首次实现端到端单阶段检测，将检测速度提升至45 FPS。该模型采用7×7网格划分输入图像，每个网格预测2个边界框和20类概率。核心创新包括：将检测任务转化为回归问题，直接预测边界框坐标和类别概率设计多任务损失函数，平衡位置误差、置信度误差和分类误差采用轻量级网络结构（24个卷积层+2个全连接层）实现实时推理虽然对小目标检测效果有限，但YOLOv1为后续单阶段检测器奠定了基础，在速度和精度间取得了突破性平衡。

2025-07-27 15:12:55 1072

原创【YOLO系列】YOLOv2详解：模型结构、损失函数、训练方法及代码实现

YOLOv2目标检测算法通过多尺度训练、先验框优化和Darknet-19网络结构等创新，显著提升了检测精度和速度。该算法将骨干网络改为纯卷积结构，引入Batch Normalization，并采用特征融合增强小目标检测。通过联合训练机制，YOLOv2支持9000类物体检测，解决了传统方法类别扩展难题。实验显示，相比YOLOv1，其mAP提升15.2%，FPS提高48%，小目标召回率增加22%。YOLOv2为后续单阶段检测器发展奠定了基础，但其在密集小目标场景和边界框精度方面仍有改进空间。

2025-07-27 14:49:52 950

原创【YOLO系列】YOLOv3详解：模型结构、损失函数、训练方法及代码实现

YOLOv3详解：单阶段目标检测的里程碑模型摘要：YOLOv3作为YOLO系列的重要升级，通过三大创新显著提升了检测性能：(1)采用Darknet-53骨干网络增强特征提取能力；(2)引入多尺度预测机制，通过特征金字塔结构实现13×13、26×26、52×52三种尺度的检测；(3)改进损失函数设计，包含坐标损失、置信度损失和分类损失三部分。模型在COCO数据集上达到mAP 33.0%的同时保持51ms的实时处理速度。关键技术包括K-means生成的9个先验框、二元交叉熵分类损失以及"宽高平方根&

2025-07-27 14:22:50 582

原创【YOLO系列】YOLOv6详解：模型结构、损失函数、训练方法及代码实现

YOLOv6 代码开源在 GitHub（仓库：meituan/YOLOv6），基于 PyTorch 实现。以下是一个简洁的推理代码示例，展示如何加载模型并进行预测。代码包括模型加载、预处理和后处理步骤。# 加载预训练模型（以 YOLOv6-S 为例）model = Model('yolov6s.yaml').cuda() # 加载配置文件model.load_state_dict(torch.load('yolov6s.pt')['model']) # 加载权重。

2025-07-25 09:54:28 900

原创【YOLO系列】YOLOv4详解：模型结构、损失函数、训练方法及代码实现

摘要：YOLOv4在目标检测领域实现了精度与速度的平衡，通过CSPDarknet53骨干网络、SPP+PANet特征融合及CIoU损失函数等创新，在MS COCO数据集达到65.7% AP50，V100显卡实现62FPS实时检测。核心优化包括Mosaic数据增强、自对抗训练和解耦头结构，显著提升小目标检测和遮挡场景鲁棒性。代码实现采用CSP模块和SPP多尺度池化，兼顾计算效率与检测性能，为工业落地提供高效解决方案。（149字）

2025-07-24 09:49:07 1085

原创【YOLO系列】YOLOv5详解：模型结构、损失函数、训练方法及代码实现

YOLOv5代码库开源在GitHub，使用PyTorch实现。YOLOv5以其简洁的架构、高效的损失函数和灵活的训练方法，成为工业级目标检测的热门选择。通过本文的解析和代码示例，你可以快速部署自定义检测任务。建议访问Ultralytics官方GitHub仓库获取最新代码和预训练模型。

2025-07-23 16:07:30 798

原创【论文阅读】Fast-BEV: A Fast and Strong Bird’s-Eye View Perception Baseline

作者：Yangguang Li, Bin Huang, Zeren Chen, Yufeng Cui, Feng Liang, Mingzhu Shen,Fenggang Liu, Enze Xie, Lu ShengB, Wanli Ouyang, Jing Shao。bev模式的检测逐渐成为主流，但是当前的算法资源消耗大或者效果不佳，作者提出又快又好的方法：FASTBEV.重新思考2D-3D映射思路。

2025-07-22 19:15:44 338

原创【论文阅读】BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation

BEVFusion提出了一种统一鸟瞰图（BEV）表示的多传感器融合框架，有效保留图像和点云的稠密语义特征。通过改进LSS方法（预计算和GPU并行化加速）实现高效的2D到3D转换，结合全卷积融合与深度监督提升性能。实验表明，该方法在检测和分割任务上表现优异，尤其LSS加速设计对自动驾驶方案具有重要参考价值。

2025-07-18 13:47:27 141

原创【论文阅读】BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework

作者觉得当前使用点云特征去查询图像特征的模式会在点云失效的情况下整体失败，导致错误发生。于是作者在想把点云特征和图像特征单独处理，行成了BEVFusion，并建立了这种融合模式的检测架构。作者对比了3种HEAD: anchor-based, anchor-free-based, and transform-based。就是常规的图像特征提取->2D to 3D->编码；这里重点在于2D to 3D，作者采用的是LSS的方法。厉害吧，我们的自驾是用的改进版本的。融合就很简单了，如下图所示。

2025-07-18 12:49:06 258

原创【激光点云】自动驾驶激光3D点云处理系统性阐述及Open3D库函数应用

自动驾驶激光3D点云处理面临数据规模、动态环境适应性和多传感器融合等挑战。Open3D库提供了完整的点云处理流程，包括去噪滤波、地面分割、障碍物聚类和点云配准等核心功能。通过统计滤波去除异常点，RANSAC算法实现地面分割，DBSCAN进行障碍物聚类，ICP算法完成点云配准，为自动驾驶环境感知提供可靠支持。建议根据实时性要求选择体素滤波压缩数据，结合硬件加速提升处理效率。该技术已成功应用于Waymo、KITTI等数据集处理及高精地图构建。

2025-07-16 15:26:55 473

原创【论文阅读】MapTRv2: An End-to-End Framework for Online Vectorized HD Map Construction

具体而言，GT重复了K次，并padding空集，构成长度为T的新的gt；作者觉得自己上一篇不够骚，缺少一些重要元素，比如车道中心线，并且maptr用的分层querry用于self-attention的序列消耗非常大的计算量，限制了更丰富的特征表达，于是来一篇更吊的maptrv2。V2分别在inter-ins里做了self-attn，再在intra-ins里做了self-attn，不像V1里全部query展开，一起做self-attn。在原来2类的基础上，加了一类有向的排列，车道中心线；

2025-07-04 11:42:48 151 1

原创【论文阅读】MAPTR: STRUCTURED MODELING AND LEARNING FOR ONLINE VECTORIZED HD MAP CONSTRUCTION

题目：MAPTR: STRUCTURED MODELING AND LEARNING FOR ONLINE VECTORIZED HD MAP CONSTRUCTION作者：Bencheng Liao Shaoyu Chen Xinggang Wang Tianheng Cheng Qian Zhang Wenyu Liu Chang Huang传统高精地图HDmap,又贵，又不能实时建图和更新。作者想来个便宜的在线的且能在实车跑起来的方案：maptr.

2025-07-03 17:04:52 707 1

原创 embbding you should know

embedding：就是将词向量或者图向量采用权重升维度，更好的去表达这个特征；

2025-07-03 15:03:16 156

原创 bevFusion 图解思路导航

2025-07-02 15:02:33 86

原创匈牙利匹配COST you should know

本文介绍了三种目标检测损失计算方法：1) FocalLossCost通过正负样本概率的对数加权处理类别不平衡问题；2) BBoxL1Cost使用曼哈顿距离计算边界框坐标误差，包含格式转换和归一化处理；3) IoUCost基于边界框重叠度计算损失，将IOU指标转换为损失值。三种方法均包含权重系数调整损失重要性，适用于不同检测任务需求。这些损失计算方法在目标检测模型中用于优化预测结果与真实标注之间的差异。

2025-07-02 11:12:51 196

原创交叉熵与均方差损失函数的选择

在深度学习损失函数的选择过程中会遇到这两种方法，因此作一个简单的比较讨论了使用sigmoid作为激活函数的情况，若线性激活函数则可以不参考。MSE均方差:、（不想输公式，网上找的公式图）CE交叉熵：当此二者作为网络反向传播时的损失函数，若使用sigmoid()函数作为激活函数时，MSE就容易存在梯度消失的情况。MSE，反向梯度求解：其中，z表示神经元的输入，δ\deltaδ表示激...

2025-06-16 13:36:40 540

原创【应用】小车运动卡尔曼滤波实例

通过上述实例，展示了卡尔曼滤波在一维匀速直线运动中的应用。公式推导清晰，Python 代码实现了完整的滤波过程，结果验证了卡尔曼滤波的有效性。

2025-06-16 13:32:31 706

原创 [tricks] rep-DBB

rep-convs 的几种方法，如图所示：

2025-06-16 13:31:51 169

原创【多传感器融合】卡尔曼滤波：小车运动卡尔曼滤波原理及代码示例

通过上述实例，展示了卡尔曼滤波在一维匀速直线运动中的应用。公式推导清晰，Python 代码实现了完整的滤波过程，结果验证了卡尔曼滤波的有效性。

2025-04-10 15:15:19 1068

原创【当前智驾市场主流芯片及算力】

……

2025-03-15 09:51:43 137

原创【python 可视化库哪家强？】

2024-09-19 18:27:54 120

原创【论文阅读】BoT-SORT: Robust Associations Multi-Pedestrian Tracking

作者来得很直接，就说他们用相机运动模型和优化卡尔曼做了个可以解决具有挑战的跟踪问题的算法:BOT-SORT;说他们在MOT17&20上表现是最好的。题目：BoT-SORT: Robust Associations Multi-Pedestrian Tracking。这部分相机运动补偿的工作StrongSORT也有做过，使用的是ECC方法；作者：Nir Aharon* Roy Orfaig Ben-Zion Bobrovsky。2)相机运动补偿方式改进bounding box的预测；

2024-08-13 16:49:17 602 1

原创【论文阅读】YOLOv10: Real-Time End-to-End Object Detection

*NMS-free：**作者设计了2个lables assignments, one-to-one & one-to-many 两个标签分配策略。作者在训练的时候同事监督训练两个策略，在推理的时候用one-to-one，实现nms-free。来实现训练的时候one-to-one & one-to-many 的分配和计算，使one-to-one获得one-to-many最佳的效果。作者觉得YOLO系列的NMS和某些结构非常的耗时，提出NMS-free和一些列高效和低算力消耗的yolov-10.

2024-08-13 11:09:00 418 1

原创 why DW-Conv still slow?

MobileNet、ShuffleNet 在理论上速度很快，工程上并没有特别大的提升.为什么GPU上表现乏力的GPU，到CPU上反而一骑绝尘了呢？深度可分离卷积的总计算量变小了，但深度可分离卷积的层数变多了。若GPU的显存足够大，因为每层的计算都可以并行一次处理，则此时总运算时间的主导因素是网络的层数。...

2022-06-30 16:24:46 458

原创【tricks: rep-parameters】

组合：3x3卷积核+BN，组合2：1x1卷积核+BN，组合3：BN。这三种组合在推理计算上都可以等效转化成“3x3卷积核+偏置”的形式。我们都知道卷积也是一种线性运算如乘法一样，咱们把三组同规格的卷积核合并成一组卷积核的操作是很简单的。.........

2022-06-30 15:32:22 213

原创机器视觉-坐标变换

仿射变换透视变换u,v是原始图片坐标，对应得到变换后的图片坐标x,y：

2022-03-11 10:18:29 667

原创【论文阅读】Swin Transformer V2: Scaling Up Capacity and Resolution

题目：Swin Transformer V2: Scaling Up Capacity and Resolutionmotivation:作者提出了将Swin Transformer缩放到30亿个参数的技术，并使其能够使用高达1536×1536分辨率的图像进行训练。作者要做大做强。method:首先，对大型视觉模型的实验揭示了训练中的不稳定性问题。作者发现，在大型模型中，各层之间的激活幅度差异显著增大。仔细观察结构可以发现，这是由直接添加回主分支的残差单元的输出引起的。结果是激活值逐层累积，

2022-03-08 15:06:28 4324 1

原创 S-V-M

采用序列最小优化（SMO）算法求解αi\alpha_iαi

2022-02-28 18:18:39 221

原创【论文阅读】ATSS:Adaptive Training Sample Selection

题目：Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selectionmotivation:作者想找到anchor base 和anchor free 的区别，并设计一种anchor选取的方法。method ：分析下RetinaNet和FCOS在算法上的差异，主要有以下3点：RetinaNet在特征图上每个点铺设多个anchor，而FCOS在特征图上每个点

2022-02-28 15:09:39 258 1

minist 全部数据集

2025-07-30

Music-Downloader-master.zip

Music-Downloader-master 的相关信息如下： ‌GitHub 仓库‌ 项目地址：kyledong/Music-Downloader‌1 描述：一个音乐下载工具，支持从多个平台下载音乐，界面简洁且功能实用。更新记录：最近一次更新于 2019 年 6 月 30 日，修复了部分文件下载问题‌1。 ‌其他相关项目‌ ‌netease-music-downloader‌：支持网易云音乐的单曲/专辑下载，自动创建目录并跳过已下载文件，可通过 npx 直接运行‌2。 ‌Apple Music Downloader‌：需配合 MuMu 模拟器或 WSL 使用，支持高分辨率无损音乐下载，需配置 Apple Music 账号‌3。 ‌Macsome YouTube Music Downloader 替代方案‌：包括 yt-dlp、youtube-dl 等开源工具，支持 YouTube 音乐转换和下载‌4。 ‌注意事项‌ 部分工具需科学上网或特定环境（如模拟器、WSL）‌23。使用前需确认版权合规性，避免下载受保护内容‌24。

2025-07-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人