Keep_Trying_Go-CSDN博客

原创分组查询注意力GQA（Grouped-query attention）算法详解

本文探讨了注意力机制的优化方法，重点介绍了分组查询注意力(GQA)的创新设计。针对多头注意力(MHA)内存开销大和多查询注意力(MQA)质量下降的不足，GQA采用键值头分组共享策略，在保持接近MHA性能的同时显著提升推理效率。研究提出两种优化方案：1）使用5%额外计算量将MHA检查点升级为MQA；2）引入GQA混合架构。实验显示GQA有效平衡效率与质量，特别适合长序列生成任务。但研究存在训练成本对比不足和架构覆盖不全面等局限性，尤其在纯解码器模型中的应用效果有待进一步验证。

2025-06-22 21:59:50 853

原创多查询注意力（Multi-Query Attention）详解

本文提出多查询注意力方法来优化Transformer模型在增量推理时的性能。针对自回归解码过程中反复加载键/值张量导致内存带宽开销大的问题，该方法让多头注意力共享键和值张量，显著减小了张量规模。实验表明，该方法能大幅提升解码速度，且仅带来轻微质量损失。文中还分析了传统点乘注意力、多头注意力及其增量版本的特性，验证了多查询注意力的有效性。

2025-06-18 13:30:18 835

原创 Linux下编写C++程序导入opencv编译并执行的几种方式（Linux/C++/OpenCV）

文章展示了一个简单的OpenCV程序示例，该程序创建100x100的黑色图像并输出尺寸信息。直接编译时会出现"opencv2/opencv_modules.hpp文件缺失"的错误。作者提供了临时解决方案（方式一），但具体内容未展开说明。该示例演示了OpenCV基础使用和常见的编译配置问题

2025-05-31 11:44:05 354

原创论文Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM讲解

前面我们已经讲过了关于人群计数无监督的论文，而今天要讲的这篇论文目前是我看到的最新的无监督人群计数算法，但是呢！论文没有给代码，所以下面的讲解只能结合论文给出的理论来大致讲一下。

2025-05-29 12:04:54 732

原创论文 Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation详解（PyTorch）

前面我们已经讲过了两篇论文关于人群计数的无监督算法，其中一篇是基于人群计数符合自然幂律分布，而另外一篇是基于CLIP的无监督算法，充分利用了CLIP的泛化性能。而本文要讲的是关于语义分割领域的一篇基于CLIP的无监督算法，但是这篇算法的理解不是太容易，因此需要花较多的时间去阅读和理解。

2025-05-27 14:15:18 907

原创论文 Completely Self-Supervised Crowd Counting via Distribution Matching无监督算法详解

今天讲解的这篇论文属于无监督方面的算法点，其中的算法理解不是太容易，并且涉及的算法点也比较多，所以需要花较多的时间去理解和阅读。上一次我们讲过基于CLIP的无监督人群计数CrowdCLIP算法，那篇论文算法理解起来更加容易一点，并且代码实现方面理解起来也更加容易一点，因此也希望大家可以看一下那篇论文。

2025-05-23 12:05:36 1221

原创 PyTorch Lightning教程就看这篇（视频教程 + 文字教程）

简介：PyTorch Lightning 是一个基于 PyTorch 的高级深度学习框架，旨在将科研代码的灵活性与工程化最佳实践结合，通过标准化训练流程大幅减少模板代码。其中，继承LightningModule之后，可以很方便的把自己的训练过程，验证以及测试过程都给集成起来，包括优化器的配置等函数，可以比较容易的进行配置和训练。定义Trainer之后，结合继承至LightningModule对象，就可以实现完整的训练了（除了一些额外的配置之外）。这个视频和文字教程就是想让大家快速的上手PyTorch Lig

2025-05-20 19:06:35 1146

原创论文Chinese-CLIP（图像-中文版的Contrastive Vision-Language Pretraining in Chinese）详解（PyTorch代码）

虽然基于“图像-英文”的CLIP在很多下游任务中得到广泛的应用，但是毕竟是国外（OpenAi）公司做出来的，因此如果直接将CLIP应用到“图像-中文”上的话效果比较差，为了能更好的应用中文的图文检索其实是非常好的，针对中文训练一个Chinese-CLIP。虽然Chinese-CLIP很大程度上还是基于CLIP来做的，但是其中涉及的知识点还是应该讲一下的，具体做了什么以及源码训练以及模型是具体怎么实现的，这也很重要。了解Chinese-CLIP对于后期的应用到自己的任务具有很大的优势。

2025-05-17 15:06:18 1090

原创论文VQ-GAN（Taming Transformers for High-Resolution Image Synthesis）高分辨图像生成讲解（PyTorch）

因为VQ-GAN是基于VQ-VAE方法来的。和之前一样，之所以将这篇论文主要是为后面CLIP-GEN论文打下基础，因此，建议小伙伴先看VQ-VAE和VQ-GAN，之后再去学习CLIP-GEN的时候会很快。图像合成对于我们来说是一个神奇但是又有趣的东西，生成一个逼真有效的图像对于很多领域来说非常的有用，可以将生成的图像用于扩从数据集，或者绘画，或者给其他模型的学习提供参考等作用。大家在看这篇论文之前，请先看。

2025-05-15 22:17:54 543

原创论文Visual Prompt Tune（视觉提示微调）详解

还记得我们之前讲的“CLIP-Count（基于文本指导的零样本目标计数）”论文的内容吗，如果看过的小伙伴应该知道CLIP-Count论文的作者就使用到了“Visual Prompt Tune”方法训练模型。我们今天来看这篇论文也是因为CLIP-Count提到了这一点。如果迁移微调的模型比较大的话，是不是也可以尝试采用“visual prompt tune”呢，关于这一点大家可以去尝试一下。同样，《Visual Prompt Tune》这篇论文的作者也是认为当前基于模型的全微调对于参数量大的模型并不好，不仅

2025-05-15 14:40:13 886

原创论文VQ-VAE-2（Generating Diverse High-Fidelity Images with VQ-VAE-2）详解（PyTorch）

前面我们已经讲过了关于VQ-VAE的原始论文，其中主要是采用一种离散隐变量的自编码方法，通过向量量化（Vector Quantization, VQ）实现隐空间的离散化，从而提升表征的可解释性和生成质量。正是VQ-VAE在大规模的模型当中得到应用，也证明了它的成功。

2025-05-14 15:29:20 1080

原创论文CLIP-Count（基于文本指导的零样本目标计数）详解（PyTorch）

前面我们已经讲过了关于基于CLIP的人群统计两篇文章，也希望读者可以去看前面两篇文章，因为这对于学习CLIP在计数方面具有很好的启发。前面两篇文章主要是从有监督和无监督两方面来进行研究的，而这篇文章也可以说是从无监督的方面来进行研究的，不同的是这篇文章不仅仅是针对人群计数，主要是面对所有的目标，通过文本指定要统计的目标达到效果（零样本计数）。

2025-05-13 09:42:04 885

原创 Reference-less Counting,Zero-shot Counting,Few-shot Counting,单域泛化以及域自适应之间的区别?

之所以这里会着重区分“Reference-less Counting,Zero-shot Counting,Few-shot Counting,单元域泛化以及域自适应”这个五个概念的区别，是因为真的很重要。我们在学习的过程中经常容易把这些问题给搞混淆，而恰恰这些概念又是非常重要的，那么我们在给被人讲述，写东西或者自己看论文的时候也容易犯糊涂。因此，这篇博文着重把这几个概念加入进来，当然，最后，我们也会探讨“全监督，半监督，开发世界识别和开发词汇识别”。

2025-05-12 15:29:53 973

原创开源项目minGPT应用案例详解（PyTorch）

minGPT 是GPT的 PyTorch 重新实现，包含训练和推理功能。minGPT 力求精简、简洁、可解释且具有教育意义，因为目前大多数 GPT 模型实现可能略显臃肿。GPT 并非一个复杂的模型，该实现大约有 300 行代码。其工作原理是将一系列索引输入到Transformer中，然后得出序列中下一个索引的概率分布。其复杂性主要体现在巧妙地进行批处理（跨样本和跨序列长度），以提高效率。重写的nanoGPT，从单纯的教育导向转向一个仍然简单易行但又有实际意义的东西。

2025-05-11 12:45:05 793

原创论文CrowdCLIP（基于CLIP的无监督人群计数模型）详解（PyTorch,Pytorch_Lighting）

前面一篇论文我们已经讲过了关于CLIP应用的人群统计算法CLIP-EBC，但是前面一篇论文是从完全监督的角度去考虑并且基于块级分类方向来进行研究的。而本文CrowdCLIP主要是从完全无监督的方向来进行研究的，两篇论文都从不同的角度去提升人群计数模型的性能，采用更新颖的方法做研究，这对于人群统计算法的拓展很有帮助，因为当前的人群统计算法基本把所有能用的算法都用的差不多了，而这两篇论文从其他角度出发探讨问题。

2025-05-10 15:41:32 891

原创论文CLIP-EBC（基于CLIP的人群统计模型）详解

论文《Distribution Matching for Crowd Counting》提出了一种新的人群计数方法，通过使用人群统计损失（CLoss）、最优化传输损失（OTLoss）和总的变化损失（TVLoss）来提高计数准确性。该方法借鉴了DMCount的损失函数，并结合了CLIP预训练对比语言模型。CLIP-EBC是该领域首次将CLIP模型应用于全监督范式的人群计数，不同于之前的CrowdCLIP采用的Zero-shot范式。论文和相关代码可在提供的链接中下载，为进一步研究和应用提供了资源。

2025-05-09 17:29:20 1120

原创论文Neural Discrete Representation Learning（VQ-VAE）详解（PyTorch）

（论文下载链接）之所以将论文，主要是为讲解后面两篇论文做准备，VQ-VAE不管是视频还是博客，都有人在讲解，但是这里也做一个总结，以衔接后面的两篇论文讲解，关于相关的论文比较多，并且其中涉及的数学原理以及推导也比较多，导致我们在阅读VAE方法的时候可能存在较多的困惑，自己在看的过程中也遇到了较多的困惑，但是还是准备做一个总结。

2025-04-28 20:20:37 1168

原创人群计数中常用数据集的总结以及使用方式（Python/PyTorch）

本文主要是对人群计数中常用的数据集的相关介绍以及使用方式，之所以特意的抽时间来写这篇博文，主要是最近发现比较多的小伙伴（刚进入这个领域）在人群计数数据集上容易迷茫。如果一个一个的为大家进行解答的话，还不如直接写一篇文章来更加细致的给大家讲解一下。如果在讲解的过程中有什么不对的地方，还请大家能够指出（ヾ(◍°∇°◍)ﾉﾞ）。悄悄举手：若觉得文章有用，不妨留下一个小赞？

2025-04-15 14:19:37 924

原创 C++中的yield相关知识点

特别是在自旋锁（spinlock）或无锁（lock-free）编程中。只是一个提示（hint），具体是否切换线程由操作系统决定。：当前线程暂时放弃 CPU，让其他线程有机会运行。，允许操作系统调度其他线程运行。：在循环中等待某个条件时（如自旋锁），用。是 C++ 标准库中的一个函数，用于。可以减少 CPU 资源的浪费。

2025-03-24 19:31:10 531

原创并发编程中原子操作atomic的store，load，test_and_set，compare_exchange_weak()或compare_exchange_strong(）使用方法（Code）

是 C++ 标准库中用于实现原子操作的类模板。原子操作是指在多线程环境中，某个操作要么完全执行，要么完全不执行，不会被其他线程打断。提供了多种成员函数来执行原子操作，其中最常用的两个是store()和load()。1.store()

2025-03-24 18:15:26 871

原创论文RATLIP文本到图像生成详解

各位小伙伴，在看本文之前建议先看一下因为RATLIP是在GALIP的基础上进行改进的。

2025-02-24 13:58:43 840

原创论文MirrorGAN: Learning Text-to-image Generation by Redescription详解

尽管在使用生成对抗网络生成高质量和视觉上真实的图像方面取得了显著进展，但保证文本描述与视觉内容之间的语义一致性仍然非常具有挑战性。例如，在第四列中，鸟的腹部颜色被修正为白色，穿红色夹克的滑雪者被复原。因此，生成图像的质量逐渐提高，例如，翅膀和冠的颜色和细节有所改善。的优越性，并且它利用重描述的双重正则化，即如果可以正确重描述，则应生成语义一致的图像。在第一阶段，生成的低分辨率图像具有简单的形状和颜色，但缺乏细节。旨在从生成的图像中再生文本描述，该描述在语义上与给定的文本描述对齐。具体来说，与最先进的方法。

2025-02-18 14:47:19 1041

原创文本对图像的描述（MirrorGAN）

文本对图像的描述对于如今的大模型来说是比较容易的事情，但是其中的原理是怎么实现的呢？本文从MirrorGAN论文中给出的方法以及上面给出的代码下载地址来进行讲解。将从原理和代码进行详解。

2025-02-17 08:59:29 973

原创文本和图像编码器（AttnGAN）详解

本文之所以将AttGAN中提出的DAMSM（Deep Attention Multimodel Similarity Model）单独拿出来讲解，主要是因为后面的比较多论文都会使用这个文本编码器和图像编码器预训练模型对文本和图像进行编码。虽然当前的CLIP打通了文本和图像，但是了解DAMSM的实现过程也是比较重要的，只有对其有了比较深刻的理解，在理解CLIP也是比较有帮助的。这个链接中已经提供了相关数据集对应的文本和图像编码器预训练模型。

2025-02-10 15:43:49 781

原创论文Generative Adversarial Text to Image Synthesis详解

关键是，这些插值后的文本嵌入不需要对应于实际的人类写作文本，因此没有额外的标注成本。可以结合以前见过的内容（例如文本）和以前见过的风格，但以新的组合方式来生成与训练期间见过的任何图像都非常不同的可信图像。为了进行姿势验证和背景颜色验证的两个任务，首先构建了相似和不相似的图像对，并通过将图像输入到风格编码器中（该编码器经过训练以反转输入和生成器输出）来计算预测的风格向量。在花卉形态上往往具有最多样化（例如，如果这一部分在说明中未指定，可以看到非常不同的花瓣类型），而其他方法则倾向于生成更具类别一致性的图像。

2025-02-10 13:44:23 1054

原创论文AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks详解

通过百度网盘分享的文件：AttnGAN提取码：way0。

2025-02-04 12:43:03 1027

原创论文You Only Look at One Sequence: Rethinking Transformer in Vision through Object Detection详解

提出目的和方法提出目的能否从纯粹的序列到序列的视角，让 Transformer进行2D物体和区域级别的识别，而对2D空间结构的知识进行最小化？提出方法为了回答这个问题，提出了“仅需关注一个序列”（YOLOS），这是基于原始最少修改的对象检测模型系列，旨在最小化目标任务的诱导偏差。YOLOS在中型数据集上预训练后，仅此即可在具有挑战性的COCO目标检测基准上获得相当竞争力的性能，例如，直接采用BERT-Base架构的YOLOS-Base在COCO验证集上可以达到。

2025-02-04 12:41:48 430

原创目标检测评估分析和开源工具介绍（MAP）

该指标会忽略重叠的检测，如果某一检测与被标记为“组”的真实框重叠，以该组的交集区域与真实框的面积进行比率计算，这样就不会惩罚与一组非常接近的真实目标的检测。(iii) 提供了一种新颖的开源工具包，支持不同的标注格式和 15 种性能指标，使研究人员更容易评估其检测算法在大多数已知数据集上的表现。此外，本研究还提出了一种新指标，也包含在该工具包中，用于评估视频中的对象检测，基于真实值与检测到的边界框之间的时空重叠。(i)提供了有关对象检测竞赛中使用的最相关评估方法的概述，突出了它们的特性、差异和优势；

2025-02-04 12:39:37 1174

原创论文Learning Data Augmentation Strategies for Object Detection详解

提出目的和方法提出目的尽管数据增强已被证明可以显著提高图像分类的准确性，但其在目标检测中的潜力尚未得到充分研究。考虑到为对象检测任务标注图像所需的额外成本，数据增强对于计算机视觉任务可能更为重要。提出方法本文中研究了数据增强对目标检测的影响。首先证明了从图像分类中借鉴的数据增强操作可能有助于训练检测模型，但改进有限。因此，研究了如何通过学习专门的数据增强策略来提高检测模型的泛化性能。重要的是，这些增强策略仅影响训练过程，并在评估期间保持训练好的模型不变。在COCO。

2025-02-04 12:37:44 355

原创视觉语义相似性评估（文本和图像之间的相似性-HDGAN）

前面已经讲过针对图像相似性的不同评估方法初步讲解，首先大家要知道并没有一种方法是，因此大家在使用不同方法对图像相似性进行评估的时候可能得到结果差别比较大，但是这并不就否认某一种方法不行，而是不同方法可能适用的场景不一样，大家在选择方法的时候根据自己的领域常用方法来使用。本文讲述的图像和文本相似性评估主要来自于HDGAN，之所以单独拿出来讲，是因为这一块也挺重要的。通过评价生成图像和对应文本之间的相似性来判断生成图像的效果，从而避免了人工的判断，耗时等操作。

2025-02-04 12:36:38 517

原创论文CFENet: An Accurate and Efficient Single-Shot Object Detector for Autonomous Driving详解（代码详解）

检测小物体的能力和目标检测器的速度对于自动驾驶的应用非常重要，虽然当前的很多目标检测算法已经取得了很不错测效果，并且在速度和精度上得到一个比较好的平衡，但是在小目标的检测效果上还是缺乏。本文中提出了一种有效且高效的一阶段检测器，该检测器在 CVPR2018。数据集的实验结果表明，所提出的检测器（命名为。的架构，并引入了一个新的综合特征增强。的路面物体检测竞赛中获得了第二名。）在小物体检测上表现显著优于原始的。，同时保持高效性，接近原始的。关于该竞赛数据集以及。

2025-01-28 13:46:15 476

原创论文HDGAN（Photographic Text-to-Image Synthesis with a Hierarchically-nested Adversarial Network）详解

网络层次内部引入了伴随的分层嵌套对抗目标，这些目标对中层表示进行了正则化，并帮助生成器训练以捕捉复杂的图像统计特征。此外，随着图像分辨率的提高，全球配对损失判别器捕捉局部精细细节的难度可能会增加（结果在实验中得到了验证）。文本对作为输入，并被训练以识别两种类型的错误：一种是真实图像与不匹配文本配对，另一种是与条件文本配对的假图像。第一个是平衡生成器和判别器之间的收敛，这是。节），一个分支计算配对损失的标量值，另一个分支计算局部图像损失的。中每个元素的感受野，从而区分对应的局部图像块是真实的还是虚假的。

2025-01-28 13:45:38 954

原创论文Deformable DETR: Deformable transformers for END-TO-END Object Detection讲解

提出目的和方法提出目的DETR最近被提出用于消除对象检测中对许多手工设计组件的需求NMS后处理，anchor设计），同时显示出良好的性能。然而，由于注意模块在处理图像特征图时存在缓慢收敛和有限特征空间分辨率的限制，它面临一些问题。提出方法提出了变形DETR，其注意模块仅关注参考点周围的一小部分关键采样点。变形DETR在小对象上可以实现比DETR更好的性能，并且训练周期减少了10倍。DETR缺陷总结：DETR不需要NMS后处理以及手工设计anchor。

2025-01-28 13:38:19 631

原创论文StackGAN++详解

的输入可以视为树的根节点，而多尺度图像则从树的不同分支生成。中间分支的生成器有逐步生成小到大图像的目标，以帮助实现最终目标。它们的结果在大多数情况下缺乏生动的部分（例如，喙和腿）和令人信服的细节，这使得这些图像既不够真实，也没有足够高的分辨率。该正则化提供了额外的约束，以促进多分布的近似，这在没有实例监督的无条件设置中特别有用。接受第一阶段的结果和文本描述作为输入，并生成具有照片真实细节的高分辨率图像。在与场景相对应的多个尺度上生成图像。描述了基于给定文本描述的场景的原始形状和颜色，从而生成低分辨率图像。

2025-01-28 13:33:32 1339

原创论文DETRs Beat YOLOs on Real-time Object Detection（RT-DETR_v1&RT-DETR_v2）详解

此外提出的检测器支持通过使用不同的解码器层灵活调整推理速度，而无需重新训练，这便于在各种实时场景中的实际应用。为了实现实时目标检测，我们设计了一种高效的混合编码器，以替代原始的变换器编码器。通过解耦多尺度特征的内部尺度交互和跨尺度融合，编码器可以高效处理不同尺度的特征。具体而言，设计了一种高效的混合编码器，通过解耦内部尺度交互和跨尺度融合来高效处理多尺度特征，并提出了。的检测器支持通过使用不同的解码器层灵活调整推理速度，而无需重新训练，这得益于。架构中解码器的设计，便于实时检测器的实际应用。

2025-01-28 13:27:34 976

原创论文End-to-End Object Detection with Transformers详解

通过推理对象之间的关系和全局图像上下文，直接并行输出最终的预测集合。提出了一种新方法，将目标检测视为一个直接的集合预测问题。简化了检测流程，有效地消除了许多手工设计的组件，如非极大值抑制程序或。），其主要成分是一个基于集合的全局损失，通过二分匹配强制唯一预测，以及一个变换器编码器。生成，这些组件明确编码了对任务的先验知识。，这个两个流程对于目标检测的实现增添了复杂度。（其实这里的目的并没有完全表达论文的意思）来实现的，其中在训练和推理阶段会采用生成的。当前的很多目标检测算法都是基于。

2025-01-28 13:26:44 805

原创论文Tiny-DSOD: Lightweight Object Detection for Resource-Restricted Usages详解（代码详解）

由于资源有限，当前的目标检测算法对于计算资源的需求非常大，因此这对于目标检测算法的部署本身不利，比如永远在线的设备，电池供电的低端设备等。是一个整数超参数，用于控制模型的容量。然后，它应用深度卷积，并通过点卷积（即。，然后执行深度卷积。深度卷积的输出直接与输入拼接，而不需要额外的。与最先进的全尺寸模型进行比较时，确实存在轻微的准确度下降。）和检测准确度之间实现了更好的平衡，对于资源受限的应用极为有用。框架，设计了一个目标检测模型框架，，称之为。Tiny-DSOD达到。卷积投影的）特征图，因此在两个相邻的。

2025-01-28 13:24:56 945

原创论文FCHD: Fast and accurate head detection in crowded scenes详解

提出目的和方法提出目的基于检测的人群计数，检测方法通常比以往的密度图人群计数技术提供更可靠的结果。因为在密度图的情况下，并不总是正确的位置会对最终的人群计数产生贡献。这导致了不可靠的结果，特别是在出现误报的情况下。提出方法提出了 FCHD（全卷积人头检测器），一个可端到端训练的人头检测模型。提出的架构是一个单一的全卷积网络，负责边界框预测和分类。模型在推理时间和内存需求上都较轻便。与运行时间相关，模型在平均准确度（AP）上表现更好，这得益于基于网络有效感受野选择锚点大小。

2025-01-21 14:55:02 434

原创论文Bounding Box Regression with Uncertainty for Accurate Object Detection详解

在本文中，提出了一种新的边界框回归损失，用于同时学习边界框变换和定位方差。损失显著提高了各种架构的定位精度，几乎没有额外的计算开销。学习到的定位方差使非极大值抑制（）力求尽可能清晰地定义真实的边界框。然而在标注边界框时仍然会产生模糊性。大规模目标检测数据集（例如 MS-COCO。）过程中合并相邻的边界框，进一步提升了定位性能。，显著超过了之前的最先进的边界框精炼方法。损失应用到坐标框回归中。

2025-01-21 14:53:24 581

原创论文Gaussian YOLOv3详解

物体检测算法在自动驾驶车辆中的应用越来越重要，高精度和快速推理速度对安全的自动驾驶至关重要。在自动驾驶过程中，错误的定位（假阳性，FP。）进行建模，采用高斯参数并重新设计损失函数。此外，本文还提出了一种预测定位不确定性的方法，该不确定性指示了。因此，在自动驾驶应用中，需要一种能够处理误定位的检测算法。本文提出了一种提高检测精度的方法，同时支持实时操作，通过对 YOLOv3。通过在检测过程中使用预测的定位不确定性，该方案可以显著减少。（最具代表性的单阶段检测器）的边界框（算法相比，所提出的算法高斯。

2025-01-21 14:22:26 500

空空如也

空空如也