AI浩

分享人工智能知识，包括：计算机视觉、NLP以及机器学习等领域。注重基础与实践，尽最大的努力让每个初学者看懂学会。

原创 GQA：从多头检查点训练广义多查询Transformer模型

多查询注意力（MQA）仅使用单个键-值头，能大幅加速解码器推理。然而，MQA可能导致质量下降，而且专门为更快的推理训练单独的模型可能并不可取。我们：(1) 提出了一种从现有多头语言模型检查点Uptraining具有MQA的模型的方案，仅需原始预训练计算量的5%；(2) 引入了分组查询注意力（GQA），这是多查询注意力的一种泛化，它使用中间数量（多于一个但少于查询头数量）的键-值头。我们表明，Uptraining的GQA在接近多头注意力质量的同时，速度与MQA相当。

2025-08-13 22:00:08 459

原创快速Transformer解码：一个写头就足够了

Transformer神经序列模型中使用的多头注意力层是一种强大的替代RNN的方法，用于在序列内部和序列之间传递信息。虽然由于序列长度上的并行化，训练这些层通常快速且简单，但增量推理（在这种情况下并行化是不可能的）通常较慢，这是由于反复加载大型"键"和"值"张量所带来的内存带宽成本。我们提出了一种称为多查询注意力的变体，其中键和值在所有不同的注意力"头"之间共享，大大减少了这些张量的大小，从而降低了增量解码的内存带宽需求。

2025-08-13 21:35:55 709

原创多查询注意力(MQA)：让大模型推理飞起来的秘密武器

在了解MQA之前，我们先简单回顾一下Transformer模型中的多头注意力机制(MHA)。MHA是让模型能够同时关注输入序列中不同位置信息的关键技术，它通过多个"注意力头"来捕捉不同的语义关系。而MQA则是MHA的一个精简版本：它保留了多个查询(query)头，但所有查询头共享同一个键(key)和值(value)头。这个看似简单的改动，却带来了惊人的性能提升！MQA代表了大模型高效推理的重要方向——在保持模型能力的同时，大幅降低计算和内存需求。

2025-08-13 21:14:32 516

原创 ImportError: libhccl.so: cannot open shared object file: No such file or directory

注意：您需要有华为昇腾 NPU 硬件才能实际使用这些功能。如果您的服务器没有 NPU 硬件，即使解决了库路径问题，您也无法使用 NPU 加速。在这种情况下，建议使用标准的 PyTorch 安装（CPU 或 CUDA 版本）并修改代码以移除对。文件的位置，这很好！问题在于系统在运行时找不到这个库文件。虽然文件存在于文件系统中，但动态链接器不知道在哪里查找它。，我们告诉系统在哪里可以找到这些必要的库文件。系统会在预定义的路径中搜索这些库，而。要使设置永久生效，将以下内容添加到。不在默认搜索路径中。

2025-08-12 09:50:38 351

原创 ModuleNotFoundError: No module named ‘importlib_metadata‘

安装完成后，请重新运行您的程序，应该可以解决这个ModuleNotFoundError问题。如果仍然遇到问题，可能需要检查您的PyTorch和torch_npu版本是否兼容。这是一个常见的依赖问题，特别是在PyTorch分布式组件中。包（注意安装时使用连字符，但导入时使用下划线）。激活虚拟环境后安装此包即可解决错误。这是搜索结果中确认有效的解决方案。根据错误日志和搜索结果，您遇到了。这个错误是因为您的环境中缺少。

2025-08-12 09:46:45 234

原创从GPT-2到gpt-oss：架构演进分析

在深入讨论架构细节之前，让我们先概览一下图1中所示的两个模型：gpt-oss-20b和gpt-oss-120b。如果您之前看过最近的LLM架构图，或阅读过我之前的《大模型架构比较》文章，您可能会注意到乍看之下没有什么新颖或不寻常的地方。这并不奇怪，因为领先的LLM开发者往往使用相同的基线架构，然后进行较小的调整。这些实验室之间存在显著的员工流动。我们仍未找到比Transformer架构更好的替代方案。

2025-08-12 06:56:49 1080

原创 GPT-5震撼发布！它不会写诗，却让程序员集体沸腾：这才是真正的AGI黎明

GPT-5的真正意义不在于它本身有多强大，而在于它展示了通过工具扩展智能的可行路径。就像人类通过工具超越了生理限制，AI也将通过工具超越模型本身的局限。“一切都始于GPT-5学会使用工具的那一天。有趣的是，文章最后提到：“嗯……Sam两年前的待办事项清单仍未完成……”也许，真正的AGI到来之日，就是Sam的待办事项全部完成之时。但在此之前，让我们拥抱这个工具智能的新时代——毕竟，学会使用工具，才是智能的真正开始。你怎么看GPT-5的"工具思维"？欢迎在评论区分享你的观点！

2025-08-12 06:06:53 607

原创 RuntimeError: Failed to load the backend extension: torch_npu. You can disable extension auto-loadin

根据您之前尝试运行的自注意力机制代码（来自知识库中的内容），这些是标准的 PyTorch 代码，不需要 NPU 支持。是 PyTorch 用于华为昇腾(NPU)处理器的专用后端。当您在没有 NPU 硬件的普通系统上运行代码时，经常会遇到此错误。是最简单有效的解决方案，它会告诉 PyTorch 不要尝试自动加载 NPU 后端扩展。完成上述任一操作后，您应该能够正常运行自注意力机制和其他标准 PyTorch 代码。这个错误表明您的系统尝试加载。

2025-08-11 17:17:47 240

原创最优扩展大型语言模型测试时计算量可能比扩展模型参数更有效

遵循Lightman等人[22]的方法，我们基于基础LLM定义问题难度。具体来说，我们将模型在测试集每个问题上的pass@1率（通过2048个样本估计）划分为五个分位数，分别对应递增的难度等级。我们发现，这种基于模型的难度分箱比MATH数据集中的手工标注难度更能预测测试时计算的有效性。需注意，上述难度评估假设可访问地面真实正确性检查函数，而实际部署时我们无法知晓测试提示的答案。因此，基于难度的计算最优策略需首先评估问题难度，再利用对应策略解决。

2025-08-10 10:44:01 1153

原创理解与编码LLM中的自注意力、多头注意力、因果注意力和交叉注意力

现在，让我们讨论广泛使用的自注意力机制，即缩放点积注意力（scaled dot-product attention），这是transformer架构中不可或缺的一部分。自注意力机制利用三个权重矩阵，分别称为WqW_qWqWkW_kWk和WvW_vWv，这些矩阵在训练过程中作为模型参数进行调整。这些矩阵分别用于将输入投影到序列的查询（query）、键（key）和值（value）分量中。通过权重矩阵WWW与嵌入输入xxx查询序列：对于序列1...T1...T。

2025-08-09 08:01:44 945

原创 YOLO-Count：用于文本到图像生成的可微分目标计数

我们提出的YOLO-Count基于YOLO-World架构[9]，由三个主要组件组成：(1)视觉骨干，(2)视觉-语言路径聚合网络(VLPAN)，以及(3)预测头。图2展示了整体流程并突出了我们的关键架构修改。视觉骨干。YOLO-Count中的视觉骨干遵循YOLOv8l [23]和YOLO-World-L [9]的设计。它包含五个卷积模块(ConvModules)和跨阶段部分层(CSPLayers)阶段。给定输入图像I∈R640×640×3I∈R640×640×3f0f。

2025-08-08 21:35:45 888

原创深度解析：推理大模型如何改变AI格局？四种构建方法与低成本实践指南

想象一下，当孩子问你"2+3等于几"时，你直接回答"5"；但当他们问"为什么2+3=5"时，你需要解释加法的概念。传统大语言模型更像是前者——提供直接答案；而推理模型则是后者——展示思考过程。在技术定义上，推理模型是指能够处理需要复杂、多步骤生成并包含中间步骤的问题的AI系统。❌ 简单问答：“法国的首都是什么？”（不需要推理）✅ 复杂推理：“如果一列火车以每小时60英里的速度行驶3小时，它走了多远？推理大模型代表了AI发展的新方向——从"知道答案"到"理解思考过程"。

2025-08-08 07:04:47 574

原创处理失败: module ‘fitz‘ has no attribute ‘open‘

【代码】处理失败: module ‘fitz‘ has no attribute ‘open‘

2025-08-07 13:55:53 173

原创从DeepSeek-V3到Kimi K2,大型语言模型架构对比

本文系统性梳理了2025年主流开源LLM的架构创新，涵盖从DeepSeek-V3到Kimi K2的代表性设计。稀疏化与专家系统混合专家系统（MoE）：DeepSeek-V3（671B）、Llama 4 Maverick（400B）、Qwen3（235B）均采用MoE架构，通过激活部分专家（如DeepSeek的9专家/2048隐藏层，Llama 4的2专家/8192隐藏层）平衡计算效率与模型容量。动态路由。

2025-08-07 06:19:35 1064

原创 SOD-YOLO：增强基于YOLO的无人机影像小目标检测

为验证我们提出的SOD-YOLO模型在无人机影像小目标检测中的有效性和鲁棒性，我们在多种场景下开展了广泛实验。评估目标：评估SOD-YOLO在复杂航拍场景中检测小目标和密集目标的能力，并验证其对基线YOLOv8-m模型的改进效果。评估指标：我们主要报告IoU阈值为0.5（[email protected]）和0.5:0.95（[email protected]）的平均精度（mAP），以及数据集定义的小目标检测专项指标。对比基线。

2025-08-06 13:14:38 1182

原创 Qwen-Image技术报告

与传统模型仅优化 photorealism（真实感）或美学质量（“AI风格”）不同，Qwen-Image强调文本与图像的精准对齐——尤其在具有挑战性的文本渲染任务中。我们设想，通过强化基础模型的这一能力，未来交互界面可从纯语言驱动的LUIs（语言用户界面）演变为视语融合的VLUIs（视语用户界面）。当LLMs（大型语言模型）难以传达颜色、空间关系或结构布局等视觉属性时，基于Qwen-Image的VLUI可生成图文融合的丰富图像——实现结构化视觉解释和有效的知识外化，将复杂概念转化为可理解的多模态表达。

2025-08-06 06:44:38 876

原创深入剖析通用目标跟踪：一项综述

通用目标跟踪仍是计算机视觉领域一项重要且具有挑战性的任务，其难点在于复杂的时空动态变化，尤其在存在遮挡、相似干扰物和外观变化的情况下。过去二十年间，为应对这些挑战，研究者提出了多种跟踪范式，包括基于孪生网络的跟踪器、判别式跟踪器以及近期突出的基于Transformer的方法。尽管现有综述论文或聚焦单一类别，或广泛覆盖多类以追踪进展，但本文对三类方法均进行了全面综述，尤其强调快速发展的基于Transformer的方法。我们通过定性与定量比较，分析了各类方法的核心设计原则、创新点及局限性。

2025-08-04 22:22:49 1257

原创 PyCharm安装通义灵码，代码插件

builder。

2025-08-03 12:25:58 564

原创国产AI编程辅助插件分析

随着技术进步，国产工具有望在全球AI编程领域占据更大份额。（注：部分工具需注册账号并登录后使用，建议优先试用免费版本。

2025-08-03 11:55:04 832 1

原创【已解决】WslRegisterDistribution failed with error: 0x80370114

点击启用或关闭Windows功能，然后勾选Windows虚拟机监控程序平台。

2025-08-03 07:30:14 192

原创 SmartCLIP：具有识别保证的模块化视觉-语言对齐

对比语言-图像预训练（Contrastive Language-Image Pre-training，CLIP）[37]已成为计算机视觉和多模态学习中的关键模型，通过对比学习实现了视觉和文本表示对齐方面的最优性能。然而，CLIP在许多图像-文本数据集中存在潜在的信息不对齐问题，并且存在表示纠缠的情况。一方面，像MSCOCO这类数据集中，单个图像的简短描述可能仅涵盖图像中互不重叠的区域，导致模型不确定应保留或忽略哪些视觉特征。

2025-08-02 21:50:50 1101

原创测试时扩散的深度研究助手

由大语言模型（LLMs）驱动的深度研究助手正在迅速发展，然而，在使用通用的测试时扩展算法生成复杂的长篇研究报告时，其性能往往会趋于平稳。受人类研究迭代性的启发，人类研究包括搜索、推理和修订的循环过程，我们提出了测试时扩散深度研究助手（Test-Time Diffusion Deep Researcher，TTD-DR）。这一新框架将研究报告的生成视为一个扩散过程。TTD-DR以初步草稿为起点，这一可更新的框架作为不断演进的基础，引导研究方向。

2025-08-02 17:52:22 950

原创自进化智能体综述：通往人工超级智能之路

大型语言模型（LLMs）在各种任务中展现出了卓越的能力，但本质上仍然是静态的，无法根据新任务、不断演进的知识领域或动态交互环境调整其内部参数。随着大型语言模型越来越多地部署在开放、交互式环境中，这种静态特性已成为关键瓶颈，需要能够实时自适应推理、行动和演化的智能体。这一范式转变——从扩展静态模型到开发自进化智能体——引发了人们对能够从数据、交互和经验中持续学习和适应的架构与方法的日益浓厚的兴趣。

2025-08-02 17:10:19 1412

原创基于Redis自动过期的流处理暂停机制

基于Redis自动过期的流处理暂停机制是一种高效、可靠且易于实现的解决方案。防止延时过大的数据影响实时处理自动恢复处理，减少人工干预共享状态，支持分布式部署优化资源使用，提升系统整体效率这种机制不仅适用于视频流处理系统，也可应用于任何需要根据数据延迟动态调整处理策略的场景。

2025-08-02 14:31:51 417

原创 conda : 无法将“conda”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写，如果包括路径，请确保路径正

添加系统变量，右键点击此电脑，再单击属性，打开系统设置界面。然后，点击确定，关闭界面。

2025-08-02 10:24:24 286

原创 Redis 键值对操作详解：Python 实现指南

场景推荐操作替代方案添加小数据SETHSET（对象）添加大数据HSET/MSET分批次添加添加临时数据SETEX删除小数据DELETEUNLINK删除大数据UNLINK无批量操作管道 + MSET/UNLINK单独命令添加操作使用set()添加单个键值对使用mset()批量添加多个键值对使用setex()添加带过期时间的键值对删除操作优先使用unlink()进行删除（尤其大型数据）仅在需要立即释放内存时使用delete()批量删除时结合管道提高效率。

2025-07-29 18:00:39 2034

原创 Qwen3嵌入：通过基础模型推进文本嵌入与重排序

在本研究中，我们推出了Qwen3嵌入（Embedding）系列模型。该系列模型基于Qwen3基础模型构建，在文本嵌入和重排序能力方面相较于前代GTE-Qwen系列实现了显著提升。我们利用Qwen3大语言模型（LLMs）在多语言文本理解与生成方面的强大能力，设计了一种创新的多阶段训练流程，将大规模无监督预训练与高质量数据集上的监督微调相结合。此外，有效的模型融合策略进一步确保了Qwen3嵌入系列模型的鲁棒性和适应性。

2025-07-28 20:15:00 839

原创突破性进化：放弃思考，通义千问Qwen3-235B-A22B-Instruct-2507重塑大模型能力边界

类型：因果语言模型训练阶段：预训练 & 后训练参数数量：总共 235B，激活 22B非嵌入参数数量：234B层数：94 层注意力头数（GQA）：Q 为 64 个，KV 为 4 个专家数量：128 个激活的专家数量：8 个上下文长度：原生支持 262,144注意：该模型仅支持非思考模式，并且不会在其输出中生成块。同时，不再需要指定核心革新亮点全能性能跃迁推理与知识：在MMLU-Pro科学测试中得分83.0（较前代↑7.8分），GPQA专业问答准确率达77.5%

2025-07-24 06:47:45 1190

原创 PhysX：基于物理原理的 3D 资产生成

3D建模正从虚拟向物理领域拓展。现有的3D生成主要强调几何形状和纹理，而忽视了基于物理原理的建模。因此，尽管3D生成模型发展迅速，但合成的3D3D3D资产往往忽略了丰富且重要的物理属性，阻碍了它们在模拟和具身人工智能（AI）等物理领域的实际应用。作为应对这一挑战的初步尝试，我们提出了PhysX，这是一种用于基于物理原理的3D3D3D资产生成的端到端范式。1）为了弥补物理标注3D3D3D数据集的关键空白，我们推出了PhysXNet，这是首个在五个基础维度上系统标注的基于物理原理的3。

2025-07-23 06:55:30 627

原创 KIMI K2：开放式的智能体（Agentic）人工智能

We introduce Kimi K2, a Mixture-of-Experts (MoE) large language model with 32 billion activated parameters and 1 trillion total parameters. We propose the MuonClip optimizer, which improves upon Muon with a novel QK-clip technique to address training insta

2025-07-22 18:25:37 788

原创 python如何生成 requirements.txt文件

环境不一致导致安装失败。：生成文件包含无关包。

2025-07-22 17:03:35 315

原创【Labelme数据标注】自制Labelme数据筛选工具

背景说明： Labelme 是常用的标注工具，但缺乏数据筛选功能。目前，我已利用训练好的模型对未标注数据进行测试，并将其转换为 Labelme 格式。然而，转换结果中包含许多错误数据。为了扩充现有数据集，我需要在数据制作过程中排除这些错误数据，筛选出正确样本。所需功能：读取并展示：能够读取数据集文件夹，并展示其中的 Labelme 格式数据。数据筛选：支持筛选符合特定条件的数据。数据迁移：将筛选出的正确数据复制到指定位置。

2025-07-22 11:25:34 265

原创大模型变身复读机？揭秘原因与实用解药

在特定条件下（数据模式、注意力聚焦、自我强化效应），选择重复已生成的内容，在模型的“世界观”里，可能恰恰是当前最“合理”（概率最高）的选择。我们通过各种策略（数据、训练、解码参数、提示、后处理），本质上都是在引导或“修正”模型的这种概率选择倾向，使其输出更符合人类的期望——流畅、多样、富有创造力。），并灵活运用调整生成参数（温度、Top-p、重复惩罚）、优化提示词、选择更优模型等策略，我们可以显著缓解这一问题，让大模型真正发挥其作为强大信息处理和创意助手的潜力。通过理解其背后的原因（尤其是强大的。

2025-07-14 23:00:00 831

原创 AI开源伦理临大考，如何判定抄袭

华为至今未回应内部爆料，而GitHub原文已悄然消失。这场罗生门没有赢家：若指控属实，中国大模型的“国产化”叙事将遭遇信任坍塌；若纯属误判，则凸显AI时代判定原创的技术与伦理标准仍处混沌。当全球AI竞赛进入白热化，华为盘古事件如同一面镜子，映照出所有参赛者的共同困境——如何在巨人的肩膀站稳时，不踩碎脚下的基石。

2025-07-08 07:11:58 1487

原创【跟踪实战】手把手教你SFSORT跟踪实战

bbox, x。

2025-07-07 13:25:26 446

原创 SFSORT：基于场景特征的简易在线实时跟踪器

本文介绍了SFSORT——经MOT挑战数据集实验验证的全球最快多目标跟踪系统。为实现高精度且计算高效的跟踪器，本文采用基于在线实时跟踪的检测跟踪方法（该方法是先前文献中已确立的）。通过引入一种名为边界框相似度指数（BoundingBoxSimilarityIndex）的新型代价函数，本研究摒弃了卡尔曼滤波器，从而降低了计算需求。此外，本文还展示了场景特征对增强目标-轨迹关联及改进轨迹后处理的影响。

2025-07-03 17:36:16 1206

原创 OmniGen2: Exploration to Advanced Multimodal Generation

https://arxiv.org/pdf/2506.18871v2In this work, we introduce OmniGen2,a versatile and open-source generative model designed to provide a unified solution for diverse generation tasks, including text-to-image, image editing, and in-context generation. Unlik

2025-07-03 09:02:09 1014

原创超图YOLO（Hyper-YOLO）：当视觉目标检测邂逅超图计算

我们提出了一种名为Hyper-YOLO的新型目标检测方法，该方法通过整合超图计算来捕捉视觉特征间复杂的高阶关联性。传统YOLO模型虽然功能强大，但其颈部设计存在局限性，限制了跨层级特征的融合以及对高阶特征间相互关系的利用。为应对这些挑战，我们提出了基于超图计算的语义聚合与分散框架（Hypergraph Computation Empowered Semantic Collecting and Scattering，HGC-SCS），该框架将视觉特征图转换到语义空间，并构建超图以实现高阶消息传播。

2025-07-02 07:17:01 945

原创 DEIM: DETR with Improved Matching for Fast Convergence

我们引入了DEIM，这是一种创新且高效的训练框架，旨在加速基于Transformer架构（DETR）的实时目标检测的收敛速度。为缓解DETR模型中一对一（O2O）匹配所固有的稀疏监督问题，DEIM采用了密集一对一（Dense O2O）匹配策略。该方法通过运用标准数据增强技术，在每张图像中纳入更多目标以增加正样本数量。尽管Dense O2O匹配加速了收敛，但也引入了大量低质量匹配，可能影响性能。

2025-07-02 06:12:18 1071

原创 D-FiNE：在DETR模型中重新定义回归任务为精细粒度分布细化

我们提出了D-FINE，这是一款强大的实时目标检测器，通过重新定义DETR模型中的边界框回归任务，实现了出色的定位精度。D-FINE包含两个关键组件：精细粒度分布细化（Fine-grained Distribution Refinement，FDR）和全局最优定位自蒸馏（Global Optimal Localization Self-Distillation，GO-LSD）。FDR将回归过程从预测固定坐标转变为迭代细化概率分布，提供了精细粒度的中间表示，显著提高了定位精度。

2025-06-29 20:54:47 1239 1

MobileViG-基于图的稀疏注意移动视觉应用.pdf

论文翻译

2023-07-25

Vim实战：使用Vim实现图像分类任务

Vim作为一种高效的视觉模型，具有计算和内存效率高、处理高分辨率图像能力强等优点。这使得Vim成为下一代视觉基础模型的理想选择。本文使用Vim模型实现图像分类任务，模型选择最小的vim_tiny_patch16_224_bimambav2_final_pool_mean_abs_pos_embed_rope_also_residual_with_cls_token（这个方法的名字比较长。。。。。），在植物幼苗分类任务ACC达到了93%+。文章链接： https://wanghao.blog.csdn.net/article/details/135921108?spm=1001.2014.3001.5502

2024-01-30

Hiera-MAE-Demo.zip

https://wanghao.blog.csdn.net/article/details/136443023?spm=1001.2014.3001.5502

2024-03-05

EfficientVMamba实战：使用 EfficientVMamba实现图像分类任务

作者研究了轻量级模型设计的新方法，通过引入视觉状态空间模型（SSM）以提高效率和性能。提出了一种名为EcientVMamba的高效模型变体，结合选择性扫描和有效跳跃采样，同时利用全局和局部表示特征。EcientVMamba在多种视觉任务中取得了具有竞争力的结果，并降低了计算复杂度。文章还探讨了SSMs在视觉任务中的应用，并指出现有轻量级模型在保持全局表示能力方面的挑战。本文使用EcientVMamba模型实现图像分类任务，模型选择最小的EcientVMamba_T，在植物幼苗分类任务ACC达到了93%+，达到了ViM的水平。。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/137253836

2024-04-02

TransNext-Demo.zip

2024-03-16

YoloV8改进策略：CoordConv给卷积加上坐标，从而使其具备了空间感知能力.zip

2024-02-21

MogaNet实战：使用MogaNet实现图像分类任务

作者多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。提出了一种新的纯卷积神经网络架构族，称为MogaNet。MogaNet具有出色的可扩展性，在ImageNet和其他多种典型视觉基准测试中，与最先进的模型相比，其参数使用更高效，且具有竞争力的性能。具体来说，MogaNet在ImageNet上实现了80.0%和87.8%的Top-1准确率，分别使用了5.2M和181M参数，优于ParC-Net-S和ConvNeXt-L，同时节省了59%的浮点运算和17M的参数。源代码可在GitHub上(https://github.com/Westlake-AI/MogaNet)获取。文章链接：https://wanghao.blog.csdn.net/article/details/136102061?spm=1001.2014.3001.5502

2024-02-12

YoloV8改进-三元注意力，小参数大能力，即插即用，涨点自如

注意力机制在计算机视觉领域得到了广泛的研究和应用，利用构建通道或空间位置之间的依赖关系的能力，有效地应用于各种计算机视觉任务。本文研究了轻量级但有效的注意力机制，并提出了一种新的计算注意力权重的方法——三元组注意力，通过一个三分支结构捕捉跨维度交互。对于输入张量，三元组注意力通过旋转操作和残差变换建立跨维度的依赖关系，并以极小的计算开销编码了跨通道和空间信息。这种方法既简单又高效，可以轻松地插入经典的主干网络中作为附加模块。在各种具有挑战性的任务中，如ImageNet-1k图像分类和MSCOCO和PASCAL VOC数据集上的目标检测，证明了该方法的有效性。此外，通过可视化检查GradCAM和GradCAM++结果，提供了对三元组注意力性能的深入见解。本文方法的实证评估支持了在计算注意力权重时捕捉跨维度依赖关系的重要性的直觉。

2024-02-05

FlashInternImage实战：使用FlashInternImage实现图像分类任务

将DCNv3替换为DCNv4创建的FlashInternImage模型可实现高达80%的速度提升和进一步性能改进，无需其他修改。DCNv4在速度和效率上的优势，结合其在各种视觉任务中的稳健性能，使其成为未来视觉模型的潜在基础构建块。文章链接： https://wanghao.blog.csdn.net/article/details/135873073?spm=1001.2014.3001.5502

2024-01-27

UniRepLKNet实战：使用UniRepLKNet实现图像分类任务

大核卷积神经网络（ConvNets）近年来受到广泛关注，但仍存在两个关键问题需要进一步研究。首先，目前的大型卷积神经网络架构大多遵循传统卷积神经网络或Transformer的设计原则，而大核ConvNets的架构设计仍未得到充分解决。其次，尽管Transformer已在多种模态中占据主导地位，但仍需研究卷积神经网络是否也具备超越视觉领域的强大通用感知能力。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/135512795

2024-01-13

TransXNet实战：使用TransXNet实现图像分类任务

在ImageNet-1K图像分类任务中，TransXNet-T相比Swin-T在top-1准确率上提高了0.3%，同时计算成本更低。此外，TransXNet-S和TransXNet-B展示了出色的模型扩展性，分别实现了83.8%和84.6%的top-1准确率，且计算成本合理。此外，我们的网络架构在各种密集预测任务中展现出了强大的泛化能力，优于其他先进的网络结构，且计算成本更低。总之，D-Mixer和TransXNet作为一种高效且具有强大泛化能力的网络结构，为计算机视觉领域提供了新的解决方案。这篇文章使用TransXNet完成植物分类任务，模型采用transxnet_t向大家展示如何使用TransXNet。transxnet_t在这个数据集上实现了96+%的ACC

2023-12-19

Hiera实战：使用Hiera实现图像分类任务

现代层次视觉变换器在追求监督分类表现时增加了几个特定于视觉的组件。这些组件虽然带来了有效的准确性和吸引人的FLOP计数，但增加的复杂性实际上使这些变换器比普通ViT更快。作者认为这种额外的体积是不必要的。通过使用强大的视觉预训练任务(MAE)进行预训练，可以从最先进的多阶段视觉变换器中去除所有花里胡哨的东西，同时不会丢失准确性。在此过程中，作者创建了Hiera，这是一种极其简单的层次视觉变换器，它比以前的模型更准确，同时在推理和训练过程中都明显更快。在各种任务上评估了Hiera对于图像和视频识别的表现。代码和模型可以在https://github.com/facebookresearch/hiera上获得。这篇文章使用Hiera完成植物分类任务，模型采用hiera_tiny_224向大家展示如何使用Hiera。原文链接：https://wanghao.blog.csdn.net/article/details/134642935

2023-12-07

RevCol实战：使用RevCol实现图像分类任务

可逆柱状结构（RevCol）是一种网络结构，它受到GLOM（Global Columnar Memory）的启发。RevCol由N个子网络（或称为列）组成，每个子网络的结构和功能都是相同的。这种结构可以有效地解决信息崩溃的问题，通过在前面的列中添加额外的监督，以保持特征和输入图像之间的互信息。此外，RevCol可以逐渐解耦语义和低级信息，从而提取和利用任务相关信息来进一步提高性能。在实现上，对于中间监督，采用了加权求和的方式将两个损失合并，对于所有变体的RevCol，通过实验确定将监督头添加到特定的列中。这篇文章使用RevCol完成植物分类任务，模型采用revcol_tiny向大家展示如何使用RevCol。revcol_tiny在这个数据集上实现了96+%的ACC，

2023-11-25

Sgformer实战：使用Sgformer实现图像分类任务

2023-09-11

nougat的权重文件

nougat权重文件

2023-09-05

定时任务库的详解与魅力应用：探索schedule的无尽可能性.pdf

定时任务库的详解与魅力应用：探索schedule的无尽可能性

2023-08-30

FastVIT实战：使用FastVIT实现图像分类

第一步执行makedata.py 创建训练集和验证集第二步执行train.py训练第三步执行export_model.py 导出模型第四步执行test.py 测试非常简单，适合初学者

2023-08-21

DERT：论文详细翻译

2023-08-15

VGGNet剪枝实战：使用VGGNet训练、稀疏训练、剪枝、微调等，剪枝出只有3M的模型

在BN层网络中加入稀疏因子，训练使得BN层稀疏化，对稀疏训练的后的模型中所有BN层权重进行统计排序，获取指定保留BN层数量即取得排序后权重阈值thres。遍历模型中的BN层权重，制作各层mask（权重>thres值为1，权重<thres值为0）。剪枝操作，根据各层的mask构建新模型结构（各层保留的通道数），获取BN层权重mask非零值的索引，非零索引对应的原始conv层、BN层、linear层各通道的权重、偏置等值赋值给新模型各层。加载剪枝后模型，进行fine-tune。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/132054977

2023-08-07

EMO实战：使用EMO实现图像分类任务

2023-07-31

OverLoCK实战：使用OverLoCK实现图像分类任务

OverLoCK是一种全新的卷积神经网络（ConvNet）架构，旨在模仿人类视觉系统中的“纵观全局-聚焦细节”（Overview-first-Look-Closely-next）双阶段认知机制。该架构通过引入自上而下的注意机制，结合动态卷积技术，显著提升了模型在图像分类、目标检测和语义分割等视觉任务中的性能。其核心设计包括深层分解策略（Deep-stage Decomposition Strategy, DDS）和上下文混合动态卷积（Context-Mixing Dynamic Convolution, ContMix），以有效建模长距离依赖关系，同时保留局部归纳偏差。实验表明，OverLoCK在多个基准任务中超越了现有的ConvNet和Transformer架构，同时显著降低了计算成本[3][4][9]。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/147011934

2025-05-19

SparX实战：使用SparX实现图像分类任务

SparX是一种新提出的稀疏跨层连接机制，旨在提升视觉Mamba和Transformer网络的性能。该论文由香港大学的俞益洲教授及其研究团队撰写，并将在AAAI 2025会议上发表。论文的主要目标是解决现有视觉模型在跨层特征聚合方面的不足，尤其是在计算复杂度较高的Mamba模型中[5][6][7]。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/145376426

2025-01-29

DFFormer实战：使用DFFormer实现图像分类

## 论文信息 **标题**: FFT-based Dynamic Token Mixer for Vision **论文链接**: https://arxiv.org/pdf/2303.03932 ## 创新点本论文提出了一种新的令牌混合器，称为**动态滤波器（Dynamic Filter）**，旨在解决多头自注意力（MHSA）模型在处理高分辨率图像时的计算复杂度问题。传统的MHSA模型在输入特征图的像素数量增加时，其计算复杂度呈二次增长，导致处理速度缓慢。通过引入基于快速傅里叶变换（FFT）的动态滤波器，论文展示了在保持全局操作能力的同时，显著降低计算复杂度的可能性。链接：https://wanghao.blog.csdn.net/article/details/145368717?spm=1001.2014.3001.5502

2025-01-27

CrossFormer实战：使用CrossFormer实现图像分类任务

CrossFormer是一种新型的视觉Transformer架构，旨在通过引入跨尺度注意力机制来提升计算机视觉任务的性能。该模型特别关注不同尺度特征之间的交互，解决了现有视觉Transformer在处理多尺度特征时的不足。链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/145055796?spm=1001.2014.3001.5501

2025-01-12

DilateFormer实战：使用DilateFormer实现图像分类任务

## 创新点 - **多尺度扩张注意力（MSDA）**：通过分析ViTs中全局注意力的斑块交互，发现注意力矩阵在浅层具有局部性和稀疏性。基于此，提出了MSDA，通过在周围稀疏选择的斑块中进行自注意力计算，同时捕获多尺度语义依赖。 - **滑动窗口扩张注意力（SWDA）**：作为MSDA的一部分，SWDA在局部邻域内执行自注意力，进一步利用感受野内的信息。 - **金字塔架构**：采用金字塔架构来发展DilateFormer模型，在浅层阶段堆叠MSDA以捕获低层信息，在深层阶段使用全局多头自注意力以建模高层信息。本文使用DilateFormer模型实现图像分类任务，模型选择dilateformer_tiny，在植物幼苗分类任务ACC达到了89%+。

2024-12-26

Yolo11s的Objects365预训练权重

Yolo11s的Objects365预训练权重，训练了10个epoch，可以用来做预训练模型。

2024-12-06

VOLO实战：使用VOLO实现图像分类任务

本文介绍了一种新颖的视觉前景器（VOLO）主干网络，通过提出前景注意力机制和构建两个阶段的架构，实现了在ImageNet分类任务上的卓越性能。同时，VOLO在语义分割任务上也表现出了出色的性能。VOLO的提出为视觉识别领域带来了新的突破和进展。本文使用VOLO模型实现图像分类任务，模型选择volo_d1，在植物幼苗分类任务ACC达到了85%+。

2024-11-25

DeBiFormer实战：使用DeBiFormer实现图像分类任务

本文介绍的DeBiFormer是一种专为图像分类和密集预测任务设计的新型分层视觉Transformer。通过提出可变形双级路由注意力（DBRA），优化了查询-键-值交互，自适应选择语义相关区域，实现了更高效和有意义的注意力。实验结果表明，DeBiFormer在多个计算机视觉任务上均表现出色，为设计灵活且语义感知的注意力机制提供了见解。本文使用DeBiFormer模型实现图像分类任务，模型选择debi_tiny，在植物幼苗分类任务ACC达到了82%+。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/142706712

2024-11-07

NextVit-Demo.zip

2024-10-04

EfficientFormer实战：使用EfficientFormerV2实现图像分类任务

EfficientFormerV2是一种通过重新思考ViT设计选择和引入细粒度联合搜索策略而开发出的新型移动视觉骨干网络。它结合了卷积和变换器的优势，通过一系列高效的设计改进和搜索方法，实现了在移动设备上既轻又快且保持高性能的目标。这一成果为在资源受限的硬件上有效部署视觉变换器模型提供了新的思路原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/142367223

2024-09-19

GCViT实战：使用GCViT实现图像分类任务

GC ViT（全局上下文视觉转换器）是一种创新的深度学习架构，旨在提升计算机视觉任务中的参数和计算效率。它通过将全局上下文自注意力模块与标准的局部自注意力相结合，有效地建模长程和短程空间交互，同时避免了传统方法中的昂贵操作，如计算注意力掩码或移动局部窗口。GC ViT解决了Vision Transformer（ViT）中归纳偏差缺失的问题，并通过引入改进的融合倒置残差块来增强性能。在多个视觉任务（如图像分类、目标检测和语义分割）中，GC ViT均取得了最先进的结果。原文链接：https://blog.csdn.net/m0_47867638/article/details/141654892

2024-09-02

CAS-ViT实战：使用CAS-ViT实现图像分类任务

CAS-ViT（Convolutional Additive Self-attention Vision Transformer）通过一系列创新，成功实现了计算与效率的平衡。其核心在于提出了一种新颖的加性相似度函数和卷积加性标记混合器（Convolutional Additive Token Mixer, CATM），这一设计显著降低了计算开销。原文链接：https://blog.csdn.net/m0_47867638/article/details/141404169

2024-08-22

GroupMamba实战：使用GroupMamba实现图像分类任务

状态空间模型（SSM）的最新进展展示了在具有次二次复杂性的长距离依赖建模中的有效性能。GroupMamba解决了将基于SSM的模型扩展到计算机视觉领域的挑战，特别是大型模型尺寸的不稳定性和低效性。GroupMamba在ImageNet-1K的图像分类、MS-COCO的目标检测和实例分割以及ADE2OK的语义分割方面，相比现有方法取得了更优的性能。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/140775861

2024-07-31

EfficientMod实战：使用EfficientMod实现图像分类任务

论文提出了一种名为“高效调制（EfficientMod）”的新型设计，旨在提升视觉网络在准确性和效率之间的权衡。作者重新审视了现有的调制机制，该机制通过卷积上下文建模和特征投影层处理输入，并通过逐元素乘法和多层感知机（MLP）块融合特征。为了进一步提升效率，作者设计了EfficientMod块，作为他们网络的基本构建块。 EfficientMod的优势在于其能够利用调制机制的卓越表示能力，同时通过简化设计来减少计算冗余和延迟。与传统的自注意力机制相比，EfficientMod的计算复杂度与图像大小呈线性关系，而不是与标记数量呈立方关系，这使得它在处理大规模图像时更加高效。此外，与现有的高效卷积网络如FocalNet和VAN相比，EfficientMod块更为简单，但保留了它们的主要优点，如使用大核卷积块进行上下文建模和通过调制来增强特征表示。 https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/140520113

2024-07-20

RDNet实战：使用RDNet实现图像分类任务

论文提出的模型主要基于对传统DenseNet架构的改进和复兴，通过一系列创新设计，旨在提升模型性能并优化其计算效率，提出了RDNet模型。该模型的主要特点和改进点： ### 1. 强调并优化连接操作（Concatenation）论文首先强调了DenseNet中连接操作（Concatenation）的重要性，并通过广泛的实验验证了连接操作在性能上能够超越传统的加法快捷连接（Additive Shortcut）。这一发现促使研究者们重新审视并优化DenseNet的连接机制。

2024-07-09

YoloV8改进策略-注意力篇-Block改进-附结构图-自研基于xLSTM的注意力

本文使用Vision-LSTM的xLSTM改进YoloV8的Bottleneck结构，增加自研的注意力机制，取得了不错的得分。如果大家想发顶会，或者比较好的期刊，可以优先考虑！包含完整代码和PDF文章

2024-07-01

YoloV8摔倒检测完整代码

YoloV8摔倒检测完整代码，包含代码和数据集！打开就可以使用！搜集了多个数据集。

2024-06-24

StarNet实战：使用StarNet实现图像分类任务

论文主要集中在介绍和分析一种新兴的学习范式——星操作（Star Operation），这是一种通过元素级乘法融合不同子空间特征的方法，通过元素级乘法（类似于“星”形符号的乘法操作）将不同子空间的特征进行融合，从而在多个研究领域中展现出出色的性能和效率。星操作在自然语言处理（NLP）和计算机视觉（CV）等多个领域中都得到了成功应用。例如，在自然语言处理中，Monarch Mixer、Mamba、Hyena Hierarchy和GLU等模型都采用了星操作；在计算机视觉中，FocalNet、HorNet和VAN等模型也利用了星操作进行特征融合。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139712515

2024-06-17

Vision-LSTM（ViL）实战：使用Vision-LSTM（ViL）实现图像分类任务

Vision-LSTM（ViL）架构的核心是xLSTM块。每个xLSTM块都包含一个输入门、一个遗忘门、一个输出门和一个内部记忆单元。与传统的LSTM相比，xLSTM引入了指数门控机制，使得模型能够更好地处理长序列数据。同时，xLSTM采用可并行化的矩阵内存结构，提高了模型的计算效率。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139582259

2024-06-11

MobileNetV4实战：使用MobileNetV4实现图像分类任务

MobileNetV4，作为新一代移动设备神经网络架构，凭借其创新的通用倒置瓶颈UIB块和Mobile MQA注意力块，实现了计算效率和运行速度的显著提升。该架构通过精炼的神经架构搜索NAS方法，创建了多个卓越性能的移动设备模型。新型知识蒸馏技术进一步提高了模型准确性，而Mobile MQA块相较于传统多头注意力，在移动加速器上实现了显著的推理加速。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139452661

2024-06-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人