- 博客(1598)
- 资源 (166)
- 收藏
- 关注
原创 GQA:从多头检查点训练广义多查询Transformer模型
多查询注意力(MQA)仅使用单个键-值头,能大幅加速解码器推理。然而,MQA可能导致质量下降,而且专门为更快的推理训练单独的模型可能并不可取。我们:(1) 提出了一种从现有多头语言模型检查点Uptraining具有MQA的模型的方案,仅需原始预训练计算量的5%;(2) 引入了分组查询注意力(GQA),这是多查询注意力的一种泛化,它使用中间数量(多于一个但少于查询头数量)的键-值头。我们表明,Uptraining的GQA在接近多头注意力质量的同时,速度与MQA相当。
2025-08-13 22:00:08
459
原创 快速Transformer解码:一个写头就足够了
Transformer神经序列模型中使用的多头注意力层是一种强大的替代RNN的方法,用于在序列内部和序列之间传递信息。虽然由于序列长度上的并行化,训练这些层通常快速且简单,但增量推理(在这种情况下并行化是不可能的)通常较慢,这是由于反复加载大型"键"和"值"张量所带来的内存带宽成本。我们提出了一种称为多查询注意力的变体,其中键和值在所有不同的注意力"头"之间共享,大大减少了这些张量的大小,从而降低了增量解码的内存带宽需求。
2025-08-13 21:35:55
709
原创 多查询注意力(MQA):让大模型推理飞起来的秘密武器
在了解MQA之前,我们先简单回顾一下Transformer模型中的多头注意力机制(MHA)。MHA是让模型能够同时关注输入序列中不同位置信息的关键技术,它通过多个"注意力头"来捕捉不同的语义关系。而MQA则是MHA的一个精简版本:它保留了多个查询(query)头,但所有查询头共享同一个键(key)和值(value)头。这个看似简单的改动,却带来了惊人的性能提升!MQA代表了大模型高效推理的重要方向——在保持模型能力的同时,大幅降低计算和内存需求。
2025-08-13 21:14:32
516
原创 ImportError: libhccl.so: cannot open shared object file: No such file or directory
注意:您需要有华为昇腾 NPU 硬件才能实际使用这些功能。如果您的服务器没有 NPU 硬件,即使解决了库路径问题,您也无法使用 NPU 加速。在这种情况下,建议使用标准的 PyTorch 安装(CPU 或 CUDA 版本)并修改代码以移除对。文件的位置,这很好!问题在于系统在运行时找不到这个库文件。虽然文件存在于文件系统中,但动态链接器不知道在哪里查找它。,我们告诉系统在哪里可以找到这些必要的库文件。系统会在预定义的路径中搜索这些库,而。要使设置永久生效,将以下内容添加到。不在默认搜索路径中。
2025-08-12 09:50:38
351
原创 ModuleNotFoundError: No module named ‘importlib_metadata‘
安装完成后,请重新运行您的程序,应该可以解决这个ModuleNotFoundError问题。如果仍然遇到问题,可能需要检查您的PyTorch和torch_npu版本是否兼容。这是一个常见的依赖问题,特别是在PyTorch分布式组件中。包(注意安装时使用连字符,但导入时使用下划线)。激活虚拟环境后安装此包即可解决错误。这是搜索结果中确认有效的解决方案。根据错误日志和搜索结果,您遇到了。这个错误是因为您的环境中缺少。
2025-08-12 09:46:45
234
原创 从GPT-2到gpt-oss:架构演进分析
在深入讨论架构细节之前,让我们先概览一下图1中所示的两个模型:gpt-oss-20b和gpt-oss-120b。如果您之前看过最近的LLM架构图,或阅读过我之前的《大模型架构比较》文章,您可能会注意到乍看之下没有什么新颖或不寻常的地方。这并不奇怪,因为领先的LLM开发者往往使用相同的基线架构,然后进行较小的调整。这些实验室之间存在显著的员工流动。我们仍未找到比Transformer架构更好的替代方案。
2025-08-12 06:56:49
1080
原创 GPT-5震撼发布!它不会写诗,却让程序员集体沸腾:这才是真正的AGI黎明
GPT-5的真正意义不在于它本身有多强大,而在于它展示了通过工具扩展智能的可行路径。就像人类通过工具超越了生理限制,AI也将通过工具超越模型本身的局限。“一切都始于GPT-5学会使用工具的那一天。有趣的是,文章最后提到:“嗯……Sam两年前的待办事项清单仍未完成……”也许,真正的AGI到来之日,就是Sam的待办事项全部完成之时。但在此之前,让我们拥抱这个工具智能的新时代——毕竟,学会使用工具,才是智能的真正开始。你怎么看GPT-5的"工具思维"?欢迎在评论区分享你的观点!
2025-08-12 06:06:53
607
原创 RuntimeError: Failed to load the backend extension: torch_npu. You can disable extension auto-loadin
根据您之前尝试运行的自注意力机制代码(来自知识库中的内容),这些是标准的 PyTorch 代码,不需要 NPU 支持。是 PyTorch 用于华为昇腾(NPU)处理器的专用后端。当您在没有 NPU 硬件的普通系统上运行代码时,经常会遇到此错误。是最简单有效的解决方案,它会告诉 PyTorch 不要尝试自动加载 NPU 后端扩展。完成上述任一操作后,您应该能够正常运行自注意力机制和其他标准 PyTorch 代码。这个错误表明您的系统尝试加载。
2025-08-11 17:17:47
240
原创 最优扩展大型语言模型测试时计算量可能比扩展模型参数更有效
遵循Lightman等人[22]的方法,我们基于基础LLM定义问题难度。具体来说,我们将模型在测试集每个问题上的pass@1率(通过2048个样本估计)划分为五个分位数,分别对应递增的难度等级。我们发现,这种基于模型的难度分箱比MATH数据集中的手工标注难度更能预测测试时计算的有效性。需注意,上述难度评估假设可访问地面真实正确性检查函数,而实际部署时我们无法知晓测试提示的答案。因此,基于难度的计算最优策略需首先评估问题难度,再利用对应策略解决。
2025-08-10 10:44:01
1153
原创 理解与编码LLM中的自注意力、多头注意力、因果注意力和交叉注意力
现在,让我们讨论广泛使用的自注意力机制,即缩放点积注意力(scaled dot-product attention),这是transformer架构中不可或缺的一部分。自注意力机制利用三个权重矩阵,分别称为WqW_qWqWkW_kWk和WvW_vWv,这些矩阵在训练过程中作为模型参数进行调整。这些矩阵分别用于将输入投影到序列的查询(query)、键(key)和值(value)分量中。通过权重矩阵WWW与嵌入输入xxx查询序列:对于序列1...T1...T。
2025-08-09 08:01:44
945
原创 YOLO-Count:用于文本到图像生成的可微分目标计数
我们提出的YOLO-Count基于YOLO-World架构[9],由三个主要组件组成:(1)视觉骨干,(2)视觉-语言路径聚合网络(VLPAN),以及(3)预测头。图2展示了整体流程并突出了我们的关键架构修改。视觉骨干。YOLO-Count中的视觉骨干遵循YOLOv8l [23]和YOLO-World-L [9]的设计。它包含五个卷积模块(ConvModules)和跨阶段部分层(CSPLayers)阶段。给定输入图像I∈R640×640×3I∈R640×640×3f0f。
2025-08-08 21:35:45
888
原创 深度解析:推理大模型如何改变AI格局?四种构建方法与低成本实践指南
想象一下,当孩子问你"2+3等于几"时,你直接回答"5";但当他们问"为什么2+3=5"时,你需要解释加法的概念。传统大语言模型更像是前者——提供直接答案;而推理模型则是后者——展示思考过程。在技术定义上,推理模型是指能够处理需要复杂、多步骤生成并包含中间步骤的问题的AI系统。❌ 简单问答:“法国的首都是什么?”(不需要推理)✅ 复杂推理:“如果一列火车以每小时60英里的速度行驶3小时,它走了多远?推理大模型代表了AI发展的新方向——从"知道答案"到"理解思考过程"。
2025-08-08 07:04:47
574
原创 处理失败: module ‘fitz‘ has no attribute ‘open‘
【代码】处理失败: module ‘fitz‘ has no attribute ‘open‘
2025-08-07 13:55:53
173
原创 从DeepSeek-V3到Kimi K2,大型语言模型架构对比
本文系统性梳理了2025年主流开源LLM的架构创新,涵盖从DeepSeek-V3到Kimi K2的代表性设计。稀疏化与专家系统混合专家系统(MoE):DeepSeek-V3(671B)、Llama 4 Maverick(400B)、Qwen3(235B)均采用MoE架构,通过激活部分专家(如DeepSeek的9专家/2048隐藏层,Llama 4的2专家/8192隐藏层)平衡计算效率与模型容量。动态路由。
2025-08-07 06:19:35
1064
原创 SOD-YOLO:增强基于YOLO的无人机影像小目标检测
为验证我们提出的SOD-YOLO模型在无人机影像小目标检测中的有效性和鲁棒性,我们在多种场景下开展了广泛实验。评估目标:评估SOD-YOLO在复杂航拍场景中检测小目标和密集目标的能力,并验证其对基线YOLOv8-m模型的改进效果。评估指标:我们主要报告IoU阈值为0.5([email protected])和0.5:0.95([email protected])的平均精度(mAP),以及数据集定义的小目标检测专项指标。对比基线。
2025-08-06 13:14:38
1182
原创 Qwen-Image技术报告
与传统模型仅优化 photorealism(真实感)或美学质量(“AI风格”)不同,Qwen-Image强调文本与图像的精准对齐——尤其在具有挑战性的文本渲染任务中。我们设想,通过强化基础模型的这一能力,未来交互界面可从纯语言驱动的LUIs(语言用户界面)演变为视语融合的VLUIs(视语用户界面)。当LLMs(大型语言模型)难以传达颜色、空间关系或结构布局等视觉属性时,基于Qwen-Image的VLUI可生成图文融合的丰富图像——实现结构化视觉解释和有效的知识外化,将复杂概念转化为可理解的多模态表达。
2025-08-06 06:44:38
876
原创 深入剖析通用目标跟踪:一项综述
通用目标跟踪仍是计算机视觉领域一项重要且具有挑战性的任务,其难点在于复杂的时空动态变化,尤其在存在遮挡、相似干扰物和外观变化的情况下。过去二十年间,为应对这些挑战,研究者提出了多种跟踪范式,包括基于孪生网络的跟踪器、判别式跟踪器以及近期突出的基于Transformer的方法。尽管现有综述论文或聚焦单一类别,或广泛覆盖多类以追踪进展,但本文对三类方法均进行了全面综述,尤其强调快速发展的基于Transformer的方法。我们通过定性与定量比较,分析了各类方法的核心设计原则、创新点及局限性。
2025-08-04 22:22:49
1257
原创 国产AI编程辅助插件分析
随着技术进步,国产工具有望在全球AI编程领域占据更大份额。(注:部分工具需注册账号并登录后使用,建议优先试用免费版本。
2025-08-03 11:55:04
832
1
原创 【已解决】WslRegisterDistribution failed with error: 0x80370114
点击启用或关闭Windows功能,然后勾选Windows虚拟机监控程序平台。
2025-08-03 07:30:14
192
原创 SmartCLIP:具有识别保证的模块化视觉-语言对齐
对比语言-图像预训练(Contrastive Language-Image Pre-training,CLIP)[37]已成为计算机视觉和多模态学习中的关键模型,通过对比学习实现了视觉和文本表示对齐方面的最优性能。然而,CLIP在许多图像-文本数据集中存在潜在的信息不对齐问题,并且存在表示纠缠的情况。一方面,像MSCOCO这类数据集中,单个图像的简短描述可能仅涵盖图像中互不重叠的区域,导致模型不确定应保留或忽略哪些视觉特征。
2025-08-02 21:50:50
1101
原创 测试时扩散的深度研究助手
由大语言模型(LLMs)驱动的深度研究助手正在迅速发展,然而,在使用通用的测试时扩展算法生成复杂的长篇研究报告时,其性能往往会趋于平稳。受人类研究迭代性的启发,人类研究包括搜索、推理和修订的循环过程,我们提出了测试时扩散深度研究助手(Test-Time Diffusion Deep Researcher,TTD-DR)。这一新框架将研究报告的生成视为一个扩散过程。TTD-DR以初步草稿为起点,这一可更新的框架作为不断演进的基础,引导研究方向。
2025-08-02 17:52:22
950
原创 自进化智能体综述:通往人工超级智能之路
大型语言模型(LLMs)在各种任务中展现出了卓越的能力,但本质上仍然是静态的,无法根据新任务、不断演进的知识领域或动态交互环境调整其内部参数。随着大型语言模型越来越多地部署在开放、交互式环境中,这种静态特性已成为关键瓶颈,需要能够实时自适应推理、行动和演化的智能体。这一范式转变——从扩展静态模型到开发自进化智能体——引发了人们对能够从数据、交互和经验中持续学习和适应的架构与方法的日益浓厚的兴趣。
2025-08-02 17:10:19
1412
原创 基于Redis自动过期的流处理暂停机制
基于Redis自动过期的流处理暂停机制是一种高效、可靠且易于实现的解决方案。防止延时过大的数据影响实时处理自动恢复处理,减少人工干预共享状态,支持分布式部署优化资源使用,提升系统整体效率这种机制不仅适用于视频流处理系统,也可应用于任何需要根据数据延迟动态调整处理策略的场景。
2025-08-02 14:31:51
417
原创 conda : 无法将“conda”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径,请确保路径正
添加系统变量,右键点击此电脑,再单击属性,打开系统设置界面。然后,点击确定,关闭界面。
2025-08-02 10:24:24
286
原创 Redis 键值对操作详解:Python 实现指南
场景推荐操作替代方案添加小数据SETHSET(对象)添加大数据HSET/MSET分批次添加添加临时数据SETEX删除小数据DELETEUNLINK删除大数据UNLINK无批量操作管道 + MSET/UNLINK单独命令添加操作使用set()添加单个键值对使用mset()批量添加多个键值对使用setex()添加带过期时间的键值对删除操作优先使用unlink()进行删除(尤其大型数据)仅在需要立即释放内存时使用delete()批量删除时结合管道提高效率。
2025-07-29 18:00:39
2034
原创 Qwen3嵌入:通过基础模型推进文本嵌入与重排序
在本研究中,我们推出了Qwen3嵌入(Embedding)系列模型。该系列模型基于Qwen3基础模型构建,在文本嵌入和重排序能力方面相较于前代GTE-Qwen系列实现了显著提升。我们利用Qwen3大语言模型(LLMs)在多语言文本理解与生成方面的强大能力,设计了一种创新的多阶段训练流程,将大规模无监督预训练与高质量数据集上的监督微调相结合。此外,有效的模型融合策略进一步确保了Qwen3嵌入系列模型的鲁棒性和适应性。
2025-07-28 20:15:00
839
原创 突破性进化:放弃思考,通义千问Qwen3-235B-A22B-Instruct-2507重塑大模型能力边界
类型:因果语言模型训练阶段:预训练 & 后训练参数数量:总共 235B,激活 22B非嵌入参数数量:234B层数:94 层注意力头数(GQA):Q 为 64 个,KV 为 4 个专家数量:128 个激活的专家数量:8 个上下文长度:原生支持 262,144注意:该模型仅支持非思考模式,并且不会在其输出中生成 块。同时,不再需要指定核心革新亮点全能性能跃迁推理与知识:在MMLU-Pro科学测试中得分83.0(较前代↑7.8分),GPQA专业问答准确率达77.5%
2025-07-24 06:47:45
1190
原创 PhysX:基于物理原理的 3D 资产生成
3D建模正从虚拟向物理领域拓展。现有的3D生成主要强调几何形状和纹理,而忽视了基于物理原理的建模。因此,尽管3D生成模型发展迅速,但合成的3D3D3D资产往往忽略了丰富且重要的物理属性,阻碍了它们在模拟和具身人工智能(AI)等物理领域的实际应用。作为应对这一挑战的初步尝试,我们提出了PhysX,这是一种用于基于物理原理的3D3D3D资产生成的端到端范式。1)为了弥补物理标注3D3D3D数据集的关键空白,我们推出了PhysXNet,这是首个在五个基础维度上系统标注的基于物理原理的3。
2025-07-23 06:55:30
627
原创 KIMI K2:开放式的智能体(Agentic)人工智能
We introduce Kimi K2, a Mixture-of-Experts (MoE) large language model with 32 billion activated parameters and 1 trillion total parameters. We propose the MuonClip optimizer, which improves upon Muon with a novel QK-clip technique to address training insta
2025-07-22 18:25:37
788
原创 【Labelme数据标注】自制Labelme数据筛选工具
背景说明: Labelme 是常用的标注工具,但缺乏数据筛选功能。目前,我已利用训练好的模型对未标注数据进行测试,并将其转换为 Labelme 格式。然而,转换结果中包含许多错误数据。为了扩充现有数据集,我需要在数据制作过程中排除这些错误数据,筛选出正确样本。所需功能:读取并展示: 能够读取数据集文件夹,并展示其中的 Labelme 格式数据。数据筛选: 支持筛选符合特定条件的数据。数据迁移: 将筛选出的正确数据复制到指定位置。
2025-07-22 11:25:34
265
原创 大模型变身复读机?揭秘原因与实用解药
在特定条件下(数据模式、注意力聚焦、自我强化效应),选择重复已生成的内容,在模型的“世界观”里,可能恰恰是当前最“合理”(概率最高)的选择。我们通过各种策略(数据、训练、解码参数、提示、后处理),本质上都是在引导或“修正”模型的这种概率选择倾向,使其输出更符合人类的期望——流畅、多样、富有创造力。),并灵活运用调整生成参数(温度、Top-p、重复惩罚)、优化提示词、选择更优模型等策略,我们可以显著缓解这一问题,让大模型真正发挥其作为强大信息处理和创意助手的潜力。通过理解其背后的原因(尤其是强大的。
2025-07-14 23:00:00
831
原创 AI开源伦理临大考,如何判定抄袭
华为至今未回应内部爆料,而GitHub原文已悄然消失。这场罗生门没有赢家:若指控属实,中国大模型的“国产化”叙事将遭遇信任坍塌;若纯属误判,则凸显AI时代判定原创的技术与伦理标准仍处混沌。当全球AI竞赛进入白热化,华为盘古事件如同一面镜子,映照出所有参赛者的共同困境——如何在巨人的肩膀站稳时,不踩碎脚下的基石。
2025-07-08 07:11:58
1487
原创 SFSORT:基于场景特征的简易在线实时跟踪器
本文介绍了SFSORT——经MOT挑战数据集实验验证的全球最快多目标跟踪系统。为实现高精度且计算高效的跟踪器,本文采用基于在线实时跟踪的检测跟踪方法(该方法是先前文献中已确立的)。通过引入一种名为边界框相似度指数(BoundingBoxSimilarityIndex)的新型代价函数,本研究摒弃了卡尔曼滤波器,从而降低了计算需求。此外,本文还展示了场景特征对增强目标-轨迹关联及改进轨迹后处理的影响。
2025-07-03 17:36:16
1206
原创 OmniGen2: Exploration to Advanced Multimodal Generation
https://arxiv.org/pdf/2506.18871v2In this work, we introduce OmniGen2,a versatile and open-source generative model designed to provide a unified solution for diverse generation tasks, including text-to-image, image editing, and in-context generation. Unlik
2025-07-03 09:02:09
1014
原创 超图YOLO(Hyper-YOLO):当视觉目标检测邂逅超图计算
我们提出了一种名为Hyper-YOLO的新型目标检测方法,该方法通过整合超图计算来捕捉视觉特征间复杂的高阶关联性。传统YOLO模型虽然功能强大,但其颈部设计存在局限性,限制了跨层级特征的融合以及对高阶特征间相互关系的利用。为应对这些挑战,我们提出了基于超图计算的语义聚合与分散框架(Hypergraph Computation Empowered Semantic Collecting and Scattering,HGC-SCS),该框架将视觉特征图转换到语义空间,并构建超图以实现高阶消息传播。
2025-07-02 07:17:01
945
原创 DEIM: DETR with Improved Matching for Fast Convergence
我们引入了DEIM,这是一种创新且高效的训练框架,旨在加速基于Transformer架构(DETR)的实时目标检测的收敛速度。为缓解DETR模型中一对一(O2O)匹配所固有的稀疏监督问题,DEIM采用了密集一对一(Dense O2O)匹配策略。该方法通过运用标准数据增强技术,在每张图像中纳入更多目标以增加正样本数量。尽管Dense O2O匹配加速了收敛,但也引入了大量低质量匹配,可能影响性能。
2025-07-02 06:12:18
1071
原创 D-FiNE:在DETR模型中重新定义回归任务为精细粒度分布细化
我们提出了D-FINE,这是一款强大的实时目标检测器,通过重新定义DETR模型中的边界框回归任务,实现了出色的定位精度。D-FINE包含两个关键组件:精细粒度分布细化(Fine-grained Distribution Refinement,FDR)和全局最优定位自蒸馏(Global Optimal Localization Self-Distillation,GO-LSD)。FDR将回归过程从预测固定坐标转变为迭代细化概率分布,提供了精细粒度的中间表示,显著提高了定位精度。
2025-06-29 20:54:47
1239
1
Vim实战:使用Vim实现图像分类任务
2024-01-30
Hiera-MAE-Demo.zip
2024-03-05
EfficientVMamba实战:使用 EfficientVMamba实现图像分类任务
2024-04-02
YoloV8改进策略:CoordConv给卷积加上坐标,从而使其具备了空间感知能力.zip
2024-02-21
MogaNet实战:使用MogaNet实现图像分类任务
2024-02-12
YoloV8改进-三元注意力,小参数大能力,即插即用,涨点自如
2024-02-05
FlashInternImage实战:使用FlashInternImage实现图像分类任务
2024-01-27
UniRepLKNet实战:使用UniRepLKNet实现图像分类任务
2024-01-13
TransXNet实战:使用TransXNet实现图像分类任务
2023-12-19
Hiera实战:使用Hiera实现图像分类任务
2023-12-07
RevCol实战:使用RevCol实现图像分类任务
2023-11-25
FastVIT实战:使用FastVIT实现图像分类
2023-08-21
VGGNet剪枝实战:使用VGGNet训练、稀疏训练、剪枝、微调等,剪枝出只有3M的模型
2023-08-07
OverLoCK实战:使用OverLoCK实现图像分类任务
2025-05-19
SparX实战:使用SparX实现图像分类任务
2025-01-29
DFFormer实战:使用DFFormer实现图像分类
2025-01-27
CrossFormer实战:使用CrossFormer实现图像分类任务
2025-01-12
DilateFormer实战:使用DilateFormer实现图像分类任务
2024-12-26
VOLO实战:使用VOLO实现图像分类任务
2024-11-25
DeBiFormer实战:使用DeBiFormer实现图像分类任务
2024-11-07
EfficientFormer实战:使用EfficientFormerV2实现图像分类任务
2024-09-19
GCViT实战:使用GCViT实现图像分类任务
2024-09-02
CAS-ViT实战:使用CAS-ViT实现图像分类任务
2024-08-22
GroupMamba实战:使用GroupMamba实现图像分类任务
2024-07-31
EfficientMod实战:使用EfficientMod实现图像分类任务
2024-07-20
RDNet实战:使用RDNet实现图像分类任务
2024-07-09
YoloV8改进策略-注意力篇-Block改进-附结构图-自研基于xLSTM的注意力
2024-07-01
StarNet实战:使用StarNet实现图像分类任务
2024-06-17
Vision-LSTM(ViL)实战:使用Vision-LSTM(ViL)实现图像分类任务
2024-06-11
MobileNetV4实战:使用MobileNetV4实现图像分类任务
2024-06-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人