
大模型
文章平均质量分 85
AI浩
2022年博客之星Top8,2021年博客之星Top6,博客专家,华为云云享专家,十佳博主,阿里云专家博主,拥有多项发明专利并参与过国家重大专项,拥有丰富的开发经验。注重理论与实践的结合,让AI学起来不再枯燥。如果大家在看文章的时候,发现了文章的错误,烦请指出,我会及时纠正。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深度解析分组查询注意力(GQA):大模型推理加速的革命性技术
GQA技术的真正价值不仅在于提升推理速度,更在于解决了大模型从实验室到生产环境的关键瓶颈。当Llama 3和Mistral能流畅生成万字长文,背后正是GQA在默默支撑。技术启示:在AI竞赛从"参数规模"转向"工程效率"的今天,“Attention is all you need"已演变为"Efficient Attention is what you deploy”✅ 新项目直接采用GQA架构(Hugging Face已全面支持)✅ 现有MHA模型考虑用5%训练量升级至GQA。原创 2025-08-15 07:13:27 · 247 阅读 · 0 评论 -
Uptraining的中文翻译
Uptraining是一个组合词,中文翻译如下:原创 2025-08-14 13:56:17 · 39 阅读 · 0 评论 -
GQA:从多头检查点训练广义多查询Transformer模型
多查询注意力(MQA)仅使用单个键-值头,能大幅加速解码器推理。然而,MQA可能导致质量下降,而且专门为更快的推理训练单独的模型可能并不可取。我们:(1) 提出了一种从现有多头语言模型检查点Uptraining具有MQA的模型的方案,仅需原始预训练计算量的5%;(2) 引入了分组查询注意力(GQA),这是多查询注意力的一种泛化,它使用中间数量(多于一个但少于查询头数量)的键-值头。我们表明,Uptraining的GQA在接近多头注意力质量的同时,速度与MQA相当。原创 2025-08-13 22:00:08 · 488 阅读 · 0 评论 -
快速Transformer解码:一个写头就足够了
Transformer神经序列模型中使用的多头注意力层是一种强大的替代RNN的方法,用于在序列内部和序列之间传递信息。虽然由于序列长度上的并行化,训练这些层通常快速且简单,但增量推理(在这种情况下并行化是不可能的)通常较慢,这是由于反复加载大型"键"和"值"张量所带来的内存带宽成本。我们提出了一种称为多查询注意力的变体,其中键和值在所有不同的注意力"头"之间共享,大大减少了这些张量的大小,从而降低了增量解码的内存带宽需求。原创 2025-08-13 21:35:55 · 734 阅读 · 0 评论 -
从GPT-2到gpt-oss:架构演进分析
在深入讨论架构细节之前,让我们先概览一下图1中所示的两个模型:gpt-oss-20b和gpt-oss-120b。如果您之前看过最近的LLM架构图,或阅读过我之前的《大模型架构比较》文章,您可能会注意到乍看之下没有什么新颖或不寻常的地方。这并不奇怪,因为领先的LLM开发者往往使用相同的基线架构,然后进行较小的调整。这些实验室之间存在显著的员工流动。我们仍未找到比Transformer架构更好的替代方案。原创 2025-08-12 06:56:49 · 1114 阅读 · 0 评论 -
GPT-5震撼发布!它不会写诗,却让程序员集体沸腾:这才是真正的AGI黎明
GPT-5的真正意义不在于它本身有多强大,而在于它展示了通过工具扩展智能的可行路径。就像人类通过工具超越了生理限制,AI也将通过工具超越模型本身的局限。“一切都始于GPT-5学会使用工具的那一天。有趣的是,文章最后提到:“嗯……Sam两年前的待办事项清单仍未完成……”也许,真正的AGI到来之日,就是Sam的待办事项全部完成之时。但在此之前,让我们拥抱这个工具智能的新时代——毕竟,学会使用工具,才是智能的真正开始。你怎么看GPT-5的"工具思维"?欢迎在评论区分享你的观点!原创 2025-08-12 06:06:53 · 785 阅读 · 0 评论 -
理解与编码LLM中的自注意力、多头注意力、因果注意力和交叉注意力
现在,让我们讨论广泛使用的自注意力机制,即缩放点积注意力(scaled dot-product attention),这是transformer架构中不可或缺的一部分。自注意力机制利用三个权重矩阵,分别称为WqW_qWqWkW_kWk和WvW_vWv,这些矩阵在训练过程中作为模型参数进行调整。这些矩阵分别用于将输入投影到序列的查询(query)、键(key)和值(value)分量中。通过权重矩阵WWW与嵌入输入xxx查询序列:对于序列1...T1...T。原创 2025-08-09 08:01:44 · 947 阅读 · 0 评论 -
深度解析:推理大模型如何改变AI格局?四种构建方法与低成本实践指南
想象一下,当孩子问你"2+3等于几"时,你直接回答"5";但当他们问"为什么2+3=5"时,你需要解释加法的概念。传统大语言模型更像是前者——提供直接答案;而推理模型则是后者——展示思考过程。在技术定义上,推理模型是指能够处理需要复杂、多步骤生成并包含中间步骤的问题的AI系统。❌ 简单问答:“法国的首都是什么?”(不需要推理)✅ 复杂推理:“如果一列火车以每小时60英里的速度行驶3小时,它走了多远?推理大模型代表了AI发展的新方向——从"知道答案"到"理解思考过程"。原创 2025-08-08 07:04:47 · 579 阅读 · 0 评论 -
Qwen-Image技术报告
与传统模型仅优化 photorealism(真实感)或美学质量(“AI风格”)不同,Qwen-Image强调文本与图像的精准对齐——尤其在具有挑战性的文本渲染任务中。我们设想,通过强化基础模型的这一能力,未来交互界面可从纯语言驱动的LUIs(语言用户界面)演变为视语融合的VLUIs(视语用户界面)。当LLMs(大型语言模型)难以传达颜色、空间关系或结构布局等视觉属性时,基于Qwen-Image的VLUI可生成图文融合的丰富图像——实现结构化视觉解释和有效的知识外化,将复杂概念转化为可理解的多模态表达。原创 2025-08-06 06:44:38 · 881 阅读 · 0 评论 -
从DeepSeek-V3到Kimi K2,大型语言模型架构对比
本文系统性梳理了2025年主流开源LLM的架构创新,涵盖从DeepSeek-V3到Kimi K2的代表性设计。稀疏化与专家系统混合专家系统(MoE):DeepSeek-V3(671B)、Llama 4 Maverick(400B)、Qwen3(235B)均采用MoE架构,通过激活部分专家(如DeepSeek的9专家/2048隐藏层,Llama 4的2专家/8192隐藏层)平衡计算效率与模型容量。动态路由。原创 2025-08-07 06:19:35 · 1073 阅读 · 0 评论 -
PyCharm安装通义灵码,代码插件
builder。原创 2025-08-03 12:25:58 · 576 阅读 · 0 评论 -
大模型变身复读机?揭秘原因与实用解药
在特定条件下(数据模式、注意力聚焦、自我强化效应),选择重复已生成的内容,在模型的“世界观”里,可能恰恰是当前最“合理”(概率最高)的选择。我们通过各种策略(数据、训练、解码参数、提示、后处理),本质上都是在引导或“修正”模型的这种概率选择倾向,使其输出更符合人类的期望——流畅、多样、富有创造力。),并灵活运用调整生成参数(温度、Top-p、重复惩罚)、优化提示词、选择更优模型等策略,我们可以显著缓解这一问题,让大模型真正发挥其作为强大信息处理和创意助手的潜力。通过理解其背后的原因(尤其是强大的。原创 2025-07-14 23:00:00 · 835 阅读 · 0 评论 -
LLM 为什么需要 RLHF
RLHF 通过。原创 2025-06-16 21:45:00 · 732 阅读 · 0 评论 -
满血版DeepSeek R1 告诉我如何成功复现DeepSeek R1?
我试试,问它如何成功复现DeepSeek R1思考过程好的,用户问如何成功复现DeepSeek R1。我需要结合提供的搜索结果来生成答案。首先,看看每个搜索结果的内容。文献1提到DataWhale团队使用3张A800显卡,耗时20小时,花费约330-420元,并推荐使用TinyZero项目来降低成本。他们使用了HuggingFace的TRL框架,并提供了环境配置和Flash Attention的安装步骤。这可能是一个详细的教程,适合教育目的。原创 2025-02-13 23:30:00 · 753 阅读 · 0 评论 -
AI大佬都在说下一个爆点是智能体,建议开发者抢占先机!
现在AI时代的智能体跟互联网时代的网站类似,因为它背后的大模型能力越来越强,门槛足够低,就能基于它做出更多智能体,未来会有几百万,甚至更大量的智能体出现。最近有朋友在跟我说正在一些平台上学AI Agent课程,我还有点吃惊,这些课主要是教开发者学企业级Agent从设计、开发到部署的流程,促使他们充电的主要原因是看到现在很多企业都有Agent的开发需求,比如能做报告分析的工具类Agent、可以在金融场景对话的对话类Agent ,还有多模态类Agent 等等,学了对转行很有帮助。他提出了2点判断,一是。原创 2024-06-18 19:06:26 · 680 阅读 · 1 评论 -
如何调用讯飞星火认知大模型的API以利用其卓越功能
讯飞星火认知大模型是由科大讯飞构建的一款先进的人工智能模型。这款模型在处理自然语言理解和生成方面具有卓越的能力,能够提供高效、精准的信息交流和数据分析服务。本文向大家讲解如何调用讯飞星火的API,首先介绍python的调用方式,这是一个普遍使用的方式,然后,再讲解如何使用其他的调用方式。该模型通过深度学习技术和大量数据训练,具备了强大的语言理解、文本生成和对话交互等功能。它能够根据用户的具体需求,提供个性化的信息服务,包括但不限于语音识别、文本分析、自动翻译以及智能问答等。原创 2024-06-20 22:04:01 · 4224 阅读 · 1 评论