深度学习_乌冬面-CSDN博客

原创如何直观理解Transformer的自注意力机制中的掩码？

对模型而言，每个位置的预测只能依赖历史信息，符合语言生成的因果逻辑；对硬件而言，所有位置的计算可并行完成，大幅提升效率。这种设计让Transformer既能像RNN一样处理序列依赖，又能利用矩阵运算实现百倍速的并行加速，是其成为大模型核心架构的关键之一。

2025-06-18 17:50:14 643

原创为什么Transformer的自注意力机制能实现并行计算？

自注意力机制通过将序列关联计算转化为矩阵运算，利用硬件对矩阵乘法的并行优化（如GPU的SIMT架构），彻底打破了RNN的时序依赖。这一设计不仅让Transformer成为现代大语言模型的核心架构，也推动了NLP任务从“串行处理”向“大规模并行计算”的变革。

2025-06-18 17:49:05 868

原创 RNN为什么不适合大语言模型

RNN/LSTM的序列依序计算模式如同“排队办事”，每个步骤必须等待前一步完成，导致并行计算资源无法充分利用；而Transformer通过自注意力实现“并行办公”，大幅提升了计算效率，这也是其成为现代大语言模型（LLM）核心架构的重要原因之一。

2025-06-18 17:47:17 389

注意力机制的核心是Query、Key、Value三者的协作：Query是问题线索（如“找时间”），Key是信息标签（如新闻中的日期词），Value是实际内容。机制通过计算Query与Key的匹配度（权重），筛选重要信息（如高权重的“2024年6月18日”），忽略无关内容。类比超市找牛奶：Query（“牛奶在哪？”）匹配Key（货架标签），最终定位Value（乳制品区的牛奶）。本质是让模型像人类一样“智能聚焦”，通过权重分配高效提取关键信息。

2025-06-18 17:43:55 418

原创 MiMo-7B-RL调研

将 MiMo-7B-Base 与 Llama-3.1-8B、Gemma-2-9B、Qwen2.5-7B 等规模相当的开源基础模型进行了比较，所有模型评估都共享相同的评估设置。MiMo-7B-Base 在支持的 32K 上下文长度内实现了近乎完美的 NIAH 检索性能，并在需要长上下文推理的任务中表现出色，多数情况下分数都超过了 Qwen2.5-7B。当你打开一只牡蛎时，如果操作不当，可能会割伤自己的手，从而流自己的血。给定的数列是 1，2，6，24，120，其中问号处的数字应为 720。

2025-05-12 20:20:53 887

原创 Fellou智能体调研

速度与成本：平均任务耗时仅 3.7 分钟，比竞品 Manus 快 4 倍（Manus 平均耗时 18.6 分钟），单次执行成本低至 0.3-3 元，约为行业均值的 1/3。用户场景：支持跨平台自动化操作，如亚马逊比价、LinkedIn 简历筛选、多源数据整合生成结构化报告等，实现从“意图”到“结果”的端到端交付。Fellou：以自然语言交互和本地部署为核心，适合企业级复杂场景。Dify：低代码平台，适合开发者快速构建应用。LangChain：高度灵活的开发框架，适合科研级定制需求。Flowise。

2025-05-12 20:03:16 742

原创 VSCode|IDEA|PyCharm无缝接入DeepSeek R1实现AI编程

本文将介绍如何在 VSCode|IDEA|PyCharm 软件中接入 DeepSeek R1 实现 AI 编程，并利用大模型能力辅助研发人员进行 AI Coding操作流程分三步注册账户，获取 DeepSeek API Key在编程软件中下载安装 Continue 插件配置Continue文件。

2025-05-06 21:04:15 651

原创 Redmi K80和Redmi K80 Pro最直观对比报告

笔者参与研发AI算法的手机终于问世了，让我们看看他的性能如何以上是根据公开数据整理，不涉及商业机密。Redmi K80 Pro在处理器性能、有线快充和无线充电方面更胜一筹，而Redmi K80则在电池容量上更大。两款手机都提供了高刷新率和高触控采样率的屏幕，以及IP68/IP69级别的防尘防水功能，确保了优秀的视觉体验和耐用性。

2024-11-28 16:21:32 22040 1

原创 Prompt-Tuning方法学习

即先在Pre-training阶段通过一个模型在大规模无监督语料上训练一个预训练语言模型（Pre-trained Language Model，PLM），然后在Fine-Tuning阶段基于训练好的语言模型在具体的下游任务上进行再次微调（Fine-Tuning），以获得适应下游任务的模型。而在P-Tuning中，将模板中的P映射为一个可训练的参数h（如上图所示），此时这部分的token则称为pseudo token（soft-Prompt）。离散模板通常不稳定，且无法参与模型的训练环节，容易陷入局部最优;

2024-10-24 14:06:19 1362

原创上下文LLM（kimi调研为例）

简单介绍Kimi是什么？能做什么？Kimi产品体验测评：支持20万字上下文的版本简单介绍长上下文LLM优势大容量文本处理（亮点）：Kimi能够处理高达20万字的输入和输出，这对于需要处理大量文本数据的用户来说是一个显著优势。丰富的功能集成：Kimi具备联网搜索能力、文件处理、网页内容解析等功能，为用户提供全面的服务，也可以满足用户对最新信息的需求。产品交互涉及优秀：Kimi在产品的交互和应用上，都做得非常到位，尤其很多细节都体现出该产品考虑到了用户心理和操作习惯。不足。

2024-10-24 13:43:34 2767

原创 pth转onnx转tflite并固定输入（附代码和实验结果）

最近工程上在做基于端侧AI的超分模型，模型量化要从torch转换成onnx，再转为tflite。为了分别测试，我们固定输入输出和batch批次模型超分的结果不是非常理想，原因还在排查中，可能是因为图片输入太小，也可能因为测试代码没有处理好输入输出。总体上量化为tflite_float32，是目前最快和最优的超分模型。

2024-10-18 16:26:58 1532

原创 AIGC技术的学习系列二

从2022年11月30日OpenAI发布ChatGPT以来，人工智能的相关话题就一直占据新闻的头条，这个领域的相关技术更是日新月异，有人开玩笑说是“天天文艺复兴，日日工业革命”。虽然，这个说法略显夸张，但是还是说明这个话题目前的进展快速，而且收到了广泛的关注。ChatGPT的爆火让大家感受到了大模型的能力，各大公司都在投入资源和人力去开发大模型。“对于大模型,当然会全力以赴,坚决拥抱”，这是雷总4月14号发微博表达的小米对于大模型技术的态度，我们也成立了大模型组去开发自己的大模型。

2024-10-16 20:02:20 1091

原创 AIGC技术的学习系列一

在全球智能制造的大潮中，我们见证了技术的飞速发展与产业的深刻变革。然而，即便在这样的背景下，工业设计的道路上仍布满了堵点和痛点，它们如同顽石般阻碍着创新的脚步。随着人工智能生成内容（AIGC）技术的兴起与扩散，我们仿佛站在了一个新的起点。AIGC以其卓越的内容生成能力，正在逐步改变我们对创作过程的理解。它不仅能够辅助设计师快速产出多样化的设计方案，还能够在虚拟现实、增强现实等领域开辟新的应用场景，极大地丰富了设计的表达手法和交互体验。

2024-10-16 17:34:44 984

原创推荐算法的学习

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考LR的主要限制在于需要大量手动特征工程来间接提高模型表达，此时出现了两个发展方向：以FM为代表的端到端的隐向量学习方式，通过embedding来学习二阶交叉特征以GBDT+LR为代表的两阶段模型，第一阶段利用树模型优势自动化提取高阶特征交叉，第二阶段交由LR进行最终的学习阿里提出的MLR，以多个LR模型来提高整体模型性能。

2024-10-15 19:51:30 1415

原创基于端侧AI的超分辨率技术

随着人工智能的不断发展，机器学习这门技术也越来越重要，图像超分辨率（Super-Resolution, SR）同样也借助AI技术性能起飞。本文介绍一种在端侧部署的AI的超分辨率技术以上就是今天要讲的内容，本文简单介绍了基于端侧AI超分辨率技术，以及mobileSR超分模型的原理和使用。

2024-10-15 11:58:54 1411

原创车载网络是什么

车载网络结构车载网络是车内部通过不同的通信协议和网络拓扑来实现各种电子系统之间的互联和数据交换。

2024-09-26 10:17:36 725

原创车载网络面试题库

车载网络面试题库，持续更新中整理用于自学请勿转载。

2024-09-25 17:21:59 1132

原创 CV基础问题

CV算法面试基础题，持续更新ing~

2024-09-25 15:36:45 992

原创梯度爆炸与消失

梯度消失和梯度爆炸都是深度学习中需要关注的问题，它们都与梯度的传播有关。梯度消失会导致网络训练缓慢，而梯度爆炸可能导致网络无法收敛。为了解决这些问题，可以采用合适的激活函数、权重初始化策略、梯度剪切、批量归一化等方法。此外，调整学习率和使用残差连接也是有效的策略。

2024-09-25 11:09:56 564 1

原创 sigmoid为什么会有梯度消失的问题

sigmoid为什么会有梯度消失的问题？Sigmoid函数是一种常见的激活函数，它的公式是：Sigmoid函数的输出值域在(0, 1)之间，它可以将任意输入值映射到0和1之间。Sigmoid函数的导数（或梯度）是：这个导数公式是由链式法则推导出来的。

2024-09-25 10:48:00 733

原创游戏原画转存技术【原画转存可节省60-80%工时，同时准确率提高】

如果我们需要对手机截图做图像识别，目标检测等操作，往往会遇到不同型号，不同品牌的手机制作的数据集训练出的模型，对其他品牌泛化性和鲁棒性不高的情况，这究竟是为什么，怎么解决？在训练过程中，不同品牌、不同型号手机的图像数据，可能会导致模型泛化能力下降。我们可以通过手机原画转存技术提高泛化能力和鲁棒性。

2024-09-24 11:05:20 855

原创图像分类模型量化实操

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。这次介绍了动态量化与静态量化，并实际演示了动态量化中GPU和CPU版。在推理时对权重和激活值进行量化。可以减少模型大小和计算需求。通常用于加速模型推理。在训练后对权重进行量化。需要使用校准数据集来确定量化参数。可以显著减少模型大小和提高推理速度。

2024-09-23 19:58:23 1373

原创模型和算子量化

最近面试问到了很多关于项目中关于模型和算子量化的操作和原理，为了巩固一下深度学习基础，整理顺便自学。提示：以下是本篇文章正文内容，下面案例可供参考量化过程中，需要考虑模型的精度、速度和硬件兼容性。不同的量化策略和精度（如INT8、FP16、INT4等）可能会对模型的性能和兼容性产生不同的影响。因此，量化策略的选择应基于具体的应用需求和目标硬件的特性。

2024-09-20 18:04:54 1347

原创 leetcode和真正大厂笔试的区别

在实际的在线笔试系统中，我们不能按自测示例在代码中赋固定的值，不需要创建 Solution 类的实例或调用方法。系统会自动实例化这个类并调用方法，传入测试用例作为参数，并根据返回的结果来评估你的代码是否正确。另外，通过运行测试用例，我们可以验证我们的是否能够正确处理各种输入，包括正常值、边界值和错误输入。基本上评判编程题的标准是通过率的高低，如果所有测试用例都通过，我们可以更有信心地认为我们的代码是高分的。

2024-09-20 12:36:08 1603

原创网络结构介绍：简单模型、AlexNet、VGGNet、ResNet，并附2025秋招笔试题网络结构

前言一、简单的神经网络模型基础知识简单的网络结构二、AlxeNet网络结构特征提取部分 (`self.feature_extraction`)分类器部分 (`self.classifier`)前向传播 (`forward` 方法)三、VGG16网络结构卷积块 (`block1` 到 `block5`)卷积块具体分析全连接层 (`block6`)前向传播 (`forward` 方法)四、ResNet-18网络结构BasicBlock 类ResNet 类_make_layer 方法forward 方法。

2024-09-19 12:05:33 1159 2

qq_45749612的博客