- 博客(25)
- 收藏
- 关注
原创 如何直观理解Transformer的自注意力机制中的掩码?
对模型而言,每个位置的预测只能依赖历史信息,符合语言生成的因果逻辑;对硬件而言,所有位置的计算可并行完成,大幅提升效率。这种设计让Transformer既能像RNN一样处理序列依赖,又能利用矩阵运算实现百倍速的并行加速,是其成为大模型核心架构的关键之一。
2025-06-18 17:50:14
643
原创 为什么Transformer的自注意力机制能实现并行计算?
自注意力机制通过将序列关联计算转化为矩阵运算,利用硬件对矩阵乘法的并行优化(如GPU的SIMT架构),彻底打破了RNN的时序依赖。这一设计不仅让Transformer成为现代大语言模型的核心架构,也推动了NLP任务从“串行处理”向“大规模并行计算”的变革。
2025-06-18 17:49:05
868
原创 RNN为什么不适合大语言模型
RNN/LSTM的序列依序计算模式如同“排队办事”,每个步骤必须等待前一步完成,导致并行计算资源无法充分利用;而Transformer通过自注意力实现“并行办公”,大幅提升了计算效率,这也是其成为现代大语言模型(LLM)核心架构的重要原因之一。
2025-06-18 17:47:17
389
原创 注意力机制Query、Key、Value理解
注意力机制的核心是Query、Key、Value三者的协作:Query是问题线索(如“找时间”),Key是信息标签(如新闻中的日期词),Value是实际内容。机制通过计算Query与Key的匹配度(权重),筛选重要信息(如高权重的“2024年6月18日”),忽略无关内容。类比超市找牛奶:Query(“牛奶在哪?”)匹配Key(货架标签),最终定位Value(乳制品区的牛奶)。本质是让模型像人类一样“智能聚焦”,通过权重分配高效提取关键信息。
2025-06-18 17:43:55
418
原创 MiMo-7B-RL调研
将 MiMo-7B-Base 与 Llama-3.1-8B、Gemma-2-9B、Qwen2.5-7B 等规模相当的开源基础模型进行了比较,所有模型评估都共享相同的评估设置。MiMo-7B-Base 在支持的 32K 上下文长度内实现了近乎完美的 NIAH 检索性能,并在需要长上下文推理的任务中表现出色,多数情况下分数都超过了 Qwen2.5-7B。当你打开一只牡蛎时,如果操作不当,可能会割伤自己的手,从而流自己的血。给定的数列是 1,2,6,24,120,其中问号处的数字应为 720。
2025-05-12 20:20:53
887
原创 Fellou智能体调研
速度与成本:平均任务耗时仅 3.7 分钟,比竞品 Manus 快 4 倍(Manus 平均耗时 18.6 分钟),单次执行成本低至 0.3-3 元,约为行业均值的 1/3。用户场景:支持跨平台自动化操作,如亚马逊比价、LinkedIn 简历筛选、多源数据整合生成结构化报告等,实现从“意图”到“结果”的端到端交付。Fellou:以自然语言交互和本地部署为核心,适合企业级复杂场景。Dify:低代码平台,适合开发者快速构建应用。LangChain:高度灵活的开发框架,适合科研级定制需求。Flowise。
2025-05-12 20:03:16
742
原创 VSCode|IDEA|PyCharm无缝接入DeepSeek R1实现AI编程
本文将介绍如何在 VSCode|IDEA|PyCharm 软件中接入 DeepSeek R1 实现 AI 编程,并利用大模型能力辅助研发人员进行 AI Coding操作流程分三步注册账户,获取 DeepSeek API Key在编程软件中下载安装 Continue 插件配置Continue文件。
2025-05-06 21:04:15
651
原创 Redmi K80和Redmi K80 Pro最直观对比报告
笔者参与研发AI算法的手机终于问世了,让我们看看他的性能如何以上是根据公开数据整理,不涉及商业机密。Redmi K80 Pro在处理器性能、有线快充和无线充电方面更胜一筹,而Redmi K80则在电池容量上更大。两款手机都提供了高刷新率和高触控采样率的屏幕,以及IP68/IP69级别的防尘防水功能,确保了优秀的视觉体验和耐用性。
2024-11-28 16:21:32
22040
1
原创 Prompt-Tuning方法学习
即先在Pre-training阶段通过一个模型在大规模无监督语料上训练一个预训练语言模型(Pre-trained Language Model,PLM),然后在Fine-Tuning阶段基于训练好的语言模型在具体的下游任务上进行再次微调(Fine-Tuning),以获得适应下游任务的模型。而在P-Tuning中,将模板中的P映射为一个可训练的参数h(如上图所示),此时这部分的token则称为pseudo token(soft-Prompt)。离散模板通常不稳定,且无法参与模型的训练环节,容易陷入局部最优;
2024-10-24 14:06:19
1362
原创 上下文LLM(kimi调研为例)
简单介绍Kimi是什么?能做什么?Kimi产品体验测评:支持20万字上下文的版本简单介绍长上下文LLM优势大容量文本处理(亮点):Kimi能够处理高达20万字的输入和输出,这对于需要处理大量文本数据的用户来说是一个显著优势。丰富的功能集成:Kimi具备联网搜索能力、文件处理、网页内容解析等功能,为用户提供全面的服务,也可以满足用户对最新信息的需求。产品交互涉及优秀:Kimi在产品的交互和应用上,都做得非常到位,尤其很多细节都体现出该产品考虑到了用户心理和操作习惯。不足。
2024-10-24 13:43:34
2767
原创 pth转onnx转tflite并固定输入(附代码和实验结果)
最近工程上在做基于端侧AI的超分模型,模型量化要从torch转换成onnx,再转为tflite。为了分别测试,我们固定输入输出和batch批次模型超分的结果不是非常理想,原因还在排查中,可能是因为图片输入太小,也可能因为测试代码没有处理好输入输出。总体上量化为tflite_float32,是目前最快和最优的超分模型。
2024-10-18 16:26:58
1532
原创 AIGC技术的学习 系列二
从2022年11月30日OpenAI发布ChatGPT以来,人工智能的相关话题就一直占据新闻的头条,这个领域的相关技术更是日新月异,有人开玩笑说是“天天文艺复兴,日日工业革命”。虽然,这个说法略显夸张,但是还是说明这个话题目前的进展快速,而且收到了广泛的关注。ChatGPT的爆火让大家感受到了大模型的能力,各大公司都在投入资源和人力去开发大模型。“对于大模型,当然会全力以赴,坚决拥抱”,这是雷总4月14号发微博表达的小米对于大模型技术的态度,我们也成立了大模型组去开发自己的大模型。
2024-10-16 20:02:20
1091
原创 AIGC技术的学习 系列一
在全球智能制造的大潮中,我们见证了技术的飞速发展与产业的深刻变革。然而,即便在这样的背景下,工业设计的道路上仍布满了堵点和痛点,它们如同顽石般阻碍着创新的脚步。随着人工智能生成内容(AIGC)技术的兴起与扩散,我们仿佛站在了一个新的起点。AIGC以其卓越的内容生成能力,正在逐步改变我们对创作过程的理解。它不仅能够辅助设计师快速产出多样化的设计方案,还能够在虚拟现实、增强现实等领域开辟新的应用场景,极大地丰富了设计的表达手法和交互体验。
2024-10-16 17:34:44
984
原创 推荐算法的学习
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考LR的主要限制在于需要大量手动特征工程来间接提高模型表达,此时出现了两个发展方向:以FM为代表的端到端的隐向量学习方式,通过embedding来学习二阶交叉特征以GBDT+LR为代表的两阶段模型,第一阶段利用树模型优势自动化提取高阶特征交叉,第二阶段交由LR进行最终的学习阿里提出的MLR,以多个LR模型来提高整体模型性能。
2024-10-15 19:51:30
1415
原创 基于端侧AI的超分辨率技术
随着人工智能的不断发展,机器学习这门技术也越来越重要,图像超分辨率(Super-Resolution, SR)同样也借助AI技术性能起飞。本文介绍一种在端侧部署的AI的超分辨率技术以上就是今天要讲的内容,本文简单介绍了基于端侧AI超分辨率技术,以及mobileSR超分模型的原理和使用。
2024-10-15 11:58:54
1411
原创 梯度爆炸与消失
梯度消失和梯度爆炸都是深度学习中需要关注的问题,它们都与梯度的传播有关。梯度消失会导致网络训练缓慢,而梯度爆炸可能导致网络无法收敛。为了解决这些问题,可以采用合适的激活函数、权重初始化策略、梯度剪切、批量归一化等方法。此外,调整学习率和使用残差连接也是有效的策略。
2024-09-25 11:09:56
564
1
原创 sigmoid为什么会有梯度消失的问题
sigmoid为什么会有梯度消失的问题?Sigmoid函数是一种常见的激活函数,它的公式是:Sigmoid函数的输出值域在(0, 1)之间,它可以将任意输入值映射到0和1之间。Sigmoid函数的导数(或梯度)是:这个导数公式是由链式法则推导出来的。
2024-09-25 10:48:00
733
原创 游戏原画转存技术【原画转存可节省60-80%工时,同时准确率提高】
如果我们需要对手机截图做图像识别,目标检测等操作,往往会遇到不同型号,不同品牌的手机制作的数据集训练出的模型,对其他品牌泛化性和鲁棒性不高的情况,这究竟是为什么,怎么解决?在训练过程中,不同品牌、不同型号手机的图像数据,可能会导致模型泛化能力下降。我们可以通过手机原画转存技术提高泛化能力和鲁棒性。
2024-09-24 11:05:20
855
原创 图像分类模型量化实操
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。这次介绍了动态量化与静态量化,并实际演示了动态量化中GPU和CPU版。在推理时对权重和激活值进行量化。可以减少模型大小和计算需求。通常用于加速模型推理。在训练后对权重进行量化。需要使用校准数据集来确定量化参数。可以显著减少模型大小和提高推理速度。
2024-09-23 19:58:23
1373
原创 模型和算子量化
最近面试问到了很多关于项目中关于模型和算子量化的操作和原理,为了巩固一下深度学习基础,整理顺便自学。提示:以下是本篇文章正文内容,下面案例可供参考量化过程中,需要考虑模型的精度、速度和硬件兼容性。不同的量化策略和精度(如INT8、FP16、INT4等)可能会对模型的性能和兼容性产生不同的影响。因此,量化策略的选择应基于具体的应用需求和目标硬件的特性。
2024-09-20 18:04:54
1347
原创 leetcode和真正大厂笔试的区别
在实际的在线笔试系统中,我们不能按自测示例在代码中赋固定的值,不需要创建 Solution 类的实例或调用方法。系统会自动实例化这个类并调用 方法,传入测试用例作为参数,并根据返回的结果来评估你的代码是否正确。另外,通过运行测试用例,我们可以验证我们的是否能够正确处理各种输入,包括正常值、边界值和错误输入。基本上评判编程题的标准是通过率的高低,如果所有测试用例都通过,我们可以更有信心地认为我们的代码是高分的。
2024-09-20 12:36:08
1603
原创 网络结构介绍:简单模型、AlexNet、VGGNet、ResNet,并附2025秋招笔试题网络结构
前言一、简单的神经网络模型基础知识简单的网络结构二、AlxeNet网络结构特征提取部分 (`self.feature_extraction`)分类器部分 (`self.classifier`)前向传播 (`forward` 方法)三、VGG16网络结构卷积块 (`block1` 到 `block5`)卷积块具体分析全连接层 (`block6`)前向传播 (`forward` 方法)四、ResNet-18网络结构BasicBlock 类ResNet 类_make_layer 方法forward 方法。
2024-09-19 12:05:33
1159
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人