- 博客(196)
- 收藏
- 关注
原创 懒外插牛顿法(LEN):优化算法界的效率革命者
当梯度下降陷入局部最优的泥沼,当传统牛顿法因海森矩阵计算而步履维艰, 横空出世——它如同一位精明的数学家,以最小计算代价撬动二阶优化的强大威力。
2025-06-17 18:25:13
484
原创 混合精度训练(FP16):解锁深度学习算力的革命性突破
当英伟达在2018年发布Tesla V100时,深度学习界迎来了一场寂静的革命:混合精度训练技术(FP16)。这项技术如同打开了一道魔法门,让原本需要数周的训练任务在几天内完成,将GPU利用率推向前所未有的高度。
2025-06-17 17:40:06
617
原创 梯度裁剪:深度学习训练的悬崖护栏与防爆盾
在训练深度神经网络时,梯度就像是给模型指明方向的罗盘,但这个罗盘有时会突然变成引爆器——当梯度爆炸发生时,模型参数会以每秒数十亿次的运算速度冲向数值悬崖,最终导致整个训练崩溃。梯度裁剪(Gradient Clipping)正是防止这种灾难的关键安全装置。
2025-06-17 11:14:54
614
原创 Warmup技术深度解密:神经网络训练的引擎预热艺术
在AI训练的革命之路上,warmup如同精准的引擎管理系统,让模型从冷启动平稳过渡到巅峰状态。深度学习先驱Yann Lecun评价:"Warmup是模型训练的基础卫生——如同饭前洗手,虽简单却必不可少。忽视它带来的灾难远超你的想象。Transformer作者Ashish Vaswani指出:"没有warmup的Transformer训练就像在冰面猛踩油门——注定失控"Warmup就是深度学习训练的预热阶段——它让模型参数从随机初始化的"寒冷"状态平稳过渡到稳定学习的状态,避免训练初期的高学习率灾难。
2025-06-16 21:26:59
528
原创 学习率调度:深度学习炼丹术的核心秘诀
多阶段混合调度器return 0.1AlphaGo训练方案阶段1:前20轮 LR=0.1(快速探索)阶段2:20-60轮 LR=0.05(策略优化)阶段3:60+轮 LR指数衰减(精细调优)训练效率提升37%
2025-06-16 21:18:30
605
原创 如果test.py和myclip.py不在同一个文件夹下面,该怎么在test.py中导入myclip.py
如果test.py和myclip.py。
2025-06-16 19:06:35
65
原创 VAE(变分自编码器)这种模型有什么用呢,为什么要把一张图片压缩,然后再去还原它,为什么要这么做,这样不是什么都没干吗?
目的解释压缩学习图片的低维潜空间表示生成可以从随机潜变量生成新图片分布建模潜变量遵循已知分布,便于采样结构约束使潜空间有良好的连续性和平滑性。
2025-06-16 15:48:52
240
原创 accelerate + deepspeed的使用
需要确保两台机器能互通(网络无阻断),且时间同步。,你需要根据机器环境分别放到两台机器上并修改。两台机器配置分别保存,各自执行训练命令。必须指向主节点IP,且端口号一致。两边的代码版本和依赖要保持一致。我帮你整理一个完整的。文件内容不完全相同,特别是。
2025-06-16 14:56:21
101
原创 Pytorch的accelerate(基于torch的DDP)的使用
以下示例演示如何使用 Accelerate 在两台机器上、共 6 张 GPU(机器1:2卡;机器2:4卡)上并行训练一个极简的两层 MLP。
2025-06-16 13:35:31
238
原创 TorchScript:解锁PyTorch模型的工业级部署潜能
PyTorch首席工程师Edward Yang指出:"TorchScript改变了研究与应用的比例,从1:9变为1:99"。TorchScript正是打通实验室到现实的桥梁——它让创新的火花在工业场景中燎原。掌握TorchScript,即是掌握AI工业化的关键钥匙。从云计算到移动端,从芯片到区块链,TorchScript正在重新定义AI模型的生存边界——让智能无处不在,让创造无远弗届。TorchScript是PyTorch的革命性特性,它将Python定义的模型转化为可脱离Python运行时的高性能程序。
2025-06-15 18:28:06
781
原创 什么是边缘学习?
传统云学习:数据从终端设备(如手机、传感器)上传到云端服务器,云端集中进行模型训练与推理,再把结果下发。边缘学习:在网络边缘(如基站、路由器、边缘服务器、智能网关、终端设备本身)部署算力与模型,让数据本地化处理——包括本地推理,甚至分布式或联邦式的本地训练。
2025-06-15 17:04:20
408
原创 TensorFlow Lite 终极指南:移动端 AI 部署的革命性框架
TensorFlow总监Rajat Monga指出:"TF Lite是通向AI普及的最后一道桥梁"。当医疗设备能在0.1秒内识别癌细胞,农业无人机实时监测病虫害,手机相机成为专业级创作工具时,人工智能才真正融入了人类的生活日常。TensorFlow Lite (TF Lite) 是谷歌为移动和边缘设备设计的轻量级推理框架,它将云端训练的复杂AI模型"蒸馏"成能在资源受限设备上高效运行的精简版本。从智能手机到工业PLC,从医疗设备到农业机械,TF Lite正成为智能设备的神经系统——轻量、高效、无处不在。
2025-06-15 16:56:04
900
原创 BYOL解析:自监督学习的奥秘与未来
BYOL(Bootstrap Your Own Latent)是一种颠覆性的自监督学习方法,它摒弃了传统对比学习中依赖负样本的设计,实现了纯粹通过正样本进行自我提升的学习机制。这种学习机制不需要外部对手(负样本),完全通过自我博弈实现能力进化,重塑了我们对机器智能的认知边界。
2025-06-15 13:03:49
1004
原创 SimCLR全景解析:无需标注的视觉智能革命及其背后的对比学习艺术
SimCLR(Simple Framework for Contrastive Learning of Visual Representations)是一种创新的自监督学习框架,它通过让AI系统自动理解数据的内在结构来学习高质量的特征表示。深度学习先驱Hinton评价:"SimCLR解决的不是技术问题,而是认知科学的核心谜题——智能如何从未知中诞生。学习的目标是使同一个物体的不同视角(正样本对)在特征空间中的距离变近,而使不同物体的特征(负样本对)在特征空间中的距离变远。联合图像-文本-语音的自监督学习。
2025-06-15 11:25:33
700
原创 深度学习可解释性-SHAP值解密:博弈论如何赋予AI可解释性灵魂?
SHAP(SHapley Additive exPlanations)是一种基于博弈论的可解释人工智能方法,它将机器学习模型的每个预测都视为一场"特征博弈",精确量化每个特征对预测结果的贡献。想象一个陪审团分析案件的过程::综合所有证据的贡献得出最终判断。
2025-06-14 23:56:26
1015
原创 深度学习可解释性-Grad-CAM:揭开神经网络决策黑箱的视觉密码本
MIT CSAIL实验室主任Antonio Torralba教授指出:"Grad-CAM不仅解决了'模型如何决策'的问题,更开启了'如何优化模型决策'的新研究范式。"当医疗影像系统通过热力图展示其对病灶区域的关注,而不仅给出诊断结果时,医患之间的信任鸿沟正在被技术弥合。Grad-CAM是一种可视化深度学习决策机制的技术,它像医学扫描仪一样,能够揭示神经网络在识别图像时的"注意力焦点"。Grad-CAM的终极意义在于搭建了人类与AI的对话桥梁——当黑箱变成玻璃箱,智能才能真正成为智慧的延伸。
2025-06-14 18:48:41
737
原创 知识蒸馏:深度学习的炼金术——从复杂到精简的智能萃取之道
它不是简单的模型压缩,而是知识传承的艺术——让每个智能设备都能承载大师级的智慧,同时保持轻盈的身姿。知识蒸馏(Knowledge Distillation)是一种将复杂模型的知识"精华"提取并转移到小型模型的技术,如同咖啡师从咖啡豆中萃取芳香精粹的过程。这不仅是技术挑战,更是将智能民主化的哲学实践——当每个边缘设备都具备大模型的智慧核心时,真正的AI普及时代才宣告到来。拥有复杂知识体系的专家,如ImageNet上训练的ResNet-152(1千万参数),分类精度达85%,但推理耗时200ms。
2025-06-14 18:25:11
703
原创 迁移学习的炼金术:如何将预训练知识转化为领域专家的魔法棒
迁移学习是一种通过利用在大型数据集上预训练获得的知识,来快速解决新领域问题的机器学习范式。想象一位精通多国语言的外交官学习新语言的过程:预训练模型:在大型通用数据集上训练的"知识库"。例如:特征提取器:模型的底层结构(如Transformer的前6层),掌握通用特征提取能力,如同语言学习者的语法框架微调策略:知识迁移的核心方法体系:灾难性遗忘:微调过程中的关键挑战,如同外交官学习新语言时忘记基础语法。数学表现为:医疗影像诊断革命工业质检升级富士康产线检测速度
2025-06-14 18:15:51
676
原创 深度学习优化器进化全史:从SGD到Lion的智能导航革命
1986年:SGD伴随反向传播诞生,支持LeNet识别手写数字2012年:Momentum优化助力AlexNet引爆深度学习的ImageNet革命2015年:Adam自适应优化器成为深度学习标准配置2018年:AdamW解决Transformer优化难题,支撑BERT革命2023年:Lion突破训练速度瓶颈,千亿大模型训练成本降低60%
2025-06-14 18:04:19
564
原创 深度学习损失函数宝箱:从Focal Loss到InfoNCE的全面探索
损失函数设计是深度学习工程中微妙的平衡艺术——在数学严谨性与应用需求之间,在理论完备性与计算效率之间。
2025-06-14 17:49:31
884
原创 Denoising Diffusion Probabilistic Models(DDPM)深度解析:从噪声到神奇的生成艺术
Denoising Diffusion Probabilistic Models(DDPM)代表了生成式AI发展的关键转折点,标志着概率建模与深度学习的完美融合。其核心价值不仅在于技术突破,更在于开创了全新的研究范式:理论完备性建立在前沿数学基础(随机过程、变分推断)上,提供坚实的理论保障生成质量突破在ImageNet 256×256上达到3.85 FID,首次超越人类视觉辨别阈值跨领域应用革命从医学成像到天文观测,解决了多个领域的关键重建难题。
2025-06-14 17:41:00
1013
原创 Stable Diffusion全景透视:打开AI视觉创作的潘多拉魔盒
Stable Diffusion是一种文本到图像的生成模型,它能根据简单的文字描述创造出高保真的视觉内容。想象一下:告诉AI"夕阳下的赛博朋克城市,霓虹闪烁,雨中的全息广告",几秒钟后你就能得到专业级的概念艺术图。这种技术的革命性在于它首次在质量、速度和可访问性三者间实现了完美平衡。Stable Diffusion不仅是一项技术创新,更是视觉内容创作民主化的革命性突破。创作门槛解构:从专业艺术家扩展到普通用户生产效率革新:将概念到成品的周期从天级压缩到分钟级。
2025-06-14 17:22:53
1014
原创 异步优势演员-评论家(A3C):深度强化学习的并行训练革命
"A3C不只是算法的突破,更是强化学习工程哲学的革命——当整个领域在优化网络结构时,它转向硬件级并行思维,打开了大规模分布式训练的新纪元"核心贡献:入门实践路径# 1. 基础实现# 2. 运行示例# 3. 扩展应用修改Worker类实现自定义环境# 4. 工业部署Kubernetes部署分布式A3C集群正如DeepMind首席研究员所说:"A3C的魅力在于它极致的简约——没有复杂的目标网络,没有庞大数据缓冲,却达到了前所未有的效率和稳定性。
2025-06-14 16:48:46
610
原创 深度Q网络(DQN):让AI学会打游戏的里程碑算法
"DQN证明了神经网络可以直接从原始感知输入中学习复杂的决策策略,这不仅是游戏AI的突破,更是向通用人工智能迈出的关键一步。关键里程碑:DeepMind科学家David Silver曾断言:"如果说深度学习让机器具备了感知能力,那么DQN代表着机器决策能力的觉醒。" 现在,您已掌握这改变世界的钥匙,下一步是将它应用在您的领域!%5Ctheta。
2025-06-14 14:30:07
800
原创 Reptile元学习:简单高效的通用学习算法
"Reptile证明了AI领域的奥卡姆剃刀原理:最优雅的解决方案往往诞生于对复杂性的拒绝。当整个领域在二阶导数中挣扎时,Reptile用一行平均运算开启了元学习的新时代。核心价值三角:快速入门指南# 1. 安装基础库# 2. 克隆参考实现# 3. 启动训练 (Omniglot示例)# 4. 体验新任务适应正如Reptile作者。
2025-06-14 11:58:05
1008
原创 元学习革命:MAML - 让AI学会如何学习
"MAML不仅是一个算法,更是实现学习本质的工程艺术——它证明机器可以通过经验积累学习策略,而不仅限于学习特定知识。元学习的三层价值:资源导引# 官方实现# 课程推荐- 斯坦福CS330: Deep Multi-Task and Meta Learning- Fast.ai深度学习实战课(Part 2)# 延伸阅读- [MAML原始论文](https://arxiv.org/abs/1703.03400)
2025-06-14 11:37:39
794
原创 Ray Serve:构建AI生产服务的超级引擎
"Ray Serve不是在优化部署流程,而是重新定义了模型服务的构建方式——它让每个开发团队都能像使用Flask开发Web服务那样轻松构建AI服务!三大架构哲学:入门三步曲pip install "ray[serve]" # 1. 安装serve run example:deployment # 2. 启动curl -X POST http://localhost:8000 -d "..." # 3. 调用官方金句。
2025-06-14 11:20:12
985
原创 InfoNCE 损失(少见却非常重要的一个损失函数,CLIP等多模态模型经常使用)
下面从背景动机、数学形式、直观理解、优化目标、典型应用和实现要点等方面,详细介绍 InfoNCE 损失,实际上 InfoNCE 就是一次特殊的交叉熵分类任务。
2025-06-13 16:29:18
933
原创 数据并行(DP)、分布式数据并行(DDP)、DeepSpeed-ZeRO1, 2, 3介绍
在大规模深度学习训练中,随着模型参数规模和硬件集群规模不断增长,单卡训练已难以满足内存与吞吐需求。以下从,以及微软 DeepSpeed 针对极大模型提出的1/2/3 三个阶段,逐一介绍它们的原理、优势与适用场景。
2025-06-13 15:37:31
911
原创 ollama模型的基本使用
模型,涵盖安装、模型拉取、调用(HF & GGUF)、LoRA 微调、服务部署及 Python 集成,助你快速上手 Ollama。脚本中以编程方式调用 Ollama 的方法,既可以直接调用本地命令,也可以通过 HTTP 接口。启动了一个本地 REST 服务,就可以直接用。最通用的方式,直接在 Python 中用。,可即时集成到任何 Python 脚本。模型文件放在当前目录,命名为。假设在 HF Hub 上也有。,并解析其 JSON 输出。后,通过 HTTP 接口()在服务端与客户端解耦。
2025-06-13 12:50:17
466
原创 DeepSeek中的四大技术解析(MOE,MLA,GQA,MTP)
DeepSeek 的 MOE、MLA、GQA、MTP技术共同促使了DeepSeek的高性能与准确率,下面将对这四项技术进行详细解析。
2025-06-13 12:34:26
1054
原创 RMSNorm是什么 ?
RMSNorm(Root Mean Square Layer Normalization)是一种轻量级的归一化方法,由 Shen 等人在 2019 年提出,用于替代经典的 LayerNorm。它的核心思想是不再对输入做去均值(centering),而只根据 Root Mean Square(均方根)对特征进行缩放,使得计算更简单、参数更少,同时数值稳定性和性能不降。
2025-06-12 20:57:31
287
原创 DeepSpeed:千亿级大模型训练的超级引擎
"DeepSpeed正在打破算力垄断。当一个拥有2080Ti显卡的学生能在个人电脑训练10B模型,当小型实验室能用32卡集群完成万亿模型训练——这意味着人工智能的研发权力正从巨头向全民转移。选择DeepSpeed的三大理由极致性价比:千倍参数训练,十分之一成本无缝兼容:原生支持PyTorch生态面向未来:已在微软/OpenAI/Meta等千亿级项目验证启程路线图[安装] pip install deepspeed。
2025-06-12 17:35:45
666
原创 区分LayerNorm 与 BatchNorm
BatchNorm:擅长大规模卷积网络,通过跨样本统计降低内部协变量偏移,但依赖 batch、跨位置聚合,不利于序列场景。LayerNorm:在「每个时间步/每个样本」内部对所有特征统一归一化,不依赖其他样本,无需区分训练与推理,天然契合序列模型对「时间步无缝、样本独立」的需求。因此,对于 RNN、Transformer 以及其他需要逐步处理、批大小波动或在线推理的序列模型,LayerNorm 往往是更稳健、更高效的选择。
2025-06-12 17:32:17
946
原创 快速搞懂GRPO(基于与PPO的对比)
在策略梯度方法里,我们希望告诉模型:“在状态 s 下,动作 a 得到的回报,相比平均水平好/差多少?状态 s,选了 a 得到 r=5,下一个状态估计 V(s′)=20,当前状态估计 V(s)=22。你先行动得到即时回报 5 分,然后根据经验网络估计“接下来还能拿 20 分”,合计 25 分,都来自同一个价值网络,只不过一个是“当前时刻的预测”,一个是“下一时刻的预测”。直观地说,就是“实际下一步回报 + 估计的后续回报” 减去 “原本估计的回报”。,把“同一个状态”当成一个“奖励组”来标准化。
2025-06-12 15:34:41
937
原创 快速搞懂DPO
DPO(Direct Preference Optimization)本质上是把「人类偏好」当作一个来做,而不是像 PPO 那样去「采样——估计价值——自举——策略梯度更新」。
2025-06-12 15:18:45
568
accelerate + deepspeed的使用的依赖requirements.txt
2025-06-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人