- 博客(309)
- 资源 (3)
- 收藏
- 关注
原创 PyTorch 2.0 核心 API torch.compile 源码深度解析
PyTorch 2.0核心API torch.compile通过多阶段编译架构实现高效模型优化。其源码实现包含四个关键组件:TorchDynamo负责Python字节码捕获和动态形状守卫生成,AOTAutograd处理自动微分图构建,TorchInductor进行GPU代码生成和优化,PrimTorch实现算子标准化。核心技术包括动态形状守卫机制、自动微分图联合优化、Triton代码生成以及自动内核选择算法。该架构通过分解高级算子、消除in-place操作、循环嵌套优化等手段,显著提升了模型运行效率。
2025-06-21 14:30:32
287
原创 PyTorch 2.0 的发布和编译技术详细介绍
PyTorch 2.0带来深度学习框架的重大革新,核心突破是通过编译技术提升性能,同时保持100%向后兼容性。其关键特性包括:1)一行代码即可启用编译优化的torch.compile;2)动态图与静态编译融合,支持Dynamic Shapes;3)四大技术组件协同工作,包含TorchDynamo、AOTAutograd、PrimTorch和TorchInductor。实测显示,在163个开源模型上平均训练提速43%,Transformers专项优化可提升1.5-2倍性能。此外还扩展了对Mac GPU、CPU
2025-06-21 13:34:46
391
原创 Manus在自媒体领域的实战表现
Manus AI爆火背后的营销启示与行业反思 2025年3月,Manus AI成为自媒体传播的"现象级案例"。其成功融合KOL种草、邀请码饥饿营销和"炸裂体"情绪化传播,迅速引爆流量。实测显示,该工具在内容生成、多平台适配等方面显著提效,但也暴露专业深度不足、响应延迟等问题。争议集中于技术原创性存疑、国内外热度反差及过度营销引发的行业反感。案例启示:AI工具可优化内容生产流程,但需避免同质化,并保持人工创意干预。这场"技术整合+情绪营销"的实验证明
2025-06-20 19:23:20
638
原创 AK/SK 与 API Key 鉴权方式对比分析
本文对比分析了AK/SK和API Key两种鉴权方式的差异。AK/SK采用双密钥对和数字签名,安全性更高但实现复杂,适用于云服务、金融等敏感场景;API Key使用单一密钥,简单易用但风险较大,适合开发者平台和内部服务。从安全性看,AK/SK可防篡改和重放攻击,API Key则易泄露;从性能看,API Key计算和网络开销更低。文章建议根据场景选择:高敏感用AK/SK,低风险用API Key,并给出了混合架构方案和安全升级路径,如外部API用AK/SK+HTTPS,内部服务用API Key+IP白名单。
2025-06-20 18:47:06
540
原创 大模型本地部署常见问题(启动参数问题)
摘要:在执行多 GPU 张量并行推理(--tensor-parallel-size 8)时,出现 CUDA 设备端内存越界(index out of bounds: 0 <= tmp16 < 40960)和 NCCL 通信失败(Rank 7 崩溃)。主要问题可能涉及词汇表越界、显存不足或张量分片错误。建议: 检查模型词汇表是否超出 40960; 降低显存利用率(如 --gpu-memory-utilization 0.9); 减少张量并行 GPU 数量(如 --tensor-parallel-s
2025-06-19 12:34:19
998
原创 大模型本地部署常见问题(bfloat16)
在8卡NVIDIA L20(Ada架构)上使用BF16的稳定性分析:L20原生支持BF16计算,但需驱动≥525.60、CUDA≥11.8和兼容框架版本。BF16节省显存但精度较低(7位),可能导致注意力机制等计算不稳定。常见问题包括模型结构敏感、多卡通信不稳定和显存OOM。建议验证方法包括单卡测试、对比FP16运行和监控GPU状态。推荐方案:追求稳定用FP16;必须用BF16时降低并行度和显存占用;仍不稳定需排查模型代码适配性。最终应结合具体场景在吞吐量和稳定性间权衡。
2025-06-19 12:32:37
728
原创 大模型本地部署常见问题(CUDA error: device-side assert triggered)
摘要:本文分析了NCCL通信失败并触发CUDA设备端断言导致进程崩溃的问题。主要错误原因包括NCCL通信超时、CUDA内核非法操作(如内存越界)以及GPU计算不同步等。提供了多种调试方法,如同步调试模式、NCCL日志检查、单GPU测试等。解决方案涉及调整训练参数、检查数据分片、验证CUDA版本兼容性及排查硬件问题。最后总结了不同问题类型对应的检查方法和解决方案,建议提供完整错误信息以便进一步诊断。全文约150字,结构清晰,聚焦问题分析和解决方法。
2025-06-19 12:30:57
645
原创 大模型本地部署常见问题(out of bounds)
CUDA索引越界错误分析摘要 当出现Assertion index out of bounds: 0 <= tmp16 < 40960 failed错误时,表明CUDA计算中的变量tmp16超出了[0,40960)的有效范围。常见原因包括: 模型参数不匹配:词汇表大小(vocab_size)或隐藏层维度设置错误,导致输入token ID或计算索引越界 多GPU训练问题:NCCL通信错误或数据分片不当引发索引计算错误 版本兼容性问题:PyTorch与CUDA版本不匹配或内核编译bug Tokeni
2025-06-19 12:29:07
558
原创 Qwen3-32B启动参数详解
本文分析了vLLM服务启动参数配置不当导致的索引越界错误,主要问题包括:1)8路张量并行参数与模型层维度不匹配;2)最大序列长度65536远超模型支持范围;3)批次处理规模参数过高。建议解决方案:降低max-model-len至实际支持值,检查张量并行兼容性,减少批次参数。还提供了临时验证步骤,建议逐步调整参数定位问题,必要时升级vLLM版本或启用调试日志。错误表明缓冲区大小仅为40960,与参数设置冲突导致索引越界。
2025-06-19 12:25:09
581
原创 大模型SFT微调脚本与关键参数详解
本文介绍了一个完整的大模型SFT(监督微调)脚本,适用于LLaMA、GPT、Qwen等主流架构。该PyTorch脚本基于Transformers库,包含数据加载、预处理、模型训练等全流程。关键参数包括:模型选择(如Qwen1.5-7B)、训练轮数(默认3轮)、批次大小(每设备4个样本)、学习率(2e-5)、最大序列长度(2048)、混合精度训练选项(FP16/BF16)等。脚本支持梯度检查点以节省显存,采用AdamW优化器和余弦学习率调度。数据预处理采用指令微调格式"[INST]指令[/INST]
2025-06-18 12:50:43
1008
原创 SEO最佳实践总结与实现样例
本文总结了SEO优化的核心原则与关键要素,包括语义化结构、内容质量、技术优化和元数据优化等,并提供了完整的HTML实现样例。样例代码展示了如何通过语义标签、结构化数据、移动适配、页面速度优化和无障碍设计等技术手段,创建符合SEO最佳实践的网页。文章强调SEO是综合策略,需兼顾技术、内容与用户体验,同时遵循Google核心Web指标标准。
2025-06-18 12:33:51
311
原创 大模型微调训练可视化关键指标详解
本文介绍了深度学习模型训练过程中的关键监控指标与可视化实践。主要内容包括:1)核心训练指标(Epoch、Train Loss、Eval Loss)的含义解读与典型变化模式;2)进阶监控指标如学习率、梯度范数和显存占用的分析方法;3)不同任务(文本生成、分类)的专用评估指标;4)TensorBoard和Weights & Biases等可视化工具的具体配置方法;5)针对Loss曲线异常的诊断调优指南与早停策略实现。文章强调可视化不仅是监控手段,更是理解模型行为的重要窗口,并建议配合实时警报系统实现高效
2025-06-17 12:43:23
758
原创 国内可用的主流大模型下载网站
国内可访问的大模型下载网站及主流本地部署方案总结,结合最新实践(2025年6月),覆盖开源模型获取、部署工具选择及详细操作指南
2025-06-17 12:41:19
1353
原创 大型模型问答(推理)、微调(Fine-tuning)和训练(Training)三个阶段资源需求差异分析
大型模型问答(推理)、微调(Fine-tuning)和训练(Training)三个阶段的GPU资源需求差异分析,涵盖显存、算力、网络和硬件选型等核心维度
2025-06-17 12:38:40
802
原创 AI掘金-自动写AI技术博客并发布到CSDN
本系统实现了从技术博客创作到发布的完整自动化流程,可帮助技术博主高效管理内容创作,同时保证内容质量和平台合规性。
2025-06-16 22:30:22
972
原创 宪法指令跟随(Constitutional AI)介绍
宪法AI通过“规则透明化、反馈自动化”重塑了AI对齐范式,在提升安全性与效率方面显著优于RLHF
2025-06-16 21:28:15
725
原创 Instruction Following(指令跟随)训练技术详解与工程实现
本文详细介绍了指令跟随(Instruction Following)训练技术的实现方法。核心内容包括:1)高质量指令数据的构建要素与增强策略;2)模型结构优化如指令感知注意力机制;3)多任务损失函数设计;4)工程实现中的渐进式训练和动态采样技术;5)金融领域的专业适配方案,包括术语注入和合规约束;6)效果评估体系和优化方法。实验显示,经领域适配的模型格式准确率达95%。文章还提出部署时的输入清洗、沙盒执行等安全措施,建议关键系统采用"指令模型+规则引擎"的双重校验架构。
2025-06-13 17:32:10
3031
原创 SimPO(Similarity Preference Optimization)技术详解与工程实现
SimPO是一种无需人工标注的模型优化方法,通过语义相似度构建奖励信号实现模型对齐。其核心是利用预训练嵌入模型自动评估响应质量,计算高效且可零样本适配新领域。技术原理上,SimPO通过对比学习优化生成策略,使优质响应获得更高语义相似度评分。工程实现包含奖励构建、损失函数设计等关键步骤,并可通过嵌入缓存、混合精度等技巧加速训练。在医疗领域应用中,结合专业嵌入模型可进一步提升效果。相比传统方法,SimPO在保持相近效果的同时显著降低计算成本,为资源受限场景提供高效解决方案,但仍存在嵌入质量依赖等局限性。
2025-06-11 18:36:44
5175
原创 RLHF(基于人类反馈的强化学习)技术详解与工程实现
摘要:RLHF(基于人类反馈的强化学习)是一种通过人类偏好优化AI模型的技术,分为监督微调(SFT)、奖励模型(RM)训练和强化学习优化(PPO)三个阶段。核心思想是将人类反馈转化为奖励信号,替代传统奖励函数。工程实现需高质量标注数据,使用PPO算法优化策略,并面临奖励破解、训练不稳定等挑战。未来方向包括高效RL算法、降低人类依赖和多模态应用。RLHF已成为大模型对齐的主流方法,显著提升生成内容的质量和安全性。
2025-06-11 18:32:03
5677
原创 KTO(Kahneman-Tversky Optimization)技术详解与工程实现
KTO(Kahneman-Tversky Optimization)技术详解与工程实现
2025-06-10 20:36:08
6335
原创 DPO(Direct Preference Optimization)技术详解与工程实现
DPO(Direct Preference Optimization)
2025-06-10 20:22:38
6345
原创 大模型微调的主要方式
大模型微调的核心方式包括LoRA、QLoRA、Adapter Tuning、P-Tuning系列、Prefix Tuning、Prompt Tuning等参数高效微调方法
2025-06-07 15:14:02
9560
原创 阿里云人工智能平台PAI介绍(六)
大模型应用开发(LangStudio)是依托PAI产品和阿里云其他云产品能力构建的面向企业级用户的大模型应用开发平台。该平台采用直观的交互式开发环境,简化了企业级大模型应用的开发流程,同时提供了灵活的可编程能力、实时调试能力与链路追踪的能力,让您在构建大模型应用时可对整体性能进行评估与优化。通过一键部署到PAI-EAS,您可以将开发好的大模型应用部署至生产环境提供API服务。
2025-06-06 20:32:19
10352
原创 阿里云人工智能平台PAI介绍(五)
AutoML(自动机器学习)是阿里云PAI平台提供的智能超参调优服务,能够自动搜索最优参数组合提升模型效果。该系统通过定义搜索空间,在实验中进行多组Trial测试,比较不同超参组合下的模型性能,最终找到最佳配置。AutoML HPO服务简化了调参流程,节省计算资源,支持多种任务类型(分类、回归、推荐等)和计算资源(DLC、MaxCompute)。该技术可广泛应用于机器学习各领域,帮助开发者聚焦业务建模而非参数调优,显著提升模型精度和训练效率。
2025-06-06 20:30:37
10828
原创 阿里云人工智能平台PAI介绍(四)
分布式训练DLC是云原生的AI训练平台,支持多种框架的大规模分布式训练,提供高性能计算资源和稳定高效的训练环境。产品优势包括多样算力资源调度、多种分布式任务支持、高稳定性和高性能优化。应用场景涵盖数据预处理、大规模训练、离线推理和AutoML自动调参。同时提供大模型应用开发平台LangStudio,简化企业级AI应用构建流程,支持可视化编排、知识库构建和一键部署,适用于RAG、NL2SQL、多模态交互等场景,帮助企业降低开发门槛并保障数据安全。
2025-06-05 18:38:37
10719
原创 阿里云人工智能平台PAI介绍(三)
摘要: iTAG是PAI产品的智能数据标注平台,支持多模态数据标注,提供预置模板和自定义模板功能。完整标注流程包括创建数据集、任务分发(标注/质检/验收)和结果导出四个环节,支持多种数据格式转换。Designer是PAI的可视化建模工具,提供端到端机器学习开发环境,内置丰富算法组件,支持MaxCompute等多种计算资源。其工作流可快速构建模型并部署至EAS,同时提供可视化分析和大屏监控功能。系统通过PAIFlow引擎调度任务,支持OpenAPI调用和周期性调度。
2025-06-05 18:35:56
11566
原创 阿里云人工智能平台PAI介绍(一)
阿里云人工智能平台PAI为开发者提供一站式AI全链路研发服务,涵盖数据标注、模型开发、训练和部署全流程。平台包含四大核心模块:智能标注(iTAG)提供多模态数据标注服务;可视化建模(Designer)支持低代码开发;交互式建模(DSW)提供云端IDE环境;分布式训练(DLC)支持超大规模深度学习任务;模型在线服务课堂(EAS)实现一键部署。PAI支持多种开源框架,具备AI工程化全流程能力,并提供高性能计算优化,适用于大语言模型、AI绘画、视频生成等多样化场景。该平台通过云原生架构和丰富的预置资源,显著降低A
2025-06-04 21:45:47
12499
原创 Manus AI简介及使用场景
ManusAI是一款智能数据处理分析系统,采用机器学习和自动化技术优化企业决策。核心技术包括实时建模、多模态融合和自适应算法,在工业、金融、医疗领域表现突出
2025-06-03 13:45:06
13333
原创 服务器磁盘格式化、初始化与挂载方法
Linux系统磁盘管理摘要:新磁盘管理流程包括:1)使用lsblk/fdisk-l识别磁盘;2)采用fdisk(小磁盘)或parted(大磁盘)分区;3)用mkfs格式化分区;4)创建挂载目录并临时挂载;5)通过/etc/fstab实现永久挂载。关键点:必须确认设备路径,建议先测试挂载再永久配置。对LVM管理,需额外创建物理卷/卷组/逻辑卷。操作前应备份数据,并根据需求选择合适文件系统(如ext4/xfs)。验证步骤包括mount-a和df-h检查。
2025-06-03 13:40:43
12045
原创 DeepSeek 部署中的常见问题及解决方案
深度学习部署常见问题及解决方案:硬件资源不足时可调整batchsize或模型量化,依赖冲突建议使用虚拟环境隔离。模型加载失败需检查路径处理,显存OOM可通过梯度检查点和混合精度训练优化。推理性能方面,建议采用模型缓存和动态批处理技术。服务高并发场景下需配置负载均衡和限流策略,并注意日志结构化与监控指标完善。安全方面应实施JWT鉴权和模型文件加密存储。关键解决思路包括资源监控、路径规范、性能优化和服务加固等措施。
2025-06-03 13:38:15
11429
原创 JavaScript性能优化实战
本文总结了前端性能优化的关键策略:1.核心目标为提升加载速度、减少卡顿和内存消耗,重点关注FCP/TTI指标,使用Lighthouse等工具检测瓶颈。2.优化手段包括:代码层面采用模块化、批量DOM操作和高效循环;资源加载使用预加载/延迟、压缩和CDN;内存管理注重事件/定时器清理;渲染优化通过硬件加速和虚拟滚动实现。3.建议建立持续监控机制,集成性能预算和自动化测试,并探索WebWorkers、ServiceWorker等进阶方案。通过多维度优化可显著提升用户体验。
2025-06-01 10:59:49
13194
流程规范\研发规范\代码规范\前端\HTML编码规范
2025-04-03
流程规范\研发规范\代码规范\前端\Flutter编码规范
2025-04-03
流程规范\研发规范\代码规范\前端\ESLINT规范
2025-04-03
流程规范\研发规范\代码规范\后端\6.安全规约
2025-04-03
流程规范\研发规范\代码规范\后端\附:专有名词解释
2025-04-03
流程规范\研发规范\代码规范\后端\5.设计规约
2025-04-03
流程规范\研发规范\代码规范\后端\4.工程结构
2025-04-03
流程规范\研发规范\代码规范\后端\1.编程规约
2025-04-03
流程规范\研发规范\代码规范\后端\3.单元测试
2025-04-03
流程规范\研发规范\代码规范\后端\2.异常日志
2025-04-03
Linux系统核心命令与基础架构配置指南
2025-03-25
SQLServer2008教程
2015-07-30
H3C CAS 云计算管理平台 开局指导-E0785及之后版本-5W100-整本手册
2025-04-22
【Linux系统管理】常用命令汇总:磁盘挂载、Docker操作、防火墙配置与服务管理
2025-04-22
H3C CAS云计算管理平台 安装指导-E0785系列-5W113-整本手册
2025-04-22
2025面试经验-阿里云-交付架构师
2025-04-16
2025面试经验-科大讯飞-系统架构师
2025-04-09
2025面试经验-阿里云智能-技术服务专家
2025-04-09
2025面试经验-海康萤石-Java应用架构师
2025-04-09
2025面试经验-京东零售-Java开发
2025-04-09
【信息技术领域】系统试运行保障及应急预案:构建全面的信息系统应急响应机制与试运行保障体系为系统试运行
2025-04-03
流程规范\研发规范\代码规范\前端\React编码规范
2025-04-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人