自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 基于Torch,测Qwen 3B训练的精度对比。

正常现象,它把npu的输入直接转cpu然后计算。这个误差很有可能是转换的时候,内存排列contiguous产生的影响,所以会超过千分之一。前提 :bf16下,设置atol=0.001, rtol=0.001,单机8卡做Qwen 2.5训练。1.现象:NPU vs CPU部分算子精度超过atol, rtol。排查所有的torch.ops,具体会定位到tensor idx。3.堵点:客户测到的误差大约在0.03+,这个现象是否正常。基于Torch,测Qwen 3B训练的精度对比。

2025-04-18 17:39:46 841

原创 昇腾多机通信 hccl error9

训推场景Atlas800T A2服务器多机间通信有问题,报错timeout,客户用hccn_tool测试了多机卡间能够互通,但是直接执行"dist.reduce_scatter(output, input_tensor_list, group=dp_group)" 还是会timeout。通过版本配套检查发现,客户torch和torch_npu是2.5.1的版本,CANN版本是8.0.0,CANN版本与torch版本不配套,将torch和torch_npu版本降到2.4.0.post2解决。

2025-04-18 16:47:00 297

原创 昇腾AI实践篇---基于torh_npu的多级多卡训练

需注意该方式不会自动使用NPU,用户需要手动在想使用NPU的地方,添加***xx*********.npu()****代码****,****将模型数据集等加载到NPU上,如****model.npu()**。dist.init_process_group(backend='nccl',init_method = "tcp://127.0.0.1:**", ...... ,rank = args.rank) # **为端口号,根据实际选择一个闲置端口填写。在DDP中,每个GPU上都复制了完整的模型。

2025-04-18 16:27:21 298

原创 模型权重转换OOM解决方案

Deepseek2-236B在2T内存的服务器上转全层的权重时会出现内存不够的报错,下面介绍一些可行的改进措施。通过这样修改,我们将deepseek2-236B的权重转换的内存降低到了2T以内。里也可以用同样的思路降低内存。以hf2mg为例,下面是对。

2025-01-19 00:22:56 152

原创 MindSpeed大模型训练前置知识之大并行加速算法大模型并行加速

从chatgpt大模型爆发,尤其因规模定律作用下,大模型展现出涌现能力,AI模型的天花板被一步步摸高。大模型规模定律与模型参数量、训练数据量、算力大小呈幂律正相关性。大模型训练过程中需要面对“模型参数量大、训练数据量大、算力量有限”的挑战,大模型参数量由十亿到百亿、千亿甚至万亿的增长量级,同时预训练数据量高达数十T的量级。例如GPT-3有1730亿的参数量,投喂570G语料数据,使用8张V100,则训练时长需要。面对大模型大参数量以及海量训练数据量对算力的需求挑战,衍生出两种经典的训练并行加速策略,

2024-12-20 17:03:25 612

原创 torch_npu 训练单机多卡示例

当数据被分配到各个GPU上时,每个模型实例都会独立地对数据进行前向传播,并计算损失。to(device)方式:定义好device后可通过_xx_.to(device)的方式将模型或数据集等加载到GPU或NPU上,如model.to(device)。set_device方式:调用set_device接口,指定训练设备。需注意该方式不会自动使用NPU,用户需要手动在想使用NPU的地方,添加。3、替换CUDA接口:将训练脚本中的CUDA接口替换为NPU接口,例如模型、损失函数、数据集等迁移到NPU上。

2024-11-25 09:44:08 2941

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除