- 博客(6)
- 收藏
- 关注
原创 基于Torch,测Qwen 3B训练的精度对比。
正常现象,它把npu的输入直接转cpu然后计算。这个误差很有可能是转换的时候,内存排列contiguous产生的影响,所以会超过千分之一。前提 :bf16下,设置atol=0.001, rtol=0.001,单机8卡做Qwen 2.5训练。1.现象:NPU vs CPU部分算子精度超过atol, rtol。排查所有的torch.ops,具体会定位到tensor idx。3.堵点:客户测到的误差大约在0.03+,这个现象是否正常。基于Torch,测Qwen 3B训练的精度对比。
2025-04-18 17:39:46
841
原创 昇腾多机通信 hccl error9
训推场景Atlas800T A2服务器多机间通信有问题,报错timeout,客户用hccn_tool测试了多机卡间能够互通,但是直接执行"dist.reduce_scatter(output, input_tensor_list, group=dp_group)" 还是会timeout。通过版本配套检查发现,客户torch和torch_npu是2.5.1的版本,CANN版本是8.0.0,CANN版本与torch版本不配套,将torch和torch_npu版本降到2.4.0.post2解决。
2025-04-18 16:47:00
297
原创 昇腾AI实践篇---基于torh_npu的多级多卡训练
需注意该方式不会自动使用NPU,用户需要手动在想使用NPU的地方,添加***xx*********.npu()****代码****,****将模型数据集等加载到NPU上,如****model.npu()**。dist.init_process_group(backend='nccl',init_method = "tcp://127.0.0.1:**", ...... ,rank = args.rank) # **为端口号,根据实际选择一个闲置端口填写。在DDP中,每个GPU上都复制了完整的模型。
2025-04-18 16:27:21
298
原创 模型权重转换OOM解决方案
Deepseek2-236B在2T内存的服务器上转全层的权重时会出现内存不够的报错,下面介绍一些可行的改进措施。通过这样修改,我们将deepseek2-236B的权重转换的内存降低到了2T以内。里也可以用同样的思路降低内存。以hf2mg为例,下面是对。
2025-01-19 00:22:56
152
原创 MindSpeed大模型训练前置知识之大并行加速算法大模型并行加速
从chatgpt大模型爆发,尤其因规模定律作用下,大模型展现出涌现能力,AI模型的天花板被一步步摸高。大模型规模定律与模型参数量、训练数据量、算力大小呈幂律正相关性。大模型训练过程中需要面对“模型参数量大、训练数据量大、算力量有限”的挑战,大模型参数量由十亿到百亿、千亿甚至万亿的增长量级,同时预训练数据量高达数十T的量级。例如GPT-3有1730亿的参数量,投喂570G语料数据,使用8张V100,则训练时长需要。面对大模型大参数量以及海量训练数据量对算力的需求挑战,衍生出两种经典的训练并行加速策略,
2024-12-20 17:03:25
612
原创 torch_npu 训练单机多卡示例
当数据被分配到各个GPU上时,每个模型实例都会独立地对数据进行前向传播,并计算损失。to(device)方式:定义好device后可通过_xx_.to(device)的方式将模型或数据集等加载到GPU或NPU上,如model.to(device)。set_device方式:调用set_device接口,指定训练设备。需注意该方式不会自动使用NPU,用户需要手动在想使用NPU的地方,添加。3、替换CUDA接口:将训练脚本中的CUDA接口替换为NPU接口,例如模型、损失函数、数据集等迁移到NPU上。
2024-11-25 09:44:08
2941
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人