weixin_44247104-CSDN博客

原创基于Torch，测Qwen 3B训练的精度对比。

正常现象，它把npu的输入直接转cpu然后计算。这个误差很有可能是转换的时候，内存排列contiguous产生的影响，所以会超过千分之一。前提：bf16下，设置atol=0.001, rtol=0.001，单机8卡做Qwen 2.5训练。1.现象：NPU vs CPU部分算子精度超过atol， rtol。排查所有的torch.ops，具体会定位到tensor idx。3.堵点：客户测到的误差大约在0.03+，这个现象是否正常。基于Torch，测Qwen 3B训练的精度对比。

2025-04-18 17:39:46 841

原创昇腾多机通信 hccl error9

训推场景Atlas800T A2服务器多机间通信有问题，报错timeout，客户用hccn_tool测试了多机卡间能够互通，但是直接执行"dist.reduce_scatter(output, input_tensor_list, group=dp_group)" 还是会timeout。通过版本配套检查发现，客户torch和torch_npu是2.5.1的版本，CANN版本是8.0.0，CANN版本与torch版本不配套，将torch和torch_npu版本降到2.4.0.post2解决。

2025-04-18 16:47:00 297

原创昇腾AI实践篇---基于torh_npu的多级多卡训练

需注意该方式不会自动使用NPU，用户需要手动在想使用NPU的地方，添加***xx*********.npu()****代码****，****将模型数据集等加载到NPU上，如****model.npu()**。dist.init_process_group(backend='nccl',init_method = "tcp://127.0.0.1:**", ...... ,rank = args.rank) # **为端口号，根据实际选择一个闲置端口填写。在DDP中，每个GPU上都复制了完整的模型。

2025-04-18 16:27:21 298

原创模型权重转换OOM解决方案

Deepseek2-236B在2T内存的服务器上转全层的权重时会出现内存不够的报错，下面介绍一些可行的改进措施。通过这样修改，我们将deepseek2-236B的权重转换的内存降低到了2T以内。里也可以用同样的思路降低内存。以hf2mg为例，下面是对。

2025-01-19 00:22:56 152

原创 MindSpeed大模型训练前置知识之大并行加速算法大模型并行加速

从chatgpt大模型爆发，尤其因规模定律作用下，大模型展现出涌现能力，AI模型的天花板被一步步摸高。大模型规模定律与模型参数量、训练数据量、算力大小呈幂律正相关性。大模型训练过程中需要面对“模型参数量大、训练数据量大、算力量有限”的挑战，大模型参数量由十亿到百亿、千亿甚至万亿的增长量级，同时预训练数据量高达数十T的量级。例如GPT-3有1730亿的参数量，投喂570G语料数据，使用8张V100,则训练时长需要。面对大模型大参数量以及海量训练数据量对算力的需求挑战，衍生出两种经典的训练并行加速策略，

2024-12-20 17:03:25 612

原创 torch_npu 训练单机多卡示例

当数据被分配到各个GPU上时，每个模型实例都会独立地对数据进行前向传播，并计算损失。to(device)方式：定义好device后可通过_xx_.to(device)的方式将模型或数据集等加载到GPU或NPU上，如model.to(device)。set_device方式：调用set_device接口，指定训练设备。需注意该方式不会自动使用NPU，用户需要手动在想使用NPU的地方，添加。3、替换CUDA接口：将训练脚本中的CUDA接口替换为NPU接口，例如模型、损失函数、数据集等迁移到NPU上。

2024-11-25 09:44:08 2941