pxooo-CSDN博客

原创大模型批量推理使用提示

新手使用vllm进行大模型批量推理时容易忽略关键细节：1) 必须添加断点续跑功能，采用json文件实时保存每个处理项；2) 需要捕获单个prompt的错误异常，避免整个批量任务中断。这两点优化能显著提高实验效率，防止因单条数据问题导致时间浪费。

2025-06-18 08:47:31 82

我更新完Vscode后发现ssh链接不上，发现是找不到[15:46:27.411] > Can't open user config file C:UsersPX.sshconfig: No such file or directory。提交: 258e40fedc6cb8edf399a463ce3a9d32e7e1f6f3。日期: 2025-06-02T13:30:54.273Z。版本: 1.100.3 (system setup)然后我就改了配置文件路径。

2025-06-10 15:58:54 150

原创 RuntimeError: An attempt has been made to start a new process

在我要运行python文件中，构建main函数，然后加上。

2025-05-20 22:44:59 200

原创 RuntimeError: CUDA error: device-side assert triggered

最后发现是我的template模板没有写对，导致cuda的某种内存出现问题。我在运行LLamaFactory时出现这个错误，

2025-05-20 19:41:18 117

原创如何在使用框架代码进行训练时禁用wandb

本人在使用LLamaFactory进行训练时，由于训练节点不能联网，所以我只能禁用wandb。

2025-05-20 16:47:15 154

原创 VLLM ERROR 05-20 10:39:09 [core.py:340] RuntimeError: Cannot re-initialize CUDA in forked subproces

本文主要是记录了自己debug的过程，下次又遇到了这个问题，又不知道该怎么办了，如果有版权冲突，请联系本人删文章。我在使用VLLM时发生这个错误，并且提示我需要加入Spawn来进行初始化。

2025-05-20 10:52:11 201

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

pxooo的博客

原创大模型批量推理使用提示

原创 Vscode更新后SSh链接不上，找不动配置文件路径

原创 RuntimeError: An attempt has been made to start a new process

原创 RuntimeError: CUDA error: device-side assert triggered

原创如何在使用框架代码进行训练时禁用wandb

原创 VLLM ERROR 05-20 10:39:09 [core.py:340] RuntimeError: Cannot re-initialize CUDA in forked subproces

空空如也

空空如也

原创 大模型批量推理使用提示

原创 Vscode更新后SSh链接不上，找不动配置文件路径

原创 RuntimeError: An attempt has been made to start a new process

原创 RuntimeError: CUDA error: device-side assert triggered

原创 如何在使用框架代码进行训练时禁用wandb

原创 VLLM ERROR 05-20 10:39:09 [core.py:340] RuntimeError: Cannot re-initialize CUDA in forked subproces

空空如也

空空如也

原创大模型批量推理使用提示

原创如何在使用框架代码进行训练时禁用wandb