Huggingface Trainer：Removed shared tensor while saving问题的解决

最新推荐文章于 2025-06-09 17:29:53 发布

原创

最新推荐文章于 2025-06-09 17:29:53 发布

· 993 阅读

·

5

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #开发语言

bug概述：【踩坑记录📝】Removed shared tensor while saving.
简单来说，这个bug的危害是trainer.save()无法正确存储权重。这篇博文的作者也给出了两种处理方法，但要么要改transformers版本，要么要包裹Trainer类，太麻烦了。

我使用transformers版本4.38.0，deepspeed zero 0/1/2复现了这篇博文所述bug，研究得知bug的具体原因后，给出以下解决思路：

第一步：获得正确的state_dict

trainer调用_save方法时，默认入参state_dict=None，然后_save方法通过self.model.state_dict()获得state_dict，导致报错。原因是此时self.model是通过accelerator加载的，state_dict需要用self.accelerator.get_state_dict(self.model)的方式获得。

解决思路是提前在调用_save之前提前通过self.accelerator.get_state_dict(self.model)把state_dict取出，然后直接带state_dict入参来调用_save方法，实现权重存储。

我在这里借鉴了QWen-VL仓库finetune.py的写法，参考代码如下：

def safe_save_model_for_hf_trainer

最低0.47元/天解锁文章

博客等级

码龄7年

152
原创

238
点赞

679
收藏

1744
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: PaddleOCR：GPU环境依赖踩坑全记录

下一篇：: Pytorch lightning: ValueError: dictionary update sequence element #0 has length 1； 2 is required报错解决

最新评论

PaddleOCR遇到RuntimeError: (PreconditionNotMet) Cannot load cudnn shared library. 错误的解决
金讲究: 有效！成功了，首先去cuda下载对应的cudaa版本，如果是12x以上就下载最新的即可。接着把下载的xz包解压到服务器上，之后进入到解压后的lib包中，使用export LD_LIBRARY_PATH=xxx/lib:$LD_LIBRARY_PATH即可完成
服务器普通用户安装自己需要版本的gcc
遥Haruka: 为啥我加入了path以后which gcc还是默认的路径
Pytorch：多模态大模型预训练、大模型微调：加载数据的正确姿势
WinterShiver: 当前的数据处理场景设定如下：数据源为单个巨大的 jsonl 文件，可能包含多达上百万行数据记录。且单条数据条目普遍较为简短。本文聚焦于利用 PyTorch 的 Dataset 类的默认接口。在实践中，当然也可以重写 Dataset 类的 init 方法，使其仅加载诸如数据索引、数据条目总量这类元数据，而将具体数据内容的获取环节后置至 getitem 方法被调用时执行，来规避一次性将大规模数据集完整载入内存，而无需使用 iterable dataset。然而本文场景下，由于数据总量大，仅加载数据索引的元数据，内存占用还是很大，没有显著改善资源利用情况；。与此同时，在该业务场景下，诸如 len 这类用以表征数据规模等属性的元信息并不重要。此时选用 iterable dataset 会更方便。本文核心目的在于清晰阐释相关接口的高效运用方式，方便实操使用。而到了实际解决问题的时候思路可以很开阔。
Pytorch：多模态大模型预训练、大模型微调：加载数据的正确姿势
wtz123123123: “Pytorch的Dataset类在初始化时会将整个数据集加载到内存中”，这句话应该存在错误
Haskell：实现二叉树及其前序、中序、后序遍历和层序遍历
Stepfen Shawn: levelOrderTraversal不用reverse也行, k:result改成result++[k]就可以了

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。