python处理大训练集过程中遇到的Memory Error问题解决

最新推荐文章于 2025-05-31 07:30:00 发布

默一鸣

最新推荐文章于 2025-05-31 07:30:00 发布

阅读量4.5w

点赞数 5

CC 4.0 BY-SA版权

分类专栏： ML

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yimingsilence/article/details/79717768

ML 专栏收录该内容

82 篇文章

订阅专栏

本文介绍在Python中处理大数据集时常见的内存不足问题及其解决方法，包括使用numpy减少内存占用、手动进行垃圾回收、利用sparse存储稀疏数据以及优化数据加载策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python处理大数据集时容易出现内存错误也就是内存不够用。

1. python原始的数据类型占用空间比较大，且没有太多的选择，默认一般好像是24字节，但是实际有时候不需要这么大或这么高精度，这时候可以使用numpy中的float32， float16等，总之根据自己的需要选够用就行，这就是好几倍的内存节省。

2. python的垃圾回收机制比较懒惰，有时候在一个for循环中的变量用完不会回收，下次重新初始化的时候又重新开辟了空间，这时候可以手动del这个变量，del x，然后import gc, 然后手动gc.collect()

3. 在数据是稀疏的情况下，如训练集中大量one hot特征，此时把dense的数据转成sparse的存储方式，可以参考scipy里面的sparse模块，里面有多种支持sparse存储的数据结构可以直接调用。但是注意里面的集中数据结构至少都需要dense数据2-3倍的空间来存储，也就是说，如果你的数组中，sparse的只有一半甚至更少，那使用sparse结构只会占用更多的空间。只有在数据中大量都是稀疏的情况下才能用。

4. 本质上还是检查自己组织数据的方式是否有问题，比如是不是可以在每个batch中one hot,总之就是不要把各种需要和不需要的所有东西一次性存到内存中。

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。