Pandas使用教程 - Pandas 内存优化技巧

最新推荐文章于 2025-05-21 19:57:45 发布

闲人编程

最新推荐文章于 2025-05-21 19:57:45 发布

阅读量783

点赞数 20

CC 4.0 BY-SA版权

分类专栏： Pandas使用教程文章标签： pandas 内存优化教程 python 数据分析降低内存占用提高计算效率

本文链接：https://blog.csdn.net/qq_42568323/article/details/145964206

Pandas使用教程专栏收录该内容

67 篇文章

订阅专栏

进阶篇52. Pandas 内存优化技巧

在处理大规模数据时，内存消耗往往成为数据分析的瓶颈。通过优化数据类型、读取方式和处理策略，可以大幅降低 Pandas 数据框的内存占用，并提高数据处理的效率。本文将详细介绍 Pandas 内存优化的常见方法和最佳实践，并提供具体代码示例，帮助你在实际项目中实现高效的数据处理。

1. 为什么需要内存优化？

降低内存占用：在处理大数据集时，默认数据类型可能占用过多内存，导致计算缓慢或内存溢出。
提高计算效率：内存优化后的数据不仅占用更少内存，而且在计算和查询时也能更快地加载和处理数据。
改善扩展性：优化内存使用使得数据分析能够在资源有限的机器上运行，适用于云计算和大数据处理场景。

2. 数据类型优化

2.1 合理选择数值类型

默认情况下，Pandas 会将整数和浮点数存储为 int64 和 float64，而在很多情况下，较低精度的类型已经足够使用。

使用 pd.to_numeric() 下调类型

import pandas as pd
import numpy as np

df = pd.DataFrame({
    'int_col': [1, 2, 3, 4, 5],
    'float_col': [1.5, 2.5, 3.5, 4.5, 5.5]
})

# 将整数列下调为 int32
df['int_col'] = pd.to_numeric(df['int_col'], downcast='integer')
# 将浮点数列下调为 float32
df['float_col'] = pd.to_numeric(df['float_col'], downcast='float')

print(df.dtypes)

通过 downcast 参数可以将数值数据转换为更低精度的数据类型，从而减少内存占用。

2.2 使用分类数据类型

对于重复值较多的文本列或有限取值的列，转换为 category 类型可以显著减少内存占用，并提高分组操作的效率。

df = pd.DataFrame({
    'Gender': ['Male', 'Female', 'Female', 'Male', 'Female', 'Male']
})
df['Gender'] = df['Gender'].astype('category')
print(df.dtypes)

2.3 自动数据类型转换

利用 convert_dtypes() 方法可以自动将 DataFrame 的各列转换为更合适的数据类型（例如将字符串列转换为 string 类型、数值列转换为更低精度类型）。

df = df.convert_dtypes()
print(df.dtypes)

3. 数据读取优化

3.1 选择合适的读取方式

使用 dtype 参数：在使用 pd.read_csv() 或 pd.read_excel() 读取数据时，通过指定 dtype 参数，可以提前降低内存消耗。

dtype_spec = {'col1': 'int32', 'col2': 'float32', 'col3': 'category'}
df = pd.read_csv('data/large_file.csv', dtype=dtype_spec)

使用 usecols 参数：只读取需要的列，避免加载无用数据。
```
df = pd.read_csv('data/large_file.csv', usecols=['col1', 'col2'])
```

3.2 分块读取数据

对于超大文件，使用 chunksize 参数分块读取，逐块处理数据，再合并结果，这样可以避免一次性加载所有数据导致内存溢出。

chunk_iter = pd.read_csv('data/huge_file.csv', chunksize=100000)
chunks = []
for chunk in chunk_iter:
    # 对每个块进行必要的预处理
    chunks.append(chunk)
df_full = pd.concat(chunks, ignore_index=True)

4. 数据处理中的内存管理

4.1 删除不必要的列

在数据清洗过程中，删除那些不再需要的列可以显著减少内存占用。

df.drop(columns=['unnecessary_col1', 'unnecessary_col2'], inplace=True)

4.2 避免不必要的数据复制

尽量使用就地操作（例如使用 inplace=True）避免创建数据副本。
使用 .loc 和 .iloc 时注意返回的是视图还是副本，避免无意中拷贝整个 DataFrame。

4.3 内存使用检测工具

利用 df.info(memory_usage='deep') 和第三方工具如 memory_profiler 检查 DataFrame 的内存占用，以便进行针对性优化。

print(df.info(memory_usage='deep'))

在 Jupyter Notebook 中，可以使用 %load_ext memory_profiler 和 %memit 来监控代码块的内存使用情况。

5. 高级技巧与扩展方法

5.1 使用更高效的数据存储格式

对于需要频繁读写的数据，考虑使用 Parquet、Feather 等高效的二进制格式，它们不仅支持压缩，而且读写速度快。

df.to_parquet('output/data.parquet')
df_parquet = pd.read_parquet('output/data.parquet')

5.2 并行处理与分布式计算

当数据量非常大时，可以考虑使用 Dask 或 Modin 来扩展 Pandas 的功能，将数据分布在多个 CPU 核心或节点上进行处理。

import dask.dataframe as dd
ddf = dd.read_csv('data/huge_file.csv', dtype=dtype_spec)
# 后续操作与 Pandas 类似，使用 compute() 获取结果
df_result = ddf.groupby('col1').sum().compute()

6. 总结

本文介绍了 Pandas 内存优化的多种技巧和最佳实践，主要内容包括：

数据类型优化：
- 使用 pd.to_numeric() 的 downcast 参数和转换为 category 类型显著降低内存消耗。
- 自动转换数据类型（convert_dtypes()）有助于优化存储。
数据读取优化：
- 通过指定 dtype、usecols 参数在读取数据时减少内存占用。
- 利用 chunksize 分块读取大文件，避免内存溢出。
数据处理中的内存管理：
- 删除不必要的列，避免数据复制，并使用内存检测工具（如 memory_usage('deep')）进行监控。
使用高效存储格式与并行处理：
- 采用 Parquet、Feather 等高效格式存储数据。
- 借助 Dask 或 Modin 进行分布式计算，加速大数据处理。