def return_values(): import pandas as pd df1 = pd.read_excel('一、车次上车人数统计表.xlsx') df2 = pd.read_table('txt1.txt',header=None) reader = pd.read_csv('data.csv',chunksize=20000) k=0; names = locals()#设置全局变量 for i in reader: k=k+1 names['A%s'%k]=pd.DataFrame(i)#创建A1~Ak个变量,分别保存各分块 print('第'+str(k)+'次读取数据规模为: ',len(i)) print(i.shape)
时间: 2025-03-12 12:05:20 浏览: 54
### 使用 Pandas 读取不同格式的数据文件
对于不同的数据文件格式,Pandas 提供了多种方法来读取这些文件。具体来说:
- **Excel 文件**:可以通过 `pd.read_excel()` 函数读取 Excel 文件中的数据,并将其转换成 DataFrame 对象[^2]。
- **CSV 文件**:`pd.read_csv()` 是用于读取 CSV 文件的主要工具,它能够解析逗号分隔的值并将它们加载到 DataFrame 中[^1]。
- **TXT 文件**:如果文本文件是以制表符或其他定界符分割,则可以使用 `pd.read_table()` 或者同样适用的 `pd.read_csv(sep='\t')` 来导入此类文件[^4]。
为了提高效率以及更好地管理资源,在面对大型 CSV 文件时推荐采用分块处理的方式。这不仅有助于减少内存占用,还可以加快数据预览速度,尤其是在不需要一次性加载整个文件的情况下尤为有用。
### 大型 CSV 文件的最佳实践——分块读取
当遇到特别大的 CSV 文件以至于不适合全部载入内存之中时,应该考虑利用参数 `chunksize` 实现逐片读取。下面给出了一段 Python 代码作为示范,展示了怎样通过设置合适的 chunk size 参数来进行高效的大规模数据分析工作:
```python
import pandas as pd
for chunk in pd.read_csv('large_file.csv', chunksize=10**6): # 设定每一块含有百万行记录
process(chunk) # 自定义函数process()用来执行特定任务比如清洗、聚合等操作
```
此方法允许程序逐步迭代遍历整个文档而无需担心超出可用 RAM 的限制;每次只有一部分被实际存放在计算机的工作区内等待进一步加工处理完毕后再释放掉这部分空间以便下一批次进来继续循环直到完成所有批次为止。
阅读全文
相关推荐





