import pandas as pd # 1. 加载数据（假设数据为 CSV 或 Excel 文件） file_path = "D:/数据清洗/DataCleaning/淘宝餐巾纸初步数据.xlsx" # 替换为实际路径 pd.read_excel(file_path, engine='openpyxl') # 如果是 Excel，用 pd.read_excel(file_path, engine='openpyxl') # 2. 查看数据基本信息 print("数据前5行：") print(df.head()) print("\n数据统计信息：") print(df.describe()) print("\n数据缺失情况：") print(df.isnull().sum()) # 3. 处理缺失值 # 方法1：删除缺失行 df_dropna = df.dropna() # 删除所有含缺失值的行 # 方法2：填充缺失值（如用均值填充数值列） df_fillna = df.fillna({ '数值列名': df['数值列名'].mean(), '文本列名': 'Unknown' # 文本列填充特定值 }) # 4. 删除重复值 df_unique = df.drop_duplicates() # 5. 处理数据类型（如日期转换） df['日期列名'] = pd.to_datetime(df['日期列名'], errors='coerce') # 错误日期转为 NaT # 6. 数据筛选（如保留特定条件的数据） df_filtered = df[df['数值列名'] > 100] # 筛选数值大于100的行 # 7. 文本清洗（如去除空格、统一格式） df['文本列名'] = df['文本列名'].str.strip() # 去除首尾空格 df['文本列名'] = df['文本列名'].str.lower() # 转为小写 # 8. 保存清洗后的数据 df.to_excel("cleaned_data.excel", index=False) # 保存为 CSV，Excel 用 to_excel()

时间: 2025-07-14 09:04:09 浏览: 8

<think>嗯，用户又发来了一个Python代码的问题。让我仔细看看。之前的对话中，用户遇到了NameError: name 'df' is not defined的错误，我帮他分析了可能的原因和解决方法。现在用户又发来一段新的代码，看起来是关于数据清洗的，但可能还存在类似的错误。首先，我需要仔细阅读用户提供的代码。代码开头是导入pandas，然后加载Excel文件，使用的是pd.read_excel，但这里有个问题：用户没有把读取的数据赋值给变量df。也就是说，他们写了pd.read_excel(file_path, engine='openpyxl')，但没有写成df = pd.read_excel(...)。这样，后面的df.head()就会再次出现NameError，因为df没有被定义。这是用户当前代码中的主要错误，和之前的问题一样，但用户可能没有意识到这一点。接下来，用户尝试进行数据清洗的步骤，包括处理缺失值、删除重复值、数据类型转换等。这些步骤本身是正确的，但由于前面的数据加载错误，后面的所有df操作都会失败。此外，用户可能在保存数据时使用了错误的文件名，比如将Excel文件保存为cleaned_data.excel，正确的扩展名应该是.xlsx，所以这也会导致问题。用户的需求应该是让这段数据清洗的代码正常运行。他们可能是在学习如何使用pandas进行数据清洗，但在实际应用中遇到了错误。需要指出代码中的关键错误，并提供修正后的示例，同时解释每一步的作用，确保用户理解如何正确使用这些方法。另外，用户可能对pandas的一些函数不太熟悉，比如read_excel需要指定engine参数的情况，或者如何处理不同的数据类型。在解释时，需要提到这些细节，帮助用户避免常见的陷阱。例如，使用engine='openpyxl'是因为在处理.xlsx文件时可能需要这个引擎，特别是当默认引擎没有安装的时候。还有，用户在数据清洗步骤中可能没有考虑到实际数据中的列名，比如'数值列名'、'文本列名'、'日期列名'这些占位符需要替换为实际数据中的列名。这也是需要提醒用户的地方，否则代码运行时会出现KeyError。总结下来，用户的主要错误在于没有将读取的数据赋值给变量df，导致后续操作全部失败。此外，保存文件时的扩展名错误和占位符列名的问题也需要指出。需要逐步解释错误原因，并提供修正后的代码，同时给出每一步的说明，帮助用户理解数据清洗的流程和正确的方法。</think>--- ### **错误分析** 在你的代码中，**`df` 未被正确定义**，导致后续所有操作都会触发 `NameError`。以下是具体问题和解决方案： --- ### **关键错误修正** #### **1. 数据未赋值给变量 `df`** - **原代码问题**： ```python pd.read_excel(file_path, engine='openpyxl') # 未将读取结果赋值给 df print(df.head()) # df 未被定义 → NameError ``` - **修正方法**：将读取的数据赋值给 `df`： ```python df = pd.read_excel(file_path, engine='openpyxl') # 关键修正！ ``` --- ### **完整修正代码** ```python import pandas as pd # 1. 加载数据（需正确赋值给 df） file_path = "D:/数据清洗/DataCleaning/淘宝餐巾纸初步数据.xlsx" df = pd.read_excel(file_path, engine='openpyxl') # 修正点：赋值给 df # 2. 查看数据基本信息 print("数据前5行：") print(df.head()) print("\n数据统计信息：") print(df.describe()) print("\n数据缺失情况：") print(df.isnull().sum()) # 3. 处理缺失值（需替换实际列名） # 方法1：删除缺失行 df_dropna = df.dropna() # 方法2：填充缺失值（示例，需替换列名） df_fillna = df.fillna({ 'price': df['price'].mean(), # 替换为实际数值列名 'category': 'Unknown' # 替换为实际文本列名 }) # 4. 删除重复值 df_unique = df.drop_duplicates() # 5. 处理日期（需替换日期列名） df['date'] = pd.to_datetime(df['date'], errors='coerce') # 替换为实际日期列名 # 6. 数据筛选（示例） df_filtered = df[df['price'] > 100] # 替换为实际数值列名 # 7. 文本清洗（示例） df['product_name'] = df['product_name'].str.strip() # 替换为实际文本列名 df['product_name'] = df['product_name'].str.lower() # 8. 保存清洗后的数据（修正文件扩展名） df.to_excel("cleaned_data.xlsx", index=False) # 扩展名应为 .xlsx，而非 .excel ``` --- ### **分步说明** #### **1. 加载数据** - **关键点**：必须将 `pd.read_excel()` 的返回值赋值给 `df`，否则数据未被存储。 - **扩展说明**： - 如果文件较大或包含特殊格式，建议添加参数： ```python df = pd.read_excel(file_path, engine='openpyxl', sheet_name="Sheet1") # 指定工作表 ``` --- #### **2. 处理缺失值** - **注意事项**： - `dropna()` 会直接删除所有含缺失值的行，可能导致数据量锐减。 - `fillna()` 需要根据列类型选择填充策略： ```python # 数值列填充均值 df['price'] = df['price'].fillna(df['price'].mean()) # 文本列填充众数 df['category'] = df['category'].fillna(df['category'].mode()[0]) ``` --- #### **3. 保存数据** - **常见错误**： - 文件扩展名错误：Excel 文件应为 `.xlsx`，CSV 文件应为 `.csv`。 - 编码问题：中文数据建议指定编码： ```python df.to_csv("cleaned_data.csv", index=False, encoding='utf_8_sig') # 支持中文 ``` --- ### **补充建议** 1. **列名替换**：将代码中的 `'price'`、`'date'` 等占位符替换为实际列名。 2. **异常处理**：添加错误捕获确保程序健壮性： ```python try: df = pd.read_excel(file_path, engine='openpyxl') except FileNotFoundError: print(f"错误：文件 {file_path} 不存在！") exit() ``` 3. **数据预览**：使用 `df.info()` 查看列名和数据类型： ```python print("\n数据列信息：") print(df.info()) ``` --- ### **调试技巧** - **逐步执行**：分段运行代码，确保每一步输出符合预期。 - **打印中间结果**： ```python print("处理缺失值前，数据形状:", df.shape) df = df.dropna() print("处理缺失值后，数据形状:", df.shape) ``` --- 通过以上修正和说明，你的代码将能正确运行并完成数据清洗任务。如果仍有问题，请提供实际列名或错误提示以便进一步分析！

阅读全文

CSDN会员

开通CSDN年卡参与万元壕礼抽奖

海量 VIP免费资源千本正版电子书商城会员专享价千门课程&专栏

全年可省5,000元立即开通

大家在看

MOXA UPort1110drvUSB转串口驱动

复盛压缩机选型软件.rar )

RK3308开发资料

ISO IEC 19941：2017 Information technology — Cloud computing — In

Android openssl 全平台.a文件

最新推荐

langchain4j-1.1.0.jar中文-英文对照文档.zip

计算机控制课程设计报告直流电机转速闭环控制(1).doc

初一下册Unit5-Why-do-you-like-pandas-知识点(1).doc

本科毕业设计---基于ansys汽车发动机前端齿轮的接触应力分析(1).doc

[精选]网站文案写作技巧培训.pptx

Wamp5: 一键配置ASP/PHP/HTML服务器工具

【数据融合技术】：甘肃土壤类型空间分析中的专业性应用

sht20温湿度传感器使用什么将上拉电阻和滤波电容引出

Delphi仿速达财务软件导航条组件开发教程

【空间分布规律】：甘肃土壤类型与农业生产的关联性研究