""" XGBoost房价预测模板适用于回归任务 """ # 基础库 import pandas as pd import numpy as np # 预处理和评估 from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score from sklearn.preprocessing import StandardScaler # 可视化 import matplotlib.pyplot as plt import seaborn as sns # XGBoost import xgboost as xgb # 1. 数据加载 # 替换为你的数据路径 data = pd.read_csv('F:\房地产\删改.csv') # 显示数据前五行 print("数据预览：") print(data.head(3)) # 2. 数据预处理 # 删除包含缺失值的行（根据实际情况调整处理方式） data = data.dropna() # 分离特征和目标变量（假设目标列名为'price'） X = data.drop('房价', axis=1) y = data['房价'] # 处理分类特征（示例） categorical_cols = data['商业营业用房','办公楼','其他用房'] X = pd.get_dummies(X, columns=categorical_cols) # 数据标准化（根据需求选择） scaler = StandardScaler() X = scaler.fit_transform(X) # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42 ) # 3. 模型配置 model = xgb.XGBRegressor( objective='reg:squarederror', # 回归任务 n_estimators=1000, # 树的数量 learning_rate=0.01, # 学习率 max_depth=5, # 树的最大深度 subsample=0.8, # 样本采样比例 colsample_bytree=0.8, # 特征采样比例 reg_alpha=0.1, # L1正则化 reg_lambda=1, # L2正则化 random_state=42, early_stopping_rounds=50 # 早停法 ) # 4. 模型训练 model.fit( X_train, y_train, eval_set=[(X_test, y_test)], # 验证集 verbose=10 # 每10轮显示进度 ) # 5. 模型评估 # 预测结果 y_pred = model.predict(X_test) # 计算评估指标 mse = mean_squared_error(y_test, y_pred) rmse = np.sqrt(mse) mae = mean_absolute_error(y_test, y_pred) r2 = r2_score(y_test, y_pred) print(f"\n模型评估：") print(f"MSE: {mse:.2f}") print(f"RMSE: {rmse:.2f}") print(f"MAE: {mae:.2f}") print(f"R² Score: {r2:.2f}") # 6. 特征重要性可视化 # feature_importance = model.feature_importances_ # sorted_idx = np.argsort(feature_importance)[::-1] # # plt.figure(figsize=(12, 6)) # plt.title("特征重要性") # sns.barplot(x=feature_importance[sorted_idx][:15], # 显示前15个重要特征 # y=X.columns[sorted_idx][:15] 这个代码疫情结果哪个地方出现了问题，怎样改正这个问题？

时间: 2025-07-05 20:39:28 浏览: 19

<think>好的，我现在要解决用户提供的XGBoost房价预测模板中的特征重要性可视化部分的问题。首先，用户指出这段代码在运行时会出错，需要找出错误所在并改正。让我仔细看一下用户提供的代码。首先，用户的问题出现在代码的第6部分，特征重要性可视化。用户提供的代码片段如下： ```python # 6. 特征重要性可视化 # feature_importance = model.feature_importances_ # sorted_idx = np.argsort(feature_importance)[::-1] # # plt.figure(figsize=(12, 6)) # plt.title("特征重要性") # sns.barplot(x=feature_importance[sorted_idx][:15], # 显示前15个重要特征 # y=X.columns[sorted_idx][:15] ``` 看起来这部分代码被注释掉了，用户可能在运行时报错，所以需要检查哪里出问题。让我逐行分析。首先，用户使用`model.feature_importances_`获取特征重要性，然后使用`np.argsort`对重要性进行排序，得到`sorted_idx`。这部分看起来没问题。接下来，用户创建了一个图形，设置标题，然后调用`seaborn`的`barplot`函数。这里的问题可能出现在`y=X.columns[sorted_idx][:15]`这一行。我需要考虑几个可能的问题点： 1. **X的类型问题**：在数据预处理阶段，用户对特征矩阵X进行了标准化处理，使用了`StandardScaler`的`fit_transform`方法，这会返回一个numpy数组，而不是pandas DataFrame。因此，原来的X（DataFrame）在标准化后变成了numpy数组，所以X.columns可能不存在，导致AttributeError。验证这一点：在代码的预处理部分，用户执行了`X = scaler.fit_transform(X)`，这确实会将DataFrame转换为numpy数组。因此，后续的X不再有columns属性。当用户尝试使用`X.columns`时，就会报错，因为numpy数组没有columns属性。所以，错误的原因是在标准化之后，X变成了numpy数组，而原来的列名丢失了。因此，在可视化时无法通过X.columns获取特征名称。解决办法：在标准化之前，保存特征名称到一个变量中，例如`feature_names = X.columns.tolist()`，然后在可视化时使用这个变量。例如，在数据预处理阶段，当X还是DataFrame的时候： ```python # 分离特征和目标变量后，假设X是DataFrame feature_names = X.columns.tolist() # 然后进行标准化，X变成numpy数组 X = scaler.fit_transform(X) ``` 然后在可视化时，使用保存的feature_names： ```python sns.barplot(x=feature_importance[sorted_idx][:15], y=np.array(feature_names)[sorted_idx][:15]) ``` 这样就能正确引用特征名称了。 2. **索引问题**：当用户使用`sorted_idx`来索引X.columns时，如果X已经是numpy数组，原来的X.columns已经被转换，导致无法正确获取列名。因此，必须提前保存列名。 3. **代码注释问题**：用户可能在取消注释后，没有正确缩进或者缺少括号，比如在`plt.figure`之后，可能没有正确显示图形。但根据用户提供的代码，这部分可能已经被注释掉，所以实际运行时可能出现的错误主要是AttributeError，即X没有columns属性。此外，用户可能在代码中还有其他潜在的问题，比如： - 在分离特征和目标变量时，是否正确地指定列名？比如用户使用`data.drop('房价', axis=1)`，但原数据中的列名是否正确？比如是否应该是'房价'或者其他名称？不过这部分用户可能已经处理正确，但需要确认。 - 在处理分类特征时，用户使用了`categorical_cols = data['商业营业用房','办公楼','其他用房']`，这可能存在语法错误。在Pandas中，选择多个列应该使用列表，如`categorical_cols = ['商业营业用房', '办公楼', '其他用房']`，否则会引发KeyError，因为data[col1, col2]的语法是错误的。正确的应该是data[categorical_cols]，其中categorical_cols是一个列名列表。例如，原代码中的： ```python categorical_cols = data['商业营业用房','办公楼','其他用房'] ``` 这行代码是错误的，正确的应该是： ```python categorical_cols = ['商业营业用房', '办公楼', '其他用房'] ``` 否则会触发语法错误，因为用逗号分隔多个列名时，需要用列表。例如，data[['col1', 'col2']]。所以，这可能是一个隐藏的错误，但用户的问题主要集中在特征重要性可视化部分，所以可能用户已经遇到了这个错误，但未提及。不过用户的问题是关于特征可视化的，所以可能这个错误是另一个问题，但用户当前的问题可能同时存在多个错误。回到特征重要性可视化问题，总结错误原因：在标准化处理之后，X被转换为numpy数组，丢失了列名，导致在可视化时无法获取特征名称，从而引发AttributeError。因此，解决办法是在标准化之前保存列名，并在可视化时使用这些列名。此外，用户提供的代码中可能存在其他问题，比如分类特征处理部分，需要检查是否正确。现在，针对用户的问题，给出修改后的代码：在预处理部分保存特征名称： ```python # 分离特征和目标变量（假设目标列名为'price'） X = data.drop('房价', axis=1) y = data['房价'] # 保存特征名称 feature_names = X.columns.tolist() # 处理分类特征（示例） categorical_cols = ['商业营业用房', '办公楼', '其他用房'] # 修正为列表形式 X = pd.get_dummies(X, columns=categorical_cols) # 数据标准化（根据需求选择） scaler = StandardScaler() X = scaler.fit_transform(X) # 此时X变为numpy数组，feature_names需要更新？ # 注意：pd.get_dummies会生成新的列，此时feature_names需要更新为处理后的列名 # 因此，应该在get_dummies之后重新获取特征名称 # 修正后的步骤： X = pd.get_dummies(X, columns=categorical_cols) feature_names = X.columns.tolist() # 在get_dummies之后获取新的列名 # 然后进行标准化 X = scaler.fit_transform(X) ``` 这样，在标准化之前，特征名称已经更新为经过独热编码后的列名。然后在可视化部分： ```python # 6. 特征重要性可视化 feature_importance = model.feature_importances_ sorted_idx = np.argsort(feature_importance)[::-1] plt.figure(figsize=(12, 6)) plt.title("特征重要性") sns.barplot(x=feature_importance[sorted_idx][:15], y=np.array(feature_names)[sorted_idx][:15]) plt.xlabel('重要性得分') plt.ylabel('特征名称') plt.show() ``` 这样，使用之前保存的feature_names（在get_dummies之后更新的列名），就能正确显示特征名称。此外，用户可能在处理分类特征时犯了语法错误，即categorical_cols的定义方式不正确，导致KeyError。例如，原代码中的： ```python categorical_cols = data['商业营业用房','办公楼','其他用房'] ``` 这行代码会报错，因为pandas的列选择应该使用列表，而不是多个参数。正确的应该是： ```python categorical_cols = ['商业营业用房', '办公楼', '其他用房'] ``` 否则，代码尝试访问一个多级索引的列，而这可能不存在，导致KeyError。因此，必须将categorical_cols定义为一个列表，而不是通过data[...]的方式。因此，用户可能在运行代码时，在处理分类特征的部分遇到了错误，进而导致后续步骤无法执行。但用户当前的问题是关于特征重要性可视化的部分，所以可能需要同时修正这两个问题。总结需要修改的部分： 1. 分类特征处理中的categorical_cols定义错误。 2. 特征重要性可视化时，因X转换为numpy数组导致列名丢失，需提前保存列名。 3. 在pd.get_dummies之后，特征名称发生变化，需在之后重新获取列名。因此，修改后的数据预处理部分应为： ```python # 2. 数据预处理 # 删除包含缺失值的行（根据实际情况调整处理方式） data = data.dropna() # 分离特征和目标变量（假设目标列名为'房价'） X = data.drop('房价', axis=1) y = data['房价'] # 处理分类特征（示例） categorical_cols = ['商业营业用房', '办公楼', '其他用房'] # 修改为列表形式 X = pd.get_dummies(X, columns=categorical_cols) # 保存处理后的特征名称 feature_names = X.columns.tolist() # 数据标准化（根据需求选择） scaler = StandardScaler() X = scaler.fit_transform(X) # 转换为numpy数组 # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42 ) ``` 然后在可视化部分使用feature_names： ```python # 6. 特征重要性可视化 feature_importance = model.feature_importances_ sorted_idx = np.argsort(feature_importance)[::-1] plt.figure(figsize=(12, 6)) plt.title("特征重要性") sns.barplot(x=feature_importance[sorted_idx][:15], # 显示前15个重要特征 y=np.array(feature_names)[sorted_idx][:15]) plt.xlabel('重要性得分') plt.ylabel('特征名称') plt.tight_layout() # 可选，调整布局 plt.show() ``` 这样修改后，应该可以解决特征名称无法找到的问题。另外，检查用户是否在代码中正确导入了必要的库，例如matplotlib和seaborn，但用户代码开头已经导入，所以应该没问题。总结用户的问题：特征重要性可视化部分因为X被转换为numpy数组导致列名丢失，以及分类特征列定义错误。因此，正确的解决方案包括： 1. 修正categorical_cols的定义方式。 2. 在数据预处理阶段保存处理后的特征名称。 3. 在可视化时使用保存的特征名称。</think>在特征重要性可视化部分存在两个主要问题及修正方法： ### 问题分析 1. **列名丢失**：数据标准化时将DataFrame转换为numpy数组，导致特征名称丢失 2. **分类特征列定义错误**：`categorical_cols`使用了错误的语法格式 ### 修正代码 ```python # ===== 数据预处理部分修正 ===== # 分离特征和目标变量 X = data.drop('房价', axis=1) y = data['房价'] # 修正分类特征列定义（使用列表格式） categorical_cols = ['商业营业用房', '办公楼', '其他用房'] # 注意方括号改为列表形式 # 生成哑变量后获取特征名称 X = pd.get_dummies(X, columns=categorical_cols) feature_names = X.columns.tolist() # 存储处理后的特征名称 # ===== 可视化部分修正 ===== # 6. 特征重要性可视化 feature_importance = model.feature_importances_ sorted_idx = np.argsort(feature_importance)[::-1] plt.figure(figsize=(12, 6)) sns.barplot( x=feature_importance[sorted_idx][:15], y=np.array(feature_names)[sorted_idx][:15] # 使用存储的特征名称 ) plt.title("Top 15 重要特征") plt.xlabel('重要性得分') plt.ylabel('特征名称') plt.tight_layout() plt.show() ``` ### 修正说明 1. **列名保存**： - 在`pd.get_dummies()`生成哑变量后立即保存特征名称 - 使用`feature_names = X.columns.tolist()`存储处理后的列名 2. **分类列语法修正**： - 将`categorical_cols`改为标准列表格式 - 原错误形式：`data['A','B','C']` ➔ 正确形式：`['A','B','C']` 3. **可视化适配**： - 使用`np.array(feature_names)[sorted_idx]`对特征名称进行同步排序 - 添加坐标轴标签提升可读性 ### 其他建议 1. 数据标准化前建议使用`ColumnTransformer`保留列名 2. 对分类特征建议优先使用`OrdinalEncoder`或`TargetEncoder` 3. 可添加交叉验证提升模型稳定性修正后的代码可正常显示特征重要性排序，并能准确反映各特征对房价预测的贡献度。

阅读全文

CSDN会员

开通CSDN年卡参与万元壕礼抽奖

海量 VIP免费资源千本正版电子书商城会员专享价千门课程&专栏

全年可省5,000元立即开通

大家在看

MATALB降雨与地面径流相关性分析+三变数相关性分析（源代码+数据）

MarkdownEditor精简绿色版

LCD液晶知识 驱动 特点 制作过程

matlab source code of GA for urban intersections green wave control

pd型迭代算法附matlab代码.zip.zip

最新推荐

第四章数控加工中心操作编程练习题.doc

互联网经济对高中生消费影响分析.docx

全面解析SOAP库包功能与应用

编程语言选择指南：为不同项目量身定制的编程语言策略

手写vue2的插件vue-router

《软件工程：实践者的方法》第6版课件解析

QUARTUS II 13.0全攻略：新手到专家的10个必备技能

IllegalArgumentException.class

高效进程监控工具的探索与应用

【Catalyst 9800无线控制器实战手册】：从故障排查到网络优化的必备技能

LCD液晶知识驱动特点制作过程