import os import pandas as pd import numpy as np import openpyxl from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.linear_model import LassoCV from sklearn.exceptions import ConvergenceWarning import warnings from openpyxl.styles import PatternFill import sys # 忽略Lasso收敛警告 warnings.filterwarnings("ignore", category=ConvergenceWarning) def main(): try: # 1. 读取数据 input_path = "C:/Users/lenovo/doc/radiomics_results/all_breast_features0.1.xlsx" print(f"读取数据文件: {input_path}") df = pd.read_excel(input_path) # 2. 数据验证 print("\n===== 数据验证 =====") print(f"原始数据行数: {len(df)}") print(f"原始数据列数: {len(df.columns)}") print(f"目标列名称: {df.columns[-1]}") print(f"目标列数据类型: {df.iloc[:, -1].dtype}") print(f"目标列缺失值数量: {df.iloc[:, -1].isnull().sum()}") # 3. 数据清洗 - 自动补全缺失值 print("\n===== 数据清洗 =====") # 替换无穷大值为NaN df.replace([np.inf, -np.inf], np.nan, inplace=True) # 处理目标列缺失值 target_col = df.columns[-1] target_missing = df[target_col].isnull().sum() if target_missing > 0: print(f"警告: 目标列 '{target_col}' 包含 {target_missing} 个缺失值") # 根据数据类型自动选择填充策略 if pd.api.types.is_numeric_dtype(df[target_col]): fill_value = df[target_col].median() strategy = "中位数" else: fill_value = df[target_col].mode()[0] if not df[target_col].mode().empty else "未知" strategy = "众数" print(f"使用 {strategy} 填充目标列缺失值: {fill_value}") df[target_col] = df[target_col].fillna(fill_value) # 4. 分离特征和标签 X = df.iloc[:, :-1] # 所有特征列 y = df.iloc[:, -1] # 最后一列是类别标签 # 5. 自动识别数值和分类特征 numeric_features = X.select_dtypes(include=['int', 'float']).columns.tolist() categorical_features = X.select_dtypes(include=['object', 'category']).columns.tolist() print("\n===== 特征识别 =====") print(f"检测到数值特征: {len(numeric_features)}个") print(f"检测到分类特征: {len(categorical_features)}个") # 6. 创建预处理转换器 preprocessor = ColumnTransformer( transformers=[ ('num', Pipeline(steps=[ ('imputer', SimpleImputer(strategy='median')), # 数值特征用中位数填充 ('scaler', StandardScaler()) # 标准化 ]), numeric_features), ('cat', Pipeline(steps=[ ('imputer', SimpleImputer(strategy='most_frequent')), # 分类特征用众数填充 ('onehot', OneHotEncoder(handle_unknown='ignore', sparse=False)) # 独热编码 ]), categorical_features) ], remainder='drop' # 丢弃未指定的列 ) # 7. 创建完整管道 pipeline = Pipeline(steps=[ ('preprocessor', preprocessor), ('lassocv', LassoCV(cv=5, random_state=42, max_iter=10000, n_jobs=1)) # 单线程更稳定 ]) # 8. 训练模型 print("\n===== 模型训练 =====") pipeline.fit(X, y) lasso_model = pipeline.named_steps['lassocv'] print(f"训练完成! 最佳alpha: {lasso_model.alpha_:.6f}") # 9. 获取特征名称 numeric_feature_names = numeric_features # 获取分类特征名称（独热编码后） if categorical_features: cat_encoder = pipeline.named_steps['preprocessor'].named_transformers_['cat'].named_steps['onehot'] cat_feature_names = cat_encoder.get_feature_names(input_features=categorical_features).tolist() else: cat_feature_names = [] # 合并所有特征名称 all_feature_names = numeric_feature_names + cat_feature_names # 10. 提取重要特征和系数 feature_coefs = lasso_model.coef_ # 使用相对阈值选择重要特征 max_coef = np.max(np.abs(feature_coefs)) threshold = max(0.001, max_coef * 0.01) # 至少0.001，最多1%的最大系数值 selected_features = np.where(np.abs(feature_coefs) > threshold)[0] selected_feature_names = [all_feature_names[i] for i in selected_features] selected_coefs = feature_coefs[selected_features] # 11. 创建结果DataFrame results_df = pd.DataFrame({ '特征名称': selected_feature_names, 'Lasso系数': selected_coefs, '系数绝对值': np.abs(selected_coefs) }).sort_values(by='系数绝对值', ascending=False) # 12. 添加模型信息表 model_info = pd.DataFrame({ '指标': ['最佳alpha', '筛选特征数', '原始特征数', '交叉验证折数', '最大迭代次数', '阈值'], '值': [lasso_model.alpha_, len(selected_features), len(all_feature_names), 5, 10000, threshold] }) # 13. 确定输出路径（与输入文件相同目录） output_dir = os.path.dirname(input_path) output_path = os.path.join(output_dir, 'ENDING.xlsx') # 14. 导出到ENDING.xlsx print(f"\n===== 结果导出 =====") with pd.ExcelWriter(output_path) as writer: # 特征筛选结果表 results_df.to_excel(writer, sheet_name='重要特征', index=False) # 模型信息表 model_info.to_excel(writer, sheet_name='模型信息', index=False) # 原始数据表（带筛选标记） df_out = df.copy() # 标记原始特征是否被选中 for col in df_out.columns[:-1]: if col in selected_feature_names: df_out[col + '_选中'] = '是' elif any(s.startswith(col + '_') for s in selected_feature_names): df_out[col + '_选中'] = '部分选中' else: df_out[col + '_选中'] = '否' df_out.to_excel(writer, sheet_name='原始数据', index=False) # 获取Excel工作簿和工作表对象 workbook = writer.book worksheet = writer.sheets['重要特征'] # 设置列宽 worksheet.column_dimensions['A'].width = 35 worksheet.column_dimensions['B'].width = 15 worksheet.column_dimensions['C'].width = 15 # 添加条件格式 red_fill = PatternFill(start_color='FFC7CE', end_color='FFC7CE', fill_type='solid') green_fill = PatternFill(start_color='C6EFCE', end_color='C6EFCE', fill_type='solid') for row in range(2, len(results_df) + 2): cell = worksheet.cell(row=row, column=2) # 使用行列索引 if cell.value and cell.value > 0: cell.fill = green_fill elif cell.value and cell.value < 0: cell.fill = red_fill # 15. 添加汇总信息 print("="*70) print(f"结果已成功导出到: {output_path}") print(f"包含三个工作表: 1.重要特征 2.模型信息 3.原始数据") print(f"原始特征数: {len(all_feature_names)}") print(f"筛选出重要特征数: {len(selected_features)} (阈值: {threshold:.6f})") print(f"最佳正则化参数 alpha: {lasso_model.alpha_:.6f}") print("="*70) return 0 except Exception as e: print(f"\n!!! 严重错误: {str(e)}") print("="*70) print("详细诊断:") # 尝试获取更多错误信息 if 'df' in locals(): print(f"数据行数: {len(df)}") if len(df) > 0: print(f"目标列名称: {df.columns[-1]}") print(f"目标列数据类型: {df.iloc[:, -1].dtype}") print(f"目标列缺失值数量: {df.iloc[:, -1].isnull().sum()}") print(f"目标列值示例: {df.iloc[:, -1].head(3).tolist()}") print("\n建议解决方案:") print("1. 检查Excel文件格式是否正确") print("2. 确认目标列(View)有有效值") print("3. 检查特征列是否有缺失值") print("4. 尝试减少特征数量或增加样本量") print("="*70) return 1 if __name__ == "__main__": sys.exit(main()) 以这个代码为基础，适当简化代码

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import GridSearchCV from sklearn.impute import SimpleImputer from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline # 读取数据 data = pd.read_excel(r"D:\homework\副本2组1.xlsx") # 检查缺失值 print("缺失值统计:") print(data.isnull().sum()) # 处理数据 data1 = data.copy() # 删除前两行（注意：确保列名未被删除） data1.drop(index=[0, 1], inplace=True) # 填充缺失值和替换'未检出' data1.fillna(0, inplace=True) data1.replace('未检出', 0, inplace=True) # 分离目标变量和特征 y = data1['Se'] X = data1.drop(columns=['Se'], axis=1) # 确保正确删除目标列 # 检查X的列名，确保不含'Se' print("\n处理后的特征列名:", X.columns.tolist()) # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) numeric_features = X.select_dtypes(include=['int64', 'float64']).columns.tolist() categorical_features = X.select_dtypes(include=['object', 'category']).columns.tolist() rf = RandomForestRegressor(n_estimators=100, random_state=42) # 默认100棵树 rf.fit(X_train, y_train)进行优化

- 使用ColumnTransformer和Pipeline来组织预处理步骤。 - 标准化数值特征（虽然随机森林不需要，但如果有其他模型可能需要）。 3. 模型训练与评估： - 添加交叉验证和超参数调优。 - 计算并输出评估指标，如MSE...

数据预处理流程揭秘：用Pandas准备机器学习数据

[数据预处理流程揭秘：用Pandas准备机器学习数据](https://opengraph.githubassets.com/cccbab2c80abe88d0c5d3761a913618f17eecb638dbd09d4dccf8be9b71ea825/pakallis/python-pandas-mongo) # 1. 数据预处理的重要性...

BELLHOP数据处理进阶：Pandas等工具的高级数据分析

本文全面探讨了Pandas库在数据分析领域的进阶应用，涵盖了从数据清洗到性能优化的各个方面。第一章介绍了Pandas的基础和核心概念，为后续章节打下基础。第二章详细讲解了数据清洗与准备的技巧，包括处理缺失数据、...

【Python数据分析实战】：Pandas让你的数据探索更深入

第二章介绍了Pandas的基础理论知识，包括其核心数据结构Series和DataFrame，以及数据清洗、准备、分析和操作等关键技巧。第三章探讨了Pandas的进阶数据处理技巧，如数据转换、映射、可视化、性能优化与并行计算。第...

【CatBoost与其他库的集成】与scikit-learn、Pandas等库的集成

![【CatBoost与其他库的集成】与scikit-learn、Pandas等库的集成]...# 1. CatBoost概述及应用场景 ## 1.1 CatBoost简介 CatBoost（Categorical Boosting）是由Yandex研究人员和工程师开发的一个开源梯度提升库

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import GridSearchCV from sklearn.impute import SimpleImputer from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline # 读取数据 data = pd.read_excel(r"D:\homework\副本2组1.xlsx") # 检查缺失值 print("缺失值统计:") print(data.isnull().sum()) # 处理数据 data1 = data.copy() # 删除前两行（注意：确保列名未被删除） data1.drop(index=[0, 1], inplace=True) # 填充缺失值和替换'未检出' data1.fillna(0, inplace=True) data1.replace('未检出', 0, inplace=True) # 分离目标变量和特征 y = data1['Se'] X = data1.drop(columns=['Se'], axis=1) # 确保正确删除目标列 # 检查X的列名，确保不含'Se' print("\n处理后的特征列名:", X.columns.tolist()) # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 基于特征矩阵X确定数值型和分类型特征 numeric_features = X.select_dtypes(include=['int64', 'float64']).columns.tolist() categorical_features = X.select_dtypes(include=['object', 'category']).columns.tolist() print("\n数值型特征:", numeric_features) print("分类型特征:", categorical_features) # 定义预处理步骤 numeric_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='median')), ('scaler', StandardScaler()) ]) categorical_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='most_frequent')), ('onehot', OneHotEncoder(handle_unknown='ignore')) ]) preprocessor = ColumnTransformer( transformers=[ ('num', numeric_transformer, numeric_features), ('cat', categorical_transformer, categorical_features) ] ) # 定义模型 rf_regressor = RandomForestRegressor( n_estimators=290, max_depth=20, min_samples_split=3, min_samples_leaf = 3 , random_state=42, max_features='sqrt' ) # 构建Pipeline pipeline = Pipeline(steps=[ ('preprocessor', preprocessor), ('regressor', rf_regressor) ]) # 训练模型 pipeline.fit(X_train, y_train) # 预测与评估 y_pred = pipeline.predict(X_test) plt.scatter(y_test, y_pred) plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], 'r--') print(f"\nR²分数: {r2_score(y_test, y_pred):.4f}") print(f"均方误差(MSE): {mean_squared_error(y_test, y_pred):.4f}") print(f"平均绝对误差(MAE): {mean_absolute_error(y_test, y_pred):.4f}")进行优化，最后把整体优化代码输出出来

from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer from scipy.stats import randint # ---------------------- # 1. 数据加载与...

import pandas as pd import numpy as np import sklearn #***** Begin # # End *****#，补全上述代码

from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer #********* Begin *********# # 1. 数据读取 train_df = pd.read_csv('./train....

Traceback (most recent call last): File "F:\Python_task\Lasso1.py", line 26, in <module> pipeline.fit(X, y) File "C:\Users\lenovo\anaconda3\envs\radi\lib\site-packages\sklearn\pipeline.py", line 390, in fit Xt = self._fit(X, y, **fit_params_steps) File "C:\Users\lenovo\anaconda3\envs\radi\lib\site-packages\sklearn\pipeline.py", line 348, in _fit X, fitted_transformer = fit_transform_one_cached( File "C:\Users\lenovo\anaconda3\envs\radi\lib\site-packages\joblib\memory.py", line 326, in call return self.func(*args, kwargs) File "C:\Users\lenovo\anaconda3\envs\radi\lib\site-packages\sklearn\pipeline.py", line 893, in _fit_transform_one res = transformer.fit_transform(X, y, fit_params) File "C:\Users\lenovo\anaconda3\envs\radi\lib\site-packages\sklearn\base.py", line 855, in fit_transform return self.fit(X, y, **fit_params).transform(X) File "C:\Users\lenovo\anaconda3\envs\radi\lib\site-packages\sklearn\impute\_base.py", line 319, in fit X = self._validate_input(X, in_fit=True) File "C:\Users\lenovo\anaconda3\envs\radi\lib\site-packages\sklearn\impute\_base.py", line 285, in _validate_input raise new_ve from None ValueError: Cannot use mean strategy with non-numeric data: could not convert string to float: 'v3.1.0' 报错了

from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer from sklearn.preprocessing import StandardScaler, OneHotEncoder from ...

import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier from imblearn.over_sampling import SMOTE from imblearn.combine import SMOTEENN from sklearn.metrics import roc_auc_score, balanced_accuracy_score, f1_score from ucimlrepo import fetch_ucirepo # 加载数据集（处理BOM头并指定正确的列名） data = pd.read_csv('/Users/mengfei/Desktop/creditcard 2.csv', encoding='utf-8-sig', header=1) # 删除ID列（假设第一列是ID，不作为特征） data = data.drop('ID', axis=1, errors='ignore') # 定义特征和目标变量（目标列名为"default payment next month"） X = data.drop('default payment next month', axis=1) y = data['default payment next month'] # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.25, stratify=y, random_state=42 ) # 定义数据平衡方法 def balance_data(method): sampler = None # 移除全局变量 if method == "SMOTE": sampler = SMOTE(random_state=42) elif method == "SMOTEENN": sampler = SMOTEENN(random_state=42) X_res, y_res = sampler.fit_resample(X_train, y_train) return X_res, y_res # 模型训练与评估（修正AUC计算） def evaluate_model(model, X_train, y_train, X_test, y_test): model.fit(X_train, y_train) y_pred = model.predict(X_test) # 获取预测概率 if hasattr(model, "predict_proba"): y_proba = model.predict_proba(X_test)[:, 1] else: y_proba = model.decision_function(X_test) y_proba = 1 / (1 + np.exp(-y_proba)) # Sigmoid转换 auc = roc_auc_score(y_test, y_proba) balanced_acc = balanced_accuracy_score(y_test, y_pred) f1 = f1_score(y_test, y_pred) return auc, balanced_acc, f1 # 逻辑回归（SMOTE平衡） X_smote, y_smote = balance_data("SMOTE") lr = LogisticRegression(penalty="l2", C=1.0, max_iter=1000) lr_auc, lr_ba, lr_f1 = evaluate_model(lr, X_smote, y_smote, X_test, y_test) # 随机森林（SMOTEENN平衡） X_smoteenn, y_smoteenn = balance_data("SMOTEENN") rf = RandomForestClassifier(n_estimators=10

from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer from imblearn.over_sampling import SMOTE from sklearn.linear_model import ...

import pandas as pd import numpy as np from sklearn.preprocessing import OrdinalEncoder, StandardScaler from sklearn.impute import SimpleImputer from sklearn.model_selection import train_test_split from factor_analyzer import FactorAnalyzer from factor_analyzer.factor_analyzer import calculate_kmo from xgboost import XGBClassifier import lightgbm as lgb from sklearn.metrics import classification_report # ====================== # 1. 数据读取与清洗 # ====================== def load_and_clean(data_path): # 读取数据 df = pd.read_csv(data_path) # 缺失值处理 num_imputer = SimpleImputer(strategy='median') cat_imputer = SimpleImputer(strategy='most_frequent') # 数值型字段 numeric_cols = ['付费金额', '活跃时长', '广告收入', '留存'] df[numeric_cols] = num_imputer.fit_transform(df[numeric_cols]) # 分类型字段 categorical_cols = ['设备价值档位', '用户初始广告档位'] df[categorical_cols] = cat_imputer.fit_transform(df[categorical_cols]) # 异常值处理 df['活跃时长'] = np.where(df['活跃时长'] > 24, 24, df['活跃时长']) df['付费金额'] = np.where( df['付费金额'] > df['付费金额'].quantile(0.99), df['付费金额'].quantile(0.95), df['付费金额'] ) return df # ====================== # 2. 特征工程 # ====================== def feature_engineering(df): # 构造复合特征 df['ARPU密度'] = df['付费金额'] / (df['活跃天数'] + 1) df['广告展示率'] = df['广告曝光次数'] / df['短剧观看次数'] df['内容互动指数'] = np.log1p(df['收藏数']1 + df['分享数']2 + df['评论数']*3) # 分类变量编码 encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1) cat_cols = ['设备价值档位', '用户初始广告档位'] df[cat_cols] = encoder.fit_transform(df[cat_cols]) return df # ====================== # 3. 特征筛选与降维 # ====================== def feature_selection(df, target_col='付费意愿档位'): # 划分特征和目标 X = df.drop(columns=[target_col]) y = df[target_col] # 计算IV值筛选 from sklearn.feature_selection import mutual_info_classif iv_values = mutual_info_classif(X, y) iv_df = pd.DataFrame({'feature': X.columns, 'iv': iv_values}) selected_features = iv_df[iv_df['iv'] > 0.02]['feature'].tolist() X_selected = X[selected_features] # 因子分析降维 kmo_all, kmo_model = calculate_kmo(X_selected) if kmo_model > 0.6: fa = FactorAnalyzer(n_factors=5, rotation='varimax') fa.fit(X_selected) factor_scores = fa.transform(X_selected) factor_cols = [f'Factor_{i}' for i in range(1,6)] X_factors = pd.DataFrame(factor_scores, columns=factor_cols) else: X_factors = X_selected.copy() return X_factors, y # ====================== # 4. XGBoost特征筛选 # ====================== def xgb_feature_importance(X, y): # 训练XGBoost模型 model = XGBClassifier( objective='multi:softmax', eval_metric='mlogloss', use_label_encoder=False ) model.fit(X, y) # 获取特征重要性 importance = pd.DataFrame({ 'feature': X.columns, 'importance': model.feature_importances_ }).sort_values('importance', ascending=False) top10_features = importance.head(10)['feature'].tolist() return X[top10_features] # ====================== # 5. LightGBM建模预测 # ====================== def lgb_modeling(X, y): # 数据划分 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, stratify=y, random_state=42 ) # 模型训练 model = lgb.LGBMClassifier( num_leaves=31, max_depth=5, learning_rate=0.1, n_estimators=300, class_weight='balanced' ) model.fit(X_train, y_train) # 模型评估 y_pred = model.predict(X_test) print(classification_report(y_test, y_pred)) return model # ====================== # 主流程执行 # ====================== if name == "main": # 数据路径 DATA_PATH = "user_data.csv" # 执行流程 df = load_and_clean(DATA_PATH) df = feature_engineering(df) X, y = feature_selection(df) X_top10 = xgb_feature_importance(X, y) final_model = lgb_modeling(X_top10, y) # 模型保存 final_model.booster_.save_model('user_value_model.txt')

from sklearn.impute import SimpleImputer num_imputer = SimpleImputer(strategy='median') X[num_cols] = num_imputer.fit_transform(X[num_cols]) ### 二、特征工程优化 3. **分类特征编码优化** 使用$...

检测到数值特征: 1342个检测到分类特征: 14个 Traceback (most recent call last): File "F:\Python_task\Lasso1.py", line 50, in <module> pipeline.fit(X, y) File "C:\Users\lenovo\anaconda3\envs\radi\lib\site-packages\sklearn\pipeline.py", line 394, in fit self._final_estimator.fit(Xt, y, fit_params_last_step) File "C:\Users\lenovo\anaconda3\envs\radi\lib\site-packages\sklearn\linear_model\_coordinate_descent.py", line 1535, in fit X, y = self._validate_data( File "C:\Users\lenovo\anaconda3\envs\radi\lib\site-packages\sklearn\base.py", line 579, in _validate_data y = check_array(y, check_y_params) File "C:\Users\lenovo\anaconda3\envs\radi\lib\site-packages\sklearn\utils\validation.py", line 800, in check_array _assert_all_finite(array, allow_nan=force_all_finite == "allow-nan") File "C:\Users\lenovo\anaconda3\envs\radi\lib\site-packages\sklearn\utils\validation.py", line 114, in _assert_all_finite raise ValueError( ValueError: Input contains NaN, infinity or a value too large for dtype('float64'). 报错，修正，并且我需要将结果文件输出为ENDING.xlsx

from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer from sklearn.preprocessing import StandardScaler, OneHotEncoder from ...

from sklearn.linear_model import LinearRegression from sklearn.model_selection import GridSearchCV #利用线性回归和随机森林回归模型预测Age的值 age_nan = pd.DataFrame(train[['Age', 'Sex','SibSp', 'Fare', 'Pclass', 'Embarked']]) age_train = age_nan[age_nan.Age.notnull()] age_test = age_nan[age_nan.Age.isnull()] #线性回归 lr = LinearRegression() lr_grid_pattern = {'fit_intercept': [True], 'normalize': [True]} lr_grid = GridSearchCV(lr, lr_grid_pattern, cv=10, n_jobs=25, verbose=1, scoring='neg_mean_squared_error') lr_grid.fit(age_train.drop("Age",axis=1), age_train["Age"]) print('Age feature Best LR Params:' + str(lr_grid.best_params_)) print('Age feature Best LR Score:' + str(lr_grid.best_score_)) lr = lr_grid.predict(age_test.drop("Age",axis=1)) #随机森林回归 rfr = RandomForestRegressor() rfr_grid_pattern = {'max_depth': [3], 'max_features': [3]} rfr_grid = GridSearchCV(rfr, rfr_grid_pattern, cv=10, n_jobs=25, verbose=1, scoring='neg_mean_squared_error') rfr_grid.fit(age_train.drop("Age",axis=1), age_train["Age"]) print('Age feature Best LR Params:' + str(rfr_grid.best_params_)) print('Age feature Best LR Score:' + str(rfr_grid.best_score_)) rfr = rfr_grid.predict(age_test.drop("Age",axis=1)) #取二者均值 age_test["Age"] = (lr+rfr)/2 #定义年龄分级的函数 def age_level(s): if s <= 15 : #儿童 m = 0 elif s>15 and s<=30: #青年及少年 m = 1 elif s>30 and s<=60: #壮年 m = 2 else: #老年 m = 3 return m df["Age_level"] = df["Age"].apply(age_level)

from sklearn.compose import ColumnTransformer # 加载数据并预处理 data = pd.read_csv('data.csv') X = data.drop('Age', axis=1) y = data['Age'] # 分离完整数据与缺失数据 known_age = data[data['Age'].not...

# 加载加州房价数据集（需替换为实际数据路径） data = pd.read_csv("california_housing.csv") X = data.drop(columns=["MedHouseVal"]) y = data["MedHouseVal"] # 将连续房价转换为分类目标（4个类别） encoder = KBinsDiscretizer(n_bins=4, encode='ordinal', strategy='quantile') y = encoder.fit_transform(y.values.reshape(-1,1)).astype(int).ravel()实验结果“NameError Traceback (most recent call last) Cell In[8], line 4 1 # 构建预处理管道 2 preprocessor = Pipeline(steps=[ 3 ('scaler', StandardScaler()), # 标准化数值特征 ----> 4 ('imputer', SimpleImputer(strategy='median')) # 处理缺失值 5 ]) 7 X_processed = preprocessor.fit_transform(X) NameError: name 'SimpleImputer' is not defined”

我是win11电脑，anaconda3，Python3.9，pyradiomics3.0.1，numpy==1.23.4，pandas==1.3.5，scikit-learn==1.0.2，openpyx==3.0.1 Traceback (most recent call last): File “F:\Python_task\Lasso1.py”, line 56, in (‘onehot’, OneHotEncoder(handle_unknown=‘ignore’, sparse_output=False)) # 独热编码 TypeError: init() got an unexpected keyword argument ‘sparse_output’ 警告: 目标列包含 44 个缺失值，已删除相应行检测到数值特征: 1342个检测到分类特征: 14个报错修改，且我的读取文件路径为"C:/Users/lenovo/doc/radiomics_results/all_breast_features0.1.xlsx"

from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer from sklearn.preprocessing import StandardScaler, OneHotEncoder from ...

It is your job to predict the sales price for each house. For each Id in the test set, you must predict the value of the SalePrice variable. Metric Submissions are evaluated on Root-Mean-Squared-Error (RMSE) between the logarithm of the predicted value and the logarithm of the observed sales price. (Taking logs means that errors in predicting expensive houses and cheap houses will affect the result equally.) Submission File Format The file should contain a header and have the following format: Id,SalePrice 1461,169000.1 1462,187724.1233 1463,175221 以上是kaggle上的房价预测竞赛的评分标准，写出符合条件的代码

from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer import xgboost as xgb # 加载数据 train = pd.read_csv('train.csv') test = ...

【税会实务】Excel文字输入技巧.doc

相关推荐

AI实战-职业转变评估数据集分析预测实例（含14个源代码+3.29 MB完整的数据集）.zip

AI实战-HR数据集分析预测实例（含8个源代码+407.50 KB完整的数据集）.zip

AI实战-发热诊断医学分类数据集分析预测实例（含9个源代码+107.74 KB完整的数据集）.zip

数据预处理流程揭秘：用Pandas准备机器学习数据

BELLHOP数据处理进阶：Pandas等工具的高级数据分析

【Python数据分析实战】：Pandas让你的数据探索更深入

【CatBoost与其他库的集成】与scikit-learn、Pandas等库的集成

import pandas as pd import numpy as np import sklearn #********* Begin *********# #********* End *********#，补全上述代码

【税会实务】Excel文字输入技巧.doc

大家在看

NAND FLASH 控制器源码（verilog）

实体消歧系列文章.rar

matlab飞行轨迹代码-msa-toolkit:这是在MATLAB中开发的用于模拟火箭6自由度动力学的代码

qt打包程序(自定义打包界面及功能)

易语言WinSock模块应用

最新推荐

【税会实务】Excel文字输入技巧.doc

C++实现的DecompressLibrary库解压缩GZ文件

【数据融合技术】：甘肃土壤类型空间分析中的专业性应用

VM ware如何查看软件版本信息

数据库课程设计报告：常用数据库综述

【空间分布规律】：甘肃土壤类型与农业生产的关联性研究

在halcon中，卡尺测量和二维测量谁的精度高

掌握牛顿法解方程：切线与割线的程序应用

【制图技术】：甘肃高质量土壤分布TIF图件的成图策略

GaAs外延设备维修是指什么意思

import pandas as pd import numpy as np import sklearn #***** Begin # # End *****#，补全上述代码