import pandas as pd import numpy as np from sklearn.preprocessing import OrdinalEncoder, StandardScaler from sklearn.impute import SimpleImputer from sklearn.model_selection import train_test_split from factor_analyzer import FactorAnalyzer from factor_analyzer.factor_analyzer import calculate_kmo from xgboost import XGBClassifier import lightgbm as lgb from sklearn.metrics import classification_report # ====================== # 1. 数据读取与清洗 # ====================== def load_and_clean(data_path): # 读取数据 df = pd.read_csv(data_path) # 缺失值处理 num_imputer = SimpleImputer(strategy='median') cat_imputer = SimpleImputer(strategy='most_frequent') # 数值型字段 numeric_cols = ['付费金额', '活跃时长', '广告收入', '留存'] df[numeric_cols] = num_imputer.fit_transform(df[numeric_cols]) # 分类型字段 categorical_cols = ['设备价值档位', '用户初始广告档位'] df[categorical_cols] = cat_imputer.fit_transform(df[categorical_cols]) # 异常值处理 df['活跃时长'] = np.where(df['活跃时长'] > 24, 24, df['活跃时长']) df['付费金额'] = np.where( df['付费金额'] > df['付费金额'].quantile(0.99), df['付费金额'].quantile(0.95), df['付费金额'] ) return df # ====================== # 2. 特征工程 # ====================== def feature_engineering(df): # 构造复合特征 df['ARPU密度'] = df['付费金额'] / (df['活跃天数'] + 1) df['广告展示率'] = df['广告曝光次数'] / df['短剧观看次数'] df['内容互动指数'] = np.log1p(df['收藏数']*1 + df['分享数']*2 + df['评论数']*3) # 分类变量编码 encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1) cat_cols = ['设备价值档位', '用户初始广告档位'] df[cat_cols] = encoder.fit_transform(df[cat_cols]) return df # ====================== # 3. 特征筛选与降维 # ====================== def feature_selection(df, target_col='付费意愿档位'): # 划分特征和目标 X = df.drop(columns=[target_col]) y = df[target_col] # 计算IV值筛选 from sklearn.feature_selection import mutual_info_classif iv_values = mutual_info_classif(X, y) iv_df = pd.DataFrame({'feature': X.columns, 'iv': iv_values}) selected_features = iv_df[iv_df['iv'] > 0.02]['feature'].tolist() X_selected = X[selected_features] # 因子分析降维 kmo_all, kmo_model = calculate_kmo(X_selected) if kmo_model > 0.6: fa = FactorAnalyzer(n_factors=5, rotation='varimax') fa.fit(X_selected) factor_scores = fa.transform(X_selected) factor_cols = [f'Factor_{i}' for i in range(1,6)] X_factors = pd.DataFrame(factor_scores, columns=factor_cols) else: X_factors = X_selected.copy() return X_factors, y # ====================== # 4. XGBoost特征筛选 # ====================== def xgb_feature_importance(X, y): # 训练XGBoost模型 model = XGBClassifier( objective='multi:softmax', eval_metric='mlogloss', use_label_encoder=False ) model.fit(X, y) # 获取特征重要性 importance = pd.DataFrame({ 'feature': X.columns, 'importance': model.feature_importances_ }).sort_values('importance', ascending=False) top10_features = importance.head(10)['feature'].tolist() return X[top10_features] # ====================== # 5. LightGBM建模预测 # ====================== def lgb_modeling(X, y): # 数据划分 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, stratify=y, random_state=42 ) # 模型训练 model = lgb.LGBMClassifier( num_leaves=31, max_depth=5, learning_rate=0.1, n_estimators=300, class_weight='balanced' ) model.fit(X_train, y_train) # 模型评估 y_pred = model.predict(X_test) print(classification_report(y_test, y_pred)) return model # ====================== # 主流程执行 # ====================== if __name__ == "__main__": # 数据路径 DATA_PATH = "user_data.csv" # 执行流程 df = load_and_clean(DATA_PATH) df = feature_engineering(df) X, y = feature_selection(df) X_top10 = xgb_feature_importance(X, y) final_model = lgb_modeling(X_top10, y) # 模型保存 final_model.booster_.save_model('user_value_model.txt')解释一下这个代码

import numpy as np import pandas import pandas as pd import matplotlib from sklearn import naive_bayes from sklearn.preprocessing import MinMaxScaler from sklearn.preprocessing import StandardScaler from sklearn.preprocessing import normalize from sklearn.preprocessing import Binarizer from sklearn.impute import SimpleImputer from sklearn.preprocessing import OneHotEncoder import matplotlib.pyplot as plt from sklearn.metrics import roc_curve, auc from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import confusion_matrix matplotlib.rc("font", family='Microsoft YaHei') data=pd.read_csv(r'D:\杂货铺\机器学习\银行数据集.csv',header=None)

这段代码导入了一系列的Python库，包括NumPy、Pandas、Matplotlib、scikit-learn等。其中，NumPy是Python科学计算的核心库，Pandas是数据处理的重要库，Matplotlib是绘图库，scikit-learn是机器学习库。接下来，使用...

import pandas as pd import numpy as np from sklearn import preprocessing from sklearn.impute import SimpleImputer data_url = "/data/workspace/myshixun/step1/train.csv" df = pd.read_csv(data_url) imp = SimpleImputer(missing_values = np.nan, strategy = 'mean') imp.fit(df.iloc[:,5:6]) X = imp.transform(df.iloc[:,5:6]) ####### Begin ######## ####### End ######## # 输出转换后的前6列数据 print(scaler[:6])

from sklearn.impute import SimpleImputer # 假设原始数据为df num_cols = [col for col in df.columns if df[col].dtype != "object"] # 获取数值型列名 print("原始数据缺失情况:") print(df[num_cols].isnull...

import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.svm import SVC from sklearn.ensemble import BaggingClassifier from sklearn.model_selection import RepeatedStratifiedKFold from sklearn.metrics import (accuracy_score, roc_auc_score, recall_score, confusion_matrix, roc_curve, precision_score) from sklearn.utils import resample from sklearn.feature_selection import SelectFromModel # 读取数据 train_data = pd.read_excel('pcr-特征/pre_processed_results/train_rf_top15.xlsx') test_data = pd.read_excel('pcr-特征/pre_processed_results/test_rf_top15.xlsx') # 特征与目标变量 X_train = train_data.drop(columns=['id', 'pcr','local']) y_train = train_data['pcr'] X_test = test_data.drop(columns=['id', 'pcr','local']) y_test = test_data['pcr']后续通过决策树建立模型

from sklearn.model_selection import train_test_split from sklearn.preprocessing import LabelEncoder, OneHotEncoder from sklearn.impute import SimpleImputer # 1. 读取Excel数据 data = pd.read_excel('...

在不改变代码本意的前提下，用另一种方式重写代码：import pandas as pd import numpy as np from sklearn.preprocessing import Imputer from sklearn.model_selection import train_test_split df_table_all = pd.read_csv("D:\python_pytharm\datasets\chapter3_data_handled\train_all.csv", index_col=0) df_table_all = df_table_all.drop(['LOAN_DATE_x'], axis=1) df_table_all = df_table_all.drop(['LOAN_DATE_y'], axis=1) df_table_all = df_table_all.dropna(axis=1,how='all') columns = df_table_all.columns imr = Imputer(missing_values='NaN', strategy='mean', axis=0) df_table_all = pd.DataFrame(imr.fit_transform(df_table_all.values)) df_table_all.columns = columns df_table_all.to_csv("D:\python_pytharm\datasets\chapter3_data_handled\trainafter.csv")

from sklearn.model_selection import train_test_split # 读取数据 df_table_all = pd.read_csv("D:\python_pytharm\datasets\chapter3_data_handled\train_all.csv", index_col=0) # 删除指定列 df_table_all = ...

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import GridSearchCV from sklearn.impute import SimpleImputer from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline # 读取数据 data = pd.read_excel(r"D:\homework\副本2组1.xlsx") # 检查缺失值 print("缺失值统计:") print(data.isnull().sum()) # 处理数据 data1 = data.copy() # 删除前两行（注意：确保列名未被删除） data1.drop(index=[0, 1], inplace=True) # 填充缺失值和替换'未检出' data1.fillna(0, inplace=True) data1.replace('未检出', 0, inplace=True) # 分离目标变量和特征 y = data1['Se'] X = data1.drop(columns=['Se'], axis=1) # 确保正确删除目标列 # 检查X的列名，确保不含'Se' print("\n处理后的特征列名:", X.columns.tolist()) # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) numeric_features = X.select_dtypes(include=['int64', 'float64']).columns.tolist() categorical_features = X.select_dtypes(include=['object', 'category']).columns.tolist() rf = RandomForestRegressor(n_estimators=100, random_state=42) # 默认100棵树 rf.fit(X_train, y_train)进行优化

grid_search.fit(X_train, y_train) # 模型评估 def evaluate_model(model, X_test, y_test): y_pred = model.predict(X_test) metrics = { 'MAE': mean_absolute_error(y_test, y_pred), 'RMSE': np.sqrt(mean...

# test2.py import pandas as pd import numpy as np from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.ensemble import RandomForestClassifier from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.impute import SimpleImputer from sklearn.model_selection import train_test_split import joblib import os class AutoFeatureProcessor: """自动特征类型检测与预处理""" def init(self): self.numeric_features = None self.categorical_features = None self.preprocessor = None def _auto_detect_features(self, X): """自动识别数值型和分类型特征""" categorical = [] numeric = [] # 正确获取特征数量（列数） num_features = X.shape # 修复点1：使用shape获取列数 for i in range(num_features): col = X[:, i] try: # 尝试转换为数值型 col_float = col.astype(np.float64) # 判断是否为离散型数值特征 if np.all(col_float == col_float.astype(int)) and len(np.unique(col_float)) <= 10: categorical.append(i) else: numeric.append(i) except: # 转换失败则视为分类型特征 categorical.append(i) return numeric, categorical def build_preprocessor(self, X): """构建预处理管道""" self.numeric_features, self.categorical_features = self._auto_detect_features(X) # 数值型特征处理流 numeric_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='median')), ('scaler', StandardScaler())]) # 分类型特征处理流 categorical_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='constant', fill_value='missing')), ('onehot', OneHotEncoder(handle_unknown='ignore'))]) # 组合处理器 self.preprocessor = ColumnTransformer( transformers=[ ('num', numeric_transformer, self.numeri z

from sklearn.preprocessing import StandardScaler, OneHotEncoder class AutoFeatureProcessor: def __init__(self): self.numeric_features = [] self.categorical_features = [] def _auto_detect_...

import tkinter as tk from tkinter import filedialog import pandas as pd import numpy as np from sklearn.impute import SimpleImputer from sklearn.ensemble import IsolationForest from sklearn.preprocessing import StandardScaler import warnings class DataImporter: def init(self, master): self.file_path = None self.master = master self.master.title("数据导入") # 创建用于显示文件路径的标签 self.path_label = tk.Label(self.master, text="请先导入数据集！") self.path_label.pack(pady=10) # 创建“导入数据集”按钮 self.load_button = tk.Button(self.master, text="导入数据集", command=self.load_data) self.load_button.pack(pady=10) # 创建“显示数据集”按钮 self.show_button = tk.Button(self.master, text="显示数据集", command=self.show_data) self.show_button.pack(pady=10) # 创建“退出程序”按钮 self.quit_button = tk.Button(self.master, text="退出程序", command=self.master.quit) self.quit_button.pack(pady=10) # 创建一个空的 DataFrame 用于存放数据集 self.data = pd.DataFrame() def load_data(self): # 弹出文件选择对话框 file_path = filedialog.askopenfilename() # 如果用户选择了文件，则导入数据集 if file_path: self.data = pd.read_csv(file_path, delimiter=';') self.path_label.config(text=f"已导入数据集：{file_path}") else: self.path_label.config(text="未选择任何文件，请选择正确的文件")

同时，这段代码还使用了一些机器学习库，如 sklearn 的 SimpleImputer、IsolationForest 和 StandardScaler 等，用于数据预处理和异常值检测。最后，这段代码还创建了几个按钮，包括“导入数据集”、“显示数据集”...

# -- coding: utf-8 -- """ Created on 2023-10-16 @author: Your Name 本代码用于对房屋交易数据进行分析，包括数据预处理、特征工程、模型训练与评估等步骤。目标是研究影响城市住宅价格的因素，并评估不同机器学习模型在预测房价方面的表现。 """ # 导入必要的库 import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LinearRegression from sklearn.tree import DecisionTreeRegressor from sklearn.ensemble import RandomForestRegressor from sklearn.svm import SVR from sklearn.neural_network import MLPRegressor from sklearn.metrics import mean_absolute_error, mean_squared_error import shap import matplotlib.pyplot as plt import warnings import re # 忽略警告信息 warnings.filterwarnings("ignore") # 1. 数据加载与初步查看 def load_data(file_path): """ 加载数据并进行初步查看 """ data = pd.read_excel(file_path) print("数据集基本信息：") print(data.info()) print("\n数据集前5行：") print(data.head()) print("\n数据集描述性统计：") print(data.describe()) return data # 2. 数据预处理 def data_preprocessing(data): """ 数据预处理，包括删除无效数据、变量转化或拆分、数据集整合、删除极端值等 """ # 删除无效数据（如缺失值过多的行） data = data.dropna(thresh=len(data.columns) * 2 / 3, axis=0) # 变量转化或拆分 # 拆分户型信息，适应不同的格式 def extract_room_hall(x): if pd.isna(x): return np.nan, np.nan # 尝试匹配常见的格式，如 "3室1厅"、"3房间1厅"、"3房1厅" 等 room = 0 hall = 0 if '室' in x and '厅' in x: parts = x.split('厅') if len(parts) >= 2: room_part = parts[0] hall_part = parts[1].split(' ')[0] if ' ' in parts[1] else parts[1] room = room_part.split('室')[0] if '室' in room_part else 0 hall = hall_part.split('厅')[0] if '厅' in hall_part else 0 elif '房间' in x and '厅' in x: parts = x.split('厅') if len(parts) >= 2: room_part = parts[0] hall_part = parts[1].split(' ')[0] if ' ' in parts[1] else parts[1] room = room_part.sp

from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import mean_squared_error, r2_score X = df.drop('PRICE', axis=1) y = df['...

新加坡import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import mean_squared_error, r2_score from sklearn.preprocessing import StandardScaler # 1. 模拟数据集 data = { '温度(°C)': [20, 22, 25, 28, 30, 18, 24, 27, 29, 26], '降水量(mm)': [100, 120, 150, 180, 160, 90, 110, 130, 140, 125], '施肥量(kg)': [50, 60, 70, 80, 90, 50, 55, 75, 85, 90], '土壤质量': ['好', '中', '好', '差', '差', '好', '中', '好', '中', '差'], '农作物产量(吨/公顷)': [5, 6, 7, 6, 5, 7, 6, 7, 6, 5] } df = pd.DataFrame(data) # 2. 数据预处理 # 将土壤质量转换为数值 df['土壤质量'] = df['土壤质量'].map({'好': 2, '中': 1, '差': 0}) # 特征和目标变量 X = df[['温度(°C)', '降水量(mm)', '施肥量(kg)', '土壤质量']] y = df['农作物产量(吨/公顷)'] # 标准化特征 scaler = StandardScaler() X_scaled = scaler.fit_transform(X)

from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.impute import SimpleImputer from sklearn.linear_model import LinearRegression from ...

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import GridSearchCV from sklearn.impute import SimpleImputer from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline # 读取数据 data = pd.read_excel(r"D:\homework\副本2组1.xlsx") # 检查缺失值 print("缺失值统计:") print(data.isnull().sum()) # 处理数据 data1 = data.copy() # 删除前两行（注意：确保列名未被删除） data1.drop(index=[0, 1], inplace=True) # 填充缺失值和替换'未检出' data1.fillna(0, inplace=True) data1.replace('未检出', 0, inplace=True) # 分离目标变量和特征 y = data1['Se'] X = data1.drop(columns=['Se'], axis=1) # 确保正确删除目标列 # 检查X的列名，确保不含'Se' print("\n处理后的特征列名:", X.columns.tolist()) # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 基于特征矩阵X确定数值型和分类型特征 numeric_features = X.select_dtypes(include=['int64', 'float64']).columns.tolist() categorical_features = X.select_dtypes(include=['object', 'category']).columns.tolist() print("\n数值型特征:", numeric_features) print("分类型特征:", categorical_features) # 定义预处理步骤 numeric_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='median')), ('scaler', StandardScaler()) ]) categorical_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='most_frequent')), ('onehot', OneHotEncoder(handle_unknown='ignore')) ]) preprocessor = ColumnTransformer( transformers=[ ('num', numeric_transformer, numeric_features), ('cat', categorical_transformer, categorical_features) ] ) # 定义模型 rf_regressor = RandomForestRegressor( n_estimators=290, max_depth=20, min_samples_split=3, min_samples_leaf = 3 , random_state=42, max_features='sqrt' ) # 构建Pipeline pipeline = Pipeline(steps=[ ('preprocessor', preprocessor), ('regressor', rf_regressor) ]) # 训练模型 pipeline.fit(X_train, y_train) # 预测与评估 y_pred = pipeline.predict(X_test) plt.scatter(y_test, y_pred) plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], 'r--') print(f"\nR²分数: {r2_score(y_test, y_pred):.4f}") print(f"均方误差(MSE): {mean_squared_error(y_test, y_pred):.4f}") print(f"平均绝对误差(MAE): {mean_absolute_error(y_test, y_pred):.4f}")进行优化，最后把整体优化代码输出出来

from sklearn.model_selection import train_test_split, RandomizedSearchCV, cross_val_score from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import mean_squared_error, mean_...

import pandas as pd import numpy as np import sklearn #***** Begin # # End *****#，补全上述代码

from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer #*********...

# 1.导入必要库（数据预处理、模型训练等） import pandas as pd # 用于数据处理和分析 import numpy as np # 用于数值计算 from sklearn.model_selection import train_test_split # 用于数据集划分 from sklearn.preprocessing import StandardScaler # 用于特征缩放 from sklearn.ensemble import RandomForestRegressor # 随机森林回归模型 from sklearn.metrics import mean_squared_error # 用于评估模型性能 # 2.数据加载与初步处理 # 读取CSV文件（假设目标列为'price'） df = pd.read_csv('housing.csv') # 根据实际文件路径修改 # 3.数据预处理 # 处理缺失值（均值填充） df.fillna(df.mean(), inplace=True) # 用每列的均值填充缺失值 # 处理分类变量（示例列名为'city'） df = pd.get_dummies(df, columns=['city']) # 将分类变量转换为哑变量（one-hot编码） # 分离特征和目标变量 X = df.drop('price', axis=1) # 假设目标列是price，X为特征矩阵 y = df['price'] # y为目标变量 # 4.数据集划分 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, # 保留20%作为测试集 random_state=42 # 设置随机种子以确保结果可重复 ) # 5.特征缩放 scaler = StandardScaler() # 初始化标准化器 X_train_scaled = scaler.fit_transform(X_train) # 对训练集进行拟合并转换 X_test_scaled = scaler.transform(X_test) # 对测试集仅进行转换（使用训练集的参数） # 6.模型训练 model = RandomForestRegressor( n_estimators=100, # 设置决策树的数量为100 random_state=42 # 设置随机种子以确保结果可重复 ) model.fit(X_train_scaled, y_train) # 使用训练集训练模型 # 7.预测与评估 y_pred = model.predict(X_test_scaled) # 使用测试集进行预测 mse = mean_squared_error(y_test, y_pred) # 计算均方误差（MSE） print(f'模型MSE: {mse:.2f}') # 输出模型的均方误差，保留两位小数

from sklearn.model_selection import train_test_split y = df['Target'] X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42) ### 二、模型训练流程 ...

import pandas as pd import numpy as np from sklearn.preprocessing import OrdinalEncoder, StandardScaler from sklearn.impute import SimpleImputer from sklearn.model_selection import train_test_split from factor_analyzer import FactorAnalyzer from factor_analyzer.factor_analyzer import calculate_kmo from xgboost import XGBClassifier import lightgbm as lgb from sklearn.metrics import classification_report # ====================== # 1. 数据读取与清洗 # ====================== def load_and_clean(data_path): # 读取数据 df = pd.read_csv(data_path) # 缺失值处理 num_imputer = SimpleImputer(strategy='median') cat_imputer = SimpleImputer(strategy='most_frequent') # 数值型字段 numeric_cols = ['付费金额', '活跃时长', '广告收入', '留存'] df[numeric_cols] = num_imputer.fit_transform(df[numeric_cols]) # 分类型字段 categorical_cols = ['设备价值档位', '用户初始广告档位'] df[categorical_cols] = cat_imputer.fit_transform(df[categorical_cols]) # 异常值处理 df['活跃时长'] = np.where(df['活跃时长'] > 24, 24, df['活跃时长']) df['付费金额'] = np.where( df['付费金额'] > df['付费金额'].quantile(0.99), df['付费金额'].quantile(0.95), df['付费金额'] ) return df # ====================== # 2. 特征工程 # ====================== def feature_engineering(df): # 构造复合特征 df['ARPU密度'] = df['付费金额'] / (df['活跃天数'] + 1) df['广告展示率'] = df['广告曝光次数'] / df['短剧观看次数'] df['内容互动指数'] = np.log1p(df['收藏数']1 + df['分享数']2 + df['评论数']*3) # 分类变量编码 encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1) cat_cols = ['设备价值档位', '用户初始广告档位'] df[cat_cols] = encoder.fit_transform(df[cat_cols]) return df # ====================== # 3. 特征筛选与降维 # ====================== def feature_selection(df, target_col='付费意愿档位'): # 划分特征和目标 X = df.drop(columns=[target_col]) y = df[target_col] # 计算IV值筛选 from sklearn.feature_selection import mutual_info_classif iv_values = mutual_info_classif(X, y) iv_df = pd.DataFrame({'feature': X.columns, 'iv': iv_values}) selected_features = iv_df[iv_df['iv'] > 0.02]['feature'].tolist() X_selected = X[selected_features] # 因子分析降维 kmo_all, kmo_model = calculate_kmo(X_selected) if kmo_model > 0.6: fa = FactorAnalyzer(n_factors=5, rotation='varimax') fa.fit(X_selected) factor_scores = fa.transform(X_selected) factor_cols = [f'Factor_{i}' for i in range(1,6)] X_factors = pd.DataFrame(factor_scores, columns=factor_cols) else: X_factors = X_selected.copy() return X_factors, y # ====================== # 4. XGBoost特征筛选 # ====================== def xgb_feature_importance(X, y): # 训练XGBoost模型 model = XGBClassifier( objective='multi:softmax', eval_metric='mlogloss', use_label_encoder=False ) model.fit(X, y) # 获取特征重要性 importance = pd.DataFrame({ 'feature': X.columns, 'importance': model.feature_importances_ }).sort_values('importance', ascending=False) top10_features = importance.head(10)['feature'].tolist() return X[top10_features] # ====================== # 5. LightGBM建模预测 # ====================== def lgb_modeling(X, y): # 数据划分 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, stratify=y, random_state=42 ) # 模型训练 model = lgb.LGBMClassifier( num_leaves=31, max_depth=5, learning_rate=0.1, n_estimators=300, class_weight='balanced' ) model.fit(X_train, y_train) # 模型评估 y_pred = model.predict(X_test) print(classification_report(y_test, y_pred)) return model # ====================== # 主流程执行 # ====================== if name == "main": # 数据路径 DATA_PATH = "user_data.csv" # 执行流程 df = load_and_clean(DATA_PATH) df = feature_engineering(df) X, y = feature_selection(df) X_top10 = xgb_feature_importance(X, y) final_model = lgb_modeling(X_top10, y) # 模型保存 final_model.booster_.save_model('user_value_model.txt')

from sklearn.preprocessing import OrdinalEncoder encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1) X[cat_cols] = encoder.fit_transform(X[cat_cols]) 4. **特征选择** ...

import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier from imblearn.over_sampling import SMOTE from imblearn.combine import SMOTEENN from sklearn.metrics import roc_auc_score, balanced_accuracy_score, f1_score from ucimlrepo import fetch_ucirepo # 加载数据集（处理BOM头并指定正确的列名） data = pd.read_csv('/Users/mengfei/Desktop/creditcard 2.csv', encoding='utf-8-sig', header=1) # 删除ID列（假设第一列是ID，不作为特征） data = data.drop('ID', axis=1, errors='ignore') # 定义特征和目标变量（目标列名为"default payment next month"） X = data.drop('default payment next month', axis=1) y = data['default payment next month'] # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.25, stratify=y, random_state=42 ) # 定义数据平衡方法 def balance_data(method): sampler = None # 移除全局变量 if method == "SMOTE": sampler = SMOTE(random_state=42) elif method == "SMOTEENN": sampler = SMOTEENN(random_state=42) X_res, y_res = sampler.fit_resample(X_train, y_train) return X_res, y_res # 模型训练与评估（修正AUC计算） def evaluate_model(model, X_train, y_train, X_test, y_test): model.fit(X_train, y_train) y_pred = model.predict(X_test) # 获取预测概率 if hasattr(model, "predict_proba"): y_proba = model.predict_proba(X_test)[:, 1] else: y_proba = model.decision_function(X_test) y_proba = 1 / (1 + np.exp(-y_proba)) # Sigmoid转换 auc = roc_auc_score(y_test, y_proba) balanced_acc = balanced_accuracy_score(y_test, y_pred) f1 = f1_score(y_test, y_pred) return auc, balanced_acc, f1 # 逻辑回归（SMOTE平衡） X_smote, y_smote = balance_data("SMOTE") lr = LogisticRegression(penalty="l2", C=1.0, max_iter=1000) lr_auc, lr_ba, lr_f1 = evaluate_model(lr, X_smote, y_smote, X_test, y_test) # 随机森林（SMOTEENN平衡） X_smoteenn, y_smoteenn = balance_data("SMOTEENN") rf = RandomForestClassifier(n_estimators=10

from sklearn.model_selection import train_test_split, StratifiedKFold from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.compose import ColumnTransformer from sklearn....

import pandas as pd import numpy as np from sklearn.decomposition import PCA from sklearn.preprocessing import StandardScaler import matplotlib.pyplot as plt # 创建模拟数据 np.random.seed(42) # 设置随机种子以确保结果可复现 num_rows = 18 # 行数 num_cols = 1000 # 列数 data = np.random.rand(num_rows, num_cols) # 随机生成数据 # 创建DataFrame df = pd.DataFrame(data, columns=[f'Feature_{i+1}' for i in range(num_cols)]) # 提取前250列 df = df.iloc[:, :250] # 检查数据完整性 print("Data shape before cleaning:", df.shape) df = df.dropna(axis=1, how='all') # 删除全为空值的列 df = df.dropna(axis=0, how='any') # 删除包含空值的行 print("Data shape after cleaning:", df.shape) # 数据标准化 scaler = StandardScaler() df_scaled = scaler.fit_transform(df) # 执行PCA pca = PCA(n_components=min(df_scaled.shape)) # 计算所有主成分 pca.fit(df_scaled) # 获取特征值、奇异值、主成分得分和累计方差贡献率 eigenvalues = pca.explained_variance_ singular_values = pca.singular_values_ pca_scores = pca.transform(df_scaled) cumulative_variance = np.cumsum(pca.explained_variance_ratio_) # 获取贡献度较高的10列 top_10_indices = np.argsort(eigenvalues)[-10:][::-1] # 获取前10个最大特征值的索引 # 创建一个新DataFrame保存结果 results = pd.DataFrame({ 'Principal Component': top_10_indices + 1, # 主成分编号从1开始 'Eigenvalue': eigenvalues[top_10_indices], 'Singular_Value': singular_values[top_10_indices], 'PCA_Score': pca_scores[:, top_10_indices].tolist(), 'Cumulative_Variance': cumulative_variance[top_10_indices] }) # 保存到Excel文件 results.to_excel('PCA_Results.xlsx', index=False) # 绘制陡坡图（Scree Plot） plt.figure(figsize=(10, 6)) plt.plot(range(1, len(eigenvalues) + 1), eigenvalues, marker='o') plt.title('Scree Plot') plt.xlabel('Principal Component') plt.ylabel('Eigenvalue') plt.grid(True) plt.savefig('Scree_Plot.jpg', dpi=300) # 保存为JPG格式，高清晰度 plt.show()然后报错ValueError: All arrays must be of the same length

from sklearn.preprocessing import StandardScaler from sklearn.impute import SimpleImputer url_ads = 'http://archive.ics.uci.edu/ml/machine-learning-databases/internet_ads/ad.data' ads = pd.read_csv...

2018年小程序发展状况报告.pdf

2011年全国自考网络经济与企业管理模拟试卷.doc

相关推荐

AI实战-HR数据工程师职位变动数据集分析预测实例（含18个源代码+2.09 MB完整的数据集）.zip

AI实战-贷款审批数据分析预测实例（含20个源代码+375.33 KB完整的数据集）.zip

AI实战-乳腺癌图像特征数据分析预测实例（含19个源代码+122.27 KB完整的数据集）.zip

import pandas as pd import numpy as np import sklearn #********* Begin *********# #********* End *********#，补全上述代码

2018年小程序发展状况报告.pdf

2011年全国自考网络经济与企业管理模拟试卷.doc

大家在看

GSM手机射频测试指导

TXT文件合并器一款合并文本文件的工具

NR 5G考试等级考考试基础试题(含答案已核实).pdf

Java实现ModBus Poll端，读/写外连设备寄存器数据，COM3端口连接

Altera 公司Quartus II软件中FFT核使用手册

最新推荐

2018年小程序发展状况报告.pdf

2011年全国自考网络经济与企业管理模拟试卷.doc

springboot基于JAVA的旅游微信小程序的设计与实现(编号：35142587).zip

(完整版)第1章机器学习基础.ppt

2012年上半年全国高校教师网络培训计划.doc

构建基于ajax, jsp, Hibernate的博客网站源码解析

【Unity Sunny Land关卡设计高级指南】：打造完美关卡的8大技巧

C++ 模版

C#随机数摇奖系统功能及隐藏开关揭秘

【数据驱动的力量】：管道缺陷判别方法论与实践经验

import pandas as pd import numpy as np import sklearn #***** Begin # # End *****#，补全上述代码