x_train = train.drop(['id','label'], axis=1) y_train = train['label'] x_test=test.drop(['id'], axis=1) def abs_sum(y_pre,y_tru): y_pre=np.array(y_pre) y_tru=np.array(y_tru) loss=sum(sum(abs(y_pre-y_tru))) return loss def cv_model(clf, train_x, train_y, test_x, clf_name): folds = 5 seed = 2021 kf = KFold(n_splits=folds, shuffle=True, random_state=seed) test = np.zeros((test_x.shape[0],4)) cv_scores = [] onehot_encoder = OneHotEncoder(sparse=False) for i, (train_index, valid_index) in enumerate(kf.split(train_x, train_y)): print('************************************ {} ************************************'.format(str(i+1))) trn_x, trn_y, val_x, val_y = train_x.iloc[train_index], train_y[train_index], train_x.iloc[valid_index], train_y[valid_index] if clf_name == "lgb": train_matrix = clf.Dataset(trn_x, label=trn_y) valid_matrix = clf.Dataset(val_x, label=val_y) params = { 'boosting_type': 'gbdt', 'objective': 'multiclass', 'num_class': 4, 'num_leaves': 2 ** 5, 'feature_fraction': 0.8, 'bagging_fraction': 0.8, 'bagging_freq': 4, 'learning_rate': 0.1, 'seed': seed, 'nthread': 28, 'n_jobs':24, 'verbose': -1, } model = clf.train(params, train_set=train_matrix, valid_sets=valid_matrix, num_boost_round=2000, verbose_eval=100, early_stopping_rounds=200) val_pred = model.predict(val_x, num_iteration=model.best_iteration) test_pred = model.predict(test_x, num_iteration=model.best_iteration) val_y=np.array(val_y).reshape(-1, 1) val_y = onehot_encoder.fit_transform(val_y) print('预测的概率矩阵为：') print(test_pred) test += test_pred score=abs_sum(val_y, val_pred) cv_scores.append(score) print(cv_scores) print("%s_scotrainre_list:" % clf_name, cv_scores) print("%s_score_mean:" % clf_name, np.mean(cv_scores)) print("%s_score_std:" % clf_name, np.std(cv_scores)) test=test/kf.n_splits return test def lgb_model(x_train, y_train, x_test): lgb_test = cv_model(lgb, x_train, y_train, x_test, "lgb") return lgb_test lgb_test = lgb_model(x_train, y_train, x_test) 这段代码运用了什么学习模型

fruits = pd.read_table('fruit_data_with_colors.txt') fruits.head() fruits.shape print(fruits['fruit_name'].unique()) fruits.drop('fruit_label', axis=1).hist(bins=30, figsize=(9,9)) plt.suptitle("Histogram for each numeric input variable") plt.show() feature_names = ['mass', 'width', 'height', 'color_score'] x = fruits[feature_names] y = fruits['fruit_label'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0) scaler = MinMaxScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test) logreg = LogisticRegression() 请分析一下以上代码中scaler = MinMaxScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test) logreg = LogisticRegression()的作用与重要性

- X_train = scaler.fit_transform(X_train)：对训练集进行标准化处理，同时对scaler对象进行拟合，得到标准化所需的参数（即最大值和最小值）。 - X_test = scaler.transform(X_test)：对测试集进行标准化处理...

解决import pandas as pd import numpy as np # 读取数据 train = pd.read_csv("D:\数据挖掘\实验\实验六\clean_train.csv") test = pd.read_csv("D:\数据挖掘\实验\实验六\clean_test.csv") # 抽取正负样本 train = train[train['label'] == 1].sample(sum(train['label'] == 1)).append(train[train['label'] == 0].sample(sum(train['label'] == 0))) test = test[test['label'] == 1].sample(sum(test['label'] == 1)).append(test[test['label'] == 0].sample(sum(test['label'] == 0))) # 删除列 x_train = train.drop(['user_id', 'merchant_id', 'coupon_id','date_received', 'date'], axis=1) x_test = test.drop(['user_id', 'merchant_id', 'coupon_id','date_received', 'date', 'label'], axis=1) # 处理无穷数据（无穷数据大或者无穷数据小） x_train[np.isinf(x_train)] = 0 x_test[np.isinf(x_test)] = 0from sklearn.tree import DecisionTreeClassifier model_dt1 = DecisionTreeClassifier(max_leaf_nodes=16, random_state=123).fit(x_train.drop(['label'], axis=1), x_train['label'])报错ValueError: Input contains NaN, infinity or a value too large for dtype('float32').问题

x_test = test.drop(['user_id', 'merchant_id', 'coupon_id','date_received', 'date', 'label'], axis=1) # 处理无穷数据和 NaN x_train = x_train.replace([np.inf, -np.inf], np.nan) x_train.fillna(0, in...

import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.preprocessing import MinMaxScaler from sklearn.linear_model import LogisticRegression from sklearn.tree import DecisionTreeClassifier from sklearn.neighbors import KNeighborsClassifier from sklearn.svm import SVC from sklearn.metrics import classification_report from sklearn.metrics import confusion_matrix fruits = pd.read_table('fruit_data_with_colors.txt') fruits.head() fruits.shape print(fruits['fruit_name'].unique()) fruits.drop('fruit_label', axis=1).hist(bins=30, figsize=(9,9)) plt.suptitle("Histogram for each numeric input variable") plt.show() feature_names = ['mass', 'width', 'height', 'color_score'] x = fruits[feature_names] y = fruits['fruit_label'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0) scaler = MinMaxScaler() X_train = scaler.fit_transform(X_train) X_test = scaler.transform(X_test) logreg = LogisticRegression() logreg.fit(X_train, y_train) clf = DecisionTreeClassifier().fit(X_train, y_train) knn = KNeighborsClassifier() knn.fit(X_train, y_train) svm = SVC() svm.fit(X_train, y_train) pred = knn.predict(X_test)

你给出的代码是一个简单的机器学习分类问题的示例代码，使用的是...其中，MinMaxScaler用于对数据进行归一化处理，train_test_split用于将数据集分为训练集和测试集。最后使用K近邻分类器进行预测，并输出预测结果。

# 如果已经进行过特征筛选，则直接保留重要特征 if os.path.exists('model/easy_feature_select.csv'): df_importances = pd.read_csv('model/easy_feature_select.csv', encoding='gbk') important_features = df_importances.features.tolist() x_train, x_test = x_train[important_features], x_test[important_features] df_ft = df_ft[['label'] + important_features] # 如果为进行特征筛选，则直接删除无用特征 elif cfg_dict['features']['features_not_use_temp']!='': drop_features = cfg_dict['features']['features_not_use_temp'].split(',') x_train.drop(drop_features, axis=1, inplace=True) x_test.drop(drop_features, axis=1, inplace=True) # x_train, x_test = x_train[important_features], x_test[important_features] df_ft = df_ft.drop(drop_features, axis=1, inplace=True)

接着，代码根据重要特征列表，从 x_train 和 x_test 数据框中保留这些特征，同时从 df_ft 数据框中保留 'label' 列和重要特征列。如果文件 'model/easy_feature_select.csv' 不存在，则检查配置参数 cfg_dict['...

import pandas as pdimport lightgbm as lgb# 加载数据集train_data = pd.read_csv('train.csv')test_data = pd.read_csv('test.csv')# 获取训练数据集和测试数据集的标签值的最小值和最大值y_min = min(train_data['label'].min(), test_data['label'].min())y_max = max(train_data['label'].max(), test_data['label'].max())# 训练模型train_X, train_y = train_data.drop('label', axis=1), train_data['label']test_X, test_y = test_data.drop('label', axis=1), test_data['label']params = {'objective': 'regression', 'metric': 'mse'}model = lgb.train(params, lgb.Dataset(train_X, train_y), num_boost_round=100)# 对测试数据集进行预测y_pred_lgb = model.predict(test_X)# 将lgb的预测结果进行反归一化y_pred = y_pred_lgb * (y_max - y_min) + y_min，上述代码出现报错'int' object is not iterable

在你的代码中，报错很可能是由于变量y_max或y_min是整数对象而不是可迭代的容器所导致的。你可以使用print函数在代码中打印y_max和y_min，以确定它们的类型。如果它们是整数对象，则可能需要检查你的...

df_1_final_test = df_1.loc[list(set(df_1.index.tolist()).difference(set(df_train_1.index.tolist())))] #df_9_final_test = df_9.copy() 使负样本验证集等于正样本的验证集 df_9_final_test = df_9.sample(round(len(df_1_final_test)), random_state=int(cfg_train_dict['random_state'])) df_9_final_test['label'] = 0 df_ft = df_1_final_test.append(df_9_final_test, sort=False) # 随机分训练集和测试集 from sklearn.model_selection import train_test_split x_train, x_test, y_train, y_test = train_test_split(df_train.drop(['号码', 'label'], axis=1), df_train['label'], test_size=0.2, random_state=int(cfg_train_dict['random_state']))

其中，参数 df_train.drop(['号码', 'label'], axis=1) 表示训练集的特征数据，df_train['label'] 表示训练集的标签数据。test_size 参数设置了测试集的比例，这里是 0.2，即 20% 的样本被划分为测试集。random_...

import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.svm import SVC from sklearn.ensemble import BaggingClassifier from sklearn.model_selection import RepeatedStratifiedKFold from sklearn.metrics import (accuracy_score, roc_auc_score, recall_score, confusion_matrix, roc_curve, precision_score) from sklearn.utils import resample from sklearn.feature_selection import SelectFromModel # 读取数据 train_data = pd.read_excel('pcr-特征/pre_processed_results/train_rf_top15.xlsx') test_data = pd.read_excel('pcr-特征/pre_processed_results/test_rf_top15.xlsx') # 特征与目标变量 X_train = train_data.drop(columns=['id', 'pcr','local']) y_train = train_data['pcr'] X_test = test_data.drop(columns=['id', 'pcr','local']) y_test = test_data['pcr']后续通过决策树建立模型

X = data_filled.drop('target_column', axis=1) # 替换为实际目标列名 y = data_filled['target_column'] # 4. 编码分类特征（决策树可处理类别特征，但建议编码） le = LabelEncoder() y = le.fit_transform(y) #...

#importing required libraries from sklearn.preprocessing import MinMaxScaler from keras.models import Sequential from keras.layers import Dense, Dropout, LSTM #setting index data = df.sort_index(ascending=True, axis=0) new_data = data[['trade_date', 'close']] new_data.index = new_data['trade_date'] new_data.drop('trade_date', axis=1, inplace=True) new_data.head() #creating train and test sets dataset = new_data.values train= dataset[0:1825,:] valid = dataset[1825:,:] #converting dataset into x_train and y_train scaler = MinMaxScaler(feature_range=(0, 1)) scaled_data = scaler.fit_transform(dataset) x_train, y_train = [], [] for i in range(60,len(train)): x_train.append(scaled_data[i-60:i,0]) y_train.append(scaled_data[i,0]) x_train, y_train = np.array(x_train), np.array(y_train) x_train = np.reshape(x_train, (x_train.shape[0],x_train.shape[1],1)) # create and fit the LSTM network model = Sequential() model.add(LSTM(units=50, return_sequences=True, input_shape=(x_train.shape[1],1))) model.add(LSTM(units=50)) model.add(Dense(1)) model.compile(loss='mean_squared_error', optimizer='adam') model.fit(x_train, y_train, epochs=1, batch_size=1, verbose=1) #predicting 246 values, using past 60 from the train data inputs = new_data[len(new_data) - len(valid) - 60:].values inputs = inputs.reshape(-1,1) inputs = scaler.transform(inputs) X_test = [] for i in range(60,inputs.shape[0]): X_test.append(inputs[i-60:i,0]) X_test = np.array(X_test) X_test = np.reshape(X_test, (X_test.shape[0],X_test.shape[1],1)) closing_price = model.predict(X_test) closing_price1 = scaler.inverse_transform(closing_price) rms=np.sqrt(np.mean(np.power((valid-closing_price1),2))) rms #v=new_data[1825:] valid1 = pd.DataFrame() # 假设你使用的是Pandas DataFrame valid1['Pre_Lstm'] = closing_price1 train=new_data[:1825] plt.figure(figsize=(16,8)) plt.plot(train['close']) plt.plot(valid1['close'],label='真实值') plt.plot(valid1['Pre_Lstm'],label='预测值') plt.title('LSTM预测',fontsize=16) plt.xlabel('日期',fontsize=14) plt.ylabel('收盘价',fontsize=14) plt.legend(loc=0)

1. 数据预处理：使用 MinMaxScaler 对股票价格数据进行归一化处理，将其缩放到 0 到 1 的范围内。 2. 创建训练集和测试集：将数据集分为训练集和测试集。 3. 创建模型：使用 Keras 搭建一个 LSTM 神经网络模型。 ...

dftrain,dfvalid = train_test_split(dfdata, train_size=0.75, random_state=42) Xtrain,Ytrain = dftrain.drop(label_col,axis = 1),dftrain[label_col] Xvalid,Yvalid = dfvalid.drop(label_col,axis = 1),dfvalid[label_col] cate_cols_indexs = np.where(Xtrain.columns.isin(cate_cols))[0]

其中，train_test_split()函数将数据集按照指定比例划分为训练集和验证集，并且设置了随机种子，以保证每次划分结果的一致性。后续的代码则是将训练集和验证集的特征列和标签列分别存储在Xtrain、Ytrain、Xvalid、...

代码讲解 from sklearn.preprocessing import OneHotEncoder from sklearn.compose import make_column_transformer column_trans = make_column_transformer( (OneHotEncoder(),['Team1', 'Team2']),remainder='passthrough') pipe_X = pipe_DF.drop('Team1_Result',axis=1) pipe_y = pipe_DF['Team1_Result'] from sklearn.pipeline import make_pipeline pipe_League = make_pipeline(column_trans,StandardScaler(with_mean=False),XGBClassifier(use_label_encoder=False, gamma= 0.01, learning_rate= 0.01, n_estimators= 300, max_depth= 4)) pipe_League.fit(pipe_X,pipe_y) knock_df = pipe_DF[pipe_DF['Team1_Result'] != 2] pipe_knock_df = knock_df knock_df = pd.get_dummies(knock_df) X = knock_df.drop('Team1_Result',axis=1) y = knock_df['Team1_Result'] X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42) X_hold_test, X_test, y_hold_test, y_test = train_test_split(X_val, y_val, test_size=0.5, random_state=42)

10. 使用 train_test_split() 将数据划分为训练集和验证集（X_train, X_val, y_train, y_val）以及保留测试集（X_hold_test, X_test, y_hold_test, y_test）。其中，测试集占据验证集的一半，random_state ...

import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.svm import SVCfrom sklearn.metrics import accuracy_score, confusion_matriximport matplotlib.pyplot as pltimport xlrd# 加载数据集并进行预处理def load_data(filename): data = pd.read_excel(filename) data.dropna(inplace=True) X = data.drop('label', axis=1) X = (X - X.mean()) / X.std() y = data['label'] return X, y# 训练SVM分类器def train_svm(X_train, y_train, kernel='rbf', C=1, gamma=0.1): clf = SVC(kernel=kernel, C=C, gamma=gamma) clf.fit(X_train, y_train) return clf# 预测新的excel文件并输出预测结果excel、精度和混淆矩阵图def predict_svm(clf, X_test, y_test, filename): y_pred = clf.predict(X_test) accuracy = accuracy_score(y_test, y_pred) cm = confusion_matrix(y_test, y_pred) # 输出预测结果excel data = pd.read_excel(filename) data['predicted_label'] = pd.Series(y_pred, index=data.index) data.to_excel('predicted_result.xlsx', index=False) # 绘制混淆矩阵图 plt.imshow(cm, cmap=plt.cm.Blues) plt.title('Confusion matrix') plt.colorbar() tick_marks = np.arange(len(set(y_test))) plt.xticks(tick_marks, sorted(set(y_test)), rotation=45) plt.yticks(tick_marks, sorted(set(y_test))) plt.xlabel('Predicted Label') plt.ylabel('True Label') plt.show() return accuracy# 加载数据集并划分训练集和验证集data = pd.read_excel('data.xlsx')data.dropna(inplace=True)X = data.drop('label', axis=1)X = (X - X.mean()) / X.std()y = data['label']X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 训练SVM分类器clf = train_svm(X_train, y_train)# 预测新的excel文件accuracy = predict_svm(clf, X_test, y_test, 'test_data.xlsx')# 输出精度print('Accuracy:', accuracy)改进，预测新的结果输出在新表中

X = data.drop('label', axis=1) X = (X - X.mean()) / X.std() y = data['label'] return X, y # 训练SVM分类器 def train_svm(X_train, y_train, kernel='rbf', C=1, gamma=0.1): clf = SVC(kernel=kernel, ...

# 数据集字段示例（共87个特征） features = [ 'Flow Duration', 'Total Fwd Packets', 'Total Bwd Packets', 'Flow Bytes/s', 'Packet Length Mean', 'ACK Flag Count', 'Init_Win_bytes_forward', 'Label' # 标签：Benign或DDoS ] import pandas as pd from sklearn.model_selection import train_test_split # 加载数据集（假设已下载并解压为train.csv） data = pd.read_csv('train.csv') # 清洗数据：删除空值、重复项 data = data.dropna().drop_duplicates() # 标签编码：Benign->0, DDoS->1 data['Label'] = data['Label'].apply(lambda x: 0 if x == 'Benign' else 1) # 划分训练集和测试集（8:2） X = data.drop('Label', axis=1) y = data['Label'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 通过随机森林评估特征重要性 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(n_estimators=100) rf.fit(X_train, y_train) # 可视化Top10重要特征 import matplotlib.pyplot as plt feature_importances = pd.Series(rf.feature_importances_, index=X.columns) top_features = feature_importances.nlargest(10) top_features.plot(kind='barh', title='Feature Importance') plt.show() # 选取Top10特征重构数据集 selected_features = top_features.index.tolist() X_train = X_train[selected_features] X_test = X_test[selected_features] from xgboost import XGBClassifier from sklearn.metrics import classification_report, roc_auc_score # 初始化模型 model = XGBClassifier( n_estimators=200, max_depth=5, learning_rate=0.1, subsample=0.8 ) # 训练与预测 model.fit(X_train, y_train) y_pred = model.predict(X_test) # 输出评估报告 print(classification_report(y_test, y_pred)) print(f"ROC-AUC Score: {roc_auc_score(y_test, y_pred):.4f}") from flask import Flask, request, jsonify import joblib app = Flask(name) model = joblib.load('ddos_model.pkl') # 加载保存的模型 @app.route('/detect', methods=['POST']) def detect(): data = request.json features = [data[f] for f in selected_features] # 使用之前选定的特征 prediction = model.predict([features])[0] return jsonify({'is_ddos': int(prediction)}) if name == 'main': app.run(port=5000)Traceback (most recent call last): File "E:\documents\Graduation Design\Code\123.py", line 21, in <module> X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "E:\python\Lib\site-packages\sklearn\utils\_param_validation.py", line 216, in wrapper return func(*args, **kwargs) File "E:\python\Lib\site-packages\sklearn\model_selection\_split.py", line 2851, in train_test_split n_train, n_test = _validate_shuffle_split( ~~~~~~~^ n_samples, test_size, train_size, default_test_size=0.25 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ ) ^ File "E:\python\Lib\site-packages\sklearn\model_selection\_split.py", line 2481, in _validate_shuffle_split raise ValueError( ...<3 lines>... ) ValueError: With n_samples=0, test_size=0.2 and train_size=None, the resulting train set will be empty. Adjust any of the aforementioned parameters.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=min(len(y), int(len(y)*0.2)), shuffle=True, stratify=y) 此外还可以考虑增加其他预处理技术比如降维等方式进一步优化性能表现。 ---...

import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.svm import SVC from sklearn.metrics import accuracy_score, confusion_matrix import matplotlib.pyplot as plt import xlrd # 加载数据集并进行预处理 def load_data(filename): data = pd.read_excel(filename) data.dropna(inplace=True) X = data.drop('label', axis=1) X = (X - X.mean()) / X.std() y = data['label'] return X, y # 训练SVM分类器 def train_svm(X_train, y_train, kernel='rbf', C=1, gamma=0.1): clf = SVC(kernel=kernel, C=C, gamma=gamma) clf.fit(X_train, y_train) return clf # 预测新的excel文件并输出预测结果excel、精度和混淆矩阵图 def predict_svm(clf, X_test, y_test, filename, result_file): y_pred = clf.predict(X_test) accuracy = accuracy_score(y_test, y_pred) cm = confusion_matrix(y_test, y_pred) # 输出预测结果excel data = pd.read_excel(filename) data['predicted_label'] = pd.Series(y_pred, index=data.index) data.to_excel(result_file, index=False) # 绘制混淆矩阵图 plt.imshow(cm, cmap=plt.cm.Blues) plt.title('Confusion matrix') plt.colorbar() tick_marks = np.arange(len(set(y_test))) plt.xticks(tick_marks, sorted(set(y_test)), rotation=45) plt.yticks(tick_marks, sorted(set(y_test))) plt.xlabel('Predicted Label') plt.ylabel('True Label') plt.show() return accuracy # 加载数据集并划分训练集和验证集 data = pd.read_excel('data.xlsx') data.dropna(inplace=True) X = data.drop('label', axis=1) X = (X - X.mean()) / X.std() y = data['label'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 训练SVM分类器 clf = train_svm(X_train, y_train) # 预测新的excel文件 accuracy = predict_svm(clf, X_test, y_test, 'test_data.xlsx', 'predicted_result.xlsx') # 输出精度 print('Accuracy:', accuracy)修改代码，多个特征变量，一个目标变量进行预测

假设现在有两个特征变量，列名分别为'feature1'和'feature2'，目标变量列名为'label'，则修改load_data函数中的代码为： def load_data(filename): data = pd.read_excel(filename) data.dropna(inplace=True...

data = pd.read_excel('C:/lydata/test4.xlsx') X = data.drop('HER2_G', axis=1) y = data['HER2_G'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=42) kf = KFold(n_splits=5, shuffle=True, random_state=42) accuracy_scores = [] precision_scores = [] recall_scores = [] f1_scores = [] auc_scores = [] total_confusion_matrix = np.zeros((len(np.unique(y_train)), len(np.unique(y_train))), dtype=int) pipeline = Pipeline([ ('smote', SMOTE(k_neighbors=3, sampling_strategy=0.8, random_state=42)), ('scaler', RobustScaler()), ('gb', GradientBoostingClassifier( learning_rate=0.04, n_estimators=829, subsample=0.79, min_samples_split=2, min_samples_leaf=1, max_depth=4, random_state=42, warm_start=True, tol=0.0001, ccp_alpha=0, max_features=10, )) ]) # 存储每个折的 FPR、TPR 和 AUC fprs = [] tprs = [] aucs = [] for train_index, val_index in kf.split(X_train): X_train_fold, X_val = X.iloc[train_index], X.iloc[val_index] y_train_fold, y_val = y.iloc[train_index], y.iloc[val_index] pipeline.fit(X_train_fold, y_train_fold) y_pred = pipeline.predict(X_val) y_proba = pipeline.predict_proba(X_val)[:, 1] accuracy_scores.append(accuracy_score(y_val, y_pred)) precision_scores.append(precision_score(y_val, y_pred)) recall_scores.append(recall_score(y_val, y_pred)) f1_scores.append(f1_score(y_val, y_pred)) auc_scores.append(roc_auc_score(y_val, y_proba)) cm = confusion_matrix(y_val, y_pred) total_confusion_matrix += cm # 计算 ROC 曲线所需指标 fpr, tpr, _ = roc_curve(y_val, y_proba) fprs.append(fpr) tprs.append(tpr) aucs.append(roc_auc_score(y_val, y_proba)) accuracy = np.mean(accuracy_scores) precision = np.mean(precision_scores) recall = np.mean(recall_scores) f1 = np.mean(f1_scores) auc = np.mean(auc_scores) print("Gradient Boosting 参数：") print(pipeline.named_steps['gb'].get_params()) print(f"Gradient Boosting 平均 accuracy: {accuracy:.2f}") print(f"Gradient Boosting 平均 precision: {precision:.2f}") print(f"Gradient Boosting 平均 recall: {recall:.2f}") print(f"Gradient Boosting 平均 F1 score: {f1:.2f}") print(f"Gradient Boosting 平均 AUC score: {auc:.2f}") print("综合混淆矩阵：") print(total_confusion_matrix) pipeline.fit(X_train, y_train) y_test_pred = pipeline.predict(X_test) y_test_proba = pipeline.predict_proba(X_test)[:, 1] accuracy_test = accuracy_score(y_test, y_test_pred) precision_test = precision_score(y_test, y_test_pred) recall_test = recall_score(y_test, y_test_pred) f1_test = f1_score(y_test, y_test_pred) auc_test = roc_auc_score(y_test, y_test_proba) print(f"测试集 accuracy: {accuracy_test:.2f}") print(f"测试集 precision: {precision_test:.2f}") print(f"测试集 recall: {recall_test:.2f}") print(f"测试集 F1 score: {f1_test:.2f}") print(f"测试集 AUC score: {auc_test:.2f}") cm_test = confusion_matrix(y_test, y_test_pred) print("测试集混淆矩阵：") print(cm_test) # 绘制各个折的 ROC 曲线 plt.figure(figsize=(10, 8)) for i in range(len(fprs)): plt.plot(fprs[i], tprs[i], label=f'Fold {i + 1} (AUC = {aucs[i]:.2f})') plt.plot([0, 1], [0, 1], color='navy', linestyle='--') plt.xlim([0.0, 1.0]) plt.ylim([0.0, 1.05]) plt.xlabel('False Positive Rate') plt.ylabel('True Positive Rate') plt.title('ROC Curve for Each Fold in 5-Fold Cross-validation') plt.legend(loc="lower right") plt.show() 这个代码我要画出五折交叉验证循环中的各个roc曲线，为什么有四折都是一

因为X是整个数据集（包括训练和测试），而交叉验证时，kf.split(X_train)生成的索引是针对X_train的行数，但X.iloc[train_index]会从整个数据集的X中取数据，而X_train原本是X的一个子集。例如，假设X有100行，X_...

import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier from imblearn.over_sampling import SMOTE from imblearn.combine import SMOTEENN from sklearn.metrics import roc_auc_score, balanced_accuracy_score, f1_score from ucimlrepo import fetch_ucirepo # 加载数据集（处理BOM头并指定正确的列名） data = pd.read_csv('/Users/mengfei/Desktop/creditcard 2.csv', encoding='utf-8-sig', header=1) # 删除ID列（假设第一列是ID，不作为特征） data = data.drop('ID', axis=1, errors='ignore') # 定义特征和目标变量（目标列名为"default payment next month"） X = data.drop('default payment next month', axis=1) y = data['default payment next month'] # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.25, stratify=y, random_state=42 ) # 定义数据平衡方法 def balance_data(method): sampler = None # 移除全局变量 if method == "SMOTE": sampler = SMOTE(random_state=42) elif method == "SMOTEENN": sampler = SMOTEENN(random_state=42) X_res, y_res = sampler.fit_resample(X_train, y_train) return X_res, y_res # 模型训练与评估（修正AUC计算） def evaluate_model(model, X_train, y_train, X_test, y_test): model.fit(X_train, y_train) y_pred = model.predict(X_test) # 获取预测概率 if hasattr(model, "predict_proba"): y_proba = model.predict_proba(X_test)[:, 1] else: y_proba = model.decision_function(X_test) y_proba = 1 / (1 + np.exp(-y_proba)) # Sigmoid转换 auc = roc_auc_score(y_test, y_proba) balanced_acc = balanced_accuracy_score(y_test, y_pred) f1 = f1_score(y_test, y_pred) return auc, balanced_acc, f1 # 逻辑回归（SMOTE平衡） X_smote, y_smote = balance_data("SMOTE") lr = LogisticRegression(penalty="l2", C=1.0, max_iter=1000) lr_auc, lr_ba, lr_f1 = evaluate_model(lr, X_smote, y_smote, X_test, y_test) # 随机森林（SMOTEENN平衡） X_smoteenn, y_smoteenn = balance_data("SMOTEENN") rf = RandomForestClassifier(n_estimators=10

X = data.drop('credit_risk', axis=1) y = data['credit_risk'] # 划分训练测试集（保持类别分布） X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, stratify=y, random_state=42) ...

相关推荐

ml_data.zip

Decision_Tree

keras 脚本 从外部文件中读取波士顿住房数据集， 而不是引用内置的 Keras 数据集， 并应用回归来预测房价.rar

dftrain,dfvalid = train_test_split(dfdata, train_size=0.75, random_state=42) Xtrain,Ytrain = dftrain.drop(label_col,axis = 1),dftrain[label_col] Xvalid,Yvalid = dfvalid.drop(label_col,axis = 1),dfvalid[label_col] cate_cols_indexs = np.where(Xtrain.columns.isin(cate_cols))[0]

大家在看

Indesign插件合集(支持ID CS6~CC 2021)

爬取招行外汇网站数据.pdf

ORCAD库管理.rar

mapinfo详细教程

.NET frxamework v2.0 64位

最新推荐

IP网络基础知识及原理.ppt

网络游戏运营培训资料第一讲市场推广.ppt

园林绿化工程项目管理要点.ppt

Evc Sql CE 程序开发实践与样例代码分享

【浪潮FS6700交换机配置实战】：生产环境快速部署策略与技巧

YOLO11训练批次参考

数据库考试复习必备五套习题精讲

【浪潮FS6700交换机故障诊断与排除】：掌握这些方法，让你的网络稳定如初

JVM内存整体结构图

GEF应用实例：掌握界面设计的六步走

keras 脚本从外部文件中读取波士顿住房数据集，而不是引用内置的 Keras 数据集，并应用回归来预测房价.rar