from imblearn.over_sampling import SMOTE from imblearn.pipeline import make_pipeline # 创建SMOTE管道 smote = SMOTE(sampling_strategy=0.5, # 调整正样本占比为50% random_state=42, k_neighbors=5) # 重新划分未stratify的数据 X_train_smote, y_train_smote = smote.fit_resample(X_train, y_train) # 查看采样后分布 print("\n采样后训练集分布：") print(pd.Series(y_train_smote).value_counts()) 在输入这段代码的时候显示这样的错误Traceback (most recent call last): File "e:\Anaconda-python\envs\is6400\lib\site-packages\IPython\core\interactiveshell.py", line 3553, in run_code exec(code_obj, self.user_global_ns, self.user_ns) File "C:\Users\mdl\AppData\Local\Temp\ipykernel_22056\1797394775.py", line 2, in <module> from imblearn.pipeline import make_pipeline File "e:\Anaconda-python\envs\is6400\lib\site-packages\imblearn\__init__.py", line 52, in <module> from . import ( File "e:\Anaconda-python\envs\is6400\lib\site-packages\imblearn\ensemble\__init__.py", line 6, in <module> from ._bagging import BalancedBaggingClassifier File "e:\Anaconda-python\envs\is6400\lib\site-packages\imblearn\ensemble\_bagging.py", line 30, in <module> from ..pipeline import Pipeline File "e:\Anaconda-python\envs\is6400\lib\site-packages\imblearn\pipeline.py", line 24, in <module> from .utils._metadata_requests import ( File "e:\Anaconda-python\envs\is6400\lib\site-packages\imblearn\utils\_metadata_requests.py", line 1512 def process_routing(_obj, _method, /, **kwargs): ^ SyntaxError: invalid syntax 怎么修改

from imblearn.over_sampling import SMOTE from imblearn.under_sampling import RandomUnderSampler from imblearn.pipeline import Pipeline from sklearn.model_selection import cross_val_score # 定义管道 #欠采样和过采样的结合（使用pipeline） model = SVC() over = SMOTE(sampling_strategy=0.4) under = RandomUnderSampler(sampling_strategy=0.5) steps = [('o', over), ('u', under), ('model', model)] pipeline = Pipeline(steps=steps) # 评估效果 scores = cross_val_score(pipeline, X, y, scoring='roc_auc', cv=5, n_jobs=-1) score = np.mean(scores) print('ROC AUC score for the combined sampling method: %.3f' % score)该如何求该模型的accuracy，AUC ，precision，recall，f1 score ，Sensitivity ，Specificity 还要画出ROC曲线和混淆矩阵

from sklearn.metrics import accuracy_score, roc_auc_score, precision_score, recall_score, f1_score, confusion_matrix, roc_curve import matplotlib.pyplot as plt 2. 训练模型和预测结果： python ...

import numpy as np import pandas as pd from sklearn.model_selection import StratifiedKFold from sklearn.preprocessing import StandardScaler from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier from xgboost import XGBClassifier from imblearn.pipeline import Pipeline from imblearn.over_sampling import SMOTE from imblearn.under_sampling import TomekLinks from sklearn.decomposition import PCA from sklearn.feature_selection import SelectKBest, mutual_info_classif, VarianceThreshold from sklearn.tree import DecisionTreeClassifier from sklearn.feature_selection import RFE from sklearn.svm import SVC df = pd.read_excel(r'C:\Users\14576\Desktop\计算机资料\石波-乳腺癌\Traintest1.xlsx') data = np.array(df) X = data[:, 1:] y = data[:, 0] pipeline = Pipeline([ ('scaler', StandardScaler()), ('resample', SMOTE(sampling_strategy=0.8,k_neighbors=3,random_state=42)), # 过采样在前 ('clean', TomekLinks(sampling_strategy='majority')), # 欠采样在后 ('variance_threshold', VarianceThreshold(threshold=0.15)), ('pca', PCA(n_components=0.90)), ('rfe', RFE(estimator=DecisionTreeClassifier(max_depth=5), step=0.1, n_features_to_select=10)), ('model', AdaBoostClassifier( n_estimators=500, learning_rate=0.2, estimator=DecisionTreeClassifier(max_depth=2), random_state=42 )) # 模型最后 ]) #'resample', SMOTE(sampling_strategy=0.7,k_neighbors=5,random_state=42) kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42) metrics = { 'Accuracy': [], 'Precision': [], 'Recall': [], 'F1': [], 'AUC': [] } for train_idx, val_idx in kf.split(X, y): X_train, X_val = X[train_idx], X[val_idx] y_train, y_val = y[train_idx], y[val_idx] # 训练并预测 pipeline.fit(X_train, y_train) y_pred = pipeline.predict(X_val) y_proba = pipeline.predict_proba(X_val)[:, 1] # 记录指标 metrics['Accuracy'].append(accuracy_score(y_val, y_pred)) metrics['Precision'].append(precision_score(y_val, y_pred)) metrics['Recall'].append(recall_score(y_val, y_pred)) metrics['F1'].append(f1_score(y_val, y_pred)) metrics['AUC'].append(roc_auc_score(y_val, y_proba)) for metric, values in metrics.items(): print(f"{metric}: {np.mean(values):.4f} ")减少此训练模型的过拟合

另外，他们使用了imblearn的Pipeline来处理数据不平衡问题，用到了SMOTE和TomekLinks。特征选择部分有方差阈值、PCA、RFE，最后是AdaBoost分类器。数据是从Excel文件读取的，转换成数组后分割成特征X和标签y。然后...

--------------------------------------------------------------------------- ModuleNotFoundError Traceback (most recent call last) Cell In[1], line 4 2 from pyspark.ml.classification import GBTClassifier 3 from pyspark.ml.tuning import TrainValidationSplit ----> 4 from imblearn.over_sampling import SMOTE # 需要安装imbalanced-learn库 6 # 数据预处理 - 增加缺失值填充 7 imputer = Imputer(inputCols=numeric_features, outputCols=[f"{c}_imputed" for c in numeric_features]) ModuleNotFoundError: No module named 'imblearn'

from imblearn.over_sampling import SMOTE # 需要安装imbalanced-learn库 # 数据预处理 - 增加缺失值填充 imputer = Imputer(inputCols=numeric_features, outputCols=[f"{c}_imputed" for c in numeric_features]...

from sklearn.feature_selection import RFECV from sklearn.model_selection import StratifiedKFold from sklearn.tree import DecisionTreeClassifier, plot_tree from sklearn.metrics import classification_report, roc_auc_score, confusion_matrix, precision_recall_curve from imblearn.over_sampling import SMOTE import matplotlib.pyplot as plt import seaborn as sns import numpy as np from sklearn.utils.class_weight import compute_class_weight # ==================== # 数据集SMOTE重采样 # ==================== # 使用SMOTE进行训练集的重采样 smote = SMOTE(random_state=42) X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train) # ==================== # 递归特征消除 (RFECV) # ==================== # 初始化基模型 base_model = DecisionTreeClassifier( max_depth=3, min_samples_split=10, min_samples_leaf=5, class_weight='balanced', random_state=42 ) # 配置RFECV selector = RFECV( estimator=base_model, step=1, # 每次迭代移除1个特征 min_features_to_select=3, # 至少保留3个特征 cv=StratifiedKFold(5), # 分层交叉验证 scoring='roc_auc', n_jobs=-1 ) # 执行特征选择 selector.fit(X_train_resampled, y_train_resampled) # 获取选择的特征 selected_features = X_train.columns[selector.support_].tolist() print(f"\nRFECV选择特征数: {len(selected_features)}/{X_train.shape[1]}") print("选中的特征:", selected_features) # 筛选数据集 X_train_rfe = X_train_resampled[selected_features] X_test_rfe = X_test[selected_features] # ==================== # 使用最优特征重新训练 # ==================== optimized_model = DecisionTreeClassifier( max_depth=4, min_samples_split=10, min_samples_leaf=5, class_weight='balanced', random_state=42 ) optimized_model.fit(X_train_rfe, y_train_resampled) # ==================== # 完整评估函数（增强版） # ==================== def enhanced_evaluation(model, X_train, y_train, X_test, y_test): def get_metrics(y_true, y_pred, y_proba): tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel() specificity = tn / (tn + fp) recall = tp / (tp + fn) ppv = tp / (tp + fp)

from imblearn.over_sampling import SMOTE from sklearn.feature_selection import RFECV from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import classification_report from sklearn....

import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier from imblearn.over_sampling import SMOTE from imblearn.combine import SMOTEENN from sklearn.metrics import roc_auc_score, balanced_accuracy_score, f1_score from sklearn.datasets import make_classification # 自定义生成信贷数据（替代creditcard.csv） def generate_credit_data(n_samples=10000, n_features=20, random_state=42): X, y = make_classification( n_samples=n_samples, n_features=n_features, n_informative=5, n_redundant=2, n_clusters_per_class=1, weights=[0.995], # 正样本占比0.5% flip_y=0.01, # 添加噪声 random_state=random_state ) # 添加信贷相关特征名称（示例） feature_names = [f'feature_{i}' for i in range(n_features)] df = pd.DataFrame(X, columns=feature_names) df['Class'] = y return df # 生成数据 data = generate_credit_data(n_samples=20000, n_features=15) X = data.drop('Class', axis=1) y = data['Class'] # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.25, stratify=y, random_state=42 ) # 定义数据平衡方法 def balance_data(method): if method == 'SMOTE': sampler = SMOTE(random_state=42) elif method == 'SMOTEENN': sampler = SMOTEENN(random_state=42) X_res, y_res = sampler.fit_resample(X_train, y_train) return X_res, y_res # 模型训练与评估 def evaluate_model(model, X_train, y_train, X_test, y_test): model.fit(X_train, y_train) y_pred = model.predict(X_test) auc = roc_auc_score(y_test, y_pred) balanced_acc = balanced_accuracy_score(y_test, y_pred) f1 = f1_score(y_test, y_pred) return auc, balanced_acc, f1 # 逻辑回归（SMOTE平衡） X_smote, y_smote = balance_data('SMOTE') lr = LogisticRegression(penalty='l2', C=1.0, max_iter=1000) lr_auc, lr_ba, lr_f1 = evaluate_model(lr, X_smote, y_smote, X_test, y_test) # 随机森林（SMOTEENN平衡） X_smote

from imblearn.over_sampling import SMOTE from imblearn.combine import SMOTEENN --- ### **步骤2：生成不平衡数据集** python # 生成1000个样本，正负样本比例1:9 X, y = make_classification(n_...

import pandas as pd import matplotlib.pyplot as plt import numpy as np from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.metrics import classification_report, ConfusionMatrixDisplay, roc_auc_score from imblearn.over_sampling import SMOTE from imblearn.combine import SMOTEENN, SMOTETomek from imblearn.pipeline import Pipeline from collections import Counter # 1. df = pd.read_csv('creditcard-reduced.csv') X = df.drop('Class', axis=1) y = df['Class'] # data standardization scaler = StandardScaler() X = scaler.fit_transform(X) # Divide the training test set X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.3, stratify=y, random_state=42 ) # 2. Define evaluation function def evaluate_model(model, X_test, y_test): y_pred = model.predict(X_test) print(classification_report(y_test, y_pred)) print(f"AUC-ROC: {roc_auc_score(y_test, model.predict_proba(X_test)[:,1]):.4f}") ConfusionMatrixDisplay.from_estimator(model, X_test, y_test) plt.show() # 3. Raw data category distribution print("Raw data category distribution:", Counter(y_train)) original_model = LogisticRegression(max_iter=1000, random_state=42) original_model.fit(X_train, y_train) print("\nOriginal model performance:") evaluate_model(original_model, X_test, y_test) # 4. Using different sampling methods samplers = [ ('SMOTE', SMOTE(random_state=42)), ('SMOTEENN', SMOTEENN(random_state=42)), ('SMOTETomek', SMOTETomek(random_state=42)) ] # 5. Compare different sampling methods for idx, (name, sampler) in enumerate(samplers): model = Pipeline([ ('sampler', sampler), ('classifier', LogisticRegression(max_iter=1000, random_state=42)) ]) # train model model.fit(X_train, y_train) # evaluate performance print(f"\n{name}Post-sampling performance:") evaluate_model(model, X_test, y_test) # Visual sampling effect (dimensionality reduction using PCA) from sklearn.decomposition import PCA # Raw data distribution pca = PCA(n_components=2) X_pca = pca.fit_transform(X_train) axs[idx, 0].scatter(X_pca[:,0], X_pca[:,1], c=y_train, cmap='coolwarm', alpha=0.6) axs[idx, 0].set_title(f'{name} - Raw data distribution\n{Counter(y_train)}') # Data distribution after sampling X_res, y_res = sampler.fit_resample(X_train, y_train) X_pca_res = pca.transform(X_res) axs[idx, 1].scatter(X_pca_res[:,0], X_pca_res[:,1], c=y_res, cmap='coolwarm', alpha=0.6) axs[idx, 1].set_title(f'{name} - post-sampling布\n{Counter(y_res)}') plt.tight_layout() plt.show() 这一段产生了错误，NameError Traceback (most recent call last) Cell In[8], line 77 75 pca = PCA(n_components=2) 76 X_pca = pca.fit_transform(X_train) ---> 77 axs[idx, 0].scatter(X_pca[:,0], X_pca[:,1], c=y_train, cmap='coolwarm', alpha=0.6) 78 axs[idx, 0].set_title(f'{name} - Raw data distribution\n{Counter(y_train)}') 80 # Data distribution after sampling NameError: name 'axs' is not defined 告诉我怎么改

通过plt.subplots(nrows=3, ncols=2)创建3行2列的子图画布，对应3种采样方法（SMOTE、SMOTEENN、SMOTETomek），每种方法展示原始数据与采样后数据两个子图。 2. **索引方式调整** 将axs[idx, 0]改为axs[idx...

上面的输入数据没有变我给你个样本，请你像这样写一段代码解决Learn from the documentation for imbalanced classification and use any of the sampling methods to deal with the credictcard-reduced.csv dataset. Evaluate model performance before and after sampling. 这个问题from sklearn.datasets import make_classification X, y = make_classification( n_samples=100, n_features=2, n_informative=2, n_redundant=0, n_repeated=0, n_classes=3, n_clusters_per_class=1, weights=[0.1, 0.2, 0.7], class_sep=0.8, random_state=0, ) _, ax = plt.subplots(figsize=(6, 6)) _ = ax.scatter(X[:, 0], X[:, 1], c=y, alpha=0.8, edgecolor="k") plot comparison combine The following function will be used to plot the sample space after resampling to illustrate the characteristic of an algorithm. from collections import Counter def plot_resampling(X, y, sampler, ax): """Plot the resampled dataset using the sampler.""" X_res, y_res = sampler.fit_resample(X, y) ax.scatter(X_res[:, 0], X_res[:, 1], c=y_res, alpha=0.8, edgecolor="k") sns.despine(ax=ax, offset=10) ax.set_title(f"Decision function for {sampler.class.name}") return Counter(y_res)The following function will be used to plot the decision function of a classifier given some data. import numpy as np def plot_decision_function(X, y, clf, ax): """Plot the decision function of the classifier and the original data""" plot_step = 0.02 x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1 y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1 xx, yy = np.meshgrid( np.arange(x_min, x_max, plot_step), np.arange(y_min, y_max, plot_step) ) Z = clf.predict(np.c_[xx.ravel(), yy.ravel()]) Z = Z.reshape(xx.shape) ax.contourf(xx, yy, Z, alpha=0.4) ax.scatter(X[:, 0], X[:, 1], alpha=0.8, c=y, edgecolor="k") ax.set_title(f"Resampling using {clf[0].class.name}") SMOTE allows to generate samples. However, this method of over-sampling does not have any knowledge regarding the underlying distribution. Therefore, some noisy samples can be generated, e.g. when the different classes cannot be well separated. Hence, it can be beneficial to apply an under-sampling algorithm to clean the noisy samples. Two methods are usually used in the literature: (i) Tomek’s link and (ii) edited nearest neighbours cleaning methods. Imbalanced-learn provides two ready-to-use samplers SMOTETomek and SMOTEENN. In general, SMOTEENN cleans more noisy data than SMOTETomek. from sklearn.linear_model import LogisticRegression from imblearn.combine import SMOTEENN, SMOTETomek from imblearn.over_sampling import SMOTE from imblearn.pipeline import make_pipeline samplers = [SMOTE(random_state=0), SMOTEENN(random_state=0), SMOTETomek(random_state=0)] fig, axs = plt.subplots(3, 2, figsize=(15, 25)) for ax, sampler in zip(axs, samplers): clf = make_pipeline(sampler, LogisticRegression()).fit(X, y) plot_decision_function(X, y, clf, ax[0]) plot_resampling(X, y, sampler, ax[1]) fig.tight_layout() plt.show() Resampling using SMOTE, Decision function for SMOTE, Resampling using SMOTEENN, Decision function for SMOTEENN, Resampling using SMOTETomek, Decision function for SMOTETomek

from imblearn.over_sampling import SMOTE from imblearn.combine import SMOTEENN, SMOTETomek from imblearn.pipeline import Pipeline from collections import Counter import matplotlib.pyplot as plt # 1. ...

按你的想法对以下代码进行修改# -- coding: utf-8 -- # 导入必要的库 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import train_test_split, GridSearchCV from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import (accuracy_score, precision_score, recall_score, f1_score, classification_report, roc_auc_score) from imblearn.over_sampling import SMOTE from sklearn.preprocessing import LabelEncoder, StandardScaler from sklearn.cluster import KMeans from sklearn.metrics import silhouette_score # 可视化设置 # 设置图片清晰度 plt.rcParams['figure.dpi'] = 300 # 设置中文字体，保证中文能正常显示 plt.rcParams['font.sans-serif'] = ['WenQuanYi Zen Hei'] # 设置 seaborn 的绘图风格为白色网格 sns.set_style("whitegrid") # -------------------------- 数据加载与探索 -------------------------- print("\n[1/11] 数据加载与探索...") # 从指定路径读取 CSV 文件，并将其存储为 Pandas 的 DataFrame 对象 df = pd.read_csv('/mnt/HR_Analytics.csv') # 数据概览 # 打印数据的维度（行数和列数），帮助了解数据规模 print("\n数据维度:", df.shape) # 打印数据的前 5 行，查看数据的基本结构和内容 print("\n前 5 行数据:") print(df.head().to_csv(sep='\t', index=False)) # 数据结构 # 打印数据的基本信息，包括列名、数据类型、非空值数量等 print("\n数据结构:") df.info() # 数据统计描述 # 打印数据的统计描述信息，包含数值型和分类型列的统计信息 print("\n数据统计描述:") print(df.describe(include='all')) # -------------------------- 数据清洗 -------------------------- print("\n[2/11] 数据清洗...") # 处理缺失值 # 统计每列的缺失值数量 missing_values = df.isnull().sum() print("\n缺失值统计:") # 只打印有缺失值的列及其缺失值数量 print(missing_values[missing_values > 0]) # 可视化缺失值情况 plt.figure(figsize=(10, 6)) # 绘制柱状图展示每列的缺失值数量 sns.barplot(x=missing_values.index, y=missing_values.values) plt.title('缺失值情况') plt.xlabel('列名') plt.ylabel('缺失值数量') # 旋转 x 轴标签，避免标签重叠 plt.xticks(rotation=45) plt.show() # 处理重复值 # 统计原始数据中的重复行数 print("\n原始数据重复值数量:", df.duplicated().sum()) # 删除重复行 df = df.drop_duplicates() # 打印清洗后数据的维度 print("清洗后数据维度:", df.shape) # 特殊字段处理 # 使用该列的中位数填充 'YearsWithCurrManager' 列的缺失值 df['YearsWithCurrManager'] = df['YearsWithCurrManager'

from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler, OneHotEncoder preprocessor = Pipeline([ ('scaler', StandardScaler()), # 数值特征标准化 ('encoder', OneHot...

import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.ensemble import RandomForestRegressor # ====================== # 1. 数据加载（替换为你的实际路径） # ====================== voice_data = pd.read_excel('附件1.xlsx') # 语音数据 internet_data = pd.read_excel('附件2.xlsx') # 上网数据 predict_voice = pd.read_excel('附件3.xlsx') # 待预测语音数据 predict_internet = pd.read_excel('附件4.xlsx') # 待预测上网数据 # ====================== # 2. 数据预处理 # ====================== def preprocess(df, is_voice=True): # 统一列名（根据附件5定义调整） if is_voice: cols = ['用户ID', '语音整体满意度', '网络覆盖_语音', '信号强度_语音', '通话清晰度', '通话稳定性'] else: cols = ['用户ID', '上网整体满意度', '网络覆盖_上网', '信号强度_上网', '上网速度', '上网稳定性'] df.columns = cols df = df.dropna() # 删除空值（或用均值填充） return df voice_data = preprocess(voice_data, is_voice=True) internet_data = preprocess(internet_data, is_voice=False) # ====================== # 3. 问题1：影响因素分析 # ====================== # 语音业务 X_voice = voice_data[['网络覆盖_语音', '信号强度_语音', '通话清晰度', '通话稳定性']] y_voice = voice_data['语音整体满意度'] model_voice = LinearRegression() model_voice.fit(X_voice, y_voice) print("语音业务影响因素权重：", model_voice.coef_) # 上网业务（同理） X_internet = internet_data[['网络覆盖_上网', '信号强度_上网', '上网速度', '上网稳定性']] y_internet = internet_data['上网整体满意度'] model_internet = LinearRegression() model_internet.fit(X_internet, y_internet) print("上网业务影响因素权重：", model_internet.coef_) # ====================== # 4. 问题2：预测模型与导出 # ====================== # 训练随机森林模型（更鲁棒） voice_pred_model = RandomForestRegressor(n_estimators=100) voice_pred_model.fit(X_voice, y_voice) internet_pred_model = RandomForestRegressor(n_estimators=100) internet_pred_model.fit(X_internet, y_internet) # 生成预测结果 voice_result = pd.DataFrame({ '用户ID': predict_voice['用户ID'], '预测整体满意度': voice_pred_model.predict(predict_voice[X_voice.columns]) }) internet_result = pd.DataFrame({ '用户ID': predict_internet['用户ID'], '预测整体满意度': internet_pred_model.predict(predict_internet[X_internet.columns]) }) # 导出到Excel with pd.ExcelWriter('result.xlsx') as writer: voice_result.to_excel(writer, sheet_name='语音', index=False) internet_result.to_excel(writer, sheet_name='上网', index=False) print("预测结果已保存到 result.xlsx")

from imblearn.over_sampling import SMOTE smote = SMOTE() X_resampled, y_resampled = smote.fit_resample(X_train, y_train) #### 四、评估与部署优化 1. **改进评估指标** 使用F1-score代替准确率：...

import argparse import numpy as np import os from sklearn.metrics import confusion_matrix from sklearn.neighbors import KNeighborsClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.svm import SVC from get_cls_map import get_classification_map, list_to_colormap, classification_map # 根据数据集选择对应的数据加载函数 #from cls_SSFTT_IP.IP_train_Pavia import loadData, applyPCA, createImageCubes, splitTrainTestSet from cls_SSFTT_IP.IP_train import loadData, applyPCA, createImageCubes, splitTrainTestSet # from cls_SSFTT_IP.IP_train_Houston import loadData, applyPCA, createImageCubes, splitTrainTestSet parser = argparse.ArgumentParser("Traditional_ML") parser.add_argument('--dataset', choices=['Indian', 'Houston', 'Pavia'], default='Pavia') parser.add_argument('--mode', choices=['KNN', 'SVM', 'RF'], default='SVM') args = parser.parse_args() # 读取数据 data, labels = loadData() # PCA降维 pca_components = 30 X_pca = applyPCA(data, numComponents=pca_components) # 创建数据立方体 patch_size = 5 X_pca, y_all = createImageCubes(X_pca, labels, windowSize=patch_size) # 划分训练集和测试集 test_ratio = 0.90 Xtrain, Xtest, ytrain, ytest = splitTrainTestSet(X_pca, y_all, test_ratio) # 数据预处理：展平为二维数组（样本数 × 特征数） def flatten_data(X): return X.reshape(X.shape[0], -1) Xtrain_flat = flatten_data(Xtrain) Xtest_flat = flatten_data(Xtest) Xall_flat = flatten_data(X_pca) # 初始化分类器 if args.mode == 'KNN': classifier = KNeighborsClassifier(n_neighbors=10) elif args.mode == 'SVM': classifier = SVC(kernel='rbf', C=10000, gamma=0.01) elif args.mode == 'RF': classifier = RandomForestClassifier(n_estimators=200) # 训练模型 classifier.fit(Xtrain_flat, ytrain) # 测试集预测 pre_test = classifier.predict(Xtest_flat) # 全图预测 pree_all = classifier.predict(Xall_flat) # 评估指标计算 matrix = confusion_matrix(ytest, pre_test) OA = np.trace(matrix) / np.sum(matrix) row_sums = np.sum(matrix, axis=1) valid_indices = row_sums != 0 AA = np.zeros(len(row_sums)) AA[valid_indices] = np.diag(matrix)[valid_indices] / row_su

from imblearn.over_sampling import SMOTE smote = SMOTE(random_state=42) X_res, y_res = smote.fit_resample(X_train, y_train) --- ### 示例代码结构 python # 完整流程示例 from sklearn....

data = pd.read_excel('C:/lydata/test4.xlsx') X = data.drop('HER2_G', axis=1) y = data['HER2_G'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, stratify=y, random_state=42) kf = KFold(n_splits=5, shuffle=True, random_state=42) accuracy_scores = [] precision_scores = [] recall_scores = [] f1_scores = [] auc_scores = [] total_confusion_matrix = np.zeros((len(np.unique(y_train)), len(np.unique(y_train))), dtype=int) smote = SMOTE(k_neighbors=4, sampling_strategy=0.94, random_state=42) mi_selector = SelectKBest(score_func=mutual_info_classif, k=16) pipeline = Pipeline([ ('scaler', RobustScaler()), ('smote', smote), ('mi_selector', mi_selector), ('xgb', XGBClassifier( learning_rate=0.02, n_estimators=150, subsample=0.85, min_samples_split=5, min_samples_leaf=1, max_depth=6, random_state=42, tol=0.0001, ccp_alpha=0, max_features=9 )) ]) for train_index, val_index in kf.split(X_train): X_train_fold, X_val = X_train.iloc[train_index], X_train.iloc[val_index] y_train_fold, y_val = y_train.iloc[train_index], y_train.iloc[val_index] pipeline.fit(X_train_fold, y_train_fold) y_pred = pipeline.predict(X_val) y_proba = pipeline.predict_proba(X_val)[:, 1] accuracy_scores.append(accuracy_score(y_val, y_pred)) precision_scores.append(precision_score(y_val, y_pred)) recall_scores.append(recall_score(y_val, y_pred)) f1_scores.append(f1_score(y_val, y_pred)) auc_scores.append(roc_auc_score(y_val, y_proba)) cm = confusion_matrix(y_val, y_pred) total_confusion_matrix += cm accuracy = np.mean(accuracy_scores) precision = np.mean(precision_scores) recall = np.mean(recall_scores) f1 = np.mean(f1_scores) auc = np.mean(auc_scores) pipeline.fit(X_train, y_train) y_test_pred = pipeline.predict(X_test) y_test_proba = pipeline.predict_proba(X_test)[:, 1] accuracy_test = accuracy_score(y_test, y_test_pred) precision_test = precision_score(y_test, y_test_pred) recall_test = recall_score(y_test, y_test_pred) f1_test = f1_score(y_test, y_test_pred) auc_test = roc_auc_score(y_test, y_test_proba) print(f"测试集 AUC score: {auc_test:.2f}") cm_test = confusion_matrix(y_test, y_test_pred) print("测试集混淆矩阵：") print(cm_test) 为什么这个代码每次运行得出的指标结果都不一样

from functools import partial mi_selector = SelectKBest(score_func=partial(mutual_info_classif, random_state=42), k=16) 这样每次调用mutual_info_classif都会使用固定的random_state，确保特征选择的一致性...

import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report from sklearn.preprocessing import StandardScaler # 设置中文显示 plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签 plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号 # 3. 故障报警影响因素分析 # 3.1 特征选择 features = df[['车速', '总电压', '总电流', 'SOC', '驱动电机控制器温度', '驱动电机转速', '驱动电机转矩', '驱动电机温度', '电池单体电压最高值', '电池单体电压最低值', '最高温度值', '最低温度值']] # 3.2 标签 labels = df['最高报警等级'] # 3.3 数据标准化 scaler = StandardScaler() features_scaled = scaler.fit_transform(features) # 3.4 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(features_scaled, labels, test_size=0.2, random_state=42) # 3.5 训练随机森林分类器 rfc = RandomForestClassifier(n_estimators=100, random_state=42) rfc.fit(X_train, y_train) # 3.6 模型评估 y_pred = rfc.predict(X_test) print(classification_report(y_test, y_pred)) # 3.7 特征重要性分析 feature_importances = pd.Series(rfc.feature_importances_, index=features.columns) feature_importances = feature_importances.sort_values(ascending=False) # 3.8 可视化特征重要性 plt.figure(figsize=(10, 8)) sns.barplot(x=feature_importances.values, y=feature_importances.index) plt.title('特征重要性分析') plt.xlabel('重要性得分') plt.ylabel('特征') plt.savefig(r"C:\Users\wei\Pictures\特征重要性分析.png", dpi=300) plt.show()解决代码的问题，进行优化返回

from imblearn.over_sampling import SMOTE from imblearn.pipeline import Pipeline import joblib # 1. 数据预处理增强 def preprocess_data(df): # 处理缺失值（示例：用中位数填充） df.fillna(df.median(), ...

软件测试和质量保证行业技术趋势分析.pptx

全国电子商务自考网络营销与策划实践考核试题..doc

网络安全综合实习报告.doc

高校网站安全及防护策略浅析.docx

scikit_learn-1.7.0-cp313-cp313t-macosx_10_13_x86_64.whl

该资源为scikit_learn-1.7.0-cp313-cp313t-macosx_10_13_x86_64.whl

相关推荐

AI实战-公司破产数据集分析预测实例（含20个源代码+10.93 MB完整的数据集）.zip

AI实战-中风数据集分析预测实例（含19个源代码+309.54 KB完整的数据集）.zip

AI实战-阿尔茨海默氏病患者的健康信息数据集分析预测实例（含17个源代码+591.06 KB完整的数据集）.zip

软件测试和质量保证行业技术趋势分析.pptx

全国电子商务自考网络营销与策划实践考核试题..doc

网络安全综合实习报告.doc

高校网站安全及防护策略浅析.docx

scikit_learn-1.7.0-cp313-cp313t-macosx_10_13_x86_64.whl

大家在看

nivisv32.zip

自由出流-HEC-RAS初步教程-2012

HslCommunication-labview

web仿淘宝项目

ADO.NET-高级编程(中)

最新推荐

软件测试和质量保证行业技术趋势分析.pptx

全国电子商务自考网络营销与策划实践考核试题..doc

网络安全综合实习报告.doc

高校网站安全及防护策略浅析.docx

scikit_learn-1.7.0-cp313-cp313t-macosx_10_13_x86_64.whl

WEB精确打印技术：教你实现无差错打印输出

【性能测试基准】：为RK3588选择合适的NVMe性能测试工具指南

服务器无感部署

C++源代码实现：分段线性插值与高斯消去法

【固态硬盘寿命延长】：RK3588平台NVMe维护技巧大公开