深度学习笔记30-阿尔茨海默病诊断特征优化版(Pytorch)-CSDN博客

本文链接：https://blog.csdn.net/m0_67869333/article/details/149202457

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊

一、前期准备

1.数据导入

import numpy as np
import pandas as pd
import torch
from torch import nn
import torch.nn.functional as F
import seaborn as sns

df = pd.read_csv("alzheimers_disease_data.csv")

data_df.head()
 
# 标签中文化
data_df.rename(columns={ "Age": "年龄", "Gender": "性别", "Ethnicity": "种族", "EducationLevel": "教育水平", "BMI": "身体质量指数（BMI）", "Smoking": "吸烟状况", "AlcoholConsumption": "酒精摄入量", "PhysicalActivity": "体育活动时间", "DietQuality": "饮食质量评分", "SleepQuality": "睡眠质量评分", "FamilyHistoryAlzheimers": "家族阿尔茨海默病史", "CardiovascularDisease": "心血管疾病", "Diabetes": "糖尿病", "Depression": "抑郁症史", "HeadInjury": "头部受伤", "Hypertension": "高血压", "SystolicBP": "收缩压", "DiastolicBP": "舒张压", "CholesterolTotal": "胆固醇总量", "CholesterolLDL": "低密度脂蛋白胆固醇（LDL）", "CholesterolHDL": "高密度脂蛋白胆固醇（HDL）", "CholesterolTriglycerides": "甘油三酯", "MMSE": "简易精神状态检查（MMSE）得分", "FunctionalAssessment": "功能评估得分", "MemoryComplaints": "记忆抱怨", "BehavioralProblems": "行为问题", "ADL": "日常生活活动（ADL）得分", "Confusion": "混乱与定向障碍", "Disorientation": "迷失方向", "PersonalityChanges": "人格变化", "DifficultyCompletingTasks": "完成任务困难", "Forgetfulness": "健忘", "Diagnosis": "诊断状态", "DoctorInCharge": "主诊医生" },inplace=True)

2.数据处理

data_df.isnull().sum()

from sklearn.preprocessing import LabelEncoder
 
# 创建 LabelEncoder 实例
label_encoder = LabelEncoder()
 
# 对非数值型列进行标签编码
data_df['主诊医生'] = label_encoder.fit_transform(data_df['主诊医生'])

data_df.head()

二、特征分析

1.患病占比

# 计算是否患病, 人数
counts = data_df["诊断状态"].value_counts()
 
# 计算百分比
sizes = counts / counts.sum() * 100
 
# 绘制环形图
fig, ax = plt.subplots()
wedges, texts, autotexts = ax.pie(sizes, labels=sizes.index, autopct='%1.2ff%%', startangle=90, wedgeprops=dict(width=0.3))
 
plt.title("患病占比(1患病，0没有患病)")
 
plt.show()

2.相关性分析


plt.figure(figsize=(40, 35))
sns.heatmap(data_df.corr(), annot=True, fmt=".2f")
plt.show()
data_df['年龄'].min(), data_df['年龄'].max()

3.年龄与患病探究


# 计算每一个年龄段患病人数 
age_bins = range(60, 91)
grouped = data_df.groupby('年龄').agg({'诊断状态': ['sum', 'size']})  # 分组、聚合函数: sum求和，size总大小
grouped.columns = ['患病', '总人数']
grouped['不患病'] = grouped['总人数'] - grouped['患病']  # 计算不患病的人数
 
# 设置绘图风格
sns.set(style="whitegrid")
 
plt.figure(figsize=(12, 5))
 
# 获取x轴标签（即年龄）
x = grouped.index.astype(str)  # 将年龄转换为字符串格式便于显示
 
# 画图
plt.bar(x, grouped["不患病"], 0.35, label="不患病", color='skyblue')
plt.bar(x, grouped["患病"], 0.35, label="患病", color='salmon')
 
# 设置标题
plt.title("患病年龄分布", fontproperties='Microsoft YaHei')
plt.xlabel("年龄", fontproperties='Microsoft YaHei')
plt.ylabel("人数", fontproperties='Microsoft YaHei')
 
# 如果需要对图例也应用相同的字体
plt.legend(prop={'family': 'Microsoft YaHei'})
 
# 展示
plt.tight_layout()
plt.show()

通过发现，由于原本数据中不患病的多，所以不患病的在图像中显示多，通过观察发现患病与年龄有关，尤其是年龄大，80岁的，患病与不患病比例高

三、特征选择

# 特征展示
feature_importances = tree.feature_importances_
features_rf = pd.DataFrame({'特征': X.columns, '重要度': feature_importances})
features_rf.sort_values(by='重要度', ascending=False, inplace=True)
plt.figure(figsize=(20, 10))
sns.barplot(x='重要度', y='特征', data=features_rf)
plt.xlabel('重要度')
plt.ylabel('特征')
plt.title('随机森林特征图')
plt.show()

from sklearn.feature_selection import RFE
 
# 使用 RFE 来选择特征
rfe_selector = RFE(estimator=tree, n_features_to_select=20)  # 选择前20个特征
rfe_selector.fit(X, y)  
X_new = rfe_selector.transform(X)
feature_names = np.array(X.columns) 
selected_feature_names = feature_names[rfe_selector.support_]
print(selected_feature_names)

from sklearn.feature_selection import RFE
 
# 使用 RFE 来选择特征
rfe_selector = RFE(estimator=tree, n_features_to_select=20)  # 选择前20个特征
rfe_selector.fit(X, y)  
X_new = rfe_selector.transform(X)
feature_names = np.array(X.columns) 
selected_feature_names = feature_names[rfe_selector.support_]
print(selected_feature_names)

四、构建数据集与模型

1.数据集划分与标准化

feature_selection = ['年龄', '种族','教育水平','身体质量指数（BMI）', '酒精摄入量', '体育活动时间', '饮食质量评分', '睡眠质量评分', '心血管疾病','收缩压', '舒张压', '胆固醇总量', '低密度脂蛋白胆固醇（LDL）', '高密度脂蛋白胆固醇（HDL）', '甘油三酯',
 '简易精神状态检查（MMSE）得分', '功能评估得分', '记忆抱怨', '行为问题', '日常生活活动（ADL）得分']
 
X = data_df[feature_selection]
 
# 标准化
 
sc = StandardScaler()
X = sc.fit_transform(X)
 
X = torch.tensor(np.array(X), dtype=torch.float32)
y = torch.tensor(np.array(y), dtype=torch.long)
 
# 再次进行特征选择
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
 
X_train.shape, y_train.shape

2.构建加载

batch_size = 32
train_dl = DataLoader(TensorDataset(X_train, y_train), batch_size=batch_size,shuffle=True)
test_dl = DataLoader(TensorDataset(X_test, y_test),batch_size=batch_size,shuffle=False)

3.构建模型

class Rnn_Model(nn.Module):
    def __init__(self):
        super().__init__()
        
        # 调用rnn
        self.rnn = nn.RNN(input_size=20, hidden_size=200, num_layers=1, batch_first=True)
        
        self.fc1 = nn.Linear(200, 50)
        self.fc2 = nn.Linear(50, 2)
        
    def forward(self, x):
        x, hidden1 = self.rnn(x)
        x = self.fc1(x)
        x = self.fc2(x)
        
        return x
    
model = Rnn_Model()
model

model(torch.randn(32, 20)).shape

五、模型训练

1.构建训练函数

def train(data, model, loss_fn, opt):
    size = len(data.dataset)
    batch_num = len(data)
    
    train_loss, train_acc = 0.0, 0.0
    
    for X, y in data:
        pred = model(X)
        loss = loss_fn(pred, y)
        
        # 反向传播
        opt.zero_grad()  # 梯度清零
        loss.backward()  # 求导
        opt.step()       # 设置梯度
        
        train_loss += loss.item()
        train_acc += (pred.argmax(1) == y).type(torch.float).sum().item()
    
    train_loss /= batch_num
    train_acc /= size 
    
    return train_acc, train_loss

2.构建测试函数

def test(data, model, loss_fn):
     size = len(data.dataset)
     batch_num = len(data)
     
     test_loss, test_acc = 0.0, 0.0 
     
     with torch.no_grad():
         for X, y in data: 
             
             pred = model(X)
             loss = loss_fn(pred, y)
             
             test_loss += loss.item()
             test_acc += (pred.argmax(1) == y).type(torch.float).sum().item()
             
     test_loss /= batch_num
     test_acc /= size
     
     return test_acc, test_loss

3.设置超参数

loss_fn = nn.CrossEntropyLoss()  # 损失函数     
learn_lr = 1e-4            # 超参数
optimizer = torch.optim.Adam(model.parameters(), lr=learn_lr)   # 优化器

4.模型训练

train_acc = []
train_loss = []
test_acc = []
test_loss = []
 
epoches = 50
 
for i in range(epoches):
    model.train()
    epoch_train_acc, epoch_train_loss = train(train_dl, model, loss_fn, optimizer)
    
    model.eval()
    epoch_test_acc, epoch_test_loss = test(test_dl, model, loss_fn)
    
    train_acc.append(epoch_train_acc)
    train_loss.append(epoch_train_loss)
    test_acc.append(epoch_test_acc)
    test_loss.append(epoch_test_loss)
    
    # 输出
    template = ('Epoch:{:2d}, Train_acc:{:.1f}%, Train_loss:{:.3f}, Test_acc:{:.1f}%, Test_loss:{:.3f}')
    print(template.format(i + 1, epoch_train_acc*100, epoch_train_loss, epoch_test_acc*100, epoch_test_loss))
    
print("Done")

六、模型评估

import matplotlib.pyplot as plt
#隐藏警告
import warnings
warnings.filterwarnings("ignore")               #忽略警告信息
from datetime import datetime
current_time = datetime.now() # 获取当前时间
 
epochs_range = range(epoches)
 
plt.figure(figsize=(12, 3))
plt.subplot(1, 2, 1)
 
plt.plot(epochs_range, train_acc, label='Training Accuracy')
plt.plot(epochs_range, test_acc, label='Test Accuracy')
plt.legend(loc='lower right')
plt.title('Training Accuracy')
plt.xlabel(current_time) # 打卡请带上时间戳，否则代码截图无效
 
plt.subplot(1, 2, 2)
plt.plot(epochs_range, train_loss, label='Training Loss')
plt.plot(epochs_range, test_loss, label='Test Loss')
plt.legend(loc='upper right')
plt.title('Training= Loss')
plt.show()
 
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay 
 
pred = model(X_test.to(device)).argmax(1).cpu().numpy()
 
# 计算混淆矩阵
cm = confusion_matrix(y_test, pred)
 
# 计算
plt.figure(figsize=(6, 5))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues")
# 标题
plt.title("混淆矩阵")
plt.xlabel("Predicted Label")
plt.ylabel("True Label")
 
plt.tight_layout()  # 自适应
plt.show()

七、总结

混淆矩阵概述：

混淆矩阵是一个二维矩阵，用于总结分类模型在不同类别上的预测结果，包括 True Positive (TP)、False Negative (FN)、False Positive (FP)、True Negative (TN)。
性能指标：
准确率（Accuracy）：模型正确分类的样本占总样本数的比例。
精确率（Precision）：模型预测为正类别的样本中有多少是真正的正类别。
召回率（Recall）：实际为正类别的样本中，有多少被模型正确预测为正类别。
F1 分数：精确率和召回率的调和平均数，综合考虑了查准率和查全率。