深度学习J3周:RNN-心脏病预测

要求

1.本地读取并加载数据

2.了解循环神经网络(RNN)的构建过程

3.测试集accuracy到达87%

拔高:

测试机accuracy到达89%

一、基础知识

RNN(Recurrent Neural Network)

用于处理序列数据。

传统神经网络的结果简单:输入层--隐藏层--输出层

RNN与传统神经网络的最大区别:每次都会将前一次的输出结果,带到下一次隐藏层中,一起训练。

代码流程图:

二、代码复现

1.前期准备

1.1 设置GPU

import numpy as np
import pandas as pd
import torch
from torch import nn
import torch.nn.functional as F
import seaborn as sns

#设置GPU训练,也可使用cpu
device=torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)

输出结果:

1.2导入数据

df = pd.read_csv("heart.csv")
print(df)

输出结果:

数据介绍:

1.age:年龄

2.sex:性别

3.cp:胸痛类型(4 values)

4.trestbps:静息血压

5.chol:血清胆甾醇(mg/dl)

6.fbs:空腹血糖>120mg/dl

7.restecg:静息心电图结果(值0,1,2)

8.thalach:达到的最大心率

9.exang:运动诱发的心绞痛

10.oldpeak:相对于静止状态,运动引起的ST段压低

11.slope:运动峰值ST段的斜率

12.ca:荧光透视着色的主要血管数量(0-3)

13.thal:0=正常;1=固定缺陷;2=可逆转的缺陷

14.target:0=心脏病发作的几率较小;1=心脏病发作的几率更大

2.构建数据集

2.1标准化

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

x = df.iloc[:,:-1]
y = df.iloc[:,:-1]

#将每一列特征标准化为标准正太分布,注意:标准化是针对每一列而言
sc = StandardScaler()
x = sc.fit_transform(x)

2.2划分数据集

x = torch.tensor(np.array(x), dtype=torch.float32)
y = torch.tensor(np.array(y), dtype=torch.int64)
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.1,random_state=1)

print(x_train.shape,y_train.shape)

输出结果:

2.3构建数据加载器

from torch.utils.data import TensorDataset, DataLoader

train_dl = DataLoader(TensorDataset(x_train,y_train),
                      batch_size=64,
                      shuffle=False)
test_dl = DataLoader(TensorDataset(x_test,y_test),
                      batch_size=64,
                      shuffle=False)

测试集与验证集的关系:

1.验证集没有参与训练过程的梯度下降过程,狭义上讲是没有参与模型的参数训练更新

2.广义上,验证集存在意义--参与了一个“人工调参”的过程,根据每一个epoch训练后模型在验证集上的表现决定是否需要训练进行提前结束,或者根据这个过程的模型性能来调整模型的超参数,如学习率。

3.验证集也参与了训练,但没有使模型去overfit验证集。

3.模型训练

3.1构建模型

class model_rnn(nn.Module):
    def __init__(self):
        super(model_rnn, self).__init__()
        self.rnn0 = nn.RNN(input_size=13, hidden_size=200,
                           num_layers=1, batch_first=True)

        self.fc0 = nn.Linear(200,50)
        self.fc1 = nn.Linear(50, 2)

    def forward(self, x):

        out, hidden1 = self.rnn0(x)
        out = self.fc0(out)
        out = self.fc1(out)
        return out

model = model_rnn().to(device)
print(model)

输出结果:

看一下模型的输出数据集格式是什么

#模型的输出数据集格式是什么
print(model(torch.rand(30,13).to(device)).shape)

输出结果:

 

3.2定义训练函数

# 训练循环
def train(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)  # 训练集的大小
    num_batches = len(dataloader)  # 批次数目, (size/batch_size,向上取整)

    train_loss, train_acc = 0, 0  # 初始化训练损失和正确率

    for x, y in dataloader:  # 获取图片及其标签
        x, y =x.to(device), y.to(device)

        # 计算预测误差
        pred = model(x)  # 网络输出
        loss = loss_fn(pred, y)  # 计算网络输出和真实值之间的差距,targets为真实值,计算二者差值即为损失

        # 反向传播
        optimizer.zero_grad()  # grad属性归零
        loss.backward()  # 反向传播
        optimizer.step()  # 每一步自动更新

        # 记录acc与loss
        train_acc += (pred.argmax(1) == y).type(torch.float).sum().item()
        train_loss += loss.item()

    train_acc /= size
    train_loss /= num_batches

    return train_acc, train_loss

3.3定义测试函数

def test(dataloader, model, loss_fn):
    size = len(dataloader.dataset)  # 测试集的大小
    num_batches = len(dataloader)  # 批次数目
    test_loss, test_acc = 0, 0

    # 当不进行训练时,停止梯度更新,节省计算内存消耗
    with torch.no_grad():
        for imgs, target in dataloader:
            imgs, target = imgs.to(device), target.to(device)

            # 计算loss
            target_pred = model(imgs)
            loss = loss_fn(target_pred, target)

            test_loss += loss.item()
            test_acc += (target_pred.argmax(1) == target).type(torch.float).sum().item()

    test_acc /= size
    test_loss /= num_batches

    return test_acc, test_loss

 3.4正式训练模型

loss_fn = nn.CrossEntropyLoss()  # 创建损失函数
learn_rate = 1e-4
opt = torch.optim.Adam(model.parameters(), lr=learn_rate)
epochs = 50

train_loss = []
train_acc = []
test_loss = []
test_acc = []

for epoch in range(epochs):
    model.train()
    epoch_train_acc, epoch_train_loss = train(train_dl, model, loss_fn, opt)

    model.eval()
    epoch_test_acc, epoch_test_loss = test(test_dl, model, loss_fn)

    train_acc.append(epoch_train_acc)
    train_loss.append(epoch_train_loss)
    test_acc.append(epoch_test_acc)
    test_loss.append(epoch_test_loss)

    # 获取当前的学习率
    lr = opt.state_dict()['param_groups'][0]['lr']

    template = ('Epoch:{:2d}, Train_acc:{:.1f}%, Train_loss:{:.3f}, Test_acc:{:.1f}%, Test_loss:{:.3f}, Lr:{:.2E}')
    print(template.format(epoch + 1, epoch_train_acc * 100, epoch_train_loss,
                          epoch_test_acc * 100, epoch_test_loss, lr))

print("="*20, 'Done', "="*20)

4.模型评估

4.1Loss与Accuracy图

import matplotlib.pyplot as plt
from datetime import datetime
# 隐藏警告
import warnings
warnings.filterwarnings("ignore")  # 忽略警告信息
current_time = datatime.now()#获取当前时间

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.dpi'] = 200  # 分辨率

epochs_range = range(epochs)

plt.figure(figsize=(12, 3))
plt.subplot(1, 2, 1)

plt.plot(epochs_range, train_acc, label='Training Accuracy')
plt.plot(epochs_range, test_acc, label='Test Accuracy')
plt.legend(loc='lower right')
plt.title('Training and Validation Accuracy')
plt.xlabel(current_time)

plt.subplot(1, 2, 2)
plt.plot(epochs_range, train_loss, label='Training Loss')
plt.plot(epochs_range, test_loss, label='Test Loss')
plt.legend(loc='upper right')
plt.title('Training and Validation Loss')
plt.show()

三、总结

1.遇到的问题一:

解决方法:没有安装seaborn库-----pip install seaborn
2.遇到问题二:

解决方法:pip install scikit-learn

3.遇到问题三:

解决方法:

模型没有实例化,model = model_rnn().to(device)写成了model = model_rnn.to(device)

4.遇到问题四:

解决方法:

 在使用pytorch的empty函数时传递的参数有误。

输入代码时细节敲错

5.遇到问题五:

还没有解决,

个人总结:RNN的重要特点---每一步的参数共享。但代码能力还是太弱,代码对了好几遍,都没有问题,但还是无法运行。关于pytorch的讲解不多,遇到的问题会多一些。能大概找到问题可能出在“正式训练模型”,但改了好多遍都没有改对。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值