深度学习实战：从零实现神经网络中的超参数优化技术解析-CSDN博客

深度学习实战：从零实现神经网络中的超参数优化技术解析

deep-learning-from-scratch 『ゼロから作る Deep Learning』(O'Reilly Japan, 2016) 项目地址: https://gitcode.com/gh_mirrors/deepl/deep-learning-from-scratch

超参数优化的重要性

在深度学习项目中，超参数的选择对模型性能有着至关重要的影响。超参数包括学习率、权重衰减系数、网络层数、每层神经元数量等，这些参数不能通过训练过程自动学习，需要人工设定。本文将以MNIST手写数字识别任务为例，深入讲解如何实现高效的超参数优化策略。

代码解析与实现原理

1. 数据准备与预处理

首先，我们需要准备MNIST数据集并进行适当处理：

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True)

# 为了加速实验过程，减少训练数据量
x_train = x_train[:500]
t_train = t_train[:500]

# 划分验证集
validation_rate = 0.20
validation_num = int(x_train.shape[0] * validation_rate)
x_train, t_train = shuffle_dataset(x_train, t_train)
x_val = x_train[:validation_num]
t_val = t_train[:validation_num]
x_train = x_train[validation_num:]
t_train = t_train[validation_num:]

这里有几个关键点：

数据归一化处理(normalize=True)将像素值缩放到0-1范围
为了演示目的，仅使用500个训练样本加速实验
从训练集中划分20%作为验证集，用于评估超参数性能

2. 训练函数封装

def __train(lr, weight_decay, epocs=50):
    network = MultiLayerNet(input_size=784, hidden_size_list=[100, 100, 100, 100, 100, 100],
                          output_size=10, weight_decay_lambda=weight_decay)
    trainer = Trainer(network, x_train, t_train, x_val, t_val,
                    epochs=epocs, mini_batch_size=100,
                    optimizer='sgd', optimizer_param={'lr': lr}, verbose=False)
    trainer.train()
    return trainer.test_acc_list, trainer.train_acc_list

这个训练函数封装了：

6层神经网络，每层100个神经元
使用SGD优化器
接受学习率(lr)和权重衰减系数(weight_decay)作为参数
返回训练和验证准确率列表

3. 随机搜索策略实现

optimization_trial = 100
results_val = {}
results_train = {}
for _ in range(optimization_trial):
    # 在指定范围内随机采样超参数
    weight_decay = 10 ** np.random.uniform(-8, -4)
    lr = 10 ** np.random.uniform(-6, -2)
    
    val_acc_list, train_acc_list = __train(lr, weight_decay)
    print("val acc:" + str(val_acc_list[-1]) + " | lr:" + str(lr) + ", weight decay:" + str(weight_decay))
    key = "lr:" + str(lr) + ", weight decay:" + str(weight_decay)
    results_val[key] = val_acc_list
    results_train[key] = train_acc_list

这里采用了随机搜索策略：

进行100次试验
学习率在对数空间(-6到-2)随机采样
权重衰减系数在对数空间(-8到-4)随机采样
记录每次试验的结果

4. 结果可视化与分析

# 按验证集准确率排序并可视化前20个最佳结果
graph_draw_num = 20
col_num = 5
row_num = int(np.ceil(graph_draw_num / col_num))
i = 0

for key, val_acc_list in sorted(results_val.items(), key=lambda x:x[1][-1], reverse=True):
    print("Best-" + str(i+1) + "(val acc:" + str(val_acc_list[-1]) + ") | " + key)
    
    # 绘制训练和验证准确率曲线
    plt.subplot(row_num, col_num, i+1)
    plt.title("Best-" + str(i+1))
    plt.ylim(0.0, 1.0)
    if i % 5: plt.yticks([])
    plt.xticks([])
    x = np.arange(len(val_acc_list))
    plt.plot(x, val_acc_list)
    plt.plot(x, results_train[key], "--")
    i += 1

    if i >= graph_draw_num:
        break

plt.show()

可视化部分展示了：