深度学习001-从hello world开始

本文从深度学习的"hello world"开始,介绍如何使用TensorFlow实现一个简单的卷积神经网络。首先搭建了开发环境,然后通过3个步骤:准备数据、构建并训练模型、恢复模型进行推理验证。在训练中遇到学习率设置问题,调整后模型准确率显著提升。文章提供了部分核心代码,并提供完整版本的下载链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

从"hello world"开始

程序员思维,一切新事物的学习都有一个hello world,深度学习也不例外,本文就从机器学习届的“hello world”开始,实现一个简单的卷积神经网络,实现本文的前提是开发环境已经搭建完成,目前我所使用的开发环境如下:
硬件:1080ti x2
操作系统:Ubuntu16.04
软件:python3.5
tensoflow-gpu 1.4.0
pycharm 2020
在这里插入图片描述

基本包含以下三个步骤:
1、准备数据,编写数据读写功能函数
2、构建并训练保存模型
3、恢复模型并进行推理验证
最终的效果如下:
训练过程:
在这里插入图片描述在训练过程中出现了一点小问题,模型准确度始终在0.010左右徘徊,后来发现是学习率设置的过大(learning_rate = 0.1),改为0.001后,准确率瞬间飙升到0.9左右,由此可见相关超参对模型训练的影响之深。
推理结果:
在这里插入图片描述这里对测试图像进行了显示,并将推理结果及真实值进行了显示
部分核心代码如下:

from tensorflow.examples.tutorials.mnist import input_data
import tensorflow as tf
import matplotlib.pyplot as plt
import os

mnist = input_data.read_data_sets('../MNIST_data', one_hot=True)
# Parameters
learning_rate = 0.001
training_epochs = 500
batch_size = 100
display_step = 1
is_train = 1
# Network Parameters
n_input = 784
n_classes = 10
# tf Graph input
x = tf.placeholder("float", [None, n_input])
y = tf.placeholder("float", [None, n_classes])
# pre-define
def conv2d(x, W):
    return tf.nn.conv2d(x, W,strides=[1, 1, 1, 1],padding='SAME', name='conv_2d')
def max_pool_2x2(x):
    return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],strides=[1, 2, 2, 1],padding='SAME', name='max_pool')

# Create model
def multilayer_preceptron(x, weights, biases):
    # now,we want to change this to a CNN network
    # first,reshape the data to 4_D ,
    x_image = tf.reshape(x, [-1, 28<
### 深度学习入门示例:MNIST 数据集 深度学习的入门级经典教程通常以 MNIST 数据集为例[^1]。该数据集包含了手写数字的灰度图像,每张图片尺寸为 28×28 像素,共有 0 到 9 十个类别标签。通过训练模型来识别这些手写数字,可以初步掌握深度学习的核心流程。 #### 深度学习的基础框架 从历史角度看,现代深度学习的概念起源于 Frank Rosenblatt 提出的感知机理论[^2]。随后 Alexey Ivakhnenko 和 Lapa 开发了首个适用于监督习的多层前馈网络的习算法。这标志着深度学习从理论迈向实际应用的重要一步。 #### 实现过程概述 实现一个简单的深度学习程序大致分为五个阶段[^2]: 1. **加载数据**:获取并预处理 MNIST 数据集。 2. **构建模型**:定义神经网络结构,例如全连接层、激活函数等。 3. **编译模型**:指定损失函数和优化器。 4. **训练模型**:利用训练数据调整权重参数。 5. **评估性能**:测试模型在未见过的数据上的表现。 以下是基于 Java 的简单代码片段展示如何搭建一个多层感知器 (MLP)[^4]: ```java // 定义输入维度(即展开后的像素数量) long inputSize = 28 * 28; // 输出维度对应于十类不同的数字 long outputSize = 10; SequentialBlock block = new SequentialBlock(); block.add(Blocks.batchFlattenBlock(inputSize)); block.add(Linear.builder().setUnits(128).build()); block.add(Activation::relu); block.add(Linear.builder().setUnits(64).build()); block.add(Activation::relu); block.add(Linear.builder().setUnits(outputSize).build()); System.out.println(block.toString()); ``` 上述代码创建了一个具有两隐藏层的神经网络架构,并采用了 ReLU 激活函数促进非线性映射能力。 #### 更新权重的关键点 尽管前面提到的操作看似直观,但在实践中最复杂的是第四步——更新模型权重的过程[^3]。此环节涉及反向传播算法计算梯度方向及幅度,从而指导各权值朝降低误差的方向逐步修正。 --- 问题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值