TensorFlow2.x 学习笔记(六)随机梯度下降以及数据可视化

最新推荐文章于 2023-07-20 23:55:23 发布

IDrandom

最新推荐文章于 2023-07-20 23:55:23 发布

阅读量727

点赞数

CC 4.0 BY-SA版权

分类专栏： tensorflow 文章标签： tensorflow 可视化深度学习 tensorflow2.0

本文链接：https://blog.csdn.net/IDrandom/article/details/105190848

这篇博客介绍了在TensorFlow2.x中如何使用梯度下降进行优化，包括梯度的概念、GradientTape的使用、二阶导数，以及激活函数如Sigmoid、ReLU的梯度。同时，博主分享了如何利用TensorBoard进行损失函数和激活函数的可视化，包括scalar和image的展示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度下降

简介

梯度

梯度是一个向量，表示某一函数在该点处的方向导数沿着该方向取得最大值。
$\nabla{f(x,y)} = (\frac{\partial f}{\partial x},\frac{\partial f}{\partial y}) = \frac{\partial f}{\partial x}i + \frac{\partial f}{\partial x}j$

利用梯度优化

梯度方向是函数增长最快的方向，因此搜索函数最小值的过程就是不断向负梯度方向移动的过程
$\theta_{t+1}= \theta_t - \alpha_t\nabla{f(\theta_t)}$

AutoGrad with Tensorflow

GradientTape

with tf.GradientTape() as tape:
- Build computation graph
- $f_\theta(x)$
[w_grad] = tape.gradient(loss,[w])

w = tf.constant(1.)
b = tf.constant(2.)
x = tf.constant(3.)
y = w*x

with tf.GradientTape() as tape:
    tape.watch([w])
    y2 = w * x
grad1 = tape.gradient(y, [w])
print(grad1)#[None]
grad2 = tape.gradient(y2, [w])#non-persistent error
with tf.GradientTape() as tape:
    tape.watch([w])
    y2 = w * x
grad2 = tape.gradient(y2, [w])
print(grad2)#2

Persistent GradientTape

non-persistent 只能调用一次，用完就会释放显存,可以开启persistent选项来解决这个问题，用完以后记得手动释放

with tf.GradientTape(persistent=True) as tape:
    tape.watch([w])
    y = w * x
grad1 = tape.gradient(y, [w])
print(grad1)
grad1 = tape.gradient(y, [w])
print(grad1)
del tape
grad1 = tape.gradient(y, [w])
print(grad1)