0% found this document useful (0 votes)

0 views

Otimization 2024_ver3

The document discusses various optimization techniques in machine learning, including regularization, gradient descent, and advanced methods like Adam and RMSProp. It highlights the challenges of stochastic gradient descent (SGD) and introduces concepts such as momentum and second-order optimization. The conclusion emphasizes that while Adam is a good default choice, SGD with momentum can outperform it with proper tuning.

Uploaded by

tientao05042004

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

0 views

Otimization 2024_ver3

Uploaded by

tientao05042004

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 42

Optimization

Nguyen Van Vinh

UET - 2025
Content

• Regularization
(*)
• Gradient Decent
• Momentum, RMSProp, Adam
• Second Order Optimization

2
3
4
Quiz

● Q: Which check implementation analytic gradient with numerical gradient?

(1)

(2)

● Q: Why Second-Order Optimization is this bad for deep learning?

● Q: Why is Adam a good default choice in most cases for optimization?

5
Strategy #1: A first very bad idea solution: Random search

6
Strategy #2: Follow the slope

7
Strategy #2: Follow the slope

• In 1-dimension, the derivative of a function:

• In multiple dimensions, the gradient is the vector of (partial derivatives) along each
dimension
• The slope in any direction is the dot productof the direction with the gradient
• The direction of steepest descent is the negative gradient

8
In summary:

• Numerical gradient: approximate, slow, easy to write

• Analytic gradient: exact, fast, error-prone

In practice: Always use analytic gradient, but check implementation with

numerical gradient. This is called a gradient check.

9
Gradient Descent

Gradient Descent: The Secret Weapon of Machine Learning

10
Stochastic Gradient Descent (SGD)

• Full sum expensive when

N is large!
• Approximate sum using a
minibatch of examples
32 / 64 / 128 common

11
Optimization: Problem #1 with SGD

• What if loss changes quickly in one direction and slowly in another?

• What does gradient descent do?

12
Optimization: Problem #1 with SGD

• What if loss changes quickly in one direction and slowly in another?

• What does gradient descent do?

Very slow progress along shallow dimension, jitter along steep direction

Aside: Loss function has high condition number: ratio of largest to smallest
singular value of the Hessian matrix is large 13
Optimization: Problem #2 with SGD

• What if the loss function

has a local minima or
saddle point?
• Zero gradient, gradient
descent gets stuck

• Saddle points much more

common in high
dimension
Dauphin et al, “Identifying and attacking the saddle point problem in high-dimensional non-convex optimization”, NIPS 2014
14
Optimization: Problem #2 with SGD

• saddle point in two dimension

15
Optimization: Problem #3 with SGD

• Our gradients come from minibatches so they can be noisy!

16
SGD + Momentum

Gradient Noise

17
SGD: the simple two line update code

• SGD

18
SGD + Momentum: continue moving in the general
direction as the previous iterations

• SGD+Momentum
• SGD

 Build up “velocity” as a running mean of gradients

 Rho gives “friction”; typically rho=0.9 or 0.99

Source: Sutskever et al, “On the importance of initialization and momentum in deep learning”, ICML 2013
19
SGD + Momentum: alternative equivalent
formulation

20
More Complex Optimizers: AdaGrad

Added element-wise scaling of the

gradient based on the historical sum of
SGD +
Momentum squares in each dimension

AdaGrad

Source: Duchi et al, “Adaptive subgradient methods for online learning and stochastic optimization”, JMLR 2011
21
AdaGrad
Q2: What happens to the step size over long time?

Q1: What happens with AdaGrad?

22
RMSProp

AdaGrad

“Per-parameter learning rates”

or “adaptive learning rates”
RMSProp

Adds element-wise scaling of the gradient based on the historical sum of squares
in each dimension (with decay)
Source: Tieleman and Hinton, 2012 23
RMSProp

RMSProp

Q: What happens with RMSProp?

24
RMSProp

25
Optimizers: Adam (almost)

Source: Kingma and Ba, “Adam: A method for stochastic optimization”, ICLR 2015
26
Optimizers: Adam (almost)

Momentum

RMSProp

Source: Kingma and Ba, “Adam: A method for stochastic optimization”, ICLR 2015
27
Adam (full form)

Bias correction

Bias correction for the fact that first and Adam with beta1 = 0.9,
second moment estimates start at zero beta2 = 0.999, and learning_rate = 1e-3 or 5e-4
is a great starting point for many models!

Source: Kingma and Ba, “Adam: A method for stochastic optimization”, ICLR 2015
28
Adam

29
AdamW: Adam Variant with Weight Decay

Q: How does regularization interact with the optimizer? (e.g., L2)

A: It depends!
30
AdamW: Adam Variant with Weight Decay

Standard Adam computes L2 here

AdamW (Weight Decay) adds term:

λ:Weight Decay
31
AdamW: Adam Variant with Weight Decay

Source: https://www.fast.ai/posts/2018-07-02-adam-weight-decay.html
32
Learning rate schedules

• Learning Rate Schedules are techniques used in deep learning to adjust the
learning rate dynamically during training, instead of keeping it at a fixed value.

33
SGD, SGD+Momentum, RMSProp, Adam, AdamW all
have learning rate as a hyperparameter

Q: Which one of these learning rates is

best to use?

34
Learning rate decays over time

Step: Reduce learning rate at a

few fixed points. E.g. for
ResNets, multiply LR by 0.1 after
epochs 30, 60, and 90.

35
First Order Optimization

36
Second Order Optimization

37
Second Order Optimization

second-order Taylor expansion:

Solving for the critical point we obtain the Newton parameter update:

No hyperparameters!
No learning rate!

Hessian has O(N^2) elements

Inverting takes O(N^3)
N = (Tens or Hundreds of) Millions

38
Second-Order Optimization

• Quasi-Newton methods (BGFS most popular): instead of inverting the Hessian

(O(n^3)), approximate inverse Hessian with rank 1 updates over time (O(n^2)
each).
• L-BFGS (Limited memory BFGS): Does not form/store the full inverse Hessian

39
In practice:

• Adam(W) is a good default choice in many cases; it often works ok even with
constant learning rate
• SGD+Momentum can outperform Adam but may require more tuning of Learning
Rate and Learning Rate schedule
• If you can afford to do full batch updates then look beyond 1st order optimization
(2nd order and beyond)

40
Conclusion

• GradientDecent
• Momentum, AdaGrad, RMSProp, Adam

• Second Order Optimization

41
Question?

(Book) Bertsimas, D. & Tsitsiklis, J. N. 19yy Introduction To Linear Optimization - Athena Scientific
0% (2)
(Book) Bertsimas, D. & Tsitsiklis, J. N. 19yy Introduction To Linear Optimization - Athena Scientific
186 pages
DocumentsTraining Neural Networks - Part II
No ratings yet
DocumentsTraining Neural Networks - Part II
91 pages
optimization techniques (SGD alternatives)
No ratings yet
optimization techniques (SGD alternatives)
34 pages
Lecture 8 Gradient Descent For Non-Convex Functions
No ratings yet
Lecture 8 Gradient Descent For Non-Convex Functions
21 pages
L5 Training Neural Networks Part 2 en v2
No ratings yet
L5 Training Neural Networks Part 2 en v2
70 pages
BME 6407 - Class 10 (April 2023)
No ratings yet
BME 6407 - Class 10 (April 2023)
31 pages
Deep Learning (MODULE-2) (2)
No ratings yet
Deep Learning (MODULE-2) (2)
86 pages
Optimization
No ratings yet
Optimization
3 pages
Optimizers
No ratings yet
Optimizers
4 pages
Gradient-Based Optimizers
No ratings yet
Gradient-Based Optimizers
54 pages
Optimizers and Activation functions in Deep Learning
No ratings yet
Optimizers and Activation functions in Deep Learning
15 pages
Lecture 8.5
No ratings yet
Lecture 8.5
9 pages
Optimization Gradient Descent Method
No ratings yet
Optimization Gradient Descent Method
3 pages
11 - Optimizers
No ratings yet
11 - Optimizers
16 pages
Gradient Descent Overview
No ratings yet
Gradient Descent Overview
14 pages
Gradient Descent Optimization
No ratings yet
Gradient Descent Optimization
27 pages
Optimization For Deep Learning: Sebastian Ruder
No ratings yet
Optimization For Deep Learning: Sebastian Ruder
49 pages
Optimization and Tips For Neural Network Training: Geena Kim
No ratings yet
Optimization and Tips For Neural Network Training: Geena Kim
24 pages
Opti Incertitude
No ratings yet
Opti Incertitude
231 pages
Optimization Techniques in Deep Learning
No ratings yet
Optimization Techniques in Deep Learning
14 pages
08 Training
No ratings yet
08 Training
18 pages
Rajesh (Dl Unit3) 06dec2024
No ratings yet
Rajesh (Dl Unit3) 06dec2024
67 pages
adam optimizer
No ratings yet
adam optimizer
14 pages
4_Gradient Descent and Stochastic GD
No ratings yet
4_Gradient Descent and Stochastic GD
37 pages
Curs6site PDF
No ratings yet
Curs6site PDF
40 pages
AdamZ research paper
No ratings yet
AdamZ research paper
13 pages
Deep Learning
No ratings yet
Deep Learning
18 pages
L5 - UCLxDeepMind DL2020
No ratings yet
L5 - UCLxDeepMind DL2020
52 pages
cours5
No ratings yet
cours5
23 pages
Comparison of Gradient Descent Algorithms On Training Neural Networks
No ratings yet
Comparison of Gradient Descent Algorithms On Training Neural Networks
20 pages
DL Class2
No ratings yet
DL Class2
30 pages
Optimization
No ratings yet
Optimization
21 pages
Soft Computing Assignment
No ratings yet
Soft Computing Assignment
9 pages
main sgd
No ratings yet
main sgd
32 pages
SCSA3015 Deep Learning Unit 4 PDF
No ratings yet
SCSA3015 Deep Learning Unit 4 PDF
30 pages
Optimizers Types
No ratings yet
Optimizers Types
6 pages
Important Optimization Algorithms Essentials
No ratings yet
Important Optimization Algorithms Essentials
12 pages
Unit 2.2
No ratings yet
Unit 2.2
46 pages
ADAM-1
No ratings yet
ADAM-1
11 pages
Adas: Adaptive Scheduling of Stochastic Gradients: Preprint. Under Review
No ratings yet
Adas: Adaptive Scheduling of Stochastic Gradients: Preprint. Under Review
19 pages
ADAM StochasticOptimiz 1412.6980
100% (1)
ADAM StochasticOptimiz 1412.6980
15 pages
S09_DNN_Gradients_wip
No ratings yet
S09_DNN_Gradients_wip
28 pages
8 Adagrad, RMSprop, Adam 04 Sep 2020material I 04 Sep 2020 Module4 Optimization
No ratings yet
8 Adagrad, RMSprop, Adam 04 Sep 2020material I 04 Sep 2020 Module4 Optimization
50 pages
A: A M S O: DAM Ethod For Tochastic Ptimization
No ratings yet
A: A M S O: DAM Ethod For Tochastic Ptimization
13 pages
Chap 4 Beyond Gradient Descent
No ratings yet
Chap 4 Beyond Gradient Descent
26 pages
DL Test-2
No ratings yet
DL Test-2
28 pages
Op Tim Ization
No ratings yet
Op Tim Ization
22 pages
cs231n Training Neural Networks II
No ratings yet
cs231n Training Neural Networks II
99 pages
Optimization in Machine Learning
No ratings yet
Optimization in Machine Learning
26 pages
Code Adam Optimization Algorithm From Scratch
No ratings yet
Code Adam Optimization Algorithm From Scratch
28 pages
19_22
No ratings yet
19_22
9 pages
Deep learning exp 2.3 MU
No ratings yet
Deep learning exp 2.3 MU
4 pages
An Overview of Gradient Descent Optimization Algorithms PDF
No ratings yet
An Overview of Gradient Descent Optimization Algorithms PDF
12 pages
Unit-1 and 2 and 3 (1)
No ratings yet
Unit-1 and 2 and 3 (1)
212 pages
MLP Encoder Decoder
No ratings yet
MLP Encoder Decoder
14 pages
Unit 4 Final
No ratings yet
Unit 4 Final
29 pages
Optimizer
No ratings yet
Optimizer
13 pages
Module 3dl1
No ratings yet
Module 3dl1
11 pages
Activations, Loss Functions & Optimizers in ML
No ratings yet
Activations, Loss Functions & Optimizers in ML
29 pages
Advanced Techniques in Dynamic Programming: A Comprehensive Guide for Java Developers
From Everand
Advanced Techniques in Dynamic Programming: A Comprehensive Guide for Java Developers
Adam Jones
No ratings yet
Bundle Adjustment: Optimizing Visual Data for Precise Reconstruction
From Everand
Bundle Adjustment: Optimizing Visual Data for Precise Reconstruction
Fouad Sabry
No ratings yet
S17-18_Dynamic Programming
No ratings yet
S17-18_Dynamic Programming
12 pages
Tugas Kelompok Matlan
No ratings yet
Tugas Kelompok Matlan
3 pages
LP Relaxation Examples
No ratings yet
LP Relaxation Examples
21 pages
Tarea 3 - Solución de Modelos de Programación Lineal de Optimización
No ratings yet
Tarea 3 - Solución de Modelos de Programación Lineal de Optimización
27 pages
Optimizer Methods HYSYS PDF
No ratings yet
Optimizer Methods HYSYS PDF
9 pages
7 Optimum Design With MATLAB PDF
No ratings yet
7 Optimum Design With MATLAB PDF
13 pages
Assignment 1
No ratings yet
Assignment 1
5 pages
Integer Programming (Ip) : Ha Thi Xuan Chi, PHD
No ratings yet
Integer Programming (Ip) : Ha Thi Xuan Chi, PHD
53 pages
Wa0013.
No ratings yet
Wa0013.
14 pages
Tuf M
No ratings yet
Tuf M
1 page
OTE Assignment-1 PDF
No ratings yet
OTE Assignment-1 PDF
2 pages
CMPG 312 Semester Test Preparation
No ratings yet
CMPG 312 Semester Test Preparation
4 pages
UUM526E-Syllabus-Spring-2025
No ratings yet
UUM526E-Syllabus-Spring-2025
2 pages
Operations Research Assignment 2
No ratings yet
Operations Research Assignment 2
6 pages
Nonlinear Programming
No ratings yet
Nonlinear Programming
6 pages
Branch&Bound MIP
No ratings yet
Branch&Bound MIP
35 pages
lec14 duality - Copy
No ratings yet
lec14 duality - Copy
8 pages
3 Duality PDF
No ratings yet
3 Duality PDF
42 pages
OTE Assignment 1
No ratings yet
OTE Assignment 1
2 pages
Assignment 4
No ratings yet
Assignment 4
2 pages
12 Nov
No ratings yet
12 Nov
26 pages
Cutting Plane Method
No ratings yet
Cutting Plane Method
6 pages
Artificial Starting Solution
No ratings yet
Artificial Starting Solution
5 pages
Dimitri Bertsekas - Nonlinear Programming (Google Books Preview) (2016, Athena Scientific) - Libgen - Li
No ratings yet
Dimitri Bertsekas - Nonlinear Programming (Google Books Preview) (2016, Athena Scientific) - Libgen - Li
64 pages
01 Simplex Method
No ratings yet
01 Simplex Method
42 pages
Alpha Beta Pruning
No ratings yet
Alpha Beta Pruning
35 pages
Duality Theory
No ratings yet
Duality Theory
5 pages
LPP Assignment 1 - 240126 - 144136
No ratings yet
LPP Assignment 1 - 240126 - 144136
12 pages
Lecture 7 Simplex Method
No ratings yet
Lecture 7 Simplex Method
29 pages

Otimization 2024_ver3

Uploaded by

Otimization 2024_ver3

Uploaded by

Optimization

Nguyen Van Vinh

● Q: Which check implementation analytic gradient with numerical gradient?

● Q: Why Second-Order Optimization is this bad for deep learning?

• In 1-dimension, the derivative of a function:

• Numerical gradient: approximate, slow, easy to write

In practice: Always use analytic gradient, but check implementation with

Gradient Descent: The Secret Weapon of Machine Learning

• Full sum expensive when

• What if loss changes quickly in one direction and slowly in another?

• What if loss changes quickly in one direction and slowly in another?

• What if the loss function

• Saddle points much more

• saddle point in two dimension

• Our gradients come from minibatches so they can be noisy!

 Build up “velocity” as a running mean of gradients

Added element-wise scaling of the

Q1: What happens with AdaGrad?

“Per-parameter learning rates”

Q: What happens with RMSProp?

Q: How does regularization interact with the optimizer? (e.g., L2)

Standard Adam computes L2 here

AdamW (Weight Decay) adds term:

Q: Which one of these learning rates is

Step: Reduce learning rate at a

second-order Taylor expansion:

Hessian has O(N^2) elements

• Quasi-Newton methods (BGFS most popular): instead of inverting the Hessian

• Second Order Optimization

You might also like