0% found this document useful (0 votes)

38 views

Lecture9 Dropout Optimization Cnns

This lecture discusses techniques for improving optimization of neural networks, including momentum and Nesterov momentum methods which help accelerate stochastic gradient descent. Momentum works by incorporating a fraction of the previous step's gradient into the current update. Nesterov momentum takes an extra step by looking ahead rather than using the current gradient. The lecture also covers adaptive gradient methods like RMSProp and Adam which adapt the learning rate for each parameter.

Uploaded by

Saeed Firoozi

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

38 views

Lecture9 Dropout Optimization Cnns

Uploaded by

Saeed Firoozi

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 79

Lecture 9: Dropout, optimization and convolutional NNs

Announcements:

• HW #3 is due tonight. To submit your Jupyter Notebook, print the notebook to a pdf
with your solutions and plots filled in. You must also submit your .py files as pdfs.

• HW #4 will be uploaded today. Fri, Feb 17

• Midterm exam review session: Thursday, Feb 16, 6-9pm at WG Young CS50.

• Tonmoy DIS 1E (3-4p) moved to Geology 6704.

• All past exams are uploaded to Bruin Learn (under “Modules” —> “past exams”).
This year, we will allow 4 cheat sheets (8.5 x 11” paper) that can be filled front and
back (8 sides total). The exam is otherwise closed book and closed notes.

• A word of thanks. covers up to and incl.

Feb 15
Wednesday,
Prof J.C. Kao, UCLA ECE
Prof J.C. Kao, UCLA ECE
Dropout

prob. keep a neuron.

we
P:

0.5
/

:
100 neurons .

100
Draw
M =
.
BernoulliR.V.'s

w.p. O
Prof J.C. Kao, UCLA ECE
Dropout

13
1R

(i
Mask

-IR13

N units

2N possible configurations.
Prof J.C. Kao, UCLA ECE
Dropout

Dropout in code.

Prof J.C. Kao, UCLA ECE

Dropout

How about during test time? What configuration do you use?

1
#Her
h.oN host

10] (m,h, wsas)

-> 0 m =

=> hout rel =

↑
40 p
0.5
=

hy P

ter
2

(w>hc wphp)
187 hour =rel +

m =

XTEST:
hout rel
=

(m, h, + wehz + wshs w+hx).The

Over many
iterations, the contribution ofwith;
boat was Nichi.
to
p.
Prof J.C. Kao, UCLA ECE
Dropout

How about during test time? What configuration do you use?

We call this approach the weight scaling inference rule. There is not yet any
theoretical argument for the accuracy of this approximate inference rule in
deep nonlinear networks, but empirically it performs very well.

In this class, instead of scaling the weights, we’ll scale the activations.

Prof J.C. Kao, UCLA ECE

Dropout

Note: an additional pro of dropout is that in testing time, there is no additional

complexity. With m ensemble models, our test time evaluation would scale
O(m).

Prof J.C. Kao, UCLA ECE

Inverted dropout

A common way to implement dropout is inverted dropout where the scaling by

1/p is done in training. This causes the output to have the same expected
value as if dropout was never been performed.

Thus, testing looks the same irrespective of if we use dropout or not. See
code below:
h.
4,24
-

Prof J.C. Kao, UCLA ECE

Dropout

How is this a good idea?

1) Dropout approximates bagging, since each mask is like a different

model. For a model with N hidden units, there are 2^N different model
configurations.

Each of these configurations must be good at predicting the output.

2) You can think of of dropout as regularizing each hidden unit to work

well in many different contexts.

3) Dropout may cause units to encode redundant features (e.g., to detect

a cat, there are many things we look for, e.g., it’s furry, it has pointy
ears, it has a tail, a long body, etc.).

Prof J.C. Kao, UCLA ECE

Lecture summary

Here, we’ve covered tricks that we can do in initialization, regularization, and

data augmentation to improve the performance of neural networks.

But what about the optimizer, stochastic gradient descent? Can we improve
this for deep learning?

That’s the topic of our next lecture.

Prof J.C. Kao, UCLA ECE

Optimization for neural networks

In this lecture, we’ll talk about specific techniques in optimization that aid in
training neural networks.

• Stochastic gradient descent

• Momentum and Nesterov momentum
• Adaptive gradients
• RMSProp
• Adaptive moments CADAM)
• Overview of second order methods ECE <- 236B/C
• Challenges of gradient descent

Prof J.C. Kao, UCLA ECE

Reading

Reading:

Deep Learning, Chapter 8 (intro), 8.1, 8.2, 8.3,

8.4, 8.5, 8.6 (skim)

Prof J.C. Kao, UCLA ECE

Where we are now

At this point, we know:

• Neural network architectures. 10SI

⑨
• Hyperparameters and cost functions to use for neural networks.
• How to calculate gradients of the loss w.r.t. all parameters in the neural
network. Backprop.
• How to initialize the weights and regularize the network in ways to
improve the training of the network.

We do know how to optimize these networks with stochastic gradient descent.

But can it be improved?

In this lecture, we talk about how to make optimization more efficient and
effective.

Prof J.C. Kao, UCLA ECE

Gradient descent

A refresher on gradient descent.

Loss I
- Cost function: J(✓)

- Parameters: ✓

Then, the gradient descent step is:

✓ ✓ ✏r✓ J(✓)

Prof J.C. Kao, UCLA ECE

Stochastic gradient descent

Prof J.C. Kao, UCLA ECE

Stochastic gradient descent

Prof J.C. Kao, UCLA ECE

Stochastic gradient descent

softwax loss, and-grad()

-
c
weights
-s

Prof J.C. Kao, UCLA ECE

Stochastic gradient descent

Beale's function.

Prof J.C. Kao, UCLA ECE

Stochastic gradient descent

Prof J.C. Kao, UCLA ECE

Stochastic gradient descent

Prof J.C. Kao, UCLA ECE

Finding the optimal weights through gradient descent

Varying the learning rate:

Prof J.C. Kao, UCLA ECE

Stochastic gradient descent

Prof J.C. Kao, UCLA ECE

Momentum

·
9.

-> 93
②
94

v. 0

so
=

v,
=
-
59,

xv, 392 x291 292

- -

v
= -
=

v (vc
= -

59s =
-

a(ag, agz
+
+

gs)
1(x39, ag2 19s 9+)
+

vy
+
= +
-

Prof J.C. Kao, UCLA ECE

Momentum

Prof J.C. Kao, UCLA ECE

Momentum

Prof J.C. Kao, UCLA ECE

Momentum

Prof J.C. Kao, UCLA ECE

Momentum

Prof J.C. Kao, UCLA ECE

Momentum

Prof J.C. Kao, UCLA ECE

Momentum

Prof J.C. Kao, UCLA ECE

Momentum

Prof J.C. Kao, UCLA ECE

Does momentum help with local optima?

Does momentum help with local optima? saD+momentum

#-
I

-- 1
-

What kind of local optima does momentum tend to find?

Prof J.C. Kao, UCLA ECE

Nesterov momentum

classical momentum.
<v
v <
-

1485(0)

Prof J.C. Kao, UCLA ECE

Nesterov momentum

Prof J.C. Kao, UCLA ECE

Nesterov momentum

Prof J.C. Kao, UCLA ECE

Nesterov momentum

Prof J.C. Kao, UCLA ECE

Nesterov momentum

Prof J.C. Kao, UCLA ECE

Nesterov momentum

Prof J.C. Kao, UCLA ECE

Nesterov momentum

Prof J.C. Kao, UCLA ECE

Nesterov momentum

Prof J.C. Kao, UCLA ECE

Is there a good way to adapt the learning rule?

Annealing.

Prof J.C. Kao, UCLA ECE

Adagrad John Duchi 2011

(i
a
params
zIRM =

pl 19
- >

-or og: gog

Prof J.C. Kao, UCLA ECE

Adagrad

Prof J.C. Kao, UCLA ECE

Adagrad

↑qwz
-

Prof J.C. Kao, UCLA ECE

Adagrad

Prof J.C. Kao, UCLA ECE

Adagrad

Prof J.C. Kao, UCLA ECE

Adagrad

Prof J.C. Kao, UCLA ECE

Adagrad

a, a,
=

g,z
+

Is there a problem with adagrad?

Prof J.C. Kao, UCLA ECE

RMSProp
No(z c)
+

Ppc 0
=

90.99.999
=

0.01.g2
+

Prof J.C. Kao, UCLA ECE

RMSProp

Prof J.C. Kao, UCLA ECE

RMSProp

Prof J.C. Kao, UCLA ECE

RMSProp

Prof J.C. Kao, UCLA ECE

RMSProp

Prof J.C. Kao, UCLA ECE

RMSProp

Prof J.C. Kao, UCLA ECE

RMSProp + momentum

Prof J.C. Kao, UCLA ECE

RMSProp + momentum

Prof J.C. Kao, UCLA ECE

RMSProp + momentum

Prof J.C. Kao, UCLA ECE

RMSProp + momentum

Prof J.C. Kao, UCLA ECE

RMSProp + momentum

Prof J.C. Kao, UCLA ECE

RMSProp + momentum

Prof J.C. Kao, UCLA ECE

Adam

1st

Prof J.C. Kao, UCLA ECE

Adam with no bias correction

Prof J.C. Kao, UCLA ECE

Adam

Prof J.C. Kao, UCLA ECE

Adam

t- A

Prof J.C. Kao, UCLA ECE

Adam

Prof J.C. Kao, UCLA ECE

Adam

Prof J.C. Kao, UCLA ECE

Adam

Prof J.C. Kao, UCLA ECE

Adam

Prof J.C. Kao, UCLA ECE

Adam

Prof J.C. Kao, UCLA ECE

First order methods

510) J10t) (0
=
+
-

0t) DoJ10t)

Pt 0t
29
=
-

+ 1

3(8t 1) 3(0t)
+
=

(87
+
-

5g
-

8z)bt)

=
J(8t) -

3gig ↓

mo
>0

ot !Ex Prof J.C. Kao, UCLA ECE

Second order methods

~
~
·
J(O)

-
large step

↑V
&

I(8) small steps.

Prof J.C. Kao, UCLA ECE

Newton’s method

Prof J.C. Kao, UCLA ECE

Newton’s method

Prof J.C. Kao, UCLA ECE

Newton’s method NOT TESTED

Prof J.C. Kao, UCLA ECE

Quasi-Newton methods NOT TESTED

Prof J.C. Kao, UCLA ECE

Quasi-Newton methods NOT TESTED

Prof J.C. Kao, UCLA ECE

Conjugate gradients NOT TESTED

Prof J.C. Kao, UCLA ECE

Challenges in gradient descent

Prof J.C. Kao, UCLA ECE

Challenges in gradient descent

Prof J.C. Kao, UCLA ECE

Hourglass Workout Program by Luisagiuliet 2
76% (21)
Hourglass Workout Program by Luisagiuliet 2
51 pages
12 Week Program: Summer Body Starts Now
87% (46)
12 Week Program: Summer Body Starts Now
70 pages
Read People Like A Book by Patrick King-Edited
57% (80)
Read People Like A Book by Patrick King-Edited
12 pages
Livingood, Blake - Livingood Daily Your 21-Day Guide To Experience Real Health
77% (13)
Livingood, Blake - Livingood Daily Your 21-Day Guide To Experience Real Health
260 pages
Cheat Code To The Universe
94% (79)
Cheat Code To The Universe
34 pages
Facial Gains Guide (001 081)
91% (45)
Facial Gains Guide (001 081)
81 pages
Curse of Strahd
95% (467)
Curse of Strahd
258 pages
The Psychiatric Interview - Daniel Carlat
91% (34)
The Psychiatric Interview - Daniel Carlat
473 pages
The Borax Conspiracy
91% (57)
The Borax Conspiracy
14 pages
The Secret Language of Attraction
86% (107)
The Secret Language of Attraction
278 pages
How To Develop and Write A Grant Proposal
83% (542)
How To Develop and Write A Grant Proposal
17 pages
Penis Enlargement Secret
60% (124)
Penis Enlargement Secret
12 pages
Workbook For The Body Keeps The Score
89% (53)
Workbook For The Body Keeps The Score
111 pages
Donald Trump & Jeffrey Epstein Rape Lawsuit and Affidavits
83% (1016)
Donald Trump & Jeffrey Epstein Rape Lawsuit and Affidavits
13 pages
KamaSutra Positions
78% (69)
KamaSutra Positions
55 pages
7 Hermetic Principles
93% (30)
7 Hermetic Principles
3 pages
27 Feedback Mechanisms Pogil Key
77% (13)
27 Feedback Mechanisms Pogil Key
6 pages
Frank Hammond - List of Demons
92% (92)
Frank Hammond - List of Demons
3 pages
Phone Codes
79% (28)
Phone Codes
5 pages
36 Questions That Lead To Love
91% (35)
36 Questions That Lead To Love
3 pages
How 2 Setup Trust
97% (307)
How 2 Setup Trust
3 pages
The 36 Questions That Lead To Love - The New York Times
94% (34)
The 36 Questions That Lead To Love - The New York Times
3 pages
100 Questions To Ask Your Partner
80% (35)
100 Questions To Ask Your Partner
2 pages
Satanic Calendar
25% (56)
Satanic Calendar
4 pages
The 36 Questions That Lead To Love - The New York Times
95% (21)
The 36 Questions That Lead To Love - The New York Times
3 pages
14 Easiest & Hardest Muscles To Build (Ranked With Solutions)
100% (8)
14 Easiest & Hardest Muscles To Build (Ranked With Solutions)
27 pages
Jeffrey Epstein39s Little Black Book Unredacted PDF
75% (12)
Jeffrey Epstein39s Little Black Book Unredacted PDF
95 pages
Neural Networks: A Classroom Approach by Satish Kumar: Neuralnetworksaclassroomapproachbysatishkumarpdffre
50% (2)
Neural Networks: A Classroom Approach by Satish Kumar: Neuralnetworksaclassroomapproachbysatishkumarpdffre
2 pages
AI (Whole)
No ratings yet
AI (Whole)
96 pages
1001 Songs
69% (72)
1001 Songs
1,798 pages
The 4 Hour Workweek, Expanded and Updated by Timothy Ferriss - Excerpt
23% (954)
The 4 Hour Workweek, Expanded and Updated by Timothy Ferriss - Excerpt
38 pages
Zodiac Sign & Their Most Common Addictions
63% (30)
Zodiac Sign & Their Most Common Addictions
9 pages
Convolutional Neural Networks (CNN) - QA & HandsOn
60% (5)
Convolutional Neural Networks (CNN) - QA & HandsOn
5 pages
cs231n Training Neural Networks II
No ratings yet
cs231n Training Neural Networks II
99 pages
DL_26-09 (3)
No ratings yet
DL_26-09 (3)
22 pages
Deep+Learning+Module-02+Search+Creators
No ratings yet
Deep+Learning+Module-02+Search+Creators
15 pages
Large Scale Deep Learning
No ratings yet
Large Scale Deep Learning
170 pages
4 - DNN Tip
No ratings yet
4 - DNN Tip
52 pages
L5 - UCLxDeepMind DL2020
No ratings yet
L5 - UCLxDeepMind DL2020
52 pages
3 Gradient Descent
No ratings yet
3 Gradient Descent
8 pages
04 Numerical
No ratings yet
04 Numerical
46 pages
Lecture 6
No ratings yet
Lecture 6
41 pages
06_23ECE216_GradientDescent_v2
No ratings yet
06_23ECE216_GradientDescent_v2
73 pages
Advanced Gradient Descent
No ratings yet
Advanced Gradient Descent
14 pages
On The Momentum Term in Gradient Descent Learning Algorithms
No ratings yet
On The Momentum Term in Gradient Descent Learning Algorithms
7 pages
cs224n 2023 Lecture03 Neuralnets
No ratings yet
cs224n 2023 Lecture03 Neuralnets
83 pages
DL Unit-3
No ratings yet
DL Unit-3
10 pages
Lecture 3
No ratings yet
Lecture 3
105 pages
Adam: Adaptive Moment Estimation: The Error To Be Minimized
No ratings yet
Adam: Adaptive Moment Estimation: The Error To Be Minimized
4 pages
mit18_s096iap23_lec4
No ratings yet
mit18_s096iap23_lec4
14 pages
cours5
No ratings yet
cours5
23 pages
Sparse Autoencoder
No ratings yet
Sparse Autoencoder
15 pages
Lecture 5
No ratings yet
Lecture 5
34 pages
Unit 2.2
No ratings yet
Unit 2.2
46 pages
Master Thesis Template Polito
No ratings yet
Master Thesis Template Polito
16 pages
L07 Optimization
No ratings yet
L07 Optimization
12 pages
18 DL Regularization
No ratings yet
18 DL Regularization
41 pages
Optimization Algorithms Deep PDF
No ratings yet
Optimization Algorithms Deep PDF
9 pages
UNIT3
No ratings yet
UNIT3
17 pages
Berkeley-tutorial Optimization for Machine Learningpart2
No ratings yet
Berkeley-tutorial Optimization for Machine Learningpart2
35 pages
[Fall 2024] Deep Learning 2
No ratings yet
[Fall 2024] Deep Learning 2
46 pages
Lecture_2
No ratings yet
Lecture_2
31 pages
DocumentsTraining Neural Networks - Part II
No ratings yet
DocumentsTraining Neural Networks - Part II
91 pages
Optimization
No ratings yet
Optimization
51 pages
3.1 Global-Descent-Based Error Backpropagation: W W Given by
No ratings yet
3.1 Global-Descent-Based Error Backpropagation: W W Given by
28 pages
Lecture 02
No ratings yet
Lecture 02
37 pages
Lecture 04
No ratings yet
Lecture 04
32 pages
Deep Learning Module-03 Search Creators
No ratings yet
Deep Learning Module-03 Search Creators
20 pages
Improving ML, DL networks Hyperparameter tuning, Regularization & Optimization
No ratings yet
Improving ML, DL networks Hyperparameter tuning, Regularization & Optimization
16 pages
Lesson 5 Deep Neural Net Optimization Tuning Interpretability
100% (1)
Lesson 5 Deep Neural Net Optimization Tuning Interpretability
105 pages
Topic 4 (Part 2) - NN learning
No ratings yet
Topic 4 (Part 2) - NN learning
92 pages
Gradient Descent Optimization
No ratings yet
Gradient Descent Optimization
27 pages
optimization
No ratings yet
optimization
6 pages
3 TrainingNetwork
No ratings yet
3 TrainingNetwork
65 pages
CSC 2541: Neural Net Training Dynamics: Lecture 1 - A Toy Model: Linear Regression
No ratings yet
CSC 2541: Neural Net Training Dynamics: Lecture 1 - A Toy Model: Linear Regression
62 pages
Gradient-Based Optimizers
No ratings yet
Gradient-Based Optimizers
54 pages
DeepLearning Recap
No ratings yet
DeepLearning Recap
104 pages
Sample Final Exam Solutions
No ratings yet
Sample Final Exam Solutions
30 pages
Chap 4 Beyond Gradient Descent
No ratings yet
Chap 4 Beyond Gradient Descent
26 pages
Christopher Manning Lecture 3: Neural Net Learning: Gradients by Hand (Matrix Calculus) and Algorithmically (The Backpropagation Algorithm)
No ratings yet
Christopher Manning Lecture 3: Neural Net Learning: Gradients by Hand (Matrix Calculus) and Algorithmically (The Backpropagation Algorithm)
84 pages
Survey of FNN
No ratings yet
Survey of FNN
25 pages
merger05
No ratings yet
merger05
4 pages
WINSEM2024-25_CSE4006_ETH_AP2024254000693_2025-01-08_Reference-Material-I
No ratings yet
WINSEM2024-25_CSE4006_ETH_AP2024254000693_2025-01-08_Reference-Material-I
40 pages
Auto Encoder
No ratings yet
Auto Encoder
73 pages
Chapter 5
No ratings yet
Chapter 5
140 pages
Op Tim Ization
No ratings yet
Op Tim Ization
22 pages
Lecture04 Neuralnets
No ratings yet
Lecture04 Neuralnets
81 pages
Dat 300
No ratings yet
Dat 300
12 pages
Lecture12 Diff
No ratings yet
Lecture12 Diff
31 pages
Lecture 7 - Optimization Part I
No ratings yet
Lecture 7 - Optimization Part I
38 pages
Lecture 8 Gradient Descent For Non-Convex Functions
No ratings yet
Lecture 8 Gradient Descent For Non-Convex Functions
21 pages
Stochastic Methods in Quantum Mechanics
From Everand
Stochastic Methods in Quantum Mechanics
Stanley P. Gudder
No ratings yet
A First Course in Functional Analysis
From Everand
A First Course in Functional Analysis
Martin Davis
No ratings yet
PVSNet Palm Vein Authentication
No ratings yet
PVSNet Palm Vein Authentication
8 pages
Artificial Neural Network: Training: Debasis Samanta
No ratings yet
Artificial Neural Network: Training: Debasis Samanta
13 pages
Lakshmi Priya Module 7 Assignment
No ratings yet
Lakshmi Priya Module 7 Assignment
5 pages
Deep Learning Full
No ratings yet
Deep Learning Full
25 pages
A Gentle Introduction To Neural Networks AI
No ratings yet
A Gentle Introduction To Neural Networks AI
1 page
Tensor Flow
No ratings yet
Tensor Flow
130 pages
AI
No ratings yet
AI
12 pages
23AAAI Refined Semantic Enhancement Towards Frequency Diffusion For Video Captioning
No ratings yet
23AAAI Refined Semantic Enhancement Towards Frequency Diffusion For Video Captioning
9 pages
Imp Questions For Ci - Update
No ratings yet
Imp Questions For Ci - Update
8 pages
Unit-I Introduction and ANN Structure
No ratings yet
Unit-I Introduction and ANN Structure
15 pages
Jurnal Sistem Pendeteksi Pejalan Kaki
No ratings yet
Jurnal Sistem Pendeteksi Pejalan Kaki
12 pages
EE5075 Lecture 3A correct (2)
No ratings yet
EE5075 Lecture 3A correct (2)
34 pages
Sarcia - Judd Michael - AS4
No ratings yet
Sarcia - Judd Michael - AS4
6 pages
NN Assignment PDF
No ratings yet
NN Assignment PDF
3 pages
Neural Networks
No ratings yet
Neural Networks
28 pages
Activation Function To Back Pro
No ratings yet
Activation Function To Back Pro
22 pages
Deep Learning
No ratings yet
Deep Learning
2 pages
Handwritten Text Recognition
No ratings yet
Handwritten Text Recognition
3 pages
Cs3491-Artificial Intelligence and Machine Learning-1221091049-Unit 5 Aiml
No ratings yet
Cs3491-Artificial Intelligence and Machine Learning-1221091049-Unit 5 Aiml
38 pages
Lecture9 Dropout Optimization Cnns
No ratings yet
Lecture9 Dropout Optimization Cnns
79 pages
MINI PROJECT NOMINAL LIST (Data Science)
No ratings yet
MINI PROJECT NOMINAL LIST (Data Science)
3 pages
The Amazing Blue Brain Project
No ratings yet
The Amazing Blue Brain Project
7 pages
Unit 2 - Self-Test - Generative AI at SAP - openSAP
No ratings yet
Unit 2 - Self-Test - Generative AI at SAP - openSAP
2 pages
AI Chapter - AI Project Cycle
No ratings yet
AI Chapter - AI Project Cycle
2 pages
Division of EECS, IISc Bangalore
No ratings yet
Division of EECS, IISc Bangalore
2 pages
Deep-Learning-Keras-Tensorflow - 1.1.1 Perceptron and Adaline - Ipynb at Master Leriomaggio - Deep-Learning-Keras-Tensorflow
No ratings yet
Deep-Learning-Keras-Tensorflow - 1.1.1 Perceptron and Adaline - Ipynb at Master Leriomaggio - Deep-Learning-Keras-Tensorflow
11 pages
[Ebooks PDF] download Automated Machine Learning in Action 1st Edition Qingquan Song full chapters
100% (3)
[Ebooks PDF] download Automated Machine Learning in Action 1st Edition Qingquan Song full chapters
40 pages