0% ont trouvé ce document utile (0 vote)

90 vues57 pages

R Eseaux de Neurones Artificiels

Ce document décrit l'architecture et l'apprentissage des réseaux de neurones artificiels multicouches. Il présente leur fonctionnement, notamment la rétropropagation du gradient de l'erreur pour l'apprentissage des poids, ainsi que des notions clés comme les fonctions d'activation et la préparation des données.

Transféré par

Jérémy Grisé

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

90 vues57 pages

R Eseaux de Neurones Artificiels

Transféré par

Jérémy Grisé

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 57

Introduction Architecture Apprentissage Pour aller plus loin

Réseaux de neurones artificiels

Le perceptron multicouches
et l’algorithme de rétropropagation du gradient de l’erreur

[email protected]

Université de Lorraine/LORIA
Introduction Architecture Apprentissage Pour aller plus loin

Plan

1 Introduction

2 Architecture
Feed forward
Biais
Préparation des données

3 Apprentissage
Retro-propagation du gradient de l’erreur
Apprentissages en ligne ou par lot
Accélérer la convergence (AdaGrad, RMSprop, Adam)
Limiter le surapprentissage (régularisation, early stopping)

4 Pour aller plus loin

Introduction Architecture Apprentissage Pour aller plus loin

Du neurone biologique...

repères historiques
1852-1934 : Santiago Ramón y Cajál introduit le concept de
neurone comme élément de structure du cerveau.
1843-1926 : Camillo Golgi invente une méthode de coloration
qui rend les neurones visibles.
Introduction Architecture Apprentissage Pour aller plus loin

...au neurone formel...

repères historiques
1943 : J. Mc Culloch et W.Pitts propose une modèle simple
de neurone : le neurone formel.
Introduction Architecture Apprentissage Pour aller plus loin

...aux réseaux de neurones.

repères historiques
1958 : F. Rosenblatt propose le modèle du perceptron
1985 : algorithme de la retro-propagation du gradient de
l’erreur pour les perceptrons multicouches
Introduction Architecture Apprentissage Pour aller plus loin

Problématique

Les modèles de régression et de discrimination basés sur des

combinaisons linaires de fonctions de base φj (x) fixes telles que
 
XM
y (x, w) = f  wj φj (x)
j=1

où f (.) est :

la fonction identité dans le cas de la régression
une fonction non linéaire dans le cas de la discrimination
ont :
+ des propriétés calculatoires et analytiques ;
- leur utilisation pratique est limitée par la malédiction de la
dimensionalité.
Introduction Architecture Apprentissage Pour aller plus loin

Solution neuronale

Afin d’appliquer de tels modèles à des problèmes de grande taille, il

est nécessaire d’adapter les fonctions de base aux données.
Une idée (les réseaux neurones artificiels)
Fixer le nombre de fonctions de base φj (x) mais les choisir
paramètrables et adapter leur paramètres wj durant l’apprentissage
en fonction des données.
Introduction Architecture Apprentissage Pour aller plus loin

Feed forward

Les perceptrons muticouches

Il y a de nombreuses possibilités pour construire des fonctions de

base paramétriques.
Solution (les perceptron multicouches)
Dans les perceptrons multicouches, chaque fonction de base est
une fonction non linéaires de combinaisons linaires des
entrées appelée fonction d’activation non linaire cachée φj (x)
(comme la tangente hyperbolique or la fonction sigmoı̈de
logistique), où les poids wji des combinaisons linéaires sont des
paramètres adaptatifs. φj (x) = φj ( D
P
i=1 wji xi + wj0 )
Introduction Architecture Apprentissage Pour aller plus loin

Feed forward

Les fonctions d’activation classiques et leurs dérivées

Pour une précision donnée, le nb de paramètres d’un
approximateur linéaire croı̂t exponentiellement avec le nb de
variables alors qu’il croı̂t linéairement pour un approximateur non
linéaire [Barron, 1993].
Identité
φ(a) = a, φ0 (a) = 1
Sigmoı̈de
φ(a) = 1+e1 −a ,
φ0 (a) = φ(a)(1 − φ(a))
Tangente hyperbolique
φ(a) = tanh(a),
φ0 (a) = 1 − φ2 (a)
ReLU
if a < 0 φ(a) = 0 else φ(a) = a
if a < 0 φ0 (a) = 0 else φ0 (a) = 1
Introduction Architecture Apprentissage Pour aller plus loin

Biais

Le seuil d’activation et le biais

Introduction Architecture Apprentissage Pour aller plus loin

Préparation des données

Variable quantitative (normalisation)

interpolation linéaire
x’ = (MAX-MIN)(x – min(x))/(max(x) – min(x))+MIN
centrer-réduire (si x suit une loi normale)
x’ = (x – moyenne)/écart-type
Variable qualitative (codage one hot)
à 2 modalités → 1 variable quantitative 1,0 ou 1,-1
ex : Genre ∈ {homme, femme}
→ Homme=-1, Femme=1
à n modalités (n > 2) → n variables quantitatives 1,0 ou 1,-1
ex : Statut ∈ {marié, célibataire, veuf}
marie
−−−→ Marié = 1, Célibataire = -1, Veuf = -1
celibataire
−−−−−−→ Marié = -1, Célibataire = 1, Veuf = -1
veuf
−−→ Marié = -1, Célibataire = -1, Veuf = 1
Introduction Architecture Apprentissage Pour aller plus loin

Préparation des données

Rôle des neurones cachées (avec fcts de base non linéaires)

Figure – Illustration de la capacité d’un perceptron multicouches à approximer quatre

fonctions différentes (a) f (x) = x 2 , (b) f (x) = sin(x), (c), f (x) = |x|, et (d)
f (x) = H(x) où H(x) est la fonction à seuil. Dans tous les cas, 50 (N) exemples
d’apprentissage x représentés par des points bleus ont été tirés uniformément dans
l’intervalle [-1, 1] et la valeur associée f(x) a été calculée. Ces points ont été ensuite
utilisés pour entraı̂ner un MLP comportant une couche cachée de trois neurones avec
des fonctions d’activation tangente hyperbolique et un neurone de sortie avec une
fonction linéaire. La prédiction du MLP est présentée par la courbe rouge et les sorties
des trois neurones cachés sont représentées par des tirets [Bishop, 06].
Introduction Architecture Apprentissage Pour aller plus loin

Préparation des données

MLP pour la régression

Introduction Architecture Apprentissage Pour aller plus loin

Préparation des données

MLP pour la discrimination

Introduction Architecture Apprentissage Pour aller plus loin

Les MLPs : approximateurs universels de fonctions

Théorème d’existence [HORNIK et al., 1990]

”Toute fonction bornée suffisamment régulière peut être approchée
uniformément, avec une précision arbitraire, dans un domaine fini
de l’espace de ses variables, par un réseau de neurones comportant
une couche de neurones cachés en nombre fini, possédant tous la
même fonction d’activation, et un neurone de sortie linéaire”
[Dreyfus et al., 2002]
Introduction Architecture Apprentissage Pour aller plus loin

Recherche des poids optimaux

Une fois l’architecture fixée (nombre de couches, nombre de

neurones par couche, fonctions d’activation), les performances du
réseau varient uniquement en fonction de la valeur des poids.
Problème
Il n’est pas envisageable d’évaluer la performance obtenue pour
chaque jeu possible de poids afin de déterminer lequel permet
d’obtenir une erreur minimale.

Solution
Une solution sera d’appliquer la méthode de descente du
gradient de l’erreur pour converger vers un jeu performant à
partir d’un jeu tiré aléatoirement.
Introduction Architecture Apprentissage Pour aller plus loin

Mesure de la performance du modèle : les fonctions

d’erreur

Pour évaluer la performance d’un modèle, on utilise une

fonction d’erreur.

L’erreur
P E dun modèle pour un ensemble de N exemples vaut :
E= N n=1 E

L’erreur E n du modèle pour le ne exemple vaut, si il y a K

neurones de sortie : E n = K n
P
k=1 Ek
Erreur quadratique (régression) : Ekn = 12 (tkn − ykn )2
(t n −y n )2
Erreur quadratique moyenne (régression) : Ekn = (tkn −ȳkn )2
k
Entropie relative (discrimination) : Ekn = −tkn ∗ ln(ykn /tkn )
ou distance de Kullback-Leibler
Introduction Architecture Apprentissage Pour aller plus loin

Retro-propagation du gradient de l’erreur

Optimisation par descente du gradient de l’erreur

On veut modifier w pour que l’erreur diminue i.e. on veut ∆E ≤ 0

δE
Si au point w , δw ≥ 0, il faut donc ∆w ≤ 0 i.e. on doit diminuer w
δE
Si au point w , δw ≤ 0, il faut donc ∆w ≥ 0 i.e. on doit
augmenter w
δE
Prenons donc par exemple : ∆w = −α δw
où 0 < α << 1 est le coefficient d’apprentissage.
Introduction Architecture Apprentissage Pour aller plus loin

Retro-propagation du gradient de l’erreur

Pseudo-algo de la rétro-propagation du gradient de l’erreur

Choisir la valeur du coefficient d’apprentissage α

Choisir le critère d’arrêt (nombre de cycle, seuil de stagnation de
l’amélioration de l’erreur, seuil d’erreur ...)
Cycle : Pour chaque exemple de la base d’apprentissage faire :
1 Présenter le ne exemple xn
2 Calculer les sorties yn du modèle en propageant les valeurs des
variables entrées. Pour cela, calculer l’activation des neurones
couchePaprès couche :
aj1 = i xin wji1 et yj1 = φ1j (aj1 )
ak2 = j yj1 wkj2 et yk2 = f (ak2 )
P

3 Calculer l’erreur du modèle E n = (tn , yn ) avec t le vecteur des

sorties désirées et y le vecteur des sorties calculées
δE
4 Rétropropager l’erreur pour obtenir ∆w = −α δw
Introduction Architecture Apprentissage Pour aller plus loin

Retro-propagation du gradient de l’erreur

Retro-propagation : couche de sortie

Pour les poids menant du neurone j de la couche cachée au
neurone k de la couche de sortie, on a :
∂E ∂E ∂yk2 ∂ak2
=
∂wjk2 ∂yk2 ∂ak2 ∂wjk2

avec ak2 , f () et yk2 respectivement l’entrée, la fonction d’activation

et la sortie 2 2
2
P du2 neurone de sortie d’indice k. On a yk = f (ak ) et
ak = j xj wjk .
Si on prend comme mesure de l’erreur, l’erreur quadratique
1P
définie par E = 2 k (tk − yk2 )2 avec tk la valeur désirée pour le
neurone de sortie k et yk2 la valeur de sortie du neurone de sortie k
alors, on a :
" #0
∂E 1X
= (tk − yk2 )2 = −(tk − yk2 )
∂yk2 2
k
Introduction Architecture Apprentissage Pour aller plus loin

Retro-propagation du gradient de l’erreur

Retro-propagation : couche de sortie

D’autre part,
∂yk2 ∂f (ak2 )
= = f 0 (ak2 )
∂ak2 ∂ak2
si f est la fonction identité,

∂yk2 ∂ak2
= =1
∂ak2 ∂ak2

Enfin,
∂ j yj1 wjk2
P
∂ak2
2
= 2
= yj1
∂wjk ∂wjk
donc finalement
∆wjk2 = α(tk − yk2 )yj1
Remarque : ∆wjk2 = 0 s’il n’y a pas d’erreur (yk2 = tk )
Introduction Architecture Apprentissage Pour aller plus loin

Retro-propagation du gradient de l’erreur

Retro-propagation : couche cachée

Pour les poids menant du neurone i de la couche d’entrée au
neurone j de la couche cachée, on a :
!
∂E X ∂E ∂y 2 ∂a2 ∂yj1 ∂aj1
k k
=
∂wij1 ∂yk2 ∂ak2 ∂yj1 ∂aj1 ∂wij1
k

on note δk , la partie commune à tous les poids dont la connexion

va vers le neurone de sortie k :
∂E ∂yk2
δk = = −(tk − yk2 )
∂yk2 ∂ak2
∂ j yj1 wjk2
P
∂ak2
= = wjk2
∂yj1 ∂yj1
∂yj1 ∂φ1j (aj1 )
= = φ10 1
j (aj )
∂aj1 ∂aj1
Introduction Architecture Apprentissage Pour aller plus loin

Retro-propagation du gradient de l’erreur

Retro-propagation : couche cachée

e x −e −x
si φ1j est la fonction tangente hyperbolique tanh(x) = e x +e −x
alors φ10 1 2
j (x) = 1 − (φj ) (x) d’où

∂yj1
= 1 − (yj1 )2
∂aj1
et
∂aj1 xi wij1
P
∂ i
= = xi
∂wij1 ∂wij1
donc finalement
X
∆wij1 = −α(1 − (yj1 )2 )xi −(tk − yk2 )wjk2
k

Remarque : ∆wij1 = 0 s’il n’y a pas d’erreur (∀k yk2 = tk ), si

l’entrée xi = 0 ou si la sortie de la fonction de base tanh() sature
(|yj1 | = 1)
Introduction Architecture Apprentissage Pour aller plus loin

Apprentissages en ligne ou par lot

Apprentissages en ligne et par paquet/lot

Apprentissage en ligne ou stochastique (online ou stochastic)

Appliquer la modification des poids w = w + ∆w proposée par
chaque exemple avant de présenter l’exemple suivant.
Il est nécessaire de permuter les exemples pour éviter des biais dûs
à un ordonnancement (ex. exemples de la classe A puis B...)

Apprentissage par paquet/lot (offline ou batch/minibatch)

Moyenner les modifications proposer par tous les exemples puis à la
fin du lot modifier les poids w = w + ∆w .
Dans ce mode, pour les réseaux d’apprentissage profond, le
surapprentissage augmente avec le nombre d’exemples. Il est
préférable d’apprendre avec des paquets inférieurs à 100 exemples.

L’apprentissage s’arrête à la fin d’un cycle, si le critère d’arrêt est

vrai sur la base de validation (ou à défaut sur la base de test)
Introduction Architecture Apprentissage Pour aller plus loin

Apprentissages en ligne ou par lot

Batch Gradient Descent

[From Utkarsh Chawla]

Introduction Architecture Apprentissage Pour aller plus loin

Apprentissages en ligne ou par lot

mini-Batch Gradient Descent

[From Utkarsh Chawla]

Introduction Architecture Apprentissage Pour aller plus loin

Apprentissages en ligne ou par lot

SGD(Stochastic Gradient Descent)

Principe
Application de l’algorithme de descente du gradient en ligne (ou
éventuellement par mini-lots).
L’ordre de l’ensemble d’apprentissage est permuté à chaque cycle.

Pros
Nécessite moins de calculs pour mettre à jour les poids que
l’apprentissage offline (par lots).
Converge plus rapidement.
Introduction Architecture Apprentissage Pour aller plus loin

Apprentissages en ligne ou par lot

SGD(Stochastic Gradient Descent)

[From Utkarsh Chawla]

Introduction Architecture Apprentissage Pour aller plus loin

Apprentissages en ligne ou par lot

Coefficient d’apprentissage
La valeur du coefficient d’apprentissage peut fortement influencer
les performances.
S’il est trop fort, il peut entraı̂ner une divergence.
S’il est trop faible, il ralentit la convergence et peut ne pas
permettre de sortir d’un minimum local.
Introduction Architecture Apprentissage Pour aller plus loin

Accélérer la convergence (AdaGrad, RMSprop, Adam)

AdaGrad(Adaptative Gradient) [Duchi et al., 2011]

Principe
Application de l’algorithme de descente stochastique du gradient
avec un coefficient d’apprentissage spécifique à chaque poids (et
adapté à chaque itération).
α
∆wj (t) = − qP gj (t)
t 2
τ =1 gj (τ ) +
δE
avec gj (τ ) = δwj
(τ ) le gradient du poids wj à l’itération τ
Le coefficient d’apprentissage adaptatif est plus fort quand le
gradient est faible et plus faible quand le gradient est fort pour
assurer une modification du poids raisonnable. = 10−8 est là pour
éviter une mise à jour impossible si le premier gradient est nul)

Pros
Converge plus efficacement.
Introduction Architecture Apprentissage Pour aller plus loin

Accélérer la convergence (AdaGrad, RMSprop, Adam)

AdaGrad(Adaptative Gradient) [Duchi et al., 2011]

Par analogie avec les optimiseurs suivants, on peut écrire aussi :

vj (t) = vj (t −1) + gj2 (t) et vj (0) = 0

α
∆wj (t) = − p gj (t)
vj (t) +
δE
avec gj (t) = δwj
(t) le gradient du poids wj à l’itération t et gj2 (t)
son carré
(recommandation = 10−8 et α = 10−3 )
Introduction Architecture Apprentissage Pour aller plus loin

Accélérer la convergence (AdaGrad, RMSprop, Adam)

RMSProp(Root Mean Square Propagation) [Tieleman & Hinton, 2012]

Principe
Adapte le pas d’apprentissage de chaque poids comme ’AdaGrad’
pour accélérer la convergence mais utilise une moyenne
exponentielle glissante du carré du gradient (au lieu de la somme).

α δE
∆w (t) = − q (t)
δE
2 δE δw
(1 − β) δw (t −1) + β δw (t)

(recommandation β = 0.9, = 10−8 et α = 10−3 )

Pros
Converge rapidement
Introduction Architecture Apprentissage Pour aller plus loin

Accélérer la convergence (AdaGrad, RMSprop, Adam)

RMSProp(Root Mean Square Propagation) [Tieleman & Hinton, 2012]

Par analogie avec les autres optimiseurs, on peut écrire aussi :

vj (t) = βvj (t −1) + (1 − β)gj2 (t) et vj (0) = 0

α
∆wj (t) = − p gj (t)
vj (t) +
δE
avec gj (t) = δwj
(t) le gradient du poids wj à l’itération t et gj2 (t)
son carré.
(recommandation β = 0.9, = 10−3 et α = 10−3 )
Introduction Architecture Apprentissage Pour aller plus loin

Accélérer la convergence (AdaGrad, RMSprop, Adam)

RMSProp(Root Mean Square Propagation)

[From Utkarsh Chawla]

Introduction Architecture Apprentissage Pour aller plus loin

Accélérer la convergence (AdaGrad, RMSprop, Adam)

Momentum

Le momentum permet d’accélérer la convergence.

[G.B. Orr]

δE
∆w (t) = −α (t) + µ∆w (t −1)
δw
(recommandation µ = 0.9)
Il sert de stabilisateur lorsque le gradient change souvent de signe
au gré des exemples.
Il renforce la modification lorsque le gradient est de même signe.
Introduction Architecture Apprentissage Pour aller plus loin

Accélérer la convergence (AdaGrad, RMSprop, Adam)

Gradient Descent with momentum

[From Utkarsh Chawla]

Introduction Architecture Apprentissage Pour aller plus loin

Accélérer la convergence (AdaGrad, RMSprop, Adam)

Adam(’ADAptive Moment’) [Kingma & Ba, 2015]

Principe
Combine l’algorithme de descente de gradient avec momentum et
l’algorithme RMSProp.
α
∆w (t) = − p m̂(t)
v̂ (t) +
m(t)
m̂(t) = 1−β1t
et m(t) = β1 m(t −1) + (1 − β1 )gj (t)
v (t)
v̂ (t) = 1−β2t
et v (t) = β2 v (t −1) + (1 − β2 )gj2 (t)
δE
avec gj (t) = δwj
(t) le gradient du poids wj à l’itération t et gj2 (t)
son carré.
0 ≤ β1 , β2 < 1
(recommandation β1 = 0.9, β2 = 0.999, = 10−8 et α = 10−3 )

Pros
Introduction Architecture Apprentissage Pour aller plus loin

Accélérer la convergence (AdaGrad, RMSprop, Adam)

Adam(’ADAptive Moment’)

[From Utkarsh Chawla]

Introduction Architecture Apprentissage Pour aller plus loin

Limiter le surapprentissage (régularisation, early stopping)

Combien de neurones cachés ?

Il existe un nombre de neurones cachés M qui donne les meilleures
performances en généralisation, lequel correspond au compromis
optimal entre le sous-apprentissage et le sur-apprentissage.

1 M =1 1 M =3 1 M = 10

0 0 0

−1 −1 −1

0 1 0 1 0 1

Figure – Cas d’un perceptron à deux couches entraı̂né sur 10 exemples

tirés d’une fonction sinusoı̈dale. Les figures montrent le résultat de la
modélisation de réseaux de neurones ayant M = 1, 3 et 10 neurones
cachés.
Introduction Architecture Apprentissage Pour aller plus loin

Limiter le surapprentissage (régularisation, early stopping)

Combien de neurones cachés ?

En pratique, une approche pour choisir M est de visualiser la

meilleure performance obtenue sur la base de validation (dans le
cas ci-dessous, on choisira M = 8).

160

140

120

100

0 2 4 6 8 10

Figure – Erreurs quadratiques obtenues pour 30 différentes initialisations

et différents nombres de neurones cachés sur une base d’exemples de test
d’une fonction polynomiale
Introduction Architecture Apprentissage Pour aller plus loin

Limiter le surapprentissage (régularisation, early stopping)

Décomposition Biais-Variance

L’erreur mesurée par la fonction de coût (ou de perte) peut être

décomposée en trois termes : le biais, la variance et un bruit
inhérent aux mesures.
le biais
Le biais est l’erreur mesurée entre les valeurs prédites et les valeurs
cibles.

la variance
La variance est la différence des performances quand on varie les
exemples d’apprentissage.

Il est préférable d’avoir une procédure d’apprentissage qui aboutit à

une faible variance (quitte à avoir un biais un peu plus important)
car les performances futures correspondront plus à celles observées.
Introduction Architecture Apprentissage Pour aller plus loin

Limiter le surapprentissage (régularisation, early stopping)

Régularisation

Une autre solution consiste à choisir une valeur relativement

grande pour M et de contrôler la complexité en ajoutant un terme
de régularisation à la fonction d’erreur.
Le régularisateur le plus simple est :
λ T
Ẽ (w) = E (w) + w w
2
Ce régularisateur est aussi connu sous le nom de weight decay.
La complexité du modèle est alors contrôlée par le choix du
coefficient de régularisation λ.
Introduction Architecture Apprentissage Pour aller plus loin

Limiter le surapprentissage (régularisation, early stopping)

Early Stopping
Une autre façon de contrôler la complexité d’un réseau est la
procédure du early stopping. L’apprentisage peut ici être arrêté
lorsque la plus petite erreur est obtenue sur le corpus de validation.
0.45

0.25

0.4

0.2

0.15 0.35
0 10 20 30 40 50 0 10 20 30 40 50

Figure – Illustration de l’évolution de l’erreur d’apprentissage (à gauche)

et de l’erreur de validation (à droite) pendant un apprentissage. Le but
étant d’obtenir les meilleures performances en généralisation,
l’apprentissage doit être arrêté au temps correspondant à la ligne
verticale.
Introduction Architecture Apprentissage Pour aller plus loin

Pour aller plus loin

Autres méthodes d’optimisation
Quickprop
Levenderg-Marquardt
Gradient conjugué
Quasi-Newton
Algorithmes génétiques
Autres architectures
Récurrentes : Elman, Jordan
Dynamiques : cascade correlation, Optimal Brain Damage,
Optimal Brain Surgeon
Learning Vector Quantization
Radial Basis Function
Sélection de variables
Optimal Cell Damage
Unit - Optimal Brain Surgeon
Combinaison de modèles
Bagging
Boosting
Introduction Architecture Apprentissage Pour aller plus loin

Bibliographie

Réseaux de neurones
MONTAVON G., ORR, G.B., MULLER K. R. (eds) Neural Networks : Tricks of the Trade. Lecture Notes
in Computer Science, vol 7700. Springer, Berlin, Heidelberg. 2012 [beaucoup d’astuces]
BISHOP C.M. : Pattern Recognition and Machine Learning, Springer, 2011 [la bible]
BOUGRAIN L. : Practical introduction to artificial neural networks, IFAC symposium on automation In
Mining, Mineral and Metal Processing, 2004 [un résumé]
DREYFUS G.,MARTINEZ J.-M., SAMUELIDES, GORDON M.B., BADRAN F., THIRIA S., HERAULT :
Réseaux de neurones : méthodologie et applications, eds. Eyrolles, 2002 [on y trouve la théorie et la
pratique]
THIRIA S., LECHEVALIER Y., GASCUEL O., CANU S : Statistique et méthodes neuronales, ed. Dunod,
1997 [de bonnes rubriques de présentation des concepts]
FAQ http://www.faqs.org/faqs/ai-faq/neural-nets/
Introduction Architecture Apprentissage Pour aller plus loin

Le perceptron (rétine)
Rosemblatt (1959)
Architecture :
réseau à deux couches mais seuls les poids de la deuxième
couche sont appris
la première couche extrait n features φj (x) avec j ∈ {1; 2; . . . ; n}

Algorithme : si t 6= y (x) alors ∆wj = t ∗ φj (x) avec x ∈ {−1; 1}N

où N est le nombre de variables d’entrée et t ∈ {−1; 1}
Introduction Architecture Apprentissage Pour aller plus loin

ADALINE (ADAptative LInear NEuron puis ADAptative LINear Element)

Widrow et Hoff (1960)

Architecture :

δE
Algorithme du delta ∆wj = −α δw j
avec E = 1/2(t − a)2 , a = j wj ∗ xj et x ∈ {−1; 1}
P
Introduction Architecture Apprentissage Pour aller plus loin

Perceptron, ADALINE et perceptron mulitcouches

Perceptron Achitecture à deux couches mais seule une couche

est apprise. Ne permet qu’une séparation linéaire
ADALINE La correction est proportionnelle à l’erreur
Perceptron multicouches étend la règle du delta à l’apprentissage
des features.
Introduction Architecture Apprentissage Pour aller plus loin

Architecture : Discrimination linéaire

Introduction Architecture Apprentissage Pour aller plus loin

Régression non linéaire

Introduction Architecture Apprentissage Pour aller plus loin

Architecture : Régression linéaire simple

Introduction Architecture Apprentissage Pour aller plus loin

Architecture : Régression linéaire multiple

Introduction Architecture Apprentissage Pour aller plus loin

Architecture : Régression linéaire multiple multivariée

Introduction Architecture Apprentissage Pour aller plus loin

Architecture : Régression polynômiale

Introduction Architecture Apprentissage Pour aller plus loin

Architecture : Modèle additif généralisé

Introduction Architecture Apprentissage Pour aller plus loin

Architecture : Régression par poursuite en projection

Introduction Architecture Apprentissage Pour aller plus loin

Architecture : Réseau à convolutions

Vous aimerez peut-être aussi

TD 2 Correction
Pas encore d'évaluation
TD 2 Correction
10 pages
Cours Perceptron
100% (1)
Cours Perceptron
58 pages
Exposé PMC
100% (1)
Exposé PMC
6 pages
Perceptron Multicouche
Pas encore d'évaluation
Perceptron Multicouche
6 pages
Cours CA Bdsas 2024
Pas encore d'évaluation
Cours CA Bdsas 2024
146 pages
Chapitre 3 Apprentissage Supervisé - Classification
Pas encore d'évaluation
Chapitre 3 Apprentissage Supervisé - Classification
85 pages
Module: Logique Floue & RNA Travaux Pratique N°3:: Initiation Aux Réseaux de Neurones
Pas encore d'évaluation
Module: Logique Floue & RNA Travaux Pratique N°3:: Initiation Aux Réseaux de Neurones
8 pages
Reseau de Neurone
100% (5)
Reseau de Neurone
46 pages
Intelligence Artificielle 3
100% (1)
Intelligence Artificielle 3
113 pages
TD02 - Réseaux de Neurones
100% (6)
TD02 - Réseaux de Neurones
2 pages
SD-M1 TSI Chapitre 5
Pas encore d'évaluation
SD-M1 TSI Chapitre 5
64 pages
TP4 ClassificationSupervisée Student
Pas encore d'évaluation
TP4 ClassificationSupervisée Student
11 pages
Cours RN
Pas encore d'évaluation
Cours RN
50 pages
Chapitre II
Pas encore d'évaluation
Chapitre II
48 pages
Connexionnisme
Pas encore d'évaluation
Connexionnisme
55 pages
4.les Réseaux Multi Couches
100% (1)
4.les Réseaux Multi Couches
26 pages
Projetrseauxdeneurones V3
Pas encore d'évaluation
Projetrseauxdeneurones V3
62 pages
Réseaux de Neurones
Pas encore d'évaluation
Réseaux de Neurones
27 pages
Réseaux de Neurones Artificiels
100% (2)
Réseaux de Neurones Artificiels
39 pages
Neural NetworkV4
Pas encore d'évaluation
Neural NetworkV4
121 pages
TP 3 RN
Pas encore d'évaluation
TP 3 RN
2 pages
TP RCP208 PMC Regression
Pas encore d'évaluation
TP RCP208 PMC Regression
9 pages
Cours ReseauxNeurones
Pas encore d'évaluation
Cours ReseauxNeurones
102 pages
Cours Perceptron
Pas encore d'évaluation
Cours Perceptron
56 pages
Neural NetworkV2
Pas encore d'évaluation
Neural NetworkV2
46 pages
4 ML Réseaux de Neurones
Pas encore d'évaluation
4 ML Réseaux de Neurones
57 pages
Les Réseaux Multi-Couches
Pas encore d'évaluation
Les Réseaux Multi-Couches
45 pages
Chapitre 9
Pas encore d'évaluation
Chapitre 9
9 pages
Introduction Aux Réseaux de Neurones 23062023
Pas encore d'évaluation
Introduction Aux Réseaux de Neurones 23062023
13 pages
Le Perceptron Multicouche Back Propagation
Pas encore d'évaluation
Le Perceptron Multicouche Back Propagation
17 pages
Chapitre III Deep Learning
Pas encore d'évaluation
Chapitre III Deep Learning
141 pages
ARTIFICIAL NEURAL NETWORK (Enregistré Automatiquement)
Pas encore d'évaluation
ARTIFICIAL NEURAL NETWORK (Enregistré Automatiquement)
14 pages
Reseauxdeneurones
Pas encore d'évaluation
Reseauxdeneurones
20 pages
ML td6 2020
Pas encore d'évaluation
ML td6 2020
2 pages
Lecture 3
Pas encore d'évaluation
Lecture 3
72 pages
03-Apprentissage Automatique
Pas encore d'évaluation
03-Apprentissage Automatique
63 pages
Chapter 2 DeepLearning
Pas encore d'évaluation
Chapter 2 DeepLearning
67 pages
RNA - CH - III - Perceptron Multicouches
Pas encore d'évaluation
RNA - CH - III - Perceptron Multicouches
48 pages
TP5 SDN Clustering
Pas encore d'évaluation
TP5 SDN Clustering
1 page
MLP Xor
Pas encore d'évaluation
MLP Xor
35 pages
II Deuxième Partie: Réseaux de Neurones Artificiels
Pas encore d'évaluation
II Deuxième Partie: Réseaux de Neurones Artificiels
11 pages
Chap06.reseaux Neurones
Pas encore d'évaluation
Chap06.reseaux Neurones
31 pages
Réseaux de Neurones: Le Perceptron Multi-Couches: Fabrice Rossi
Pas encore d'évaluation
Réseaux de Neurones: Le Perceptron Multi-Couches: Fabrice Rossi
52 pages
7) L'Algorithme SVM
Pas encore d'évaluation
7) L'Algorithme SVM
43 pages
Ai Chap4
Pas encore d'évaluation
Ai Chap4
26 pages
Support - Réseau de Neurones - Diapo Theo
Pas encore d'évaluation
Support - Réseau de Neurones - Diapo Theo
26 pages
DL Bi
Pas encore d'évaluation
DL Bi
22 pages
Chapitre 3 Reseaux de Neurones
Pas encore d'évaluation
Chapitre 3 Reseaux de Neurones
23 pages
TD 5
Pas encore d'évaluation
TD 5
6 pages
RNN Recherche
Pas encore d'évaluation
RNN Recherche
5 pages
LFloue S07-15
Pas encore d'évaluation
LFloue S07-15
21 pages
Chapitre7 Part2
Pas encore d'évaluation
Chapitre7 Part2
46 pages
résuméML3
Pas encore d'évaluation
résuméML3
5 pages
Resume IAA
Pas encore d'évaluation
Resume IAA
7 pages
ML RN 6 French
Pas encore d'évaluation
ML RN 6 French
22 pages
Neurones Biologiques Ou Artificiels
Pas encore d'évaluation
Neurones Biologiques Ou Artificiels
6 pages
Arbres de Décision
Pas encore d'évaluation
Arbres de Décision
25 pages
Deep Learning
Pas encore d'évaluation
Deep Learning
10 pages
Sans Nom 1
Pas encore d'évaluation
Sans Nom 1
13 pages
Chapitre 4
Pas encore d'évaluation
Chapitre 4
30 pages
Ex Amen FDA 2016
Pas encore d'évaluation
Ex Amen FDA 2016
7 pages
Deep Learning
Pas encore d'évaluation
Deep Learning
53 pages
Séance 6 - Les Réseaux Multi-Couches
Pas encore d'évaluation
Séance 6 - Les Réseaux Multi-Couches
26 pages
2019-2020 ML CF
Pas encore d'évaluation
2019-2020 ML CF
3 pages
Initiation Au Machine Learning Et Au Deep Learning
Pas encore d'évaluation
Initiation Au Machine Learning Et Au Deep Learning
27 pages
Slides Part6
Pas encore d'évaluation
Slides Part6
13 pages
RNAA-Chapitre 9
Pas encore d'évaluation
RNAA-Chapitre 9
14 pages
Cours Le Perceptron Multicouches (Tchi Drive)
Pas encore d'évaluation
Cours Le Perceptron Multicouches (Tchi Drive)
7 pages
2-Cours Deep Learning - ANN
Pas encore d'évaluation
2-Cours Deep Learning - ANN
39 pages
8 - Deep Learning - FR
Pas encore d'évaluation
8 - Deep Learning - FR
42 pages
Optimisation-Descente Du Gradient
Pas encore d'évaluation
Optimisation-Descente Du Gradient
34 pages
M1 AD IA Sujet Corrigé
Pas encore d'évaluation
M1 AD IA Sujet Corrigé
3 pages
TD 4
Pas encore d'évaluation
TD 4
10 pages
RNA - CH II - Perceptron
Pas encore d'évaluation
RNA - CH II - Perceptron
21 pages
Analyse Des Visages Pour La Détection Des Masques Sanitaires
Pas encore d'évaluation
Analyse Des Visages Pour La Détection Des Masques Sanitaires
14 pages
TD2-Clustering1 (Corrigé)
Pas encore d'évaluation
TD2-Clustering1 (Corrigé)
3 pages
Chap2 2
Pas encore d'évaluation
Chap2 2
16 pages
TP2KNN
Pas encore d'évaluation
TP2KNN
7 pages
Tuto 6 - ML-non-supervis-enonc
Pas encore d'évaluation
Tuto 6 - ML-non-supervis-enonc
10 pages
Cours de Machine Learning - Séance N°5 Méthodes D'ensemble
Pas encore d'évaluation
Cours de Machine Learning - Séance N°5 Méthodes D'ensemble
20 pages
Artificial Intelligence (AI) Technology Project Proposal - by Slidesgo
Pas encore d'évaluation
Artificial Intelligence (AI) Technology Project Proposal - by Slidesgo
63 pages
IA_et_Big_Data_part1
Pas encore d'évaluation
IA_et_Big_Data_part1
24 pages

R Eseaux de Neurones Artificiels

Transféré par

R Eseaux de Neurones Artificiels

Transféré par

Introduction Architecture Apprentissage Pour aller plus loin

Réseaux de neurones artificiels

4 Pour aller plus loin

...au neurone formel...

...aux réseaux de neurones.

Les modèles de régression et de discrimination basés sur des

où f (.) est :

Afin d’appliquer de tels modèles à des problèmes de grande taille, il

Les perceptrons muticouches

Il y a de nombreuses possibilités pour construire des fonctions de

Les fonctions d’activation classiques et leurs dérivées

Le seuil d’activation et le biais

Préparation des données

Préparation des données

Variable quantitative (normalisation)

Préparation des données

Rôle des neurones cachées (avec fcts de base non linéaires)

Figure – Illustration de la capacité d’un perceptron multicouches à approximer quatre

Préparation des données

MLP pour la régression

Préparation des données

MLP pour la discrimination

Les MLPs : approximateurs universels de fonctions

Théorème d’existence [HORNIK et al., 1990]

Recherche des poids optimaux

Une fois l’architecture fixée (nombre de couches, nombre de

Mesure de la performance du modèle : les fonctions

Pour évaluer la performance d’un modèle, on utilise une

L’erreur E n du modèle pour le ne exemple vaut, si il y a K

Retro-propagation du gradient de l’erreur

Optimisation par descente du gradient de l’erreur

On veut modifier w pour que l’erreur diminue i.e. on veut ∆E ≤ 0

Retro-propagation du gradient de l’erreur

Pseudo-algo de la rétro-propagation du gradient de l’erreur

Choisir la valeur du coefficient d’apprentissage α

3 Calculer l’erreur du modèle E n = (tn , yn ) avec t le vecteur des

Retro-propagation du gradient de l’erreur

Retro-propagation : couche de sortie

avec ak2 , f () et yk2 respectivement l’entrée, la fonction d’activation

Retro-propagation du gradient de l’erreur

Retro-propagation : couche de sortie

Retro-propagation du gradient de l’erreur

Retro-propagation : couche cachée

on note δk , la partie commune à tous les poids dont la connexion

Retro-propagation du gradient de l’erreur

Retro-propagation : couche cachée

Remarque : ∆wij1 = 0 s’il n’y a pas d’erreur (∀k yk2 = tk ), si

Apprentissages en ligne ou par lot

Apprentissages en ligne et par paquet/lot

Apprentissage en ligne ou stochastique (online ou stochastic)

Apprentissage par paquet/lot (offline ou batch/minibatch)

L’apprentissage s’arrête à la fin d’un cycle, si le critère d’arrêt est

Apprentissages en ligne ou par lot

Batch Gradient Descent

[From Utkarsh Chawla]

Apprentissages en ligne ou par lot

mini-Batch Gradient Descent

[From Utkarsh Chawla]

Apprentissages en ligne ou par lot

SGD(Stochastic Gradient Descent)

Apprentissages en ligne ou par lot

SGD(Stochastic Gradient Descent)

[From Utkarsh Chawla]

Apprentissages en ligne ou par lot

Accélérer la convergence (AdaGrad, RMSprop, Adam)

AdaGrad(Adaptative Gradient) [Duchi et al., 2011]

Accélérer la convergence (AdaGrad, RMSprop, Adam)

AdaGrad(Adaptative Gradient) [Duchi et al., 2011]

Par analogie avec les optimiseurs suivants, on peut écrire aussi :

vj (t) = vj (t −1) + gj2 (t) et vj (0) = 0

Accélérer la convergence (AdaGrad, RMSprop, Adam)

RMSProp(Root Mean Square Propagation) [Tieleman & Hinton, 2012]

(recommandation β = 0.9,  = 10−8 et α = 10−3 )

Accélérer la convergence (AdaGrad, RMSprop, Adam)

RMSProp(Root Mean Square Propagation) [Tieleman & Hinton, 2012]

Par analogie avec les autres optimiseurs, on peut écrire aussi :

(recommandation β = 0.9, = 10−8 et α = 10−3 )