0% ont trouvé ce document utile (0 vote)
21 vues84 pages

Chapitres Choisis de Théorie Des Probabilités B: - Yvan Velenik

Ce document présente des chapitres sur la théorie des probabilités, en se concentrant sur des sujets tels que la transition de phase dans le modèle de graphe aléatoire d'Erdős–Rényi, la distance en variation totale, et la méthode de Monte Carlo. Chaque chapitre aborde des théorèmes et des preuves spécifiques, ainsi que des applications pratiques des concepts discutés. L'objectif est d'explorer des résultats mathématiques fondamentaux et leurs implications dans divers contextes.

Transféré par

Angelo Oppio
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
21 vues84 pages

Chapitres Choisis de Théorie Des Probabilités B: - Yvan Velenik

Ce document présente des chapitres sur la théorie des probabilités, en se concentrant sur des sujets tels que la transition de phase dans le modèle de graphe aléatoire d'Erdős–Rényi, la distance en variation totale, et la méthode de Monte Carlo. Chaque chapitre aborde des théorèmes et des preuves spécifiques, ainsi que des applications pratiques des concepts discutés. L'objectif est d'explorer des résultats mathématiques fondamentaux et leurs implications dans divers contextes.

Transféré par

Angelo Oppio
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 84

Chapitres Choisis

de Théorie des Probabilités


B
— Yvan Velenik —
— Version du 16 juin 2024 —
Dernière version téléchargeable à l’adresse
www.unige.ch/math/folks/velenik/cours.html
Table des matières

Table des matières i

1 Transition de phase dans le graphe d’Erdős–Rényi 1


1.1 Le modèle d’Erdős–Rényi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 La transition de phase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Existence d’un chemin contenant presque tous les sommets . . . . . . . . . . . . . . . . 2
1.4 Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.5 Preuve du Théorème 1.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6 Preuve du Théorème 1.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Distance en variation totale et couplages 9


2.1 Distance en variation totale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Couplage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Quelques applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3 Approximation de Poisson : la méthode de Chen–Stein 19


3.1 Théorème de Chen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Preuve du Théorème de Chen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3 Quelques exemples d’application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4 Concentration de la mesure : l’inégalité de Talagrand 29


4.1 Distance de Hamming pondérée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Inégalité de Talagrand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3 Preuve de l’inégalité de Talagrand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.4 Quelques corollaires et applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5 Réduction de la dimensionnalité : le lemme de Johnson–Lindenstrauss 41


5.1 Cadre et énoncé du Lemme de Johnson–Lindenstrauss . . . . . . . . . . . . . . . . . . 41
5.2 Preuve du Lemme de Johnson–Lindenstrauss . . . . . . . . . . . . . . . . . . . . . . . . 42
5.3 Application à l’acquisition comprimée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

6 Transformée de Doob et marche aléatoire sur Z 49


6.1 Transformée de Doob d’une chaîne de Markov . . . . . . . . . . . . . . . . . . . . . . . 49
6.2 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.3 Marche aléatoire sur Z conditionnée à rester positive . . . . . . . . . . . . . . . . . . . 52

7 Convergence des chaînes de Markov réversibles 57

i
ii Table des matières

7.1 Structure algébrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57


7.2 Vitesse de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7.3 Temps de relaxation et temps de mélange . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.4 Caractérisation variationnelle du trou spectral . . . . . . . . . . . . . . . . . . . . . . . 62
7.5 Bornes sur les trous spectraux γ et γ∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

8 Méthode de Monte Carlo et simulation parfaite 67


8.1 Méthode de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
8.2 Simulation parfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

Bibliographie 75

Notations 77

Index 79
1 Transition de phase dans le graphe d’Erdős–Rényi

Le but de ce chapitre est de présenter une preuve particulièrement simple de l’existence d’une tran-
sition de phase dans le modèle de graphe aléatoire d’Erdős–Rényi. La preuve fournit des estimées du
bon ordre de grandeur, mais ne cherche pas à obtenir les constantes correctes (ce qui requiert des ar-
guments plus sophistiqués).

1.1 Le modèle d’Erdős–Rényi


Dans ce chapitre, nous nous intéresserons au modèle de graphe aléatoire G(n, p), n ∈ N∗ , p ∈ [0, 1].
Il s’agit d’une loi de probabilité sur l’ensemble des graphes ayant pour sommets l’ensemble JnK. Une
réalisation G ∼ G(n, p) du graphe aléatoire est alors obtenue de la façon suivante : indépendamment
pour chacune des paires {i, j} ⊂ JnK de sommets distincts, {i, j} est une arête de G avec probabilité p.
Ce modèle est généralement appelé le graphe aléatoire d’Erdős–Rényi, bien que cette version ait
en réalité été introduite par Gilbert [10], la version introduite par Erdős et Rényi [9] étant légèrement
différente (ils considèrent la loi uniforme sur tous les graphes avec sommets JnK possédant m arêtes).
Les propriétés géométriques d’une réalisation typique (connexité, tailles des composantes connexes,
etc.) présentent des comportements très variés selon la valeur de la probabilité p de rétention d’arête.
Dans ce chapitre, nous nous intéresserons principalement au comportement de la taille de la plus grande
composante connexe. Cette dernière change de façon abrupte au voisinage de p = 1/n.

1.2 La transition de phase


Considérons à présent une réalisation G ∼ G(n, p), où l’on suppose que p = c/n pour un c ∈ R
fixé. Le résultat principal de ce chapitre est le Théorème 1.1, dans lequel on montre que le comportement
de G change abruptement en c = 1 :
▷ Lorsque c < 1, la plus grande composante connexe de G contient au plus O(log n) sommets avec
grande probabilité 1 .
▷ Lorsque c > 1, la plus grande composante connexe de G contient O(n) sommets avec grande
probabilité. En fait, le théorème ci-dessous montre même davantage : avec grande probabilité, la
plus grande composante connexe de G contient un chemin 2 de longueur O(n) lorsque c > 1.
1. Lorsqu’une propriété P du graphe aléatoire G ∼ G(n, p) se produit avec probabilité 1 − on→∞ (1), on dit que G
possède la propriété P avec grande probabilité. Cette terminologie s’étend à tout autre modèle aléatoire dépendant d’un
paramètre n ∈ N.
2. Dans ce chapitre, un chemin de longueur ℓ dans un graphe (S, A) est une collection de sommets tous distincts
i1 , . . . , iℓ ∈ S tels que {ik , ik+1 } ∈ A pour tout k ∈ {1, . . . , ℓ − 1}.

1
2 Chapitre 1. Transition de phase dans le graphe d’Erdős–Rényi

Figure 1.1: Deux réalisations du graphe aléatoire d’Erdős–Rényi avec n = 500. Gauche : phase sous-critique
(p = 0.5/n). Droite : phase sur-critique (p = 1.3/n).

Ceci est formulé de façon précise dans le théorème suivant, dont la démonstration est donnée dans la
Section 1.5.
Théorème 1.1. Soit ϵ > 0 suffisamment petit. Soit G ∼ G(n, p).
1. Soit p = 1−ϵ
n . Alors, avec grande probabilité, aucune composante connexe de G ne contient plus de
7ϵ−2 log n sommets.
1+ϵ
2. Soit p = n . Alors, avec grande probabilité, G contient un chemin de longueur au moins 15 ϵ2 n.

1.3 Existence d’un chemin contenant presque tous les sommets


Comme seconde application des méthodes présentées dans ce chapitre, considérons à présent le
graphe aléatoire G ∼ G(n, p) dans le régime où p = c/n avec c tendant vers l’infini. Nous avons
vu qu’un chemin de longueur macroscopique (c’est-à-dire, de longueur O(n)) apparaît avec grande
probabilité dès que c > 1. Nous allons voir à présent qu’en choisissant c suffisamment grand, il existe
avec grande probabilité un chemin contenant une fraction des sommets aussi proche de 1 que l’on
souhaite.
Théorème 1.2. Pour tout ϵ > 0 suffisamment petit, il existe C = C(ϵ) tel que l’affirmation suivante soit
vraie. Si p = C/n et G ∼ G(n, p), alors G contient un chemin de longueur au moins (1 − ϵ)n avec grande
probabilité.

La preuve de ce résultat est donnée en Section 1.6.

1.4 Préliminaires
Cette section contient quelques outils techniques qui se révéleront utiles pour la preuve des Théo-
rèmes 1.1 et 1.2 : tout d’abord, une discussion de l’algorithme de « parcours en profondeur » d’un graphe,
qui joue un rôle central dans les preuves de ces théorèmes, puis des estimées sur des sommes de va-
riables de Bernoulli indépendantes.
1.4. Préliminaires 3

1.4.1 Exploration d’un graphe par l’algorithme de parcours en profondeur


Dans cette section, nous décrivons un algorithme d’exploration de graphe qui joue un rôle central
dans la preuve des Théorèmes 1.1 et 1.2 : l’algorithme du « parcours en profondeur », plus connu sous
son nom anglais de Depth-First Search, dont nous utiliserons l’acronyme DFS pour désigner l’algorithme
dans le reste de ce chapitre.
DFS est un algorithme d’exploration des sommets d’un graphe fini G = (S, A). On supposera les
sommets de S ordonnés, disons S := JnK. Lors de son application, on fait évoluer une partition de S
en 3 ensembles disjoints :
▷ l’ensemble T des sommets traités ;
▷ l’ensemble I des sommets inexplorés ;
▷ la collection ordonnée P des sommets à traiter, qui est utilisée comme une pile (stack en anglais)
fonctionnant en mode LIFO (pour last in, first out, soit « dernier entré, premier sorti »). On utilisera
la notation P = |a1 , . . . , ak ⟩ pour désigner une pile composée des éléments a1 , . . . , ak ordonnés
selon leur ordre d’arrivée sur la pile, ak représentant ainsi l’élément se trouvant au sommet de la
pile.
L’algorithme DFS prend la forme suivante :
Algorithme 1 : parcours en profondeur
Entrées : un graphe G = (S, A), où S = JnK
Initialisation : T = ∅, P = ∅, I = S
tant que P ∪ I ̸= ∅ faire
si P = ∅ alors
// Si la pile est vide, on retire le premier sommet appartenant à I
// et on le dépose sur la pile.
soit i le premier sommet de I // selon l’ordre des sommets
on retire i de l’ensemble I
on place i sur la pile P
fin
soit v le sommet se trouvant sur la pile P
// On cherche le premier sommet u de I tel que {v, u} ∈ A.
répéter
soit u le sommet suivant de I // selon l’ordre des sommets
jusqu’à u est voisin de v ou u est le dernier sommet de I
// Si on a trouvé un tel sommet u,
si {v, u} ∈ A alors
on retire u de l’ensemble I
on place u sur la pile P
sinon
on retire v de la pile P
on ajoute v à l’ensemble T
fin
fin

Exemple 1.3. Afin d’être certain d’avoir bien compris comment cet algorithme fonctionne, considérons
par exemple le graphe représenté sur la Figure 1.2. Voici l’évolution de l’algorithme lors de l’exploration
de ce dernier (on indique le “temps” à gauche, ce dernier est incrémenté à chaque fois que la présence
d’une nouvelle arête est testée) :
0 : Initialisation : T = ∅, P = ∅, I = {1, 2, 3, 4, 5, 6}.
4 Chapitre 1. Transition de phase dans le graphe d’Erdős–Rényi

2 6

3 5

4
Figure 1.2: Le graphe discuté dans l’exemple 1.3.

On déplace 1 sur la pile : T = ∅, P = |1⟩, I = {2, 3, 4, 5, 6}.


1,2 : On teste, sans succès, les paires suivantes : {1, 2}, {1, 3}.
3 : L’arête {1, 4} appartenant au graphe, on déplace 4 sur la pile : T = ∅, P = |1, 4⟩, I = {2, 3, 5, 6}.
4,5 : On teste, sans succès, les paires suivantes : {4, 2}, {4, 3}.
6 : L’arête {4, 5} appartenant au graphe, on déplace 5 sur la pile : T = ∅, P = |1, 4, 5⟩, I = {2, 3, 6}.
7,8,9 : On teste, sans succès, les paires suivantes : {5, 2}, {5, 3}, {5, 6}.
On n’a trouvé aucune arête, on déplace donc 5 dans T : T = {5}, P = |1, 4⟩, I = {2, 3, 6}.
10 : On sait déjà que les arêtes {4, 2}, {4, 3} ne sont pas dans le graphe. On teste donc, sans succès,
la paire {4, 6}.
On n’a trouvé aucune arête, on déplace donc 4 dans T : T = {4, 5}, P = |1⟩, I = {2, 3, 6}.
11 : On sait déjà que les arêtes {1, 2}, {1, 3} ne sont pas dans le graphe. On teste donc, sans succès,
la paire {1, 6}.
On n’a trouvé aucune arête, on déplace donc 1 dans T : T = {1, 4, 5}, P = ∅, I = {2, 3, 6}.
La pile est vide. On déplace donc 2 sur la pile : T = {1, 4, 5}, P = |2⟩, I = {3, 6}.
12 : On teste, sans succès, la paire {2, 3}.
13 : L’arête {2, 6} appartenant au graphe, on déplace 6 sur la pile : T = {1, 4, 5}, P = |2, 6⟩, I = {3}.
14 : On teste, sans succès, la paire {6, 3}.
On n’a trouvé aucune arête, on déplace donc 6 dans T : T = {1, 4, 5, 6}, P = |2⟩, I = {3}.
On sait déjà que l’arête {2, 3} n’est pas dans le graphe.
On n’a trouvé aucune arête, on déplace donc 2 dans T : T = {1, 2, 4, 5, 6}, P = ∅, I = {3}.
La pile est vide. On déplace donc 3 sur la pile : T = {1, 2, 4, 5, 6}, P = |3⟩, I = ∅.
Il n’y a plus de paires à tester. On déplace donc 3 dans T : T = {1, 2, 3, 4, 5, 6}, P = ∅, I = ∅.
On a exploré tous les sommets. L’algorithme s’arrête. ⋄
Faisons quelques observations sur l’exemple précédent qui restent manifestement vraies en général.
▷ À chaque instant, on sait déjà qu’aucun des sommets placés dans T ne possède de voisin dans I.
▷ La pile est vide précisément au moment où l’on a terminé d’explorer une composante connexe du
graphe. On appellera époque la partie de l’algorithme se trouvant entre deux instants successifs
où la pile est vide. Chaque époque correspond donc à l’exploration d’une composante connexe
du graphe.
▷ Il suit de l’observation précédente que l’ensemble des sommets placés sur la pile appartiennent
toujours à la même composante connexe (bien sûr, certains des sommets de cette composante ont
déjà pu être déplacés dans T ). Mais plus que cela est vrai : par construction ils forment toujours
1.4. Préliminaires 5

un chemin. En effet, lorsqu’un nouveau sommet est placé sur la pile, ceci se produit parce que ce
sommet est un voisin du sommet se trouvant précédemment au sommet de la pile, incrémentant
d’une unité la longueur du chemin déjà présent dans la pile.
Notons que l’algorithme DFS décrit ci-dessus explore tous les sommets du graphe, mais pas néces-
sairement toutes ses arêtes. Par la suite, on souhaitera déterminer également ces dernières. On com-
plétera donc l’exploration du graphe par une étape finale dans laquelle on teste, dans l’ordre, toutes
les paires de sommets dont on n’a pas encore déterminé s’ils sont reliés par une arête. L’algorithme va
ainsi demander l’état de chacune des N := n2 arêtes du graphe complet à n sommets Kn .
Soit (Xk )Nk=1 des variables aléatoires i.i.d. suivant chacune une loi de Bernoulli de paramètre p.
Appliquer l’algorithme DFS à une réalisation du graphe aléatoire d’Erdős–Rényi, est équivalent à lui
fournir la valeur prise par la variable Xk lors de sa kième demande. Ainsi, toute la structure du graphe
aléatoire est contenue dans la réalisation des variables aléatoires (Xk )N
k=1 . Nous allons voir, à présent,
qu’une telle réalisation possède, avec probabilité tendant vers 1 lorsque n → ∞, certaines propriétés
garantissant que les affirmations des Théorèmes 1.1 et 1.2 sont vraies.

1.4.2 Quelques estimées sur les sommes de variables de Bernoulli indépendantes


Cette section est consacrée à quelques résultats élémentaires sur les variables aléatoires (Xk )Nk=1 .
Les lemmes 1.7 et 1.8 forment la partie probabiliste de la preuve du Théorème 1.1, le reste de la preuve
étant alors purement déterministe. Commençons par une borne standard sur la queue supérieure d’une
variable binomiale.
Lemme 1.4. Soit n ∈ N∗ , p ∈ [0, 1], X ∼ Bin(n, p). Alors,

  δ 2 pn 
∀δ > 0, P X ⩾ (1 + δ)E[X] ⩽ exp − .
2+δ
Démonstration. L’inégalité de Markov implique que, pour tout t > 0,

P X ⩾ (1 + δ)E[X] = P(X ⩾ (1 + δ)np) = P(etX ⩾ et(1+δ)np ) ⩽ e−t(1+δ)np E(etX ).




Évidemment, X = X1 +· · ·+Xn , où X1 , . . . , Xn sont i.i.d. et X1 ∼ Bern(p). Par conséquent, E(etX ) =


loi

E(etX1 )n = (pet + 1 − p)n ⩽ e(e −1)pn . On optimise à présent sur t en choisissant t = log(1 + δ). On
t

obtient E(etX ) ⩽ eδpn et donc


     δ 2 pn 
P X ⩾ (1 + δ)E[X] ⩽ exp − (1 + δ) log(1 + δ) − δ pn ⩽ exp − ,
2+δ
x
où l’on a utilisé l’inégalité log(1 + x) ⩾ , valide pour tout x ⩾ 0.
1 + 12 x
Remarque 1.5. Observons qu’il sera essentiel dans ce qui suit d’avoir un exposant dépendant linéairement
de p dans la borne précédente. En particulier, l’inégalité de Hoeffding donnerait dans le cas présent la borne
 
P X ⩾ (1 + δ)E[X] ⩽ exp −2δ 2 p2 n ,


ce qui ne serait pas suffisant. ⋄


On peut également obtenir une borne similaire sur la queue inférieure (ce résultat n’est pas nécessaire
dans ce chapitre, mais sera utilisé dans le Chapitre 4).
Lemme 1.6. Soit n ∈ N∗ , p ∈ [0, 1], X ∼ Bin(n, p). Alors,

  δ 2 pn 
∀δ ∈ (0, 1), P X ⩽ (1 − δ)E[X] ⩽ exp − .
2
6 Chapitre 1. Transition de phase dans le graphe d’Erdős–Rényi

Démonstration. Pour tout t > 0,

P(X ⩽ (1 − δ)pn) = P(e−tX ⩾ e−t(1−δ)pn ) ⩽ et(1−δ)pn E(e−tX ).

Or, E(e−tX ) = (e−t p + 1 − p)n ⩽ e−(1−e . Par conséquent,


−t )pn

−t )−t(1−δ))pn
P(X ⩽ (1 − δ)pn) ⩽ e−((1−e .

Optimiser sur t conduit à prendre t = − log(1 − δ), ce qui donne


√ 2 pn/2
P(X ⩽ (1 − δ)pn) ⩽ e−(δ+(1−δ) log(1−δ))pn ⩽ e−(1− 1−δ)δpn ⩽ e−δ ,
√ √
puisque log(1 − δ) ⩾ −δ/ 1 − δ et 1 − 1 − δ ⩾ δ/2 pour tout δ ∈ (0, 1).

Lemme 1.7. Soit ϵ ∈ (0, 17 ) et k := ⌈(7/ϵ2 ) log n⌉. Soit (Xk )N


k=1 des variables aléatoires i.i.d. suivant
chacune une loi de Bernoulli de paramètre p = (1 − ϵ)/n. Alors, avec grande probabilité,
b
(1.1)
X
∄ a, b ∈ JN K tels que b − a + 1 = kn et Xi ⩾ k.
i=a

Démonstration. Pour tout a, b ∈ JN K tels que b − a + 1 = kn, bi=a Xi ∼ Bin(kn, p). Soit donc
P
X ∼ Bin(kn, p). Notons que E[X] = kpn = (1 − ϵ)k ⩽ k/(1 + ϵ). Il suit donc du Lemme 1.4 que

P(X ⩾ k) ⩽ P X ⩾ (1 + ϵ)E[X] ⩽ exp − 31 ϵ2 (1 − ϵ)k ,


 

où l’on a utilisé le fait que ϵ < 1. La conclusion suit facilement de l’inégalité de Boole :

 b
X 
P ∃a, b ∈ JN K, b − a + 1 = kn, Xi ⩾ k ⩽ (N − kn + 1)P(X ⩾ k)
i=a
⩽ 12 n2 exp − 13 ϵ2 (1 − ϵ)k ⩽ 12 n2 exp − 73 (1 − ϵ) log n = o(1),
 

puisque ϵ < 1/7.

Lemme 1.8. Soit ϵ > 0 et N0 := ⌊ϵn2 /2⌋. Soit (Xk )N k=1 des variables aléatoires i.i.d. suivant chacune
une loi de Bernoulli de paramètre p = (1 + ϵ)/n. Alors, avec grande probabilité,
N0
ϵ(1 + ϵ)n
(1.2)
X
Xi − ⩽ n2/3 .
2
i=1

Démonstration. Soit X := i=1 Xi ∼ Bin(N0 , p). Alors, E[X] = N0 p =


PN0 1
2 ϵ(1 + ϵ)n + O(1/n).
L’inégalité de Tchebychev implique donc
 ϵ(1 + ϵ)n   4N0 p(1 − p) 2ϵ(1 + ϵ)n
P X− > n2/3 ⩽ P |X − E[X]| > 12 n2/3 ⩽ 4/3
⩽ = o(1).
2 n n4/3

1.5 Preuve du Théorème 1.1


Soit (Xi )N
i=1 la collection de variables aléatoires déterminant le graphe G ∼ G(n, p) lorsqu’on
explore ce dernier à l’aide de l’algorithme d’exploration DFS. Commençons par faire trois observations
élémentaires :
1.5. Preuve du Théorème 1.1 7

(O1) À chaque étape de l’algorithme, toutes les paires {i, j} de sommets avec i ∈ T et j ∈ I ont été
testées (négativement : les sommets ne sont pas reliés par une arête). En particulier, au temps t
(c’est-à-dire après t paires testées), on a nécessairement t ⩾ |T | · |I|.
(O2) Les éléments de P appartenant toujours à une même composante connexe et le placement de
n’importe quel sommet d’une composante connexe donnée, sauf le premier, résultant du test
d’une paire de sommets ayant obtenu une réponse positive P(la variable Xi correspondante pre-
nant la valeur 1), on doit nécessairement avoir |P | ⩽ 1 + i=1 Xi au temps t.
t

(O3) De plus, tant que I ̸= ∅, chaque test de présence d’une arête recevant une réponse positive
conduit à retirer un sommet de I et à le placer sur la pile P . Ce sommet rejoindra ultérieurement
T , mais ne peut en aucun cas retourner dans I. Il suit que
P si l’on a toujours I ̸= ∅ après t paires
testées, alors on doit nécessairement avoir |T ∪ P | ⩾ ti=1 Xi .
Nous sommes à présent en mesure de démontrer les deux affirmations du théorème. Nous supposerons
dans la preuve que ϵ est choisi suffisamment petit et n suffisamment grand.

1.5.1 Régime sous-critique


Par le Lemme 1.7, nous pouvons supposer que les variables aléatoires (Xi )N i=1 satisfont (1.1). Nous
allons voir que la première affirmation du théorème suit alors de façon déterministe.
Supposons, par l’absurde, que G contienne une composante connexe C constituée de plus de k :=
⌈(7/ϵ2 ) log n⌉ sommets. Concentrons-nous sur l’époque durant laquelle C est explorée et considérons
en particulier l’instant où le (k + 1)ième sommet de C est découvert, juste avant qu’il soit déplacé sur
la pile P .
Notons TC := T ∩ C l’ensemble des sommets de C ayant déjà rejoint l’ensemble T des sommets
traités. Alors, |TC ∪ P | = k, ce qui signifie que l’algorithme a reçu exactement k réponses positives
durant cette époque jusqu’à cet instant (chacune révélant un nouveau sommet de C ; seul le premier
sommet de C a été ajouté à P au début de l’époque, sans nécessiter de test).
Observons qu’au cours de cette époque et jusqu’à cet instant, les paires testéescontiennent toutes
au moins un sommet de TC ∪ P . Or, le nombre de telles paires est au plus égal à k2 + k(n − k) < kn.
Il suit P
des observations précédentes qu’on a trouvé un intervalle J ⊂ JN K de longueur au plus kn
et tel que i∈J Xi ⩾ k. Mais cela contredit notre hypothèse que la condition (1.1) est satisfaite.

1.5.2 Régime sur-critique


Par le Lemme 1.8, nous pouvons supposer que les variables aléatoires (Xi )N i=1 satisfont (1.2). La
seconde affirmation du théorème en est, à nouveau, une conséquence déterministe.
Nous allons vérifier qu’après les premiers N0 := ⌊ϵn2 /2⌋ tests de paires de sommets, la pile P
contient au moins 51 ϵ2 n sommets (ces sommets formant nécessairement un chemin, comme on l’a vu
précédemment).
Observons tout d’abord que |T | < n/3 au temps N0 . En effet, supposons par l’absurde que ce ne
soit pas le cas. On peut alors considérer le temps t auquel |T | = ⌈n/3⌉ (qui est bien défini, puisque
T croît d’un sommet à la fois). À cet instant,P comme nous avons P supposé la propriété (1.2) satisfaite,
il suit de l’observation (O2) que |P | ⩽ 1 + ti=1 Xi ⩽ 1 + N 0
X
i=1 i < n/3 − 1, d’où l’on déduit
que |I| = n − |T | − |P | ⩾ n/3. De plus, par l’observation (O1), on a testé au temps t au moins
|T | · |I| ⩾ n2 /9 > N0 paires de sommets, ce qui est impossible puisque t ⩽ N0 .
Retournons à la situation au temps N0 . Supposons par l’absurde que |P | < 15 ϵ2 n. Puisque |T | <
n/3, ceci implique que I ̸= ∅. En particulier, l’algorithme est encore en train d’explorer les sommets
de G (il n’est pas encore entré dans la phase finale lors de laquelle on ne cherche plus qu’à déterminer
l’ensemble des arêtes). En utilisant à nouveau notre hypothèse (1.2), on sait que le nombre de réponses
positives au temps N0 est supérieur ou égal à 21 ϵ(1 + ϵ)n − n2/3 . Par l’observation (O3), on a donc
|T ∪ P | ⩾ 21 ϵ(1 + ϵ)n − n2/3 au temps N0 . Comme on a supposé que |P | < 51 ϵ2 n, on conclut que |T | ⩾
8 Chapitre 1. Transition de phase dans le graphe d’Erdős–Rényi

1 3 2 2/3 . En utilisant à nouveau l’observation (O1), on a N ⩾ |T |·|I| ⩾ |T |(n−|T |− 15 ϵ2 n).


2 ϵn+ 10 ϵ n−n 0
On obtient ainsi
ϵn2  ϵ2 n 
⩾ N0 ⩾ |T | n − |T | − .
2 5
Le second facteur du membre de droite est positif, puisque |T | < n/3. Le membre de droite restreint
aux valeurs T ∈ [ 12 ϵn + 10
3 2
ϵ n − n2/3 , 31 n] atteint son minimum en |T | = 12 ϵn + 10
3 2
ϵ n − n2/3 . On a
donc
 ϵn 3ϵ2 n  ϵn ϵ2 n  ϵn2 ϵ2 n2 ϵn2
N0 ⩾ + − n2/3 n − − + n2/3 = + + O(ϵ3 )n2 + o(n2 ) > ,
2 10 2 2 2 20 2
ce qui est incompatible avec le fait que N0 = ⌊ϵn2 /2⌋. On en conclut que |P | ⩾ 51 ϵ2 n, ce qui termine
la preuve.

1.6 Preuve du Théorème 1.2


Commençons par établir le résultat élémentaire (et déterministe) suivant.

Lemme 1.9. Soit n > k > 0 deux entiers. Soit G = (S, A) un graphe avec |S| = n sommets et tel que
pour toute paire de sous-ensembles disjoints S1 , S2 ⊂ S de taille k, on peut trouver une arête {i, j} ∈ A
avec i ∈ S1 et j ∈ S2 . Alors, G contient un chemin de longueur n − 2k + 2.

Démonstration. On applique l’algorithme d’exploration DFS au graphe G. Considérons l’étape d’exé-


cution de cet algorithme à laquelle |T | = |I|. Observons que cela se produit nécessairement, puisque
chaque déplacement d’un sommet se fait soit de I vers P , soit de P vers T (dans les deux cas, |I| − |T |
décroît d’une unité). Nous savons également que G ne contient jamais d’arête reliant un sommet de T
à un sommet de I. Il suit donc de l’hypothèse du lemme que |T | = |I| ⩽ k − 1 à cet instant. Comme
|T | + |P | + |I| = n, on en conclut que |P | ⩾ n − 2k + 2. La conclusion suit, puisque les sommets de
P forment toujours un chemin.

Afin de démontrer le Théorème 1.2, il nous suffit donc de prouver que G ∼ G(n, p) contient, avec
grande probabilité, une arête entre toute paire de sous-ensembles disjoints S1 , S2 ⊂ S de taille k :=
⌈ϵn/2⌉. Soit donc S1 , S2 ⊂ S tels que S1 ∩ S2 = ∅ et |S1 | = |S2 | = k. La probabilité que G ne
contienne aucune des |S1 | · |S2 | = k 2 arêtes reliant ces deux ensembles est égale à (1 − p)k . Par
2

conséquent, une application de l’inégalité de Boole nous donne que la probabilité de trouver une telle
paire de sous-ensembles est bornée supérieurement par
 2
n n−k en 2 −Ck/n k
     
k2 n k2
 en 2k
−pk2
(1 − p) < (1 − p) < e < e ,
k k k k k

où l’on a utilisé les inégalités élémentaires 1 − p ⩽ e−p et 3 nk < en . En choisissant C := 5|log ϵ|/ϵ,
 k
k
on a (en/k)2 e−Ck/n ⩽ 4e2 ϵ1/2 < 1 dès que ϵ < (2e)−4 . On en conclut que la probabilité tend vers 0
exponentiellement rapidement avec n.

Remarques bibliographiques : Ce chapitre est basé sur l’article [14].


3. Il suffit d’observer que ek kℓ 1 kk
Par conséquent, nk en k
.
1
P∞ 1 n
 
kk
= kk ℓ=0 ℓ! > kk k!
= k!
. k
⩽ k!
⩽ k
2 Distance en variation totale et couplages

Dans tout ce chapitre, nous considérons un ensemble Ω dénombrable (fini ou infini). On note
M1 (Ω) l’ensemble des mesures de probabilité sur (Ω, P(Ω)).

2.1 Distance en variation totale


La distance en variation totale fournit une notion de proximité uniforme entre deux mesures de
probabilité.
Définition 2.1. Soit µ, ν ∈ M1 (Ω). La distance en variation totale entre µ et ν est

∥µ − ν∥VT := sup |µ(A) − ν(A)|. (2.1)


A⊂Ω

Lemme 2.2. La distance en variation totale définit une métrique sur M1 (Ω).

Démonstration. Laissée en exercice.


Le lemme suivant donne quelques expressions équivalentes pour cette quantité.
Lemme 2.3. Pour tout µ, ν ∈ M1 (Ω),
 1X
∥µ − ν∥VT = sup µ(A) − ν(A) = |µ(i) − ν(i)|.
A⊂Ω 2
i∈Ω

De plus, le supremum dans (2.1) est atteint lorsque A = E := {i ∈ Ω | µ(i) ⩾ ν(i)}.


Démonstration. La première identité suit immédiatement de l’observation que

|µ(A) − ν(A)| = max µ(A) − ν(A), µ(Ac ) − ν(Ac ) .




Passons aux autres affirmations. Soit E := {i ∈ Ω | µ(i) ⩾ ν(i)}. Alors, pour tout A ⊂ Ω,
X  X  X 
µ(A) − ν(A) = µ(i) − ν(i) ⩽ µ(i) − ν(i) ⩽ µ(i) − ν(i) = µ(E) − ν(E),
i∈A i∈A∩E i∈E

avec égalité lorsque A = E, ce qui montre que ∥µ − ν∥VT = µ(E) − ν(E). Finalement, la seconde
identité suit de
1  1X
µ(E) − ν(E) = µ(E) − ν(E) + ν(E c ) − µ(E c ) = |µ(i) − ν(i)|.
2 2
i∈Ω

9
10 Chapitre 2. Distance en variation totale et couplages

Il est clair de la définition que ∥µ − ν∥VT ∈ [0, 1] et que ∥µ − ν∥VT = 0 si et seulement si µ = ν. Le


lemme suivant implique, entre autre, que ∥µ − ν∥VT = 1 si et seulement si les supports de µ et ν sont
disjoints.
P
Lemme 2.4. Pour tout µ, ν ∈ M1 (Ω), ∥µ − ν∥VT = 1 − i∈Ω µ(i) ∧ ν(i).

Démonstration. Puisque x ∧ y = 12 x + y − |x − y| pour tout x, y ∈ R, on a




X X
1

µ(i) ∧ ν(i) = 2 µ(i) + ν(i) − |µ(i) − ν(i)| = 1 − ∥µ − ν∥VT .
i∈Ω i∈Ω

2.2 Couplage
Rappelons la notion de couplage, qui a probablement déjà été présentée dans le cours d’introduction.

Définition 2.5. Soit µ, ν ∈ M1 (Ω). Un couplage des mesures µ et ν est une mesure de probabilité
ρ ∈ M1 (Ω × Ω) dont les marginales coïncident avec µ et ν :

∀A ⊂ Ω, ρ(A × Ω) = µ(A), ρ(Ω × A) = ν(A).

Si X et Y sont deux variables aléatoires (pas nécessairement définies sur un même espace de probabilité)
toutes deux à valeurs dans Ω, un couplage de X et Y est une paire de variables aléatoires (définies sur
un même espace de probabilité) (X ′ , Y ′ ) dont la loi conjointe est un couplage des lois de X et de Y . Plus
généralement, on dit que (X ′ , Y ′ ) est un couplage de µ et ν si la loi conjointe de (X ′ , Y ′ ) est un couplage
de µ et ν.

Exemple 2.6. Soit 0 ⩽ p ⩽ q ⩽ 1. On considère les variables aléatoires X ∼ Bern(p) et Y ∼ Bern(q).


On considère deux variables aléatoires indépendantes X ′ ∼ Bern(p) et Y ′ ∼ Bern(q). Alors, (X ′ , Y ′ )
est un couplage de X et Y , appelé couplage indépendant. On a
 
′ ′
 (1 − p)(1 − q) (1 − p)q
P(X = i, Y = j) i,j∈{0,1} = . ⋄
p(1 − q) pq

Évidemment, considérer la mesure produit, comme dans l’exemple précédent, fournit toujours un cou-
plage (le couplage indépendant). Il est cependant généralement plus intéressant de considérer des cou-
plages possédant des propriétés supplémentaires. Une forme fréquemment utilisée est celle de couplage
monotone.
Définition 2.7. Soit (X, Y ) un couplage des lois µ et ν, où X et Y sont à valeurs dans un ensemble muni
d’un ordre partiel ⩾. Le couplage est dit monotone si P(X ⩽ Y ) = 1.

Exemple 2.8. Considérons à nouveau X ∼ Bern(p) et Y ∼ Bern(q) avec 0 ⩽ p ⩽ q ⩽ 1. Soit


U une variable aléatoire uniforme sur [0, 1]. On considère les variables aléatoires X ′′ := 1{U ⩽p} et
Y ′′ := 1{U ⩽q} . Alors, (X ′′ , Y ′′ ) est un couplage monotone de X et Y :
 
′′ ′′
 1−q q−p
P(X = i, Y = j) i,j∈{0,1}
= . ⋄
0 p

Exemple 2.9. Soit 0 ⩽ p ⩽ q ⩽ 1 et n ∈ N∗ . Soit Gp ∼ G(n, p) et Gq ∼ G(n, q) des graphes aléatoires


d’Erdős–Rényi (cf. Chapitre 1). Gp et Gq sont des sous-graphes aléatoires du graphe complet Kn =
(JnK, An ), où An := {{i, j} | 1 ⩽ i < j ⩽ n}. Ces sous-graphes sont naturellement partiellement
ordonnés par la relation d’inclusion. Nous allons étendre le couplage monotone de l’exemple précédent
aux graphes aléatoires Gp et Gq .
2.2. Couplage 11

Soit (Ue )e∈An une collection de variables aléatoires i.i.d., uniformes sur [0, 1]. Soit G′p , resp. G′q , le
sous-graphe de Kn obtenu en conservant tous les sommets et chaque arête e ∈ An telle que Ue ⩽ p,
resp. Ue ⩽ q. Alors (G′p , G′q ) est un couplage de Gp et Gq tel que

P(G′p ⊂ G′q ) = 1.

L’existence d’un tel couplage fournit immédiatement des informations intéressantes, pas toujours
faciles à établir directement. Soit f une fonction définie sur les sous-graphes de Kn et à valeur dans R.
On suppose f croissante : pour toute paire de sous-graphes G, G′ de Kn , G ⊂ G′ =⇒ f (G) ⩽ f (G′ ).
On peut, par exemple, considérer la fonction f (G) := 1{G est connexe} ou encore la fonction f (G) :=
max{|C| | C composante connexe maximale de G}. Soit G ∼ G(n, p). Alors, pour une telle fonction f ,
le couplage précédent implique que l’espérance de f (G) est croissante en p :

∀p ⩽ q, E[f (Gp )] = E[f (G′p )] ⩽ E[f (G′q )] = E[f (Gq )]. ⋄

Tout couplage entre deux mesures de probabilité fournit une borne sur leur distance en variation
totale.
Lemme 2.10. Soit µ, ν ∈ M1 (Ω). Pour tout couplage (X, Y ) de µ et ν, on a

∥µ − ν∥VT ⩽ P(X ̸= Y ).

Démonstration. Pour tout A ⊂ Ω,

µ(A) − ν(A) = P(X ∈ A) − P(Y ∈ A) ⩽ P(X ∈ A, Y ∈


/ A) ⩽ P(X ̸= Y ).

La conclusion suit donc du Lemme 2.3.

Exemple 2.11. Soit λ > ν > 0. On souhaite borner la distance en variation totale entre les lois des
variables aléatoires X ∼ Poisson(λ) et Y ∼ Poisson(ν). On va le faire en construisant un couplage de
X et Y .
Soit Y ′ ∼ Poisson(ν) et Z ′ ∼ Poisson(λ − ν) deux variables aléatoires indépendantes. On pose
X := Y ′ + Z ′ . Il suit du cours d’introduction à la théorie des probabilités que X ′ ∼ Poisson(λ). Par

conséquent, (X ′ , Y ′ ) est un couplage de X et Y et le Lemme 2.10 implique que

∥L (X) − L (Y )∥VT ⩽ P(X ′ ̸= Y ′ ) = P(Z ′ ̸= 0) = 1 − e−(λ−ν) . ⋄

Le résultat suivant montre que la borne du Lemme 2.10 est optimale.

Lemme 2.12. Soit µ, ν ∈ M1 (Ω). Il existe un couplage (X, Y ) de µ et ν tel que

∥µ − ν∥VT = P(X ̸= Y ).

Un tel couplage est appelé un couplage maximal de µ et ν.

Démonstration. Les cas ∥µ − ν∥VT ∈ {0, 1} sont triviaux et sont laissés en exercice ; on suppose donc
∥µ − ν∥VT ∈ (0, 1). Considérons à nouveau E := {i ∈ Ω | µ(i) ⩾ ν(i)}. Par le Lemme 2.4,
X
p̃ := µ(i) ∧ ν(i) = 1 − ∥µ − ν∥VT .
i∈Ω

En particulier, X X
(µ(i) − ν(i)) = (ν(i) − µ(i)) = ∥µ − ν∥VT = 1 − p̃.
i∈E i∈E
/

Ainsi,
12 Chapitre 2. Distance en variation totale et couplages

▷ p̃ ∈ (0, 1) ;
▷ ρE (·) := 1
1−p̃ (µ(·) − ν(·)) définit une mesure de probabilités sur E ;
▷ ρE c (·) := 1
1−p̃ (ν(·) − µ(·)) définit une mesure de probabilités sur E c ;
▷ ρmin (·) := p̃1 (µ(·) ∧ ν(·)) définit une mesure de probabilités sur Ω.
On peut à présent définir le couplage de la façon suivante :
▷ Avec probabilité p̃, on tire au hasard la valeur de X = Y dans Ω selon la loi ρmin .
▷ Sinon, on tire X au hasard dans E selon la loi ρE et on tire, indépendamment, Y au hasard dans
E c selon la loi ρE c .
Vérifions que (X, Y ) est un couplage de µ et ν.

∀i ∈ Ω, P(X = i) = p̃ρmin (i) + (1 − p̃)ρE (i)1{i∈E} = (µ(i) ∧ ν(i)) + (µ(i) − ν(i))1{i∈E} .

En considérant séparément les cas i ∈ E et i ∈ / E, on en déduit aisément que P(X = i) = µ(i) pour
tout i ∈ Ω, c’est-à-dire que X ∼ µ. Un calcul similaire montre que Y ∼ ν.
Finalement, ce couplage est maximal, puisque P(X ̸= Y ) = 1 − p̃ = ∥µ − ν∥VT .

Exemple 2.13. Retournons au cas de deux variables aléatoires indépendantes X ∼ Bern(p) et Y ∼


Bern(q), avec 0 < p ⩽ q < 1. On cherche à construire un couplage maximal (X ′′′ , Y ′′′ ) des lois de X
et Y . En reprenant les notations de la preuve du Lemme  2.12, on a Ω := {0, 1}, E := {0}, E :={1},
c

p̃ := (1 − q) + p, ρE (0) := 1, ρE c (1) := 1 et ρmin (i) i∈Ω := (1 − q)/(1 − q + p), p/(1 − q + p) . On


en conclut que
   
p̃ρmin (0) (1 − p̃)ρE (0)ρE c (1) 1−q q−p
P(X ′′′ = i, Y ′′′ = j) i,j∈{0,1} =

= ,
0 p̃ρmin (1) 0 p

ce qui n’est rien d’autre que le couplage monotone de l’Exemple 2.8. ⋄

2.3 Quelques applications


2.3.1 Distribution asymptotique des degrés dans le graphe aléatoire d’Erdős–Rényi
Soit n ∈ N∗ et c ∈ R∗+ . On considère le graphe aléatoire d’Erdős–Rényi G ∼ G(n, pn ) avec n
sommets et probabilité d’occupation
c
pn := .
n
Pour chaque i ∈ JnK, notons Di le degré du sommet i (c’est-à-dire, le nombre de voisins de i dans G) et
n
X
Nd := 1{Di =d}
i=1

le nombre de sommets de degré d. Dans cette section, on s’intéresse à la fraction asymptotique de som-
mets de degré d, Nd /n. Observons que les variables aléatoires 1{Di =d} sont identiquement distribuées,
mais pas indépendantes. On ne peut donc pas simplement recourir à la loi des grands nombres.

Théorème 2.14. Soit c ∈ R∗+ et d ∈ N. Alors,

Nd n→∞ cd −c
−−−→ e en probabilité.
n d!
2.3. Quelques applications 13

Démonstration. Les variables aléatoires Di étant toutes de loi Binom(n − 1, pn ), on a


n
hN i 1 X
d cd (n − 1)!  c n−1−d
E = P(Di = d) = P(D1 = d) = n−d 1 − ,
n n d! (n − 1 − d)! n
i=1

pour tout d ∈ {0, . . . , n − 1}. Évidemment, pour tout d ∈ N fixé,

d
(n − 1)! Y n−k  c n−1−d
lim n−d = lim =1 et lim 1 − = e−c ,
n→∞ (n − 1 − d)! n→∞ n n→∞ n
k=1

ce qui implique que


h N i cd
(2.2)
d
lim E = e−c .
n→∞ n d!
Il nous suffit donc de montrer que la variable aléatoire Nd /n est concentrée proche de son espérance.
Pour ce faire, estimons sa variance :
hN i n n
d 1 n hX 2 i hX i2 o
Var = 2 E 1{Di =d} −E 1{Di =d}
n n
i=1 i=1
1
= 2 nP(D1 = d) + n(n − 1)P(D1 = d, D2 = d) − n2 P(D1 = d)2
n
1
⩽ + P(D1 = d, D2 = d) − P(D1 = d)2 .
n

Notons que P(D1 = d)2 = P(D1 = d, D2′ = d), où D2′ ∼ Binom(n−1, pn ) est indépendante de D1 . La
différence entre les lois conjointes de (D1 , D2 ) et (D1 , D2′ ) est la présence de l’arête {1, 2} dont l’état
affecte à la fois D1 et D2 . Ceci suggère d’utiliser le couplage suivant. Soit Y1 , Y2 , X1 et X2 des variables
aléatoires indépendantes telles que Y1 ∼ Binom(n − 2, pn ), Y2 ∼ Binom(n − 2, pn ), X1 ∼ Bern(pn )
et X2 ∼ Bern(pn ). Alors, (D1 , D2 ) = (Y1 + X1 , Y2 + X1 ) et (D1 , D2′ ) = (Y1 + X1 , Y2 + X2 ). On a
loi loi

donc

P(D1 = d, D2 = d) − P(D1 = d)2


= P((Y1 + X1 , Y2 + X1 ) = (d, d)) − P((Y1 + X1 , Y2 + X2 ) = (d, d))
⩽ P((Y1 + X1 , Y2 + X1 ) = (d, d), (Y1 + X1 , Y2 + X2 ) ̸= (d, d))
= P(X1 = 0, Y1 = Y2 = d, X2 = 1) + P(X1 = 1, Y1 = Y2 = d − 1, X2 = 0)
2c
⩽ P(X2 = 1) + P(X1 = 1) = .
n

On obtient ainsi Var[Nd /n] ⩽ (1 + 2c)/n et donc, par l’inégalité de Tchebychev,


 N hN i  1 + 2c
(2.3)
d d
∀ϵ > 0, P −E ⩾ϵ ⩽ 2 .
n n ϵ n
La conclusion suit de (2.2) et (2.3).

2.3.2 Le couplage d’Ornstein


Dans cette section, nous présentons un couplage dû à Ornstein, avec application aux marches aléa-
toires sur Zd . Ce couplage peut s’appliquer également dans des contextes substantiellement plus géné-
raux.
14 Chapitre 2. Distance en variation totale et couplages

Marche aléatoire sur Z


Soit (XPk )k∈N∗ une collection de variables aléatoires i.i.d. à valeurs dans Z et soit a ∈ Z. On note
Sn := a + nk=1 Xk la marche aléatoire sur Z correspondante, partant du point a. On supposera que
la loi des incréments Xk est fortement apériodique :

∃i∗ ∈ Z, P(X1 = i∗ ) > 0 et pgcd{j ∈ Z | P(X1 − i∗ = j) > 0} = 1, (2.4)

où l’on a noté, pour tout A ⊂ Z, pgcd A := max{n ∈ N∗ | ∀m ∈ A, m/n ∈ Z}.

Remarque 2.15. Cette condition exclut, par exemple, la marche aléatoire simple sur Z, puisque l’on a
pgcd{j ∈ Z | P(X1 − 1 = j) > 0} = {0, −2} = 2. ⋄

Nous allons montrer le résultat de perte de mémoire suivant.

Théorème 2.16. Soit a ∈ Z. Soit (Xk )k∈N∗ et (Xk′ )k∈N∗ des variables
Pnaléatoires i.i.d. à valeurs
Pndans Z.
On suppose que (Xk ) et (Xk ) satisfaisant chacune (2.4). Soit Sn := k=1 Xk et Sn := a + k=1 Xk′ .
′ ′

Alors,
lim ∥L (Sn ) − L (Sn′ )∥VT = 0.
n→∞

Démonstration. Nous allons construire un couplage adéquat de Sn et Sn′ en couplant les trajectoires
des deux marches aléatoires. Soit i∗ comme dans (2.4) et soit c suffisamment grand pour que

(2.5)

pgcd j ∈ Z P(X1 − i∗ = j, |X1 − i∗ | ⩽ c) > 0 = 1.

Définissons
si |Xk − Xk′ | ⩽ c,
(
Xk′
Xk′′ :=
Xk si |Xk − Xk′ | > c,
et considérons la marche aléatoire Sn′′ := a + nk=1 Xk′′ . Faisons quelques observations. Tout d’abord,
P

comme (Xk , Xk′ ) = (Xk′ , Xk ), on a


loi

P(Xk′′ = j) = P(Xk′ = j, |Xk − Xk′ | ⩽ c) + P(Xk = j, |Xk − Xk′ | > c)


= P(Xk′ = j, |Xk − Xk′ | ⩽ c) + P(Xk′ = j, |Xk − Xk′ | > c) = P(Xk′ = j),

ce qui implique que (Sk′′ )k∈N = (Sk′ )k∈N (rappelons que les deux marches partent de a par définition).
loi

Considérons à présent la marche aléatoire (Rn )n∈N sur Z définie par

∀n ∈ N, Rn := Sn − Sn′′ .

Manifestement, Rn = −a + − Xk′′ ) et ses incréments sont bornés,


Pn
k=1 (Xk

P(|X1 − X1′′ | > c) = P(|X1 − X1′ | > c, |X1 − X1′ | ⩽ c) + P(|X1 − X1 | > c, |X1 − X1′ | > c) = 0,

et symétriques,

∀j ̸= 0, P(X1 − X1′′ = j) = P(X1 − X1′ = j, |X1 − X1′ | ⩽ c)


= P(X1′ − X1 = j, |X1 − X1′ | ⩽ c) = P(X1 − X1′′ = −j).

De plus,

P(X1 − X1′′ = j) ⩾ P(X1 − X1′ = j, |X1 − X1′ | ⩽ c)


⩾ P(X1 − i∗ = j, |X1 − X1′ | ⩽ c, X1′ = i∗ )
= P(X1 − i∗ = j, |X1 − i∗ | ⩽ c) P(X1′ = i∗ ).
2.3. Quelques applications 15

Il suit, par conséquent, de (2.4) et de (2.5) que la loi des incréments de (Rn )n∈N est apériodique :
pgcd j ∈ Z P(X1 − X1′′ = j) > 0 = 1.


Le lemme suivant, dont la preuve est donnée plus bas, implique donc que la marche (Rn )n∈N est irré-
ductible et récurrente.
Lemme 2.17. Toute marche aléatoire sur Z dont les incréments sont bornés, symétriques et apériodiques
est nécessairement irréductible et récurrente.
(Rn )n∈N étant irréductible et récurrente, T := inf{k ∈ N | Sk = Sk′′ } = inf{k ∈ N | Rk = 0} est
presque sûrement fini. Finalement, définissons la marche aléatoire (Sk′′′ )k∈N par
Sk′′ si k < T ,
(
∀n ∈ N, Sk′′′ :=
Sk si k ⩾ T .
Observons que (Sn , Sn′′′ ) est un couplage de Sn et Sn′ . De plus, {Sn ̸= Sn′′′ } ⊂ {T > n}. Il suit donc du
Lemme 2.10 que
∥L (Sn ) − L (Sn′ )∥VT ⩽ P(Sn ̸= Sn′′′ ) ⩽ P(T > n).
T étant presque sûrement fini, on a bien
lim ∥L (Sn ) − L (Sn′ )∥VT = 0.
n→∞

Preuve du Lemme 2.17. Sans perte de généralité, soit R̃n := nk=1 X̃k une marche aléatoire sur Z dont
P
les incréments i.i.d. (X̃k )k∈N∗ satisfont P(|X̃1 | ⩽ c) = 1 pour une constante c < ∞, P(X̃1 = i) =
P(X̃1 = −i) pour tout i ∈ Z et pgcd{j ∈ Z | P(X̃1 = j) > 0} = 1.
Soit A := {j ∈ Z | ∃n ∈ N, P(R̃n = j) > 0}. Clairement, A est stable sous addition et satisfait
−A = A (les incréments étant symétriques) et pgcd A = 1. Le lemme suivant, dont la preuve est
donnée plus bas, implique donc que A = Z, ce qui montre que (R̃n )n∈N est irréductible.
Lemme 2.18. Soit A ⊂ Z un ensemble stable sous addition et satisfaisant −A = A et pgcd A = 1. Alors,
A = Z.
Il nous reste donc à établir la récurrence de (R̃n )n∈N . Soit r ∈ N∗ et soit n suffisamment grand pour
que p := P(|R̃n | ⩽ 2r) < 1. Alors, pour tout k ∈ N∗ ,
P(|R̃n | ⩽ r, |R̃2n | ⩽ r, . . . , |R̃kn | ⩽ r) ⩽ pk .
En prenant la limite k → ∞, on en déduit que P(supn |R̃n | ⩽ r) = 0 et donc, r étant arbitraire,
P(sup|R̃n | = ∞) = 1.
n
Les incréments étant symétriques, il suit que
P(sup R̃n = ∞) = P(inf R̃n = −∞) ⩾ 1/2.
n n

Les événements {supn R̃n = ∞} et {inf n R̃n = −∞} appartenant à la tribu asymptotique, la loi 0-1
de Kolmogorov implique finalement que
P(sup R̃n = ∞) = P(inf R̃n = −∞) = 1,
n n

ce qui montre que (R̃n )n∈N change de signe infiniment souvent, presque sûrement. Les incréments
étant bornés, il suit que l’ensemble {−c, . . . , c} doit être visité infiniment souvent. Par conséquent, la
récurrence de (R̃n )n∈N suit de son irréductibilité.
Preuve du Lemme 2.18. Soit d := min{n ⩾ 1 | n ∈ A}. A étant stable sous addition et symétrique, il
suit que dZ ⊂ A. Pour chaque i ∈ A, il existe k ∈ Z tel que 0 ⩽ i − kd < d. Par définition de
d, ceci n’est possible que si i − kd = 0, ce qui montre que A ⊂ dZ, et donc A = dZ. Finalement,
d = pgcd A = 1.
16 Chapitre 2. Distance en variation totale et couplages

Marche aléatoire sur Zd


Notre but dans cette section est d’étendre le résultat de perte de mémoire du Théorème 2.16 aux
marches aléatoires sur Zd . Clairement, on ne peut pas procéder de la même façon, car l’équivalent du
Lemme 2.17 n’est pas vrai lorsque d ⩾ 3, la marche aléatoire étant alors transiente. Afin de simplifier
l’exposition au maximum, nous ne discuterons que d’un cas particulier, mais il est possible de combiner
les idées de cette section avec le couplage d’Ornstein afin de parvenir à un même niveau de généralité
que dans le cas d = 1.
Soit (Xk )k∈N∗ une suite de variables aléatoires i.i.d. à valeurs dans Zd telles que

1 1
P(X1 = j) = 1{j=0} + 1{∥j∥1 =1} .
2 4d
Étant donné a ∈ Zd , on note Sna := a + ni=1 Xk la marche aléatoire paresseuse sur Zd partant de
P
a.

Théorème 2.19. Soit a, b ∈ Zd . Alors,

lim ∥L (Sna ) − L (Snb )∥VT = 0.


n→∞

Démonstration. On définit, itérativement, deux processus stochastiques (Sn′ )n∈N et (Sn′′ )n∈N sur un
même espace de probabilité de la façon suivante :
▷ On pose S0′ := a et S0′′ := b.
▷ Une fois Sk′ et Sk′′ définis, on construit Sk+1
′ et Sk+1
′′ de la façon suivante :
▶ On choisit une composante I ∈ {1, . . . , d} au hasard uniformément.
▶ On pose Sk+1′ ′′ (s) := S ′′ (s) pour tout s ∈ {1, . . . , d} \ {I}.
(s) := Sk′ (s) et Sk+1 k
▶ Si Sk′ (I) = Sk′′ (I), alors
• avec probabilité 1/2, on pose Sk+1
′ (I) := Sk′ (I) et Sk+1
′′ (I) := S ′′ (I) ;
k
• avec probabilité 1/2, on tire W ∈ {−1, 1} au hasard uniformément et on pose Sk+1
′ (I) :=
Sk (I) + W , Sk+1 (I) := Sk (I) + W .
′ ′′ ′′

▶ Si Sk′ (I) ̸= Sk′′ (I), alors on tire W ∈ {−1, 1} au hasard uniformément et


• avec probabilité 1/2, on pose Sk+1
′ (I) := Sk′ (I) + W et Sk+1
′′ (I) := S ′′ (I) ;
k
• avec probabilité 1/2, on pose Sk+1
′ ′′ (I) := S ′′ (I) + W .
(I) := Sk′ (I) et Sk+1 k

Il est clair que (Sn′ )n∈N = (Sna )n∈N et (Sn′′ )n∈N = (Snb )n∈N . En outre, pour chaque composante s ∈
loi loi

{1, . . . , d}, la marche aléatoire définie par Rns := Sn′ (s) − Sn′′ (s) est une marche aléatoire sur Z dont
les incréments sont symétriques, bornés (égaux à −1, 0 ou 1) et apériodiques, jusqu’à la première visite
en 0, après quoi la marche ne quitte plus 0. Il suit donc du Lemme 2.17 que τ s := inf{n ∈ N | Rns = 0}
est fini presque sûrement, pour chaque s ∈ {1, . . . , d}. On en conclut que T := max1⩽s⩽d τ s est fini
presque sûrement.
Finalement, (Sn′ , Sn′′ ) fournit un couplage de Sna et Snb , et Sn′ ̸= Sn′′ implique que T > n. Il suit donc
du Lemme 2.10 que
∥L (Sna ) − L (Snb )∥VT ⩽ P(Sn′ ̸= Sn′′ ) ⩽ P(T > n)
tend vers 0 lorsque n → ∞.

Avant de conclure cette section, mentionnons une conséquence directe du Théorème 2.19. Le La-
placien discret sur Zd est l’opérateur défini par
1 X 
(∆f )(i) := f (j) − f (i) ,
2d
j∼i
2.3. Quelques applications 17

où la somme porte sur tous les sommets de Zd voisins du sommet i (c’est-à-dire tels que ∥j − i∥1 = 1).
Une fonction harmonique sur Zd est une fonction f : Zd → R telle que ∆f ≡ 0, c’est-à-dire telle
que la valeur en chaque sommet i ∈ Zd est égal à la moyenne des valeurs prises sur les voisins de i :
1 X
∀i ∈ Zd , f (i) = f (j).
2d
j∼i

Corollaire 2.20. Toutes les fonctions harmoniques bornées sur Zd sont constantes.

Démonstration. Soit (Sna )n∈N la marche aléatoire paresseuse sur Zd partant de a ∈ Zd et f une fonction
harmonique telle que supj |f (j)| ⩽ M . Alors, pour tout n ∈ N∗ ,
X
E[f (Sna )] = f (i)P(Sna = i)
i∈Zd
X X
= f (i) P(Sna = i | Sn−1
a a
= j) P(Sn−1 = j)
i∈Zd j∈Zd
X 1
 X 1{j∼i} 
a a
= f (i) P(Sn−1 = i) + P(Sn−1 = j)
d
2 d
4d
i∈Z j∈Z
1 a 1 X a 1 X
= E[f (Sn−1 )] + P(Sn−1 = j) f (i)
2 2 2d
d j∈Z i∼j
1 a 1 X a a
= E[f (Sn−1 )] + P(Sn−1 = j)f (j) = E[f (Sn−1 )].
2 2 d j∈Z

En itérant, on obtient E[f (Sna )] = E[f (S0a )] = f (a). Alors, pour tout a, b ∈ Zd ,
X
|f (a) − f (b)| = E[f (Sna )] − E[f (Snb )] = f (j) P(Sna = j) − P(Snb = j)


j∈Zd
X
⩽M P(Sna = j) − P(Snb = j)
j∈Zd

= 2M ∥L (Sna ) − L (Snb )∥VT .

Il suit alors du Théorème 2.19, en laissant n → ∞, que f (a) = f (b).

Remarques bibliographiques : Ce chapitre est basé sur les notes de cours [22] et sur le livre [26].
Une autre référence classique sur les couplages est [18].
3 Approximation de Poisson :
la méthode de Chen–Stein

Le résultat élémentaire suivant, parfois appelé la loi des petits nombres, est souvent établi dans
les cours d’introduction à la théorie des probabilités :
(n) (n)
Pour chaque n ∈ N∗ , soit I1 , . . . , In des variables aléatoires i.i.d. suivant chacune une loi
(n)
de Bernoulli de paramètre pn . Supposons que limn→∞ npn = λ > 0. Alors, Sn := nk=1 Ik
P
converge en loi vers une variable aléatoire S ∼ Poisson(λ) lorsque n → ∞.
Le but de ce chapitre est d’introduire une approche permettant d’étendre ce type de résultats au cas de
variables aléatoires ni forcément indépendantes, ni forcément identiquement distribuées. De plus, cette
approche fournira un contrôle de la distance entre les lois de Sn et de S.

3.1 Théorème de Chen


On considère le cadre suivant. Soit n ∈ N∗ et soit I1 , . . . , In des variables aléatoires de Bernoulli
de paramètre ρ1 , . . . , ρn respectivement. Posons Sn := I1 + · · · + In et λ := ρ1 + · · · + ρn ; on
supposera λ > 0. En lieu et place de l’indépendance des Ik , nous supposerons que la propriété suivante
est satisfaite :
Hypothèse H : il existe des variables aléatoires U1 , . . . , Un , V1 , . . . , Vn définies sur le même
espace de probabilité et telles que
1. Uk = Sn ;
loi

2. 1 + Vk = Sn | {Ik = 1}.
loi

Théorème 3.1. Soit pλ la loi de Poisson de paramètre λ. Sous l’hypothèse H,


n
1 − e−λ X  
∥L (Sn ) − pλ ∥VT ⩽ ρk E |Uk − Vk | .
λ
k=1

Exemple 3.2. Appliquons le théorème au cas particulier où les Ik sont indépendantes. Dans ce cas,
l’hypothèse H est clairement satisfaite pour le choix Uk := Sn et Vk := i∈JnK\{k} Ii = Sn − Ik .
P

Comme E |Uk − Vk | = E |Ik | = ρk , il suit du Théorème 3.1 que


   

n n
1 − e−λ X 2 X
∥L (Sn ) − pλ ∥VT ⩽ 1
ρk ⩽ min{1, λ } ρ2k .
λ
k=1 k=1

19
20 Chapitre 3. Approximation de Poisson : la méthode de Chen–Stein

Cette version est connue sous le nom de théorème de Le Cam. En particulier, dans le cas où les (Ik )
sont i.i.d., de loi Bern(ρ), on obtient
∥L (Sn ) − pλ ∥VT ⩽ min{nρ2 , ρ},
où l’on a utilisé le fait que λ = nρ. ⋄
Nous démontrerons le Théorème 3.1 dans la Section 3.2. Avant cela, énonçons quelques corollaires utiles
pour les applications. (D’autres versions sont également discutées dans les séries d’exercices.)
(k)
Corollaire 3.3. Supposons que, pour chaque k ∈ JnK, il existe des variables aléatoires (Zi )i∈JnK\{k}
(k) loi
telles que (Zi )i∈JnK\{k} = (Ii )i∈JnK\{k} | {Ik = 1}. Alors,
n
1 − e−λ X  X  (k) 

∥L (Sn ) − pλ ∥VT ⩽ ρk ρk + E |Ii − Zi | .
λ
k=1 i∈JnK\{k}

Démonstration. L’hypothèse H est satisfaite pour le choix Uk := Sn et Vk := i∈JnK\{k} Zi . Ainsi,


P (k)

(k)  (k) 
    X  X 
E |Uk − Vk | ⩽ E |Ik | + E |Ii − Zi | = ρk + E |Ii − Zi | .
i∈JnK\{k} i∈JnK\{k}

Corollaire 3.4. Supposons que, pour chaque i ∈ JnK, il existe Vi ⊂ JnK \ {i} tel que Ii soit indépendant
de (Ij )j ∈{i}∪V
/ i
. Alors,
n
1 − e−λ X 2 X 
∥L (Sn ) − pλ ∥VT ⩽ ρk + ρj ρk + E[Ij Ik ] .
λ
k=1 j∈Vk

Démonstration. Notons Vk := {k} ∪ Vk . On vérifie facilement que l’on peut choisir Uk := Sn et


X X (k)
Vk := Ij + Ij ,
j ∈V
/ k j∈Vk

où les variables aléatoires (Ij )j∈Vk sont tirées selon la loi conditionnelle
(k)

(k)
P(∀j ∈ Vk , Ij / V k , Ii = ai ).
= bj | ∀i ∈ JnK, Ii = ai ) = P(∀j ∈ Vk , Ij = bj | Ik = 1, ∀i ∈
La conclusion suit alors de
h i
(k)  (k) 
  X   X  
E |Uk − Vk | = E Ik + (Ij − Ij ) ⩽ E |Ik | + E |Ij | + E |Ij |
j∈Vk j∈Vk
X  X E[Ij Ik ]

= ρk + ρj + E[Ij | Ik = 1] = ρk + ρj + .
ρk
j∈Vk j∈Vk

3.2 Preuve du Théorème de Chen


3.2.1 L’équation de Chen
On cherche à borner
  
∥L (Sn ) − pλ ∥VT = sup P(Sn ∈ A) − P(N ∈ A) = sup E 1A (Sn ) − P(N ∈ A) ,
A⊂N A⊂N

où N ∼ Poisson(λ). L’idée au cœur de l’approche de Chen, inspirée d’une idée originellement intro-
duite par Stein dans un contexte gaussien, est d’utiliser la caractérisation suivante de la loi de Poisson.
3.2. Preuve du Théorème de Chen 21

Lemme 3.5. Soit Z une variable aléatoire à valeurs dans N et λ > 0. Alors, Z ∼ Poisson(λ) si et
seulement si
E[λf (Z + 1) − Zf (Z)] = 0,
pour toute fonction bornée f : N → R.

Au vu du lemme précédent 1 , on peut espérer que si la loi de Sn est proche d’une loi de Poisson, alors
E[λf (Sn + 1) − Sn f (Sn )] ≈ 0 pour toute fonction f : N → R bornée. On peut dès lors se demander
s’il n’existerait pas une fonction fA : N → R bornée et satisfaisant l’équation de Chen :

∀i ∈ N, 1A (i) − P(N ∈ A) = λfA (i + 1) − ifA (i).

En effet, l’existence d’une telle fonction permettrait d’écrire


   
E 1A (Sn ) − P(N ∈ A) = E λfA (Sn + 1) − Sn fA (Sn ) .

Lemme 3.6. Soit A ⊂ N et λ > 0. La fonction fA : N → R définie par fA (0) := 0 et

P(N ∈ A, N < i) − P(N ∈ A)P(N < i)


∀i ∈ N∗ , fA (i) :=
λP(N = i − 1)

est l’unique solution de l’équation de Chen satisfaisant fA (0) = 0. 2

On observe à présent que


n
  X  
E λfA (Sn + 1) − Sn fA (Sn ) = E ρk fA (Sn + 1) − Ik fA (Sn )
k=1
n
X 
= ρk E[fA (Sn + 1)] − E[fA (Sn ) | Ik = 1]
k=1
n
X  
= ρk E fA (Uk + 1) − fA (Vk + 1) .
k=1

La conclusion désirée suit donc du lemme suivant.


Lemme 3.7. Soit A ⊂ N et λ > 0. Alors,

1 − e−λ
∀i, j ∈ N∗ , |fA (j) − fA (i)| ⩽ |j − i|.
λ

3.2.2 Preuves des lemmes


Preuve du Lemme 3.5. Si Z ∼ Poisson(λ), alors
∞ ∞
X λk+1 X λk
E[λf (Z + 1) − Zf (Z)] = e−λ f (k + 1) − e−λ f (k) = 0.
k! (k − 1)!
k=0 k=1

Réciproquement, en appliquant l’identité avec f (i) = 1{i=k} avec k ∈ N, on obtient

0 = E[λ1{Z+1=k} − Z1{Z=k} ] = λP(Z = k − 1) − kP(Z = k).


1. Ce lemme n’est en fait pas utilisé dans la démonstration. Il n’est énoncé que dans le but de motiver la suite de la preuve.
2. On peut également vérifier que fA est bornée ; nous ne le faisons pas, car cela ne jouera aucun rôle par la suite.
22 Chapitre 3. Approximation de Poisson : la méthode de Chen–Stein

Par conséquent, pour tout k ∈ N,


λ λk
P(Z = k) = P(Z = k − 1) = · · · = P(Z = 0).
k k!
La conclusion suit, puisque 1 = = k) = eλ P(Z = 0) et donc P(Z = 0) = e−λ .
P
k∈N P(Z

Preuve du Lemme 3.6. On pose fA (0) := 0, puis on procède via la relation de récurrence fournie par
l’équation de Chen :
i 1 1
fA (i + 1) = fA (i) + 1A (i) − P(N ∈ A)
λ λ λ
i(i − 1) 1 i 1 i
= fA (i − 1) + 1A (i) + 2 1A (i − 1) − P(N ∈ A) − 2 P(N ∈ A)
λ2 λ λ λ λ
= ···
i i
i! X λk i! X λk
= 1 A (k) − P(N ∈ A)
λi+1 k! λi+1 k!
k=0 k=0
P(N ∈ A, N < i + 1) − P(N ∈ A)P(N < i + 1)
= .
λP(N = i)
Preuve du Lemme 3.7. Par l’inégalité triangulaire, il suffit de montrer que
1 − e−λ
∀i ∈ N∗ , |fA (i + 1) − fA (i)| ⩽ . (3.1)
λ
Observons d’une part que le Lemme 3.6 implique que fA∪B = fA + fB lorsque A ∩ B = ∅. En
particulier, X 
fA (i + 1) − fA (i) = f{j} (i + 1) − f{j} (i) .
j∈A

D’autre part, pour tout i ∈ N∗ et tout j ∈ N,



(i − 1)! λ − (i−1)! λj−i P(N < i) si j ⩾ i,
 j!
f{j} (i) = e P(N = j, N < i) − P(N = j)P(N < i) =
λi  (i−1)! j−i
j! λ P(N ⩾ i) si j < i.

i i
Comme P(N < i) ⩽ P(N < i + 1) et P(N ⩾ i) ⩾ P(N ⩾ i + 1), il suit que f{j} est décroissante
λ λ
sur {1, . . . , j}, ainsi que sur {j + 1, j + 2, . . . }. En particulier, f{j} (i + 1) − f{j} (i) ⩽ 0 pour tout i ̸= j,
ce qui implique que
1 λ 
fA (i + 1) − fA (i) ⩽ f{i} (i + 1) − f{i} (i) =P(N ⩾ i + 1) + P(N < i)
λ i
1  1  1 − e−λ
⩽ 1 − P(N ⩽ i) + P(0 < N ⩽ i) = 1 − P(N = 0) = .
λ λ λ
Comme fA + fAc = fN ≡ 0, on obtient, en appliquant l’inégalité précédente à fAc ,
 1 − e−λ
fA (i + 1) − fA (i) = − fAc (i + 1) − fAc (i) ⩾ − .
λ
La borne (3.1) est démontrée.

3.3 Quelques exemples d’application


Dans cette section, nous présentons quelques exemples élémentaires d’application des résultats de
ce chapitre. D’autres exemples seront considérés durant les séances d’exercices.
3.3. Quelques exemples d’application 23

3.3.1 Problème des anniversaires


On considère un groupe de m personnes. On suppose que leurs dates  d’anniversaire (jour et mois)
sont i.i.d., de loi uniforme sur {1, . . . , 365}. Soit k ⩽ m et n := m k . Quelle est la probabilité de
trouver k personnes partageant toutes la même date d’anniversaire ? Le calcul explicite , pour m et
k arbitraires, est difficile. Nous nous contenterons donc d’estimations, basée sur l’approximation de
Poisson. La qualité de cette approximation dépendra évidemment des valeurs choisies, mais l’approche
de ce chapitre permet au moins d’estimer l’erreur commise.
On considère l’ensemble de toutes les k-tuples K := {α ⊂ JmK | |α| = k} ; clairement, |K| = n.
Pour un k-tuple donné α ∈ K, notons Iα l’indicatrice de l’événement « les k membres du groupe α ont
la même date d’anniversaire ». Évidemment, ces variables aléatoires sont identiquement distribuées,
Iα ∼ Bern(ρα ) avec ρα ≡ ρ := 365−k+1 , mais ne sont pas indépendantes. Le nombre P de k-tuples dont
tous les membres partagent la même date d’anniversaire est alors donné par S := α∈K Iα .
On souhaite appliquer le Corollaire 3.4. Pour ce faire, il faut introduire des voisinages de dépendance
appropriés. Il est évident qu’avec le choix Vα := {β ∈ K\{α} | α∩β ̸= ∅}, on a bien que (Iβ )β ∈V / α ∪{α}
est indépendant de Iα . On a alors, pour tout β ∈ Vα ,

E[Iα Iβ ] = 365−|α∪β|+1 .

Le Corollaire 3.4 donne alors

1 − e−λ  2 
(3.2)
X
∥L (S) − pλ ∥VT ⩽ ρ + ρ2 + 365−|α∪β|+1 ,
ρ
β∈Vα

où λ := nρ et on a fixé un α ∈ K arbitraire. Considérons pour commencer le problème classique :


quelle est la probabilité qu’au moins deux personnes dans un groupe de 23 partagent la même date
d’anniversaire ? Ce cas correspond à m = 23 et k = 2, et on est intéressé à la probabilité que S > 0.
Évidemment, si N ∼ Poisson(λ), P(N ⩾ 1) = 1 − P(N = 0) = 1 − e−λ = 1 − e−253/365 ∼ = 0,5. La
borne (3.2) donne dans ce cas |P(S > 0) − P(N > 0)| ⩽ 0,059 et donc P(S > 0) ∈ [0,44, 0,56], ce qui
est bien sûr compatible avec la probabilité exacte qui est approximativement égale à 0,492.
Estimons à présent la probabilité de trouver trois personnes partageant la même date d’anniversaire
parmi un groupe de 50 personnes. On prend donc m = 50 et k = 3. Dans ce cas, ∥L (S) − pλ ∥VT ⩽
0,0597 et on obtient que la probabilité de trouver 3 personnes partageant une même date d’anniversaire
appartient à l’intervalle [0,077, 0,197] (ici, le résultat exact est d’environ 0,1264).

3.3.2 Séries de « pile » dans une succession de lancers


On lance une pièce de monnaie équilibrée un grand nombre de fois et on s’intéresse à la longueur
de la plus longue série (suite de lancers consécutifs) de « pile ». Formalisons le problème. On considère
une suite de variables aléatoires (Xk )k⩾1 i.i.d., suivant chacune une loi de Bernoulli de paramètre 1/2 ;
on interprétera Xi = 1 comme signifiant qu’un « pile » a été obtenu au lancer numéro i. Une série de
« pile » de longueur au moins ℓ débute au lancer numéro k ⩾ 2 si et seulement si

k+ℓ−1
Y
Ik := (1 − Xk−1 ) Xi = 1.
i=k

De même, une série de longueur au moins ℓ débute au premier lancer si


Y
I1 := Xi = 1.
i=1
24 Chapitre 3. Approximation de Poisson : la méthode de Chen–Stein

Évidemment, Ik ∼ Bern(ρk ) avec ρ1 := 2−ℓ et ρk := 2−ℓ−1 pour k ⩾ 2. Notons Rn la longueur de la


plus longue série débutant au plus tard au temps n. On a évidemment

n
X
Rn < ℓ ⇔ Sn := Ii = 0.
i=1

Lorsque n ≫ ℓ ≫ 1, il semblenaturel d’approximer Sn par une variable de Poisson de paramètre


λ := E[Sn ] = 2−ℓ 12 (n − 1) + 1 . On s’attend donc à ce que

−ℓ 1
P(Rn < ℓ) = P(Sn = 0) ≈ e−λ = e−2 2
(n−1)+1
.

Ainsi, si on prend ℓ = log2 1


− 1) + 1 + c, on obtient

2 (n

−c
P(Rn < ℓ) ≈ e−λ = e−2 .

Considérons à titre d’exemple, n := 2047. On a alors log2 12 (n − 1) + 1 = log2 (1024) = 10. Estimons


la probabilité d’observer une série de longueur 14 ou plus. Fixons ℓ := 14 et calculons

−4
P(R2047 ⩾ 14) ≈ 1 − e−2 ∼
= 0,06059.

On souhaite appliquer le Corollaire 3.4 afin d’évaluer la précision de cette approximation. On introduit,
pour chaque i ∈ JnK, le voisinage Vi := {j ∈ JnK \ {i} | |i − j| ⩽ ℓ}. Avec ce choix, (Ij )j ∈V
/ i ∪{i} est
bien indépendant de Ii . De plus,

∀i ∈ JnK, ∀j ∈ Vi , E[Ii Ij ] = 0.

En effet, comme Ik = 1 uniquement lorsque la série débute en k, il est impossible d’avoir Ii = Ij = 1


lorsque |j − i| ⩽ ℓ. Le Corollaire 3.4 donne donc

n n
1 − e−λ X 2 X  1 − e−λ X X
∥L (Sn ) − pλ ∥VT ⩽ ρk + ρk ρj = ρk ρj .
λ λ
k=1 j∈Vk k=1 j∈Vk ∪{k}

En utilisant
n
X X
ρk ρj ⩽ (n − ℓ − 1)(2ℓ + 1)2−2ℓ−2
k=ℓ+2 j∈Vk ∪{k}

(l’inégalité vient de la contrainte j ∈ JnK) et la borne grossière

ℓ+1
X X
ρk ρj ⩽ (ℓ + 1)(2ℓ + 1)2−2ℓ−1 ,
k=1 j∈Vk ∪{k}

on obtient
∥L (Sn ) − pλ ∥VT ⩽ 0,000054.

En particulier,
P(R2047 ⩾ 14) ∈ [0,06053, 0,06065].
3.3. Quelques exemples d’application 25

3.3.3 Le problème des rencontres


Le problème suivant a été proposé en 1708 par Pierre Rémond de Montmort [8] (et est très souvent
discuté en cours d’introduction aux probabilités, car il fournit une application naturelle du principe
d’inclusion-exclusion) 3 :
« Pierre a un certain nombre de cartes différentes qui ne sont point répétées, & qui sont
mêlées à discrétion ; il parie contre Paul que s’il les tire de suite, & qu’il les nomme selon
l’ordre des cartes, en commençant, ou par la plus haute, ou par la plus basse, il lui arrivera
au moins une fois de tirer celle qu’il nommera. [...] On demande quel eõ le sort ou l’espérance
de Pierre, pour quelque nombre de cartes que ce puisse être, depuis deux jusqu’à treize. »
L’énoncé précédent n’étant pas forcément limpide, reformulons-le précisément. On suppose que l’on a
un paquet de n cartes numérotées de 1 à n. Le paquet est supposé bien mélangé, dans le sens que l’ordre
des cartes est tiré uniformément parmi les n! ordres possibles. Le jeu consiste à retourner les cartes une
à une et Pierre gagne s’il existe au moins une valeur de k ∈ JnK telle que la k e carte retournée soit la
carte numéro k.
Reformulé en d’autre termes, Pierre perd si, en tirant au hasard uniformément une permutation
de l’ensemble JnK, celle-ci ne possède aucun point fixe (une telle permutation est appelée un dérange-
ment). Nous utiliserons ce langage dorénavant. Soit σn une permutation aléatoire uniforme de JnK. On
considère les variables aléatoires

∀i ∈ JnK, Ii := 1{σn (i)=i} .

Ces variables aléatoires sont manifestement identiquement distribuées, Ii ∼ Bern(ρi ) avec ρi ≡ ρ :=


1/n, mais ne sont pas indépendantes (observez que si σn (i) ̸= i, alors il existe au moins un autre j avec
σn (j) ̸= j). Notons Sn := ni=1 Ii le nombre total de points fixes de σn . Notre but est de montrer que
P
la loi de Sn converge en variation totale, lorsque n → ∞, vers la loi de Poisson de paramètre 1 :

lim ∥L (Sn ) − p1 ∥VT = 0.


n→∞

On souhaite appliquer le Théorème 3.1. Pour ce faire, étant donné k ∈ JnK et la permutation σn , consi-
dérons la permutation σ̃nk := τk,σn (k) ◦ σn où τi,j est la transposition échangeant i et j. Manifestement
σ̃nk est distribuée comme une permutation aléatoire uniforme conditionnée à avoir un point fixe en k.
On pose Uk := Sn et Vk := i∈JnK\{k} 1{σ̃nk (i)=i} . Alors, 1 + Vk = Sn | {Ik = 1}. Le Théorème 3.1
P loi

donne donc
n
−1 1
X  
∥L (Sn ) − p1 ∥VT ⩽ (1 − e ) E |Uk − Vk | ,
n
k=1
puisque ρk = ρ = 1/n pour tout k ∈ JnK et λ = nρ = 1. On observe ensuite que

1 si σn (k) = k,


|Uk − Vk | = 1 si k appartient à un 2-cycle de σn ,
0 sinon.

Par conséquent,
  1 1 2
E |Uk − Vk | = P(σn (k) = k) + P(∃j ∈ JnK \ {k}, σn (k) = j, σn (j) = k) = + = .
n n n
On obtient donc finalement
2(1 − e−1 )
∥L (Sn ) − p1 ∥VT ⩽ , (3.3)
n
3. L’intérêt de Montmort pour ce problème était motivé par le problème plus complexe de déterminer l’avantage du
banquier dans le jeu de hasard connu sous le nom de « Treize ».
26 Chapitre 3. Approximation de Poisson : la méthode de Chen–Stein

ce qui tend bien vers 0. En particulier, la probabilité que Pierre perde, soit P(Sn = 0), satisfait

2(1 − e−1 ) 2(1 − e−1 )


e−1 − ⩽ P(Sn = 0) ⩽ e−1 + .
n n
Notons que la borne (3.3) est loin d’être optimale : on peut montrer que ∥L (Sn ) − p1 ∥VT ⩽ 2n! .
n

En particulier, la convergence est en réalité super-exponentielle ! L’avantage de l’approche employée


ici est toutefois son adaptabilité à de nombreuses variantes plus complexes.

3.3.4 Sommets isolés dans le graphe aléatoire d’Erdős–Rényi


Les exemples précédents illustrent le fait que si la méthode de ce chapitre permet parfois des es-
timées quantitatives relativement précises, celles-ci sont souvent loin d’être optimales. Son intérêt se
trouve plutôt dans la possibilité de démontrer des résultats asymptotiques (ce que l’on aurait également
pu faire dans les exemples précédents). Nous allons à présent en voir deux exemples.
Soit n ∈ N∗ . On considère le graphe aléatoire d’Erdős–Rényi G ∼ G(n, pn ) (cf. Chapitre 1) avec
n sommets et probabilité d’occupation pn . Notons N0 le nombre de sommets isolés de G (c’est-à-dire,
de sommets de degré 0). Lorsque limn→∞ npn = ∞, il suit des résultats des Sections 1.3 ou 2.3.1 que
limn→∞ P(N0 > ϵn) = 0 pour tout ϵ > 0. Nous allons à présent établir deux résultats beaucoup plus
précis.
Le graphe aléatoire G est encodé à l’aide d’une famille de variables aléatoires i.i.d. (Xij )1⩽i<j⩽n
suivant chacune une loi de Bernoulli de paramètre pn : deux sommets distincts i, j ∈ JnK sont connectés
par une arête dans G si et seulement si Xij = 1 (où l’on a posé Xij := Xji lorsque i > j).
En termes de ces variables aléatoires, le sommet i ∈ JnK est isolé si et seulement si
Y
Ii := (1 − Xij ) = 1.
j∈JnK\{i}

Évidemment, les variables aléatoires Ii ont même loi, Ii ∼ Bern(ρi ) avec ρi ≡ ρ := (1 − pn )n−1 , mais
elles ne sont
Ppas indépendantes. Le nombre de sommets isolés du graphe G est alors simplement donné
par Sn := ni=1 Ii .
Nous allons utiliser le Corollaire 3.3. Pour ce faire, introduisons, pour chaque k ∈ JnK, les variables
aléatoires
(k)
Y
∀i ∈ JnK \ {k}, Zi := (1 − Xij ).
j∈JnK\{i,k}

Manifestement, (Zi )i∈JnK\{k} = (Ii )i∈JnK\{k} | {Ik = 1}. Une application du Corollaire 3.3 fournit
(k) loi

donc
n
1 − e−λ X  X  (k) 

∥L (Sn ) − pλ ∥VT ⩽ ρk ρk + E |Ii − Zi | ,
λ
k=1 i∈JnK\{k}

où λ := = nρ. Il nous faut à présent estimer E |Ii − Zi | . Observons que


Pn  (k) 
i=1 ρi

(k)
Y Y Y
Ii − Zi = (1 − Xij ) − (1 − Xij ) = Xik (1 − Xij ).
j∈JnK\{i} j∈JnK\{i,k} j∈JnK\{i,k}

En particulier, E |Ii − Zi | = pn (1 − pn )n−2 = ρpn /(1 − pn ). On obtient ainsi


 (k) 

1 − e−λ  pn   pn 
∥L (Sn ) − pλ ∥VT ⩽ nρ ρ + (n − 1)ρ ⩽ρ 1+n .
λ 1 − pn 1 − pn
Considérons à présent deux formes spécifiques pour la probabilité d’occupation pn .
3.3. Quelques exemples d’application 27

log n + c
Cas 1 : pn := , avec c ∈ R et n suffisamment grand.
n
Dans ce cas,
e−c  (log n)2   (log n)2 
ρ= +O , et λ = e−c + O .
n n2 n
On sait de l’inégalité triangulaire que

∥L (Sn ) − pe−c ∥VT ⩽ ∥L (Sn ) − pλ ∥VT + ∥pλ − pe−c ∥VT .

Comme  log n 
∥L (Sn ) − pλ ∥VT = O
n
et, par l’Exemple 2.11,

−c |
 (log n)2 
∥pλ − pe−c ∥VT ⩽ 1 − e−|λ−e =O ,
n
on en conclut que, dans la limite n → ∞, la loi du nombre Sn de sommets isolés de G converge vers la
loi de Poisson de paramètre e−c :

∀c ∈ R, lim ∥L (Sn ) − pe−c ∥VT = 0.


n→∞

c log n
Cas 2 : pn := , avec 0 < c < 1.
n
Dans ce cas,
 (log n)2   (log n)2 
ρ = n−c + O , et λ = n1−c + O .
n1+c nc
On obtient donc

∥L (Sn ) − pn1−c ∥VT ⩽ ∥L (Sn ) − pλ ∥VT + ∥pλ − pn1−c ∥VT


 log n   (log n)2   (log n)2 
=O + O = O . (3.4)
nc nc nc

Posons λn := n1−c . Soit Y ∼ Poisson(λn ) et Ŷ := (Y − λn )/ λn . La fonction caractéristique de Ŷ
satisfait, lorsque n → ∞,
√ √ √
λn eλn (eit/

λn −1) 1 2

+O(t3 /
∀t ∈ R, φŶ (t) = e−it λn
φY (t/ λn ) = e−it = e− 2 t λn )
,

ce qui implique que L (Ŷ ) −−−→ N (0, 1). Par (3.4)


n→∞

√  (log n)2 
P (Sn − n1−c )/ n1−c ⩽ x = P Ŷ ⩽ x + O
 
∀x ∈ R, .
nc

On en conclut que L ((Sn − n1−c )/ n1−c ) −−−→ N (0, 1).
n→∞

Remarques bibliographiques : Ce chapitre est basé sur le livre [5] et l’article [2].
4 Concentration de la mesure :
l’inégalité de Talagrand

Soit (Xk )k⩾1 des variables aléatoires identiquement distribuées, non corrélées et de variance finie.
Soit sn := n1 (X1 + · · · + Xn ) la moyenne empirique des n premières variables aléatoires. L’inégalité
de Bienaymé-Tchebychev montre alors que, pour toute suite (an )n⩾1 satisfaisant limn→∞ na2n = +∞,
Var(sn ) Var(X1 )
lim P(|sn − E(X1 )| > an ) ⩽ lim 2
= lim = 0.
n→∞ n→∞ an n→∞ na2n
En particulier, l’essentiel de la masse associée à la loi de (X1 + · · · + Xn )/n est concentrée dans un
intervalle de longueur n−1/2+ϵ (ϵ > 0 arbitraire) autour de E(X1 ) lorsque n devient grand.
Le but de ce chapitre est d’introduire certaines approches utiles à l’étude de ce type de phénomènes
de concentration. Il s’agit d’un domaine très vaste, que nous ne ferons qu’effleurer. Plus précisément,
nous allons démontrer l’inégalité de Talagrand, qui constitue une contribution majeure à cette théorie.
Nous travaillerons toujours sous des hypothèses d’indépendance. Par contre, nous ne nous restrein-
drons pas à des fonctions linéaires comme la moyenne empirique. Un principe général dans cette théorie
est qu’une fonction f de variables aléatoires X1 , . . . , Xn indépendantes ne dépendant que faiblement
de la valeur prise par chacune de ces variables, devrait être approximativement constante avec une
probabilité proche de 1. Observez que c’est le cas de la moyenne empirique : la contribution de chacune
des n variables étant typiquement d’ordre 1/n lorsque ces variables sont d’espérance finie.

4.1 Distance de Hamming pondérée


Soit n ∈ N∗ et soit (Ωi , Fi , µi ), i ∈ JnK, des espaces probabilisés. Nous nous intéresserons à la
mesure produit µ := µ1 × · · · × µn sur Ω := Ω1 × · · · × Ωn .

Définition 4.1. Soit Sn+ := {α ∈ Rn+ | ∥α∥2 = 1}. La distance de Hamming pondérée par α ∈ Sn
+
sur Ω est définie par
n
X
∀x, y ∈ Ω, dα (x, y) := αi 1{xi ̸=yi } .
i=1

Étant donné x ∈ Ω et 1 A ⊂ Ω, on notera

DA (x) := sup dα (x, A) = sup inf dα (x, y).


α∈Sn α∈Sn y∈A
+ +

1. Dans tout ce chapitre, les sous-ensembles de Ω considérés seront toujours implicitement supposés mesurables.

29
30 Chapitre 4. Concentration de la mesure : l’inégalité de Talagrand

x x VA

v∗
0 0

Figure 4.1: Illustration du cas où n = 3, x = (0, 1, 0), A = {(1, 0, 0), (1, 1, 1)}. Gauche : représentation de
cette situation (en blanc, les sommets de A). Droite : représentation de UA = {(1, 1, 0), (1, 0, 1), (1, 1, 1)} (som-
mets blancs),
p VA (en gris) et du vecteur v∗ (en rouge)préalisant
p le minimum dans le Lemme 4.3. On obtient ainsi
DA (x) = 3/2, ce qui correspond aux poids α = ( 2/3, 1/6, 1/6).
p

Exemple 4.2. Considérons le cas où Ω := {0, 1}n muni de la loi uniforme. Soit A ⊊ Ω non vide et
x ∈ Ω \ A. On a alors DA (x) ⩾ miny∈A {i ∈ JnK | xi ̸= yi } n−1/2 , puisque cette borne revient à
choisir αi = n−1/2 pour chaque i ∈ JnK.
D’un autre côté, s’il existe un ensemble de coordonnées I ⊂ JnK tel que, pour se retrouver dans
A, il est nécessaire que toutes les composantes xi , i ∈ I, changent de valeur, alors DA (x) ⩾ |I|1/2 , la
borne correspondant au choix α = |I|−1/2 pour i ∈ I et αi = 0 pour i ∈ JnK \ I. ⋄
Considérons l’ensemble

UA (x) := s = (s1 , . . . , sn ) ∈ {0, 1}n ∃y ∈ A tel que xi ̸= yi =⇒ si = 1 . (4.1)




En d’autres termes, s ∈ UA (x) s’il est possible de passer de x à un élément de A en ne changeant que
des composantes xi avec si = 1. 2
Avec cette notation, 3
n
X n
X
DA (x) = sup inf αi 1{xi ̸=yi } = sup min αi si = sup min α · s.
α∈Sn y∈A α∈Sn s∈UA (x) α∈Sn s∈UA (x)
+ i=1 + i=1 +

Soit VA (x) l’enveloppe convexe de UA (x) (considéré comme un sous-ensemble de Rn ) (cf. Fig. 4.1).
Nous pouvons à présent donner une caractérisation alternative de DA (x).

Lemme 4.3. Pour tout A ⊂ Ω et tout x ∈ Ω \ A,

DA (x) = min ∥v∥2 .


v∈VA (x)

Démonstration. Soit v∗ ∈ VA (x) tel que ∥v∗ ∥2 = minv∈VA (x) ∥v∥2 . Par convexité de VA (x), l’hyperplan
normal à v∗ et passant par v∗ sépare l’origine et VA (x). En particulier, pour tout v ∈ VA (x), v · v∗ ⩾
∥v∗ ∥22 . On choisit α∗ = v∗ /∥v∗ ∥2 . Alors, pour tout s ∈ UA (x) ⊂ VA (x), on a α∗ ·s = ∥v∗1∥2 s·v∗ ⩾ ∥v∗ ∥2 .
Par conséquent,

DA (x) = sup min α · s ⩾ min α∗ · s ⩾ ∥v∗ ∥2 = min ∥v∥2 .


α∈Sn s∈UA (x) s∈UA (x) v∈VA (x)
+

2. On pourrait trouver plus naturel de définir UA (x) de sorte à ce que xi ̸= yi ⇐⇒ si = 1. Il se trouve cependant que
la flexibilité additionnelle donnée par (4.1) va se révéler très utile dans Pla preuve de l’inégalité de Talagrand.
3. Pour la seconde identité, observons que, pour tout n
i=1 αi si , puisque
Pn
y ∈ A, i=1 αi 1{xi P
̸=yi } ⩾ mins∈UA (x)
(1{xi ̸=yi } )i=1 ∈ UA (x). On a donc inf y∈A i=1 αi 1{xi ̸=yi } ⩾ mins∈UA (x) i=1P αi si . Pour l’autre direction, fixons
n Pn n

(x) et observons que pour tout z ∈ A telPque xi ̸= zi =⇒ Psi = 1, on a n n


P
s ∈ UAP i=1 αi si ⩾ i=1 αi 1{xi ̸=zi } ⩾
inf y∈A n i=1 αi 1{x i =
̸ y i } . On a donc mins∈U A (x)
n
i=1 α i si ⩾ inf y∈A
n
i=1 αi 1 {x i =
̸ y i } .
4.2. Inégalité de Talagrand 31

Pour
Pnl’autre borne, considérons α ∈ S+ arbitraire. Alors, α · v∗ ⩽ ∥v∗ ∥2 . Par définition de VA (x),
n

v∗ = i=1 λi si avec s1 , . . . , sn ∈ UA (x), λ1 , . . . , λn ⩾ 0 et λ1 + · · · + λn = 1. On a donc


n
X
∥v∗ ∥2 ⩾ α · v∗ = λi (α · si ),
i=1

ce qui implique qu’il existe i ∈ JnK tel que α · si ⩽ ∥v∗ ∥2 . Par conséquent, quel que soit α ∈ Sn+ , on a
mins∈UA (x) α · s ⩽ ∥v∗ ∥2 et donc

DA (x) = sup min α · s ⩽ ∥v∗ ∥2 = min ∥v∥2 .


α∈Sn s∈UA (x) v∈VA (x)
+

4.2 Inégalité de Talagrand


Pour t ∈ R∗+ et A ⊂ Ω, définissons le t-épaississement de A par At := {x ∈ Ω | DA (x) ⩽ t}. Le
résultat central de ce chapitre est l’inégalité suivante qui montre que le t-épaississement d’un ensemble
A de mesure d’ordre 1 (disons, µ(A) = 21 ) a une mesure qui tend vers 1 extrêmement rapidement
lorsque t augmente.

Théorème 4.4 (Inégalité de Talagrand). Pour tout A ⊂ Ω mesurable et tout t > 0,


2
µ(A) 1 − µ(At ) ⩽ e−t /4 .


Exemple 4.5. Dans cet exemple, considérons Ω := {0, 1}n muni de la loi uniforme.
▷ Soit A ⊂ Ω tel que µ(A) ⩾ p > 0. L’inégalité de Talagrand implique donc
1 −t2 /4 2
µ(At ) ⩾ 1 − e ⩾ 1 − p1 e−t /4 .
µ(A)

Pour comprendre ce qu’implique cette inégalité, il peut être utile de considérer les poids αi :=

1/ n pour tout i ∈ JnK. On a alors
n

x ∈ At =⇒ dα (x, A) ⩽ DA (x) ⩽ t =⇒ ∃y ∈ A tel que
X
1{xi ̸=yi } ⩽ t n.
i=1

Ainsi, si l’on tire au hasard un élément de Ω, alors, avec probabilité au moins 1 − p1 e−t , il existe
2 /4


un point de A ne différant de celui-ci qu’en au plus t n coordonnées.
▷ Soit A ⊂ Ω avec µ(A) ⩾ 10−6 . Alors,
2 /4
µ(At ) ⩾ 1 − 106 e−t .

En particulier, cela signifie qu’avec une probabilité d’au moins 0,999986, un point tiré au hasard

uniformément dans Ω différera en au plus 10 n coordonnées d’un point de l’ensemble A.
▷ Considérons à présent A := {x ∈ {0, 1}n | ∥x∥1 ⩽ n/2}. Par symétrie, µ(A) ⩾ 1/2. Il suit donc
des considérations ci-dessus que, si X est un élément aléatoire de Ω tiré uniformément,
n √  1 −t2 /4 2
µ ∥X∥1 > + t n ⩽ µ(Act ) ⩽ e = 2e−t /4 ,
2 µ(A)
√ √
puisque, si ∥x∥1 > n2 + t n et y ∈ A, alors ni=1 1{xi ̸=yi } = ∥x − y∥1 ⩾ ∥x∥1 − ∥y∥1 > t n.
P
Notons que la borne ci-dessus reproduit qualitativement (les constantes sont moins bonnes) celle
du Lemme 1.4. ⋄
32 Chapitre 4. Concentration de la mesure : l’inégalité de Talagrand

Ωn+1

Ω′
ΠA A[y]

Figure 4.2: L’ensemble A (les 3 domaines en bleu) et les projections ΠA (en rouge) et A[y] (en vert) sur Ω′ .

4.3 Preuve de l’inégalité de Talagrand


Le Théorème 4.4 est une conséquence du résultat suivant.
Proposition 4.6. Pour tout A ⊂ Ω mesurable et non vide, on a

1
Z
exp 14 DA (x)2 µ(dx) ⩽

.
Ω µ(A)
Avant de démontrer cette proposition, voyons comment en déduire l’inégalité de Talagrand.
Preuve du Théorème 4.4. Soit X un élément aléatoire de Ω de loi µ. Il suit alors de l’inégalité de Markov
et de la Proposition 4.6 que, pour tout t > 0,
2 /4 2 /4 2 /4 2 /4 1 −t2 /4
1 − µ(At ) = µ(DA (X) > t) = µ eDA (X) > et ⩽ Eµ (eDA (X) )e−t

⩽ e .
µ(A)
Preuve de la Proposition 4.6. La preuve se fait par récurrence sur la dimension n. Le cas n = 1 est facile.
En effet, dans ce cas, DA (x) = inf y∈A 1{x̸=y} = 1{x∈A}
/ , ce qui implique

1
Z
exp 14 DA (x)2 µ(dx) = (1 − e1/4 )µ(A) + e1/4 ⩽

,
Ω µ(A)
puisqu’on a (1 − a)x + a ⩽ 1/x pour tout x ∈ (0, 1], lorsque a ∈ [1, 2].
Supposons donc que l’affirmation de la proposition soit vérifiée pour Ω′ := ×ni=1 Ωi (et la mesure
µ := ×ni=1 µi ) et considérons Ω := Ω′ × Ωn+1 . Nous noterons les éléments de Ω sous la forme (x, y)

avec x ∈ Ω′ et y ∈ Ωn+1 . Introduisons les sous-ensembles (cf. Fig. 4.2)


∀y ∈ Ωn+1 , A[y] := {x ∈ Ω′ | (x, y) ∈ A}
ΠA := {x ∈ Ω′ | ∃y ∈ Ωn+1 , (x, y) ∈ A}.
Observons que si (x, y) ∈ Ω \ A, il existe deux façons de modifier (x, y) pour atteindre A : on peut
laisser y varier, ce qui réduit le problème à modifier x pour atteindre ΠA, ou on peut conserver y, ce
qui réduit le problème à modifier x pour atteindre A[y]. Ceci conduit à deux observations cruciales.
La première est que si s ∈ UΠA (x), alors (s, 1) ∈ UA ((x, y)). En effet, si s ∈ UΠA (x), alors il existe
x̃ ∈ ΠA tel que si = 1 pour tout i ∈ JnK tel que xi ̸= x̃i . Or, x̃ appartenant à ΠA, on sait qu’il existe
ỹ ∈ Ωn+1 tel que (x̃, ỹ) ∈ A. L’affirmation suit, puisque (s, 1)i = 1 pour tout i ∈ Jn + 1K tel que
(x̃, ỹ)i ̸= (x, y)i . 4
4. C’est ici que le fait d’avoir utilisé une implication plutôt qu’une équivalence dans la définition (4.1) se révèle utile, car
on ne sait pas si y = ỹ.
4.3. Preuve de l’inégalité de Talagrand 33

La seconde observation est que si t ∈ UA[y] (x), alors (t, 0) ∈ UA ((x, y)). En effet, si t ∈ UA[y] (x),
alors il existe x̃ ∈ A[y] tel que ti = 1 pour tout i ∈ JnK tel que xi ̸= x̃i . Or, x̃ appartenant à A[y], on sait
que (x̃, y) ∈ A. L’affirmation suit, puisque (t, 0)i = 1 pour tout i ∈ Jn + 1K tel que (x̃, y)i ̸= (x, y)i .
Il suit immédiatement des deux observations précédentes que si s ∈ VΠA (x) et t ∈ VA[y] (x), alors
(s, 1) ∈ VA ((x, y)) et (t, 0) ∈ VA ((x, y)). Par conséquent,
∀λ ∈ [0, 1], ((1 − λ)s + λt, 1 − λ) ∈ VA ((x, y)).
Il suit donc du Lemme 4.3 que
DA ((x, y))2 = min ∥v∥22 ⩽ ∥((1 − λ)s + λt, 1 − λ)∥22 = ∥(1 − λ)s + λt∥22 + (1 − λ)2
v∈VA (x)

⩽ (1 − λ)∥s∥22 + λ∥t∥22 + (1 − λ)2 ,


où l’on a utilisé la convexité de la fonction u 7→ ∥u∥22 . On obtient donc, en optimisant sur s et t,
DA ((x, y))2 ⩽ (1 − λ) min ∥s∥22 + λ min ∥t∥22 + (1 − λ)2
s∈VΠA (x) t∈VA[y] (x)

= (1 − λ)DΠA (x) + λDA[y] (x)2 + (1 − λ)2 .


2

En particulier, en fixant y ∈ Ωn+1 et en intégrant sur x ∈ Ω′ ,


Z
exp 14 DA ((x, y))2 µ′ (dx)

Ω′
1−λ  λ ′
Z 
(1−λ)2 /4
⩽e exp 41 DΠA (x)2 exp DA[y] (x)2 µ (dx)
Ω′
Z 1−λ Z λ
(1−λ)2 /4 1 2 ′ 2 ′
 
⩽e exp 4 DΠA (x) µ (dx) exp DA[y] (x) µ (dx) ,
Ω′ Ω′
où la dernière ligne suit d’une application de l’inégalité de Hölder. Nous pouvons à présent utiliser
l’hypothèse de récurrence afin d’obtenir
1 1
Z
2 2
exp 14 DA ((x, y))2 µ′ (dx) ⩽ e(1−λ) /4 ′ e(1−λ) /4 r−λ ,

1−λ ′ λ
= ′
Ω′ µ (ΠA) µ (A[y]) µ (ΠA)
où l’on a posé r := µ′ (A[y])/µ′ (ΠA). Observons que r ∈ [0, 1], puisque A[y] ⊂ ΠA. Un petit calcul
montre que la fonction λ 7→ e(1−λ) /4 r−λ est minimisée en λ = 1 + 2 log r si r ⩾ e−1/2 et λ = 0 sinon.
2

En choisissant ainsi λ, on obtient


e− log r−(log r) si r ∈ [e−1/2 , 1],
2
(
2
(1−λ) /4 −λ
e r =
e1/4 si r ∈ [0, e−1/2 ).
Il s’ensuit que
2 /4
∀r ∈ [0, 1], e(1−λ) r−λ ⩽ 2 − r.
En effet, lorsque r ∈ [0, e−1/2 ), l’affirmation suit de e1/4 ⩽ 2 − e−1/2 . Lorsque r ∈ [e−1/2 , 1], il suffit
d’observer que la droite r 7→ 2 − r est tangente au graphe de la fonction g(r) := e− log r−(log r) en
2

r = 1 et que g est concave sur tout cet intervalle.


On a donc finalement
µ′ (A[y])
 
1
Z
1 2
 ′
exp 4 DA ((x, y)) µ (dx) ⩽ ′ 2− ′ .
Ω′ µ (ΠA) µ (ΠA)
La conclusion suit en intégrant sur y (et en utilisant Fubini)

R
Ωn+1 µ (A[y])µn+1 (dy)
 
1
Z
1 2 ′

exp 4 DA ((x, y)) µ (dx)µn+1 (dy) ⩽ ′ 2−
Ω µ (ΠA) µ′ (ΠA)
 
1 µ(A) 1
= ′ 2− ′ ⩽ ,
µ (ΠA) µ (ΠA) µ(A)
puisque u(2 − u) ⩽ 1 pour tout u ∈ R.
34 Chapitre 4. Concentration de la mesure : l’inégalité de Talagrand

4.4 Quelques corollaires et applications


Dans cette section sont présentés quelques corollaires intéressants de l’inégalité de Talagrand.
Ceux-ci facilitent son utilisation dans de nombreuses situations. Nous en profiterons également pour
donner quelques exemples simples de telles applications.

4.4.1 Concentration des fonctions lipschitziennes


Définition 4.7. Soit Ω = ×ni=1 Ωi et c > 0. Une fonction F : Ω → R est c-lipschitzienne au sens de
Talagrand si, pour tout x ∈ Ω, il existe α = α(x) ∈ Sn+ tel que

∀y ∈ Ω, F (x) ⩽ F (y) + cdα (x, y).

Remarque 4.8. Insistons sur le fait que la valeur de α (et donc la “distance” dα utilisée) n’est pas fixée à
priori, mais peut dépendre du point x choisi. Cette flexibilité est une des grandes forces de cette approche et
se révèle essentielle dans de nombreuses applications. ⋄

On a alors le résultat suivant de concentration autour des médianes 5 .

Théorème 4.9. Soit Ω = ×ni=1 Ωi et µ = ×ni=1 µi . Soit F : Ω → R c-Lipschitzienne au sens de


Talagrand. Soit mF une médiane pour F . Alors,
2 /4c2
∀t ∈ R∗+ , µ(|F − mF | ⩾ t) ⩽ 4e−t .

Démonstration. Soit r ∈ R, A := {F ⩽ r} ⊂ Ω et x ∈ Ω. Par hypothèse, il existe α = α(x) ∈ Sn+ tel


que F (x) ⩽ F (y) + cdα (x, y) pour tout y ∈ Ω. En particulier, si y ∈ A, on a F (x) ⩽ r + cdα (x, y), ce
qui implique que DA (x) ⩾ inf y∈A dα (x, y) ⩾ (F (x) − r)/c. Ainsi, pour tout t ∈ R∗+ ,

At = {x ∈ Ω | DA (x) ⩽ t} ⊂ x ∈ Ω F (x) ⩽ r + ct .

Il suit donc de l’inégalité de Talagrand que, pour tout t > 0,


2 /4
µ(F ⩽ r)µ(F > r + ct) ⩽ µ(A)(1 − µ(At )) ⩽ e−t .

En particulier, pour tout t > 0,


2 /4 2 /4
µ(F ⩽ r)µ(F ⩾ r + ct) = lim µ(F ⩽ r)µ(F > r + c(t − ϵ)) ⩽ lim e−(t−ϵ) = e−t .
ϵ↓0 ϵ↓0

Fixons u ∈ R∗+ . En appliquant cette inégalité avec t := u/c, et en choisissant successivement r := mF


et r := mF − u, on obtient

1 2 2 2 2
µ(F ⩾ mF + u) ⩽ e−u /4c ⩽ 2e−u /4c ,
µ(F ⩽ mF )
1 2 2 2 2
µ(F ⩽ mF − u) ⩽ e−u /4c ⩽ 2e−u /4c ,
µ(F ⩾ mF )

et la conclusion suit.

Exemple 4.10. Soit X1 , . . . , Xn des variables indépendantes, Xi ∼ bernoulli(pi ) pour chaque i. Dans le
cadre de ce chapitre, cela revient à considérer Ω := {0, 1}n et µ = ×ni=1 µi avec µi ({1}) = pi pour
5. Rappelons que mF est une médiane pour F si µ(F ⩾ mF ) ⩾ 1/2 et µ(F ⩽ mF ) ⩾ 1/2.
4.4. Quelques corollaires et applications 35

chaque i. Soit F (x1 , . . . , xn ) := x1 + · · · + xn . Évidemment, pour tout y ∈ Ω, F (0) ⩽ F (y). Supposons


donc x ̸= 0. Alors, pour tout y ∈ Ω,
n n n n n
X X X X X √
F (x) = xi = yi 1{xi =yi } + xi 1{xi ̸=yi } ⩽ yi + xi 1{xi ̸=yi } ⩽ F (y) + ndα (x, y),
i=1 i=1 i=1 i=1 i=1

où l’on a choisi α(x) := x/∥x∥2 ∈ Sn+ (et utilisé ∥x∥2 ⩽ n). Il suit donc du Théorème 4.9 que
2 /4n
∀t ∈ R∗+ , µ(|F − mF | ⩾ t) ⩽ 4e−t . ⋄

Exemple 4.11. On considère n urnes et m boules. Chaque boule est placée au hasard, uniformément et
indépendamment, dans une urne. Soit F le nombre d’urnes non vides et mF une médiane pour F . Cela
correspond à prendre Ω := {1, . . . , n}m , µ := ×m i=1 µi avec µi ({k}) = 1/n pour chaque k ∈ JnK et
chaque i ∈ JmK. Ainsi, pour x ∈ Ω, xi dénote l’urne dans laquelle est placée la ie boule.
Soit x, y ∈ Ω, I := {i ∈ JmK | xi = yi } et soit B := {xi | i ∈ I} l’ensemble des urnes occupées par
les boules dont le numéro appartient à I. Par définition de I, |B| = |{yi | i ∈ I}| ⩽ F (y). On a donc
m
X
F (x) = |B| + |{xi | xi ∈
/ B}| ⩽ F (y) + ai (x)1{xi ̸=yi } ,
i=1

où l’on a posé ai (x) := 1 si la ie boule est la boule de plus petit numéro dans son urne (relativement
à la répartition associée à x), et ai (x) := 0 sinon. L’inégalité suit de l’observation que, pour chaque
u ∈ {xi | xi ∈/ B}, si j := min{i ∈ JmK | xi = u}, alors xj ̸= yj et aj (x)
√ = 1.
En choisissant α(x) := a(x)/∥a(x)∥2 (et en utilisant ∥a(x)∥2 ⩽ n ∧ m), on obtient ainsi, pour
chaque x ∈ Ω,
m
√ X
∀y ∈ Ω, F (x) ⩽ F (y) + n ∧ m αi (x)1{xi ̸=yi } .
i=1

Il suit donc du Théorème 4.9 que


2 /4(n∧m)
∀t ∈ R∗+ , µ(|F − mF | ⩾ t) ⩽ 4e−t . ⋄

Le Théorème 4.9, énonçant un résultat de concentration autour d’une médiane de F , est typique des
applications de l’inégalité de Talagrand. Le fait qu’une médiane apparaisse, plutôt que l’espérance, peut
sembler ennuyeux, les médianes étant généralement beaucoup plus difficiles à déterminer. Cependant,
lorsqu’un résultat de concentration est disponible, on peut généralement remplacer la médiane par
l’espérance, le prix à payer étant que les constantes se détériorent quelque peu.

Lemme 4.12. 1. Soit X une variable aléatoire réelle telle que


2 /b
∀t ∈ R∗+ , P(|X − mX | ⩾ t) ⩽ ae−t ,

π

où mX est une médiane de X et a, b ∈ R∗+ . Alors, |mX − E(X)| ⩽ 2 a b et
2 /4 2 /4b
∀t ∈ R∗+ , µ(|X − E(X)| ⩾ t) ⩽ eπa e−t .

2. Soit X une variable aléatoire réelle telle que


2 /b(m
∀t ∈ R∗+ , P(|X − mX | ⩾ t) ⩽ ae−t X +t)
,
q
où mX est une médiane de X et a, b ∈ R∗+ . Alors, |E(X) − mX | ⩽ a 12 πbmX + 2abe−mX /2b .
36 Chapitre 4. Concentration de la mesure : l’inégalité de Talagrand

Démonstration. Tout d’abord,



|mX − E(X)| = |E(mX − X)| ⩽ E |mX − X|

π √
Z Z
2 /b
= P(|mX − X| > t) dt ⩽ a e−t dt = a b.
R+ R+ 2
√ √
Notons t0 := π
2 a b. Si t ⩾ 2t0 ,
2 /4b
µ(|X − E(X)| ⩾ t) ⩽ µ(|X − mX | ⩾ t − t0 ) ⩽ µ(|X − mX | ⩾ t/2) ⩽ ae−t .

Si t < 2t0 , on peut utiliser la borne triviale


2 /4b 2 /4b 2 /4 2 /4b
µ(|X − E(X)| ⩾ t) ⩽ 1 ⩽ e(2t0 ) e−t = eπa e−t .

On obtient donc
2 /4 2 /4b
∀t ∈ R∗+ , µ(|X − E(X)| ⩾ t) ⩽ (a ∨ eπa )e−t ,
et l’on vérifie aisément que a ⩽ eπa /4 pour tout a ∈ R.
2

La seconde affirmation se démontre de la même façon en observant que


Z Z mX Z ∞ q
−t2 /b(mX +t) −t2 /2bmX −t/2b
e dt ⩽ e dt + e dt ⩽ 12 πbmX + 2be−mX /2b .
R+ 0 mX

Il suit ainsi, par exemple, du Théorème 4.9 que |mF − E(F )| ⩽ 4c π et
2 /16c2
∀t ∈ R∗+ , µ(|F − E(F )| ⩾ t) ⩽ e4π e−t .

Exemple 4.13. Retournons à l’Exemple 4.11. L’espérance du nombre d’urnes non vides est donnée par

E[F ] = 1 − (1 − n1 )m n.


L’estimée de concentration obtenue dans l’Exemple 4.11 implique donc


2 /16(n∧m)
∀t ∈ R∗+ , µ(|F − E(F )| ⩾ t) ⩽ e4π e−t .

En particulier, dans la limite où n → ∞ et m/n → ρ > 0, on a limn→∞ E[F ]/n = (1 − e−ρ ) et la


borne ci-dessus nous permet d’affirmer que F ∈ [E[F ] − tn , E[F ] + tn ] avec grande probabilité dès que

tn ≫ n. ⋄

4.4.2 Suprema de fonctions linéaires


Soit Y1 , . . . , Yn des variables aléatoires indépendantes à valeurs dans [0, 1] et considérons la variable
aléatoire
Xn
Z := max ξi Yi ,
ξ∈Ξ
i=1

où Ξ ⊂ Rn est un ensemble fini. Notons ρ := maxξ∈Ξ ∥ξ∥2 .


Considérons Ω := [0, 1]n , muni de la mesure produit µ des lois des variables Yi . On souhaiterait
appliquer le Théorème 4.9 à la fonction F : Ω → R définie par
n
X
F (x) := max ξi xi .
ξ∈Ξ
i=1
4.4. Quelques corollaires et applications 37

Étant donné x = (x1 , . . . , xn ) ∈ Ω, soit ξˆ = ξ(x)


ˆ ∈ Ξ réalisant le maximum. Alors, pour tout y ∈ Ω,
n n n n
|ξˆi |
ξˆi xi ⩽ ξˆi yi + |ξˆi ||xi − yi | ⩽ F (y) + ρ
X X X X
F (x) = 1 .
ˆ 2 {xi ̸=yi }
∥ξ∥
i=1 i=1 i=1 i=1

Ainsi, la fonction F est ρ-Lipschitzienne au sens de Talagrand, pour les poids α(x) := |ξ(x)|/∥
ˆ ˆ
ξ(x)∥2.
Une application du Théorème 4.9 conduit donc au résultat de concentration suivant.

Corollaire 4.14. Soit mZ une médiane de Z. Alors,


2 /4ρ2
∀t ∈ R∗+ , µ(|Z − mZ | ⩾ t) ⩽ 4e−t .

Exemple 4.15 (Percolation de premier passage). Soit G = (S, A) un graphe fini et (Ye )e∈A des
variables aléatoires i.i.d. à valeurs dans [0, 1], appelées temps de passage. On interprète Ye comme le
temps nécessaire pour traverser l’arête e. Étant donnés x, y ∈ S, une quantité centrale dans l’étude
de la percolation de premier passage est le temps minimum nécessaire pour aller de x à y. Soit Π une
collection finie de cheminsP auto-évitants de G reliant x à y. Le temps nécessaire pour parcourir le
chemin π ∈ Π est Yπ := e∈π Ye . Le temps minimum pour aller de x à y en parcourant l’un des
chemins de Π est alors donné par la variable aléatoire
X
Z := min Yπ = min 1{e∈π} Ye .
π∈Π π∈Π
e∈A

Soit mZ une
P médiane de Z. Alors, une application du Corollaire 4.14 à la variable aléatoire Z
′ := −Z =

maxπ∈Π e∈A (−1{e∈π} )Ye conduit à


2 /4ℓ
∀t ∈ R∗+ , µ(|Z − mZ | ⩾ t) ⩽ 4e−t ,

où ℓ := maxπ∈Π |π|.
Sur le graphe Z2 (avec une arête entre i, j ∈ Z2 si ∥i − j∥1 = 1), lorsque les (Ye ) sont i.i.d. et
telles que µ(Ye = 0) < 1/2, il existe C et C ′ indépendantes de n telles qu’avec probabilité au moins
1 − Ce−n/C , le temps minimal pour aller de (0, 0) à (n, 0) ne change pas si on se restreint à la famille
Π des chemins de longueur au plus C ′ n [13]. Combiné avec le résultat de concentration ci-dessus, cela
montre qu’il existe ϵ > 0, indépendant de n, telle que, pour tout n suffisamment grand,
2 /4C ′ n 2 /n
∀t ∈ [0, n], µ(|Z − mZ | ⩾ t) ⩽ Ce−n/C + 4e−t ⩽ e−ϵt . ⋄

4.4.3 Fonctions certifiables


Une classe de fonctions pour lesquelles l’inégalité de Talagrand est particulièrement efficace est
celle des fonctions h : Ω → R ayant la propriété que lorsque h(x) ⩾ s, on peut trouver un « petit »
nombre de coordonnées certifiant que h(x) ⩾ s.

Définition 4.16. Soit Ω = ×ni=1 Ωi et f : R → R. Une fonction h : Ω → R est f -certifiable si, pour
tout x ∈ Ω tel que h(x) ⩾ s, il existe I ⊂ JnK avec |I| ⩽ f (s) tel que

∀i ∈ I, yi = xi =⇒ h(y) ⩾ s.

On dira que h est r-certifiable (r ∈ R) si h est f -certifiable avec f (s) = rs.

Exemple 4.17. Soit n ∈ N et N := n2 . On peut encoder le graphe d’Erdős–Rényi G(n, p) comme




l’ensemble Ω := {0, 1}N muni de la mesure produit µ = ν ×n , où ν({1}) = 1 − ν({0}) = p. En effet,


numérotons les arêtes de Kn , le graphe complet à n sommets, de façon arbitraire. On peut associer à
38 Chapitre 4. Concentration de la mesure : l’inégalité de Talagrand

chaque x ∈ Ω un sous-graphe G = G(x) de Kn en déclarant que l’arête numéro k appartient à G si et


seulement si xk = 1. On vérifie aisément que G ∼ G(n, p).
On s’intéresse à la fonction G 7→ h(G) comptant le nombre maximum de triangles distincts 6 dans
G. Alors, h est 3-certifiable. En effet, si h(G) ⩾ s, alors on peut trouver s triangles dans G, comprenant
au plus 3s arêtes, et toute autre réalisation G′ possédant également ces arêtes satisfait h(G′ ) ⩾ s. ⋄

Théorème 4.18. Soit Ω = ×ni=1 Ωi , µ = ×ni=1 µi et f : N → N. Soit h : Ω → R une fonction


f -certifiable telle que |h(x) − h(y)| ⩽ c lorsque x et y diffèrent en au plus une coordonnée. Alors,

(4.2)
2
∀r ∈ R, ∀t ∈ R∗+ , µ h ⩽ r − ct f (r) µ(h ⩾ r) ⩽ e−t /4 .
p 

En particulier, si mh est une médiane de h, on a, pour tout t ∈ R∗+ ,

(4.3)
2 2 2 2
µ h ⩽ mh − u ⩽ 2e−u /4c f (mh ) , µ h ⩾ mh + u ⩽ 2e−u /4c f (mh +u) .
 

Démonstration. Soit t ∈ R∗+ , r ∈ R et A := y ∈ Ω h(y) < r − ct f (r) . Soit x ∈ Ω tel que


 p

h(x) ⩾ r et soit I ⊂ JnK tel que |I| ⩽ f (r) certifiant que h(x) ⩾ r. On définit α = α(x) ∈ Sn+ par

|I|−1/2 si i ∈ I,
(
αi :=
0 sinon.

Soit ϵ > 0 arbitraire. Montrons que dα (x, A) > t − ϵ et donc, en particulier, que x ∈
/ At−ϵ . Supposons,
par l’absurde que dα (x, A) ⩽ t − ϵ. Alors, il existe y ∈ A tel que
X
t ⩾ dα (x, y) = |I|−1/2 1{xi ̸=yi } ,
i∈I

et donc i∈I 1{xi ̸=yi } ⩽ t|I|1/2 ⩽ t f (r). Définissons z ∈ Ω par zi := xi pour tout i ∈ I et zi := yi
P p

pour
p tout i ∈ JnK \ I. Comme z et x coïncident p sur I, on a h(z) ⩾ r. De plus, y et z différant en au plus
t f (r) coordonnées, on a |h(y) − h(z)| ⩽ ct f (r). Il s’ensuit que h(y) ⩾ h(z) − |h(y) − h(z)| ⩾
r − ct f (r), ce qui contredit le fait que y ∈ A.
p

On a donc µ(h ⩾ r) ⩽ 1 − µ(At−ϵ ) et le Théorème 4.4 implique que


2
µ h < r − ct f (r) µ(h ⩾ r) ⩽ µ(A)(1 − µ(At−ϵ )) ⩽ e−(t−ϵ) /4 .
p 

L’inégalité (4.2) suit en laissant ϵ ↓ 0, puis en exploitant la continuité du membre de droite, comme dans
la preuve du Théorème 4.9.
Les deux conséquences énoncées en (4.3) sont obtenues enp appliquant (4.2) avec r := mh et t :=
u/c f (mh ) pour la première, et avec r := mh + u et t := u/c f (mh + u) pour la seconde.
p

Exemple 4.19. Soit G un graphe d-régulier 7 , sans boucle, avec n sommets. Soit H le sous-graphe aléa-
toire de G obtenu en conservant chaque arête de G indépendamment avec probabilité p. On peut en-
coder H par un élément de Ω := {0, 1}nd/2 , en numérotant les arêtes de G et en associant à l’arête
k la valeur 1 si l’arête est présente dans H. Étant donné x ∈ Ω, on dénotera H(x) le sous-graphe
correspondant.
Notons h(x) le nombre de sommets non isolés de H(x) (c’est-à-dire, de degré au moins 1). Clai-
rement, E[h] = n(1 − (1 − p)d ). Modifier une coordonnée de x ∈ Ω correspond à retirer ou ajouter
une arête à H(x) et ne peut donc changer le nombre de sommets isolés que d’au plus 2 ; on a donc
|h(x) − h(y)| ⩽ 2 lorsque x et y diffèrent en au plus une coordonnée. De plus, h est 1-certifiable,
6. Un triangle de G est un triplet de sommets distincts i, j, k ∈ JnK tels que {i, j}, {i, k}, {j, k} soient des arêtes de G.
7. Un graphe est d-régulier si tous ses sommets sont de degré d.
4.4. Quelques corollaires et applications 39

puisque l’existence d’au moins s sommets non isolés peut être certifiée en révélant la présence d’une
arête incidente à chacun de s sommets non isolés distincts. On peut donc appliquer le Théorème 4.18,
ce qui donne, pour toute médiane mh de h,
2 2
µ h ⩽ mh − u ⩽ 2e−u /16mh , µ h ⩾ mh + u ⩽ 2e−u /16(mh +u) .
 


En particulier, en combinant ces bornes et le point 2 du Lemme 4.12, on conclut que lorsque un ≫ n,
on a h ∈ [n(1 − (1 − p)d ) − un , n(1 − (1 − p)d ) + un ] avec grande probabilité. ⋄
Exemple 4.20 (Plus longue sous-suite croissante). Soit σ une permutation aléatoire uniforme de
l’ensemble JnK. Un problème très étudié est celui de déterminer la longueur L = L(σ) de la plus
grande sous-suite (σ(i1 ), . . . , σ(iL )), 1 ⩽ i1 < i2 < · · · < iL ⩽ n, de la suite (σ(1), . . . , σ(n)) telle
que σ(i1 ) < σ(i2 ) < · · · < σ(iL ).
Commençons par reformuler ce problème dans le langage de ce chapitre. Soit Ω := [0, 1]n et µ :=
ν ×n le produit des mesures uniformes sur [0, 1]. On note x = (x1 , . . . , xn ) les éléments de Ω. On
considère la fonction h : Ω → R définie par

h(x) := max{k ∈ N | ∃1 ⩽ i1 < i2 < · · · < ik ⩽ n, xi1 < xi2 < · · · < xik }.

En d’autres termes, h(x) est la longueur de la plus grande sous-suite croissante de x. µ n’ayant aucun
atome, on vérifie facilement que h possède la même loi que L(σ). Commençons par montrer que h est

d’ordre n avec grande probabilité. 

Soit ℓ := ⌈ n⌉, N := ⌊n/ℓ⌋, Ik := (k −1)ℓ+1, . . . , kℓ et Jk := (k −1)n−1/2 , kn−1/2 , k ∈ N∗ .
 

Notons Yk (x) := 1{∃j∈Ik tel que xj ∈Jk } . Les variables aléatoires Y1 , . . . , YN sont i.i.d., chacune de loi de
Bernoulli de paramètre
−1/2 ℓ
p := µ(Yi = 1) = 1 − (1 − n−1/2 )ℓ ⩾ 1 − e−n ⩾ 1 − e−1 .

On utilise l’algorithme suivant pour construire une sous-suite croissante à partir de x : pour chaque
k ∈ JN K, on inclut i dans la sous-suite si i est le premier nombre de l’intervalle Ik tel que xi ∈ Jk . Ceci
produit une sous-suite de longueur Y := Y1 + · · · + YN . Par conséquent, il suit du Lemme 1.6 que
−1 )(√n−2)/8
µ(h ⩽ 21 pN ) ⩽ µ(Y ⩽ 21 E[Y ]) ⩽ e−pN/8 ⩽ e−(1−e ,

ce qui tend rapidement vers 0 lorsque n → ∞ et établit la borne inférieure.

I1 I2 I3
1 2 3 4 5 6 7 8 9 10 11 12 13 14

0 J1 J2 J3 1

Figure 4.3: Extraction d’une sous-suite croissante. Dans chaque bloc Ik , on inclut le premier point i ∈ Ik tel que
xi ∈ Jk (s’il en existe au moins un). Pour des raisons de lisibilité, seul les images des points de I1 sont indiquées.
Le premier élément de la sous-suite croissante est donc ici égal à 2. Dans cet exemple, n = 14, ℓ = 4 et N = 3.

Passons à la borne supérieure. La probabilité qu’une sous-suite donnée i1 < i2 < · · · < ik soit
croissante est égale à 1/k!. Notons MR le nombre de telles sous-suites de longueur au moins R ∈ JnK.
On a 8
n   n  n
X n 1 X ne k  e k X nk e2k
E(MR ) = ⩽ = .
k k! k k k 2k
k=R k=R k=R
8. On utilise les inégalités établies dans la note en bas de page 8.
40 Chapitre 4. Concentration de la mesure : l’inégalité de Talagrand


Avec le choix R := ⌈4e n⌉, on obtient
n n ∞
X nk e2k X
−2k
X
−k 16 −4e√n
E(MR ) ⩽ ⩽ 4 ⩽ 16 ⩽ 16 .
R2k 15
k=R k=R k=R

Par conséquent, par l’inégalité de Markov,


√ 16 √
µ(h > 4e n) ⩽ µ(MR ⩾ 1) ⩽ E[MR ] ⩽ 16−4e n ,
15
ce qui tend également rapidement vers 0 lorsque n → ∞ et établit la borne supérieure.

Soit mh une médiane de h. Il suit des estimées précédentes que mh est d’ordre n. Nous allons à
présent établir la concentration de h autour de mh .
La première observation est que changer une unique composante de x ne peut faire croître ou
décroître la longueur de la plus longue sous-suite croissante que d’au plus 1. La seconde observation
est que h est 1-certifiable. En effet, si h(x) ⩾ s, alors les s composantes formant une des sous-suites
croissantes de longueur s certifient cette inégalité.
Il suit donc du Théorème 4.18 que
2 2
µ h ⩽ mh − u ⩽ 2e−u /4mh , µ h ⩾ mh + u ⩽ 2e−u /4(mh +u) .
 

En particulier, ces bornes montrent que si un ≫ n1/4 , alors h ∈ [mh − un , mh + un ] avec grande
probabilité.
On dispose aujourd’hui d’informations considérablement plus détaillées sur ce problème. En par-

ticulier, E[L(σ)] = 2 n et le remarquable résultat suivant détermine le comportement asymptotique
des fluctuations autour de l’espérance [3] :

L(σ) − 2 n
 
lim P ⩽ s = F2 (s),
n→∞ n1/6

où F2 est la fonction de répartition de la loi de Tracy–Widom,


 Z ∞ 
F2 (s) := exp − (x − s)q 2 (x) dx
s

où q est l’unique solution de l’équation différentielle de Painlevé de type II,

y ′′ (s) = sy(s) + 2y(s)3 ,

avec des conditions au bord appropriées. En particulier, ce résultat montre que l’approche que l’on a
utilisée ci-dessus ne fournit pas l’ordre de grandeur correct des fluctuations. Le lecteur intéressé par
ces questions trouvera une discussion approfondie dans le livre [23]. ⋄

Remarques bibliographiques : Ce chapitre est basé sur les livres [1] et [16], ainsi que sur la source
originale, l’article [25].
5 Réduction de la dimensionnalité :
le lemme de Johnson–Lindenstrauss

À l’ère du big data, on est fréquemment confronté à des jeux de données consistant en un très grand
nombre de points dans un espace de très grande dimension. Malheureusement, les algorithmes usuels
permettant l’extraction d’information à partir de ces données souffrent alors du « fléau de la dimen-
sion » (curse of dimensionality en anglais) : ils deviennent extrêmement inefficaces sur un plan pratique,
lorsque la dimension croît. Il est alors désirable de réduire la dimension des données tout en préservant
les propriétés essentielles. C’est ce que l’on appelle le problème de la réduction de la dimensionnalité.
Il en existe de nombreuses approches. Le but de ce chapitre est de présenter un résultat classique de
ce type : le lemme de Johnson–Lindenstrauss. Pour une importante classe d’algorithmes (par exemple,
l’algorithme de recherche des plus proches voisins et ses nombreuses variantes), la propriété à préser-
ver est la distance entre chaque paire de points. Le lemme de Johnson–Lindenstrauss affirme qu’un
ensemble de m points dans un espace de dimension arbitraire peut être plongé dans un espace de di-
mension O(log m)/ϵ2 tout en ne modifiant la distance entre chaque paire de points qu’au plus d’un
facteur compris entre 1 − ϵ et 1 + ϵ, avec ϵ ∈ (0, 1) arbitraire. Ce lemme (et ses variantes) trouve des
applications dans de nombreux domaines. Un exemple est donné dans la section 5.3.

5.1 Cadre et énoncé du Lemme de Johnson–Lindenstrauss


Théorème 5.1 (Lemme de Johnson–Lindenstrauss). Soit N, m ∈ N∗ et ϵ ∈ (0, 1). Pour tout n ⩾
2(ϵ2 − 13 ϵ3 )−1 log m et tout ensemble V ⊂ RN composé de m points, il existe une application f : RN → Rn
telle que
∀x, y ∈ V, (1 − ϵ)∥x − y∥2 ⩽ ∥f (x) − f (y)∥2 ⩽ (1 + ϵ)∥x − y∥2 . (5.1)

Remarque 5.2. La preuve fait recours à la méthode probabiliste : nous allons construire une application
linéaire aléatoire dont nous montrerons qu’elle satisfait la condition désirée avec probabilité positive, ce
qui implique l’existence d’une fonction f comme dans l’énoncé. En particulier, cet argument n’est pas
constructif. Ce n’est toutefois pas un problème en pratique, car la probabilité d’obtenir une application
satisfaisant (5.1) est supérieure ou égale à 1/m ; il suffit donc de faire de l’ordre de m tirages pour obtenir
l’application désirée. En fait, quitte à empirer très légèrement la borne sur n, on peut obtenir une probabilité
de succès proche de 1 : si n ⩾ (2 + α)(ϵ2 − 13 ϵ3 )−1 log m, pour un α > 0, alors la même preuve (il suffit
de choisir δ = m−2−α ) montre que la probabilité de succès est d’au moins 1 − m−α . ⋄

Remarque 5.3. On peut montrer [15] qu’il n’est pas possible de faire mieux qu’une borne de la forme
n ⩾ O(ϵ−2 ) log m). ⋄

41
42 Chapitre 5. Réduction de la dimensionnalité : le lemme de Johnson–Lindenstrauss

5.2 Preuve du Lemme de Johnson–Lindenstrauss


Soit A = (Aij ) une matrice n×N dont les éléments sont des variables aléatoires i.i.d. de loi N (0, 1).
Alors, pour tout z = (z1 , . . . , zN ) ∈ RN ,

n X
hX N 2 i Xn X
N X
N
E ∥Az∥22 = E E[Aij Aik ]zj zk = n∥z∥22 ,
 
Aij zj =
i=1 j=1 i=1 j=1 k=1

puisque E[Aij Aik ] = δjk par hypothèse. Il suit que l’application linéaire L := n−1/2 A préserve, en
moyenne, le carré de la norme euclidienne : E[∥Lz∥22 ] = ∥z∥22 . L est donc un bon candidat pour l’appli-
cation recherchée, pour peu que l’on parvienne à montrer que la distribution de ∥Lz∥22 est concentrée
au voisinage de son espérance.

Lemme 5.4. Soit δ, ϵ ∈ (0, 1). Pour tout n ⩾ |log δ|/(ϵ2 − 13 ϵ3 ), on a

∀z ∈ RN tel que ∥z∥2 = 1,



P ∥Lz∥2 − 1 ⩾ ϵ ⩽ 2δ.

Avant de démontrer ce lemme, vérifions qu’il permet de conclure la preuve du Théorème 5.1.
On prend δ := 1/m2 . Soit x, y ∈ V distincts. Comme n ⩾ 2(ϵ2 − 31 ϵ3 )−1 log m = |log δ|/(ϵ2 − 31 ϵ3 ),
on peut appliquer le Lemme 5.4 à z := (x − y)/∥x − y∥2 , ce qui donne

∥Lx − Ly∥2
 
P ∈/ (1 − ϵ, 1 + ϵ) ⩽ 2δ.
∥x − y∥2

Par conséquent, par l’inégalité de Boole,

∥Lx − Ly∥2 ∥Lx − Ly∥2


  X  
P ∃{x, y} ⊂ V, ∈
/ (1 − ϵ, 1 + ϵ) ⩽ P ∈
/ (1 − ϵ, 1 + ϵ)
∥x − y∥2 ∥x − y∥2
{x,y}⊂V
 
m 1
⩽ 2δ = 1 − .
2 m

On en conclut que la probabilité que L possède la propriété (5.1) est strictement positive, ce qui dé-
montre l’existence d’une telle application.

Preuve du Lemme 5.4. Tout d’abord, pour tout i ∈ JmK,

N
X
(Az)i = Aij zj ∼ N (0, 1),
j=1

puisque les variables aléatoires Aij zj ∼ N (0, zj2 ) sont indépendantes et z12 + · · · + zN
2 = ∥z∥2 = 1. En
2
particulier, la variable aléatoire
Xn
W := ∥Az∥22 = (Az)2i
i=1

est la somme des carrés de n variables aléatoires indépendantes de loi N (0, 1) 1 . Pour Z ∼ N (0, 1), on
a
Z ∞ Z ∞
 2 1 1 2 2 1 1 2 1
∀t ∈ (−∞, 21 ), E etZ = √ e− 2 x etx dx = √ e− 2 (1−2t)x dx = √ .
2π −∞ 2π −∞ 1 − 2t
1. En d’autres termes, W suit une loi du χ2 à n degrés de liberté.
5.3. Application à l’acquisition comprimée 43

Par conséquent,
 2 n
E etW = E etZ = (1 − 2t)−n/2 .
 

Bornons tout d’abord la probabilité que ∥Lz∥2 ⩾ 1 + ϵ. Une application de l’inégalité de Chernoff
conduit à la borne
2
P(∥Lz∥2 ⩾ 1 + ϵ) = P(∥Az∥22 ⩾ (1 + ϵ)2 n) = P(W ⩾ (1 + ϵ)2 n) ⩽ inf e−t(1+ϵ) n E etW .
 
t⩾0

On en conclut que

P(∥Lz∥2 ⩾ 1 + ϵ) ⩽ inf exp −n t(1 + ϵ)2 + 21 log(1 − 2t) .


 
t⩾0

L’infimum est atteint en t = 21 (1 − (1 + ϵ)−2 ), ce qui conduit à

P(∥Lz∥2 ⩾ 1 + ϵ) ⩽ exp −n ϵ + 12 ϵ2 − log(1 + ϵ) ⩽ exp −(ϵ2 − 13 ϵ3 )n ,


   

la dernière inégalité suivant de la borne log(1 + ϵ) ⩽ ϵ − 21 ϵ2 + 13 ϵ3 valide pour tout ϵ ⩾ 0.


Bornons à présent la probabilité que ∥Lz∥2 ⩽ 1 − ϵ. On procède de manière similaire :
2n 2
P(∥Lz∥2 ⩽ 1 − ϵ) = P(−W ⩾ −(1 − ϵ)2 n) ⩽ inf et(1−ϵ) E e−tW = inf et(1−ϵ) n (1 + 2t)−n/2 .
 
t⩾0 t⩾0

L’infimum étant atteint en t = 21 ((1 − ϵ)−2 − 1), on obtient

P(∥Lz∥2 ⩽ 1 − ϵ) ⩽ exp −n −ϵ + 12 ϵ2 − log(1 − ϵ) ⩽ exp −ϵ2 n ,


   

puisque log(1 − ϵ) ⩽ −ϵ − 12 ϵ2 pour tout ϵ ∈ [0, 1).


On obtient donc finalement

/ (1 − ϵ, 1 + ϵ)) ⩽ exp −(ϵ2 − 13 ϵ3 )n + exp −ϵ2 n ⩽ 2 exp −(ϵ2 − 31 ϵ3 )n ⩽ 2δ,


     
P(∥Lz∥2 ∈

pour tout n ⩾ |log δ|/(ϵ2 − 31 ϵ3 ).

5.3 Application à l’acquisition comprimée


5.3.1 Sparsité et propriété d’isométrie restreinte
De nombreux types de signaux (par exemple, le son, les images ou la vidéo) peuvent être encodés
sous la forme d’un vecteur x ∈ RN avec N (très) grand. Plutôt que de mesurer directement le signal x,
on mesure y = M x ∈ Rn avec n ≪ N , où M est une matrice n × N (par exemple en ne conservant
qu’une partie des coefficients de Fourier). Le problème est de reconstruire le signal x à partir de la
mesure y (et de la connaissance de la matrice de mesure M ). Comme on a supposé n ≪ N , ce problème
semble mal posé : après tout, le problème est sévèrement sous-déterminé ! Néanmoins, dans de très
nombreuses situations pratiques, on a des raisons de s’attendre à ce que le signal x soit sparse (épars en
français, mais presque tout le monde utilise le terme en anglais). Par exemple, la norme de compression
d’images JPEG 2000 repose sur le fait qu’une image peut être encodée dans une base d’ondelettes, de
sorte à ce que la qualité visuelle soit peu impactée même lorsque l’on ne conserve qu’un petit nombre de
coefficients. La question devient alors : dans l’hypothèse où le signal x est sparse, sous quelles conditions
sur n est-il possible de reconstruire x à partir de y ? Nous allons voir dans cette section qu’une réponse
à cette question peut être obtenue à l’aide du lemme de Johnson–Lindenstrauss.
Commençons par préciser la notion de vecteur sparse.
44 Chapitre 5. Réduction de la dimensionnalité : le lemme de Johnson–Lindenstrauss

Figure 5.1: Minimiser la norme ℓ1 sur un sous-espace affine tend à produire une solution sparse (droite), contrai-
rement au cas de la norme ℓ2 (gauche).

Définition 5.5. Soit k ∈ N∗ . Un vecteur x ∈ RN est k-sparse s’il possède au plus k composantes non
nulles. On notera SkN l’ensemble de tous les vecteurs k-sparse.

Des considérations élémentaires d’algèbre linéaire montrent qu’une condition nécessaire et suffi-
sante pour que l’application x 7→ M x soit injective (de sorte à ce que le problème soit bien posé) est
qu’aucune famille de 2k colonnes de M ne soit linéairement indépendante. En effet, observons que
pour toute paire x, x′ ∈ SkN , on a x − x′ ∈ S2k N . Par conséquent, il existe deux vecteurs distincts

x, x ∈ Sk tels que M (x − x ) = 0 si et seulement si les colonnes de M correspondant aux compo-


′ N ′

santes non nulles de x − x′ sont linéairement dépendantes. Observons que cette condition est satisfaite
(presque sûrement) par la matrice L introduite dans la preuve du Lemme de Johnson–Lindenstrauss.
Le problème est qu’étant donné y ∈ Rn , il n’est pas aisé de trouver le vecteur x ∈ SkN tel que Lx = y.
Nous allons à présent décrire une approche plus efficace. Celle-ci repose sur la notion suivante.

Définition 5.6. Soit k ∈ N∗ et ϵ ∈ (0, 1). Une application linéaire M : RN → Rn possède la propriété
d’isométrie restreinte d’ordre k et de constante ϵ si

∀x ∈ SkN , (1 − ϵ)∥x∥2 ⩽ ∥M x∥2 ⩽ (1 + ϵ)∥x∥2 .

Dans ce cas, on dira que M vérifie RIPk,ϵ .

L’intérêt de cette notion est démontré par le résultat suivant, qui réduit le problème de reconstruction
d’un signal sparse à un problème d’optimisation pouvant être implémenté de façon numériquement
efficace.

Proposition 5.7. Soit M : RN → Rn une application linéaire vérifiant RIP10k,1/3 . Alors, pour chaque
x ∈ SkN , le problème d’optimisation

minimiser ∥z∥1 sous la contrainte que M z = M x

possède une unique solution (évidemment donnée par x).

Remarque 5.8. Il est important d’observer que minimiser la norme ℓ1 sur un sous-espace affine tend à
générer une solution sparse, contrairement à ce qui se produit avec la norme ℓ2 . Ceci est illustré (dans le
cas de R2 ) dans la Fig. 5.1. ⋄

Évidemment, le problème à présent est d’obtenir des transformations linéaires vérifiant cette condi-
tion. Il se trouve que la même approche que pour le lemme de Johnson–Lindenstrauss fonctionne ici.
Soit A une matrice n × N dont les éléments sont des variables aléatoires i.i.d. de loi N (0, 1) et soit
L := n−1/2 A.

Proposition 5.9. Pour tout n ⩾ 500k log N , L vérifie RIP10k,1/3 avec probabilité au moins 1 − 1/N .
5.3. Application à l’acquisition comprimée 45

I01

I0 I1 I2 I3

k 9k 9k 9k

Figure 5.2: La décomposition de N∗ employée dans la preuve de la Proposition 5.7 (ici, avec k = 4).

En combinant les Propositions 5.7 et 5.9, on obtient le résultat principal de cette section.

Théorème 5.10. Soit n ⩾ 500k log N . Avec probabilité au moins 1−1/N , on peut reconstruire n’importe
quel vecteur x ∈ SkN à partir de la connaissance de Lx en résolvant le problème d’optimisation

minimiser ∥z∥1 sous la contrainte que Lz = Lx.

5.3.2 Preuve des Propositions 5.7 et 5.9


Preuve de la Proposition 5.7. Fixons x = (x1 , . . . , xN ) ∈ SkN . Sans perte de généralité, nous suppo-
serons que xi = 0 pour tout i > k. Soit z ∈ RN tel que M z = M x et ∥z∥1 ⩽ ∥x∥1 . Notons
r = (r1 , . . . , rN ) := z − x. Sans perte de généralité, on supposera que |ri | ⩾ |ri+1 | pour tout i > k.
Nous allons montrer que l’on a alors nécessairement r = 0, c’est-à-dire z = x, ce qui conclura la
preuve.
Soit a1 := k et, pour i ⩾ 2, ai := ai−1 + 9k. On partitionne N∗ W= i⩾0 Ii , avec I0 := JkK
W
et, pour i ⩾ 1, Ii := {ai + 1, . . . , ai+1 }. On notera également I⩾j := j⩾i Ij et I01 := I0 ∪ I1 . Si
y = (y1 , . . . , yN ) ∈ RN et J ⊂ N∗ , on notera yJ le vecteur de RN avec composantes (yJ )i := 1{i∈J} yi .
On a supposé xI⩾1 = 0. Par conséquent, on a d’une part

∥z∥1 = ∥zI0 ∥1 + ∥zI⩾1 ∥1 = ∥zI0 ∥1 + ∥rI⩾1 ∥1 ,

et, d’autre part,


∥z∥1 ⩽ ∥x∥1 = ∥xI0 ∥1 ⩽ ∥zI0 ∥1 + ∥rI0 ∥1 .
En combinant ces deux observations, on conclut que

∥rI⩾1 ∥1 ⩽ ∥rI0 ∥1 . (5.2)

Observons à présent que M r = M z − M x = 0, ce que l’on peut réécrire M rI01 = − i⩾2 M rIi . Il
P
suit donc de l’hypothèse que M satisfait RIP10k,1/3 que

(5.3)
X X
2 4
3 ∥rI01 ∥2 ⩽ ∥M rI01 ∥2 ⩽ ∥M rIi ∥2 ⩽ 3 ∥rIi ∥2 ,
i⩾2 i⩾2

puisque rI01 est 10k-sparse et chaque rIi , i ⩾ 2, est 9k-sparse.


On a supposé que |rℓ | ⩾ |rℓ+1 | pour tout ℓ > k. En particulier, pour tout i ⩾ 1 et tout j ∈ Ii+1 ,
|rj | ⩽ min{|rk | | k ∈ Ii } ⩽ ∥rIi ∥1 /(9k). On a donc
2
∥rIi ∥1 ∥rIi ∥21

2
∀i ⩾ 1, ∥rIi+1 ∥2 ⩽ 9k = .
9k 9k

Ceci implique que


X X ∥rI ∥1 ∥rI⩾1 ∥1 ∥rI ∥1
∥rIi ∥2 ⩽ √i = √ ⩽ √0 ,
i⩾2 i⩾1
3 k 3 k 3 k
46 Chapitre 5. Réduction de la dimensionnalité : le lemme de Johnson–Lindenstrauss


où l’on a utilisé (5.2). Par Cauchy–Schwarz, ∥rI0 ∥1 ⩽ k∥rI0 ∥2 . On obtient donc finalement
X
∥rIi ∥2 ⩽ 31 ∥rI0 ∥2 ⩽ 31 ∥rI01 ∥2 .
i⩾2

Combiné avec (5.3), on en déduit que ∥rI01 ∥2 = 0 et donc que rI01 = 0. Les entrées |rℓ |, ℓ ⩾ k, étant
décroissantes, il suit que r = 0, comme souhaité.

Preuve de la Proposition 5.9. Notons k ′ := 10k et Λ(z) := ∥Lz∥2 − 1 .


Soit I = I (k ′ , N ) := I ⊂ [N ] |I| = k ′ . Étant donné I ∈ I , notons

SI := x ∈ SkN′ xI c = 0, ∥x∥2 = 1 ,


où l’on a noté I c := [N ] \ I.
La proposition sera démontrée une fois que l’on aura établi que
 n o  1
(5.4)
[
P sup Λ(z) z ∈ SI ⩽ 1/3 ⩾ 1 − .
N
I∈I

Il semble naturel d’utiliser le Lemme 5.4. Notons cependant que, contrairement au lemme de Johnson–
Lindenstrauss qui ne s’applique qu’à des collections finies de points, l’événement intervenant dans (5.4)
porte sur une infinité non dénombrable de vecteurs z, ce qui rend impossible un simple argument basé
sur l’inégalité de Boole. Afin de contourner cette difficulté, nous allons tout d’abord « discrétiser » les
ensembles SI .
On pose ρ := (63 N log N )−1/2 . Soit DI := {x1 , . . . , xK } ⊂ SI tel que
K
[
y ∈ SI ∥y − xi ∥2 ⩽ ρ = SI


i=1

et K soit minimal. En particulier, K ⩽ (3/ρ)k . En effet, on peut générer une telle famille x1 , . . . , xK

en choisissant successivement les points xi ∈ SI de sorte à ce que ∥xi −xj ∥2 > ρ pour tout 1 ⩽ j < i ;
la sélection s’achève lorsqu’il n’est plus possible de trouver de tels points. Notons ΠI : RN → Rk la

projection sur les coordonnées appartenant à I et x̃i := ΠI xi ∈ Rk . Par construction, les boules


y ∈ Rk ∥x̃i − y∥2 ⩽ ρ/2


sont disjointes ; leur volume total est donc égal à 2 Kck′ (ρ/2)k . De plus, toutes ces boules sont incluses

dans la boule de Rk de rayon 3/2 et centrée en 0. Le volume de cette dernière étant égal à ck′ (3/2)k ,
′ ′

on doit bien avoir K ⩽ (3/ρ)k .


Nous allons à présent appliquer le Lemme 5.4 aux points de I∈I (k′ ,N ) DI . On fixe ϵ := 1/6 et
S
−1
δ := 4N | I∈I DI | . Notre hypothèse sur n et la borne grossière
S

 
N  3eN k′  N k′
k′
[
DI ⩽ (3/ρ) ⩽ ⩽
k′ k′ ρ ρ
I∈I

impliquent que |log δ|/(ϵ2 − 13 ϵ3 ) ⩽ 38(k ′ + 2) log N ⩽ 500k log N ⩽ n. Il suit donc du Lemme 5.4
que
 n o  1
(5.5)
[
P sup Λ(z) z ∈ DI ⩽ 1/6 ⩾ 1 − .
2N
I∈I
2. Le volume de la boule de rayon R dans R est cd Rd avec cd := π d/2 Rd /Γ( d2 + 1). Notons toutefois que la valeur de
d

la constante cd ne joue aucun rôle dans l’argument.


5.3. Application à l’acquisition comprimée 47

Observons à présent que (5.4) suivrait de (5.5), si nous étions en mesure de montrer que
1
P ∀y, z ∈ RN , |Λ(z) − Λ(y)| ⩽ (5.6)
p 
6N log N ∥z − y∥2 ⩾ 1 − .
2N
En effet, la construction des ensembles DI garantit que pour tout y ∈ SI , il existe x ∈ DI tel que
∥x − y∥2 ⩽ ρ. Les événements dans (5.5) et (5.6) se produisent avec probabilité au moins 1 − 1/N et
lorsque c’est le cas,
p
Λ(y) ⩽ Λ(x) + |Λ(y) − Λ(x)| ⩽ 61 + 6N log N ρ = 13 .

Il nous suffit donc d’établir (5.6). Soit y, z ∈ RN . Tout d’abord, deux applications de l’inégalité du
triangle permettent d’écrire

|Λ(z) − Λ(y)| ⩽ ∥Lz∥2 − ∥Ly∥2 ⩽ ∥L(z − y)∥2 .

Notons ∥A∥∞ := maxi,j |Aij |. Par l’inégalité de Cauchy–Schwarz,


n X
X N 2 n X
X N N
X 
∥L(z − y)∥22 = Lij (z − y)j ⩽ L2ij (z − y)2j ⩽ N ∥A∥2∞ ∥z − y∥22 .
i=1 j=1 i=1 j=1 j=1

Il nous reste à contrôler les valeurs typiques de ∥A∥∞ . Par une inégalité classique sur les queues de
gaussiennes 3 et l’inégalité de Boole,
r
2 1
P(∥A∥∞ ⩾ 6 log N ) = P(∃i, j t.q. |Aij | ⩾ 6 log N ) ⩽ N n N −3 ⩽
p p
.
6π log N 2N

Ainsi,
√ avec probabilité au moins 1 − 2N1
, on a ∥A∥∞ < 6 log N , ce qui garantit que |Λ(z) − Λ(y)| ⩽
6N log N ∥z − y∥2 .

Remarques bibliographiques : Ce chapitre est basé sur [22].


3. Si Z ∼ N (0, 1) et a > 0, alors P(|Z| ⩾ a) = .
2
x −x2 /2 2 1 −a2 /2
R∞ q R∞ q
√2
2π a
e−x /2
dx ⩽ 2
π a a
e dx = π a
e
6 Transformée de Doob et marche aléatoire sur Z

6.1 Transformée de Doob d’une chaîne de Markov


Soit (Xn )n⩾0 une chaîne de Markov sur un espace d’états S dénombrable ou fini, avec matrice de
transition P = (p(i, j))i,j∈S . On notera Pi la loi de la chaîne démarrée en i ∈ S au temps 0. Soit A ⊂ S
non vide et soit h : S → R+ une fonction strictement positive sur A et P -harmonique sur A :

et
X
∀i ∈ A, h(i) > 0 h(i) = p(i, j)h(j).
j∈S

On définit alors
h(j)
∀i ∈ A, ∀j ∈ S, q(i, j) := p(i, j).
h(i)
Il suit de la P -harmonicité de h que, pour tout i ∈ A,
X 1 X 1
q(i, j) = h(j)p(i, j) = h(i) = 1.
h(i) h(i)
j∈S j∈S

Les q(i, j) peuvent donc être interprétés comme les probabilités de transition d’une chaîne de Markov.

Définition 6.1. Soit i0 ∈ A. La chaîne de Markov (Yn )n⩾0 avec probabilités de transition q(i, j), partant
de Y0 = i0 et stoppée lorsqu’elle quitte A est appelée la h-transformée de Doob 1 de la chaîne (Xn ). On
notera Qi0 la loi de la chaîne (Yn ) partant de i0 .

Observons que la probabilité d’une trajectoire finie i0 , i1 , . . . , in−1 , in , avec i0 , . . . , in−1 ∈ A et in ∈ S,


est donnée par
n
Y
Qi0 (Y0 = i0 , . . . , Yn = in ) = q(ik−1 , ik )
k=1
n
h(in ) Y h(in )
= p(ik−1 , ik ) = Pi (X0 = i0 , . . . , Xn = in ). (6.1)
h(i0 ) h(i0 ) 0
k=1

La construction ci-dessus peut sembler artificielle. Pourtant, comme nous allons le voir à présent
sur quelques exemples, le processus (Yn ) possède souvent une interprétation très naturelle.
1. En anglais : Doob h-transform.

49
50 Chapitre 6. Transformée de Doob et marche aléatoire sur Z

6.2 Quelques exemples


6.2.1 Processus conditionné à quitter A par un certain état
Soit A ⊂ S non vide. Considérons la fonction h : S → R+ définie par

∀i ∈ S, h(i) := Pi (τS\A < ∞, XτS\A = a),

où a ∈ S \ A et τB := min{n ⩾ 0 | Xn ∈ B}. On supposera que, pour tout i ∈ A, la chaîne (Xn ) peut


quitter A via a avec probabilité strictement positive ; ceci garantit que h(i) > 0 pour tout i ∈ A. La
fonction h est également P -harmonique sur A : pour tout i ∈ A,

h(i) = Pi (τS\A < ∞, XτS\A = a)


X
= Pi (X1 = j) Pi (τS\A < ∞, XτS\A = a | X1 = j)
j∈S
X X
= p(i, j)Pj (τS\A < ∞, XτS\A = a) = p(i, j)h(j),
j∈S j∈S

la troisième identité suivant de la propriété de Markov. Nous sommes donc dans le cadre de la section
précédente et pouvons considérer la h-transformée de Doob (Yn ).

Proposition 6.2. Soit i0 ∈ A et (Yn ) la h-transformée de Doob partant de i0 . Alors, (Yn ) a la même loi
que la chaîne (Xn ) démarrée en i0 , stoppée à la première visite en a et conditionnée à quitter A par l’état
a en un temps fini.

Démonstration. C’est une conséquence de (6.1) : pour toute trajectoire finie i0 , i1 , . . . , in−1 , in , avec
i0 , . . . , in−1 ∈ A et in = a,
n
 h(a) Y
Qi0 (Y0 , . . . , Yn ) = (i0 , . . . , in ) = p(ik−1 , ik )
h(i0 )
k=1

Pi0 (X0 , . . . , Xn ) = (i0 , . . . , in )
=
Pi0 (τS\A < ∞, XτS\A = a)

= Pi0 (X0 , . . . , Xn ) = (i0 , . . . , in ) τS\A < ∞, XτS\A = a .

Insistons sur le caractère remarquable d’avoir une description markovienne d’un processus (Xn ) condi-
tionné sur un événement faisant intervenir le comportement futur de (Xn ). La même chose se produit
dans les exemples suivants.

6.2.2 Processus conditionné à ne pas quitter A (cas transient)


Soit A ⊂ S non vide. On suppose cette fois que, pour tout i0 ∈ A, il y a une probabilité strictement
positive que la chaîne ne quitte jamais A. On considère alors la fonction h : S → R+ définie par

∀i ∈ S, h(i) := Pi (τS\A = ∞).

Par notre hypothèse ci-dessus, h(i) > 0 pour tout i ∈ A. De plus, h(i) = 0 pour tout i ∈
/ A. On vérifie
aisément que la propriété de Markov implique à nouveau que h est P -harmonique sur A. Nous sommes
donc dans le cadre de la Section 6.1 et pouvons considérer la h-transformée de Doob (Yn ).

Proposition 6.3. Soit i0 ∈ A et (Yn ) la h-transformée de Doob partant de i0 . Alors, (Yn ) a la même loi
que la chaîne (Xn ) démarrée en i0 et conditionnée à ne jamais quitter A.
6.2. Quelques exemples 51

Démonstration. C’est à nouveau une conséquence immédiate de (6.1) : pour toute trajectoire finie i0 ,
i1 , . . . , in de probabilité strictement positive sous Qi0 (observez que cela implique en particulier que
ik ∈ A pour tout 0 ⩽ k ⩽ n),
n
 h(in ) Y
Qi0 (Y0 , . . . , Yn ) = (i0 , . . . , in ) = p(ik−1 , ik )
h(i0 )
k=1

Pi0 (X0 , . . . , Xn ) = (i0 , . . . , in ) Pin (τS\A = ∞)
=
Pi0 (τS\A = ∞)

= Pi0 (X0 , . . . , Xn ) = (i0 , . . . , in ) τS\A = ∞ ,
puisque, par la propriété de Markov,

Pin (τS\A = ∞) = Pi0 τS\A = ∞ (X0 , . . . , Xn ) = (i0 , . . . , in ) .

6.2.3 Processus conditionné à appartenir à B au temps N


Dans ce dernier exemple, nous allons voir que cette approche peut être étendue à des situations dans
lesquelles l’horizon temporel est spécifié. Cela nécessite d’adapter quelque peu l’approche précédente.
Soit B ⊂ S non vide et N ∈ N∗ . On considère la fonction h : {0, . . . , N } × S → R+ donnée par
h(n, i) := Pi (XN −n ∈ B).
Observons que cette fonction satisfait, pour tout n ∈ {0, . . . , N − 1} et tout i ∈ S,
X X
h(n, i) = Pi (XN −n ∈ B) = p(i, j)Pj (XN −n−1 ∈ B) = p(i, j)h(n + 1, j).
j∈S j∈S

Définissons
h(n + 1, j)
qn (i, j) := p(i, j)
h(n, i)
lorsque h(n, i) ̸= 0 et qn (i, j) := 0 sinon. On a alors, pour tout i ∈ S tel que h(n, i) > 0,
X 1 X 1
qn (i, j) = h(n + 1, j)p(i, j) = h(n, i) = 1.
h(n, i) h(n, i)
j∈S j∈S

On peut donc considérer la chaîne de Markov inhomogène (Yn )n∈N avec probabilités de transition
Qi0 (Yn+1 = j | Yn = i) = qn (i, j)
démarrée en i0 et stoppée au temps N .
Proposition 6.4. Soit N ∈ N∗ , B ⊂ S non vide et i0 ∈ S tel que Pi0 (XN ∈ B) > 0. Soit (Yn ) la chaîne
de Markov définie ci-dessus, partant de i0 . Alors, (Yn ) a la même loi que la chaîne (Xn ) démarrée en i0 et
conditionnée à visiter B au temps N .
Démonstration. Soit i0 , i1 , . . . , iN ∈ S avec iN ∈ B et h(n, in ) > 0 pour tout 0 ⩽ n ⩽ N − 1
(observons que la probabilité de toute trajectoire de (Yn ) ne satisfaisant pas cette dernière condition
est nécessairement nulle). Alors, on a bien
N −1
Y h(n + 1, in+1 )
Qi0 (Y0 = i0 , . . . , YN = iN ) = p(in , in+1 )
h(n, in )
n=0
N −1
h(N, iN ) Y
= p(in , in+1 )
h(0, i0 )
n=0
Pi (X0 ∈ B)
= N Pi (X0 = i0 , . . . , XN = iN )
Pi0 (XN ∈ B) 0
= Pi0 (X0 = i0 , . . . , XN = iN | XN ∈ B).
52 Chapitre 6. Transformée de Doob et marche aléatoire sur Z

6.3 Marche aléatoire sur Z conditionnée à rester positive


Dans les exemples précédents, le conditionnement était toujours par rapport à un événement de
probabilité strictement positive. Nous allons à présent nous intéresser au cas d’un conditionnement par
un événement de probabilité nulle. Un exemple typique serait celui d’une chaîne de Markov récurrente
que l’on conditionne à éviter (éternellement) un sous-ensemble non vide de S. Il s’agit d’un problème
nettement plus subtil et, plutôt que de discuter de situations générales, nous ne considérerons qu’une
classe de marches aléatoires sur Z.
Soit µ une mesure de probabilité sur {−1, 0, 1} telle que µ(0) < 1. Soit (Sn )n⩾0 la marche aléatoire
sur Z dont les accroissements sont i.i.d. et de loi µ. On note Pi la loi de (Sn ) partant de i au temps 0.

6.3.1 Deux fonctions (super)harmoniques


On considère les fonctions suivantes : pour tout i ∈ N,

h↓ (i) := P0 (τ−i < ∞), h↑ (i) := h↓ (0) + · · · + h↓ (i).

Notons α := P0 (τ−1 < ∞).

Lemme 6.5. Pour tout i ∈ N, h↓ (i) = αi et h↑ (i) = ik=0 αk . De plus,


P

(
1 si µ(−1) ⩾ µ(1),
α=
µ(−1)/µ(1) si µ(−1) < µ(1).

Démonstration. Clairement, h↓ (0) = 1. Il suit de la propriété de Markov forte que, pour tout i ⩾ 1,

h↓ (i) = P0 (τ−i < ∞) = P0 (τ−i < ∞ | τ−i+1 < ∞) P0 (τ−i+1 < ∞)


= P0 (τ−1 < ∞) P0 (τ−i+1 < ∞) = αh↓ (i − 1).

On en déduit que h↓ (i) = αi , pour tout i ∈ N∗ et, par conséquent, h↑ (i) = 1+α+· · ·+αi . Déterminons
α. En conditionnant sur le premier pas de la marche et en utilisant la propriété de Markov, on obtient

α = P0 (τ−1 < ∞) = µ(−1)P−1 (τ−1 < ∞) + µ(0)P0 (τ−1 < ∞) + µ(1)P1 (τ−1 < ∞)
= µ(−1) + µ(0)α + µ(1)α2 .

Manifestement, α = 1 est la seule solution dans [0, 1] lorsque µ(−1) ⩾ µ(1).


Supposons donc que µ(−1) < µ(1). Dans ce cas, l’équation pour α possède deux solutions dans
[0, 1] : celle donnée dans l’énoncé et α = 1. Nous allons exclure cette dernière. Par la loi forte des grands
nombres, limn→∞ Sn /n = µ(1) − µ(−1) =: c > 0 presque sûrement. En particulier,

lim P0 ∀n ⩾ N, Sn > 21 cn = P0 ∃N ∈ N, ∀n ⩾ N, Sn /n > c/2 = 1.


 
N →∞

Il existe donc N ∈ N∗ tel que P0 (∀n ⩾ N, Sn ⩾ 0) ⩾ 1/2. Étant donné que l’on a également
P0 (∀n ∈ JN − 1K, Sn ⩾ 0) > 0, on a bien α < 1.

Il suit immédiatement de la loi forte des grands nombres que le cas µ(1) > µ(−1) correspond au
cas où limn→∞ Sn = +∞ presque sûrement ; on dit que la marche (Sn ) dérive vers +∞. Symétri-
quement, le cas µ(1) < µ(−1) correspond au cas où limn→∞ Sn = −∞ presque sûrement ; on dit que
la marche (Sn ) dérive vers −∞. Finalement, le cas µ(−1) = µ(1) correspond au cas récurrent, dans
lequel la marche oscille : lim inf n→∞ Sn = −∞ et lim supn→∞ Sn = +∞ presque sûrement.
Pour le prochain résultat, on étend h↑ de façon naturelle en posant h↑ (−1) := 0.
6.3. Marche aléatoire sur Z conditionnée à rester positive 53

Proposition 6.6. h↓ est µ-harmonique sur N∗ et h↑ est µ-superharmonique sur N :


X
∀i ∈ N∗ , h↓ (i) = µ(j)h↓ (i + j),
j∈{−1,0,1}
X

∀i ∈ N, h (i) ⩾ µ(j)h↑ (i + j).
j∈{−1,0,1}

De plus, h↑ est µ-harmonique sur N si et seulement si µ(−1) ⩽ µ(1).

Démonstration. La µ-harmonicité de h↓ suit immédiatement du Lemme 6.5, mais peut être déduite de
façon plus transparente de la propriété de Markov : pour tout i ∈ N∗ ,
X
h↓ (i) = P0 (τ−i < ∞) = µ(k)P0 (τ−i < ∞ | S1 = k)
k∈{−1,0,1}
X X
= µ(k)P0 (τ−i−k < ∞) = µ(k)h↓ (i + k).
k∈{−1,0,1} k∈{−1,0,1}

Passons à h↑ . Pour tout i ∈ N∗ ,


i
X i
X X
↑ ↓
h (i) = 1 + h (j) = 1 + µ(k)h↓ (j + k)
j=1 j=1 k∈{−1,0,1}

X i+k
X
=1+ µ(k) h↓ (j)
k∈{−1,0,1} j=1+k
X
= µ(−1) − αµ(1) + µ(k)h↑ (i + k).
k∈{−1,0,1}

Étant donné que µ(−1) ⩾ αµ(1), il suit que h↑ est µ-superharmonique sur N∗ et qu’elle est µ-
harmonique sur N∗ précisément lorsque µ(−1) = αµ(1), ce qui se produit si et seulement si µ(−1) ⩽
µ(1). L’extension de la µ-(super)harmonicité de h↑ à N est immédiate :

µ(−1)h↑ (−1) + µ(0)h↑ (0) + µ(1)h↑ (1) = µ(0) + (1 + α)µ(1) ⩽ 1 = h↑ (0),

puisque αµ(1) ⩽ µ(−1), ce qui établit la µ-superharmonicité. À nouveau, le cas d’égalité correspond
à αµ(1) = µ(−1).

La Proposition 6.6 nous fournit deux fonctions harmoniques sur N ou N∗ (sous des conditions adé-
quates). Nous pouvons donc essayer d’implémenter l’approche de la Section 6.1.

6.3.2 La h↓ -transformée de Doob lorsque µ(−1) > 0


h↓ étant µ-harmonique sur N∗ , on souhaite considérer la h↓ -transformée de Doob de (Sn ), partant
de i0 ∈ N∗ . Observons que, pour tout i ∈ N, h↓ (i) > 0 lorsque µ(−1) > 0 et

h↓ (i) = P0 (τ−i < ∞) = Pi (τZ\N∗ < ∞, SτZ\N∗ = 0).

Par conséquent, on se trouve précisément dans le cadre de la Section 6.2.1, avec Xn := Sn , i0 ∈ N∗ ,


A := N∗ et a := 0. Une application de la Proposition 6.2 montre ainsi que la h↓ -transformée de Doob
de (Sn ) coïncide avec la marche aléatoire (Sn ) partant de i0 ∈ N∗ et conditionnée à visiter 0.
Évidemment, il n’y a pas de difficultés particulières ici, le conditionnement étant par rapport à un
événement de probabilité positive.
54 Chapitre 6. Transformée de Doob et marche aléatoire sur Z

6.3.3 La h↑ -transformée de Doob lorsque µ(1) ⩾ µ(−1)


Sous l’hypothèse que µ(1) ⩾ µ(−1), c’est-à-dire lorsque la marche aléatoire (Sn ) ne dérive pas
vers −∞, la fonction h↑ est µ-harmonique et strictement positive sur N. On peut donc considérer la
h↑ -transformée de Doob de (Sn ) démarrée en i0 ∈ N. Notons (Sn↑ ) la h↑ -transformée de Doob et P↑i la
loi de cette chaîne de Markov partant de i ∈ N. Le premier résultat est que (Sn↑ ) est transiente.

Proposition 6.7. On suppose que µ(1) ⩾ µ(−1). Alors, la chaîne de Markov (Sn↑ ) est transiente.

Démonstration. Pour tout i ∈ N,

h↑ (i − 1) X h↑ (i − 1)
P↑i (τi−1 < ∞) = P↑i (τi−1 = n) =
X
P (τ
i i−1 = n) = Pi (τi−1 < ∞),
h↑ (i) h↑ (i)
n⩾0 n⩾0

la seconde identité suivant de (6.1).


Lorsque µ(−1) = 0, on a Pi (τi−1 < ∞) = 0 et donc P↑i (τi−1 < ∞) = 0.
Lorsque µ(−1) > 0, on a h↑ (i) = h↑ (i − 1) + h↓ (i) > h↑ (i − 1) et donc P↑i (τi−1 < ∞) < 1.

Cas transient : µ(1) > µ(−1)


La proposition suivante montre que, lorsque µ(1) > µ(−1), on se trouve dans le cadre de la
Section 6.2.2 : la fonction h↑ ne diffère de la fonction harmonique de la Section 6.2.2 que par une
constante multiplicative strictement positive. Notons que l’hypothèse µ(1) > µ(−1) garantit que
P0 (τZ<0 = ∞) = 1 − α > 0.

Proposition 6.8. Lorsque µ(1) > µ(−1), on a

Pi (τZ<0 = ∞)
∀i ∈ N, h↑ (i) = .
P0 (τZ<0 = ∞)

Démonstration. Pour tout i ⩾ 0,

Pi (τZ<0 = ∞) = Pi (min{Sn | n ⩾ 0} ⩾ 0)
i
X
= Pi (min{Sn | n ⩾ 0} = i − k)
k=0
Xi
= Pi (τi−k < ∞, τi−k−1 = ∞)
k=0
i
X
= Pi (τi−k < ∞) Pi−k (τi−k−1 = ∞),
k=0

par la propriété de Markov forte. On a évidemment Pi (τi−k < ∞) = P0 (τ−k < ∞) = h↓ (k) et
Pi−k (τi−k−1 = ∞) = P0 (τZ<0 = ∞). Par conséquent,

i
X
Pi (τZ<0 = ∞) = P0 (τZ<0 = ∞) h↓ (k) = P0 (τZ<0 = ∞) h↑ (i).
k=0

Une application de la Proposition 6.3 montre que la loi de (Sn↑ ) démarrée en i0 ∈ N, coïncide, lorsque
µ(1) > µ(−1), avec celle de (Sn ) démarrée en i0 et conditionnée à ne jamais visiter Z<0 .
6.3. Marche aléatoire sur Z conditionnée à rester positive 55

Cas récurrent : µ(1) = µ(−1)


La Proposition 6.6 montre que la fonction h↑ demeure µ-harmonique et strictement positive sur
N lorsque µ(1) = µ(−1). Dans ce cas, la marche aléatoire (Sn ) est récurrente et la probabilité de ne
jamais visiter Z<0 est donc nulle. Conditionner (Sn ) par cet événement est donc mal défini. Ce que l’on
peut faire, par contre, c’est considérer le processus (Sn ) conditionné par l’événement

ΛN := {Sn ⩾ 0 pour tout 0 ⩽ n ⩽ N },

ce dernier ayant probabilité strictement positive. Commençons par montrer un lemme technique, qui
est un pendant de la Proposition 6.8 (la preuve est d’ailleurs presque identique).

Lemme 6.9. Lorsque µ(1) = µ(−1), on a

Pi (ΛN )
∀i ∈ N, h↑ (i) ⩽ lim inf .
N →∞ P0 (ΛN )

Démonstration. Pour tout i ⩾ 0,

Pi (ΛN ) = Pi (min{Sn | 0 ⩽ n ⩽ N } ⩾ 0)
i
X
= Pi (min{Sn | 0 ⩽ n ⩽ N } = i − k)
k=0
i
Pi (τi−k ⩽ N et ∀n ∈ {τi−k , . . . , N }, Sn ⩾ i − k)
X
=
k=0
Xi
⩾ Pi (τi−k ⩽ N ) Pi−k (∀n ∈ {0, . . . , N }, Sn ⩾ i − k)
k=0
i
X
= P0 (∀n ∈ {0, . . . , N }, Sn ⩾ 0) P0 (τ−k ⩽ N ).
k=0

Par conséquent,

i i
Pi (ΛN ) X X
lim inf ⩾ lim P0 (τ−k ⩽ N ) = P0 (τ−k < ∞) = h↑ (i).
N →∞ P0 (ΛN ) N →∞
k=0 k=0

Le résultat suivant montre que la limite en loi des processus conditionnés lorsque N → ∞ est bien
donnée par le processus (Sn↑ ).

Proposition 6.10. On suppose que µ(−1) = µ(1). Alors, pour tout i0 = 0, i1 , . . . , in ⩾ 0,

lim P0 (S0 = i0 , . . . , Sn = in | ΛN ) = P↑0 (S0↑ = i0 , . . . , Sn↑ = in ).


N →∞

Démonstration. Pour tout i0 = 0, i1 , . . . , in ∈ N et tout N ⩾ n, il suit de la propriété de Markov et


de (6.1) que

P0 (S0 = i0 , . . . , Sn = in ) Pin (ΛN −n )


P0 (S0 = i0 , . . . , Sn = in | ΛN ) =
P0 (ΛN )

Pi (ΛN ) h (0) ↑ ↑
⩾ n P (S = i0 , . . . , Sn↑ = in ).
P0 (ΛN ) h↑ (in ) 0 0
56 Chapitre 6. Transformée de Doob et marche aléatoire sur Z

Le Lemme 6.5 implique donc que

lim inf P0 (S0 = i0 , . . . , Sn = in | ΛN ) ⩾ P↑0 (S0↑ = i0 , . . . , Sn↑ = in ). (6.2)


N →∞

Supposons, par l’absurde, qu’il existe j0 , . . . , jn ∈ N et c > 0 tel que

lim sup P0 (S0 = j0 , . . . , Sn = jn | ΛN ) = P↑0 (S0↑ = j0 , . . . , Sn↑ = jn ) + c. (6.3)


N →∞

Par (6.2), il existe N0 ∈ N tel que ∀N ⩾ N0 ,

∀i1 , . . . , in ∈ N, P0 (S0 = i0 , . . . , Sn = in | ΛN ) ⩾ P↑0 (S0↑ = i0 , . . . , Sn↑ = in ) − 3−n−1 c.

Par (6.3), il existe N ⩾ N0 tel que


c
P0 (S0 = j0 , . . . , Sn = jn | ΛN ) ⩾ P↑0 (S0↑ = j0 , . . . , Sn↑ = jn ) + .
2
On obtient donc
X
1= P0 (S0 = 0, S1 = i1 , . . . , Sn = in | ΛN )
i1 ,...,in ∈N
c c c
P↑0 (S0↑ = 0, S1↑ = i1 , . . . , Sn↑ = in ) = 1 + ,
X
⩾ − +
2 3 6
i1 ,...,in ∈N

la dernière identité suivant du fait que h↑ (−1) = 0, puisqu’il suit que toute trajectoire visitant −1 a
probabilité nulle sous P↑0 . La contradiction conclut la preuve.

Remarques bibliographiques : Ce chapitre s’inspire largement du chapitre 5 des notes de cours [7].
Pour le lecteur intéressé, ces dernières traitent de marches aléatoires générales sur Z, pas uniquement
de celles dont les incréments prennent valeur dans {−1, 0, 1}.
7 Convergence des chaînes de Markov réversibles

Dans ce chapitre, nous allons étudier la vitesse de convergence vers l’équilibre des chaînes de Mar-
kov réversibles sur un espace d’états fini à l’aide de méthodes spectrales.

Cadre mathématique dans ce chapitre. Dans ce chapitre, nous considérerons le cadre suivant :
(Xn )n⩾0 est une chaîne de Markov irréductible et réversible sur un espace d’états S fini. Nous noterons
P = (pij )i,j∈S sa matrice de transition et π = (π(i))i∈S son unique loi stationnaire. Nous utiliserons
également la notation pij (n) := (P n )ij = P(Xn = j | X0 = i).

7.1 Structure algébrique

7.1.1 Une caractérisation de la réversibilité

Soit ℓ2 (π) l’espace vectoriel RS muni du produit scalaire


X
⟨f, g⟩π := f (i)g(i)π(i).
i∈S

La norme associée sera notée ∥f ∥π := ⟨f, f ⟩π . Finalement, nous écrirons


p

(7.1)
X
⟨f ⟩π := f (i)π(i) = ⟨f, 1⟩π
i∈S

pour l’espérance de f sous π (nous avons noté 1 la fonction 1(i) := 1 pour tout i ∈ S).
Naturellement, la matrice de transition P peut être interprétée comme un opérateur dans ℓ2 (π)
agissant sur f ∈ ℓ2 (π) par (P f )(i) := j∈S pij f (j).
P

Le théorème suivant fournit une caractérisation des chaînes de Markov réversibles.

Théorème 7.1. Une chaîne de Markov (Xn )n⩾0 sur S est réversible par rapport à sa loi stationnaire π si
et seulement si sa matrice de transition P est un opérateur autoadjoint dans ℓ2 (π) :

∀f, g ∈ ℓ2 (π), ⟨P f, g⟩π = ⟨f, P g⟩π .

57
58 Chapitre 7. Convergence des chaînes de Markov réversibles

Démonstration. ▷ Supposons tout d’abord que, π(i)pij = π(j)pji pour tout i, j ∈ S. Alors, pour tout
f, g ∈ ℓ2 (π),
XhX i
⟨P f, g⟩π = pij f (j) g(i)π(i)
i∈S j∈S
XX
= pji f (j)g(i)π(j)
i∈S j∈S
X hX i
= f (j) pji g(i) π(j) = ⟨f, P g⟩π .
j∈S i∈S

▷ Supposons à présent que P soit autoadjoint dans ℓ2 (π). Alors, pour tout i, j ∈ S,
XhX i
π(j)pji = prs δi (s) δj (r)π(r) = ⟨P δi , δj ⟩π = ⟨δi , P δj ⟩π = π(i)pij ,
r∈S s∈S

où l’on a noté δu , u ∈ S, la fonction définie par δu (v) := δu,v pour tout v ∈ S.

7.1.2 Valeurs propres et vecteurs propres de P


P étant autoadjointe, elle possède |S| valeurs propres réelles, que l’on ordonne en ordre décroissant :

λ1 ⩾ λ2 ⩾ · · · ⩾ λ|S| .

On vérifie facilement que λ1 = 1 et λ|S| ⩾ −1. En effet, (P 1)(i) = j∈S pij 1(j) = j∈S pij =
P P
1 et donc 1 est une valeur propre de P . Le fait que ce soit la plus grande en valeur absolue suit de
l’observation que si P v = λv et i ∈ S est tel que |v(i)| = maxj∈S |v(j)|, alors |λ||v(i)| = |λv(i)| =
| j∈S pij v(j)| ⩽ |v(i)|. Deux quantités vont jouer un rôle crucial dans la suite.
P

Définition 7.2. Le trou spectral est défini par γ := 1 − λ2 . Le trou spectral absolu est défini par
γ∗ := min{γ, 1 − |λ|S| |}.

Théorème 7.3. Soit P une matrice stochastique irréductible, apériodique et réversible. Alors, γ ⩾ γ∗ > 0.

Démonstration. L’inégalité γ ⩾ γ∗ est triviale. Montrons que γ∗ > 0.


Soit w un vecteur propre de P non colinéaire à 1 et de valeur propre λ. Comme cela a été vu dans
le cours d’introduction à la théorie des probabilités, l’irréductibilité et l’apériodicité de P garantissent
l’existence de n ∈ N tel que pij (2n) > 0 pour tout i, j ∈ S. Il y a deux cas possibles :
Cas 1 : |w(i)| = c pour tout i ∈ S. On peut alors supposer, sans perte de généralité, que w(1) = c. On
a donc X
0> p1i (2n)(w(i) − c) = λ2n w(1) − c = (λ2n − 1)c,
i∈S

ce qui montre que λ2n < 1 et donc |λ| < 1.


Cas 2 : il existe i, j ∈ S tel que maxk∈S |w(k)| = |w(i)| > |w(j)|. On a alors
X X X
|λ2n w(i)| = |(P 2n w)(i)| = pik (2n)w(k) ⩽ pik (2n)|w(k)| < |w(i)| pik (2n) = |w(i)|,
k∈S k∈S k∈S

d’où l’on conclut à nouveau que |λ2n | < 1, et donc que |λ| < 1.
7.2. Vitesse de convergence 59

P étant autoadjointe, on sait du cours d’algèbre linéaire que l’on peut trouver une base ortho-
normale (par rapport au produit scalaire ⟨· , ·⟩π ) composée de vecteurs propres (vk )k=1,...,|S| , avec
v1 := 1 et, pour chaque k ∈ {1, . . . , |S|}, P vk = λk vk . (Notons que v1 est bien normalisé puisque
P|S|
∥v1 ∥π = i=1 π(i) = 1.)
On peut alors décomposer toute fonction f ∈ ℓ2 (π) dans cette base :
|S|
X
f= ⟨f, vk ⟩π vk .
k=1

Observons que, comme on l’a vu dans (7.1), ⟨f, v1 ⟩π = ⟨f ⟩π . En particulier,


|S|
(7.2)
X
f − ⟨f ⟩π 1 = ⟨f, vk ⟩π vk ,
k=2

et donc
|S| |S|  |S| 2
X 2 X X
Varπ (f ) = f (i) − ⟨f ⟩π π(i) = ⟨f, vk ⟩π vk (i) π(i)
i=1 i=1 k=2
|S| |S| |S|
X XX
= ⟨f, vk ⟩π ⟨f, vℓ ⟩π vk (i)vℓ (i)π(i)
i=1 k=2 ℓ=2
|S| |S|
X X
= ⟨f, vk ⟩π ⟨f, vℓ ⟩π ⟨vk , vℓ ⟩π
k=2 ℓ=2
|S|
(7.3)
X
= ⟨f, vk ⟩2π .
k=2

Notons également que


|S| |S| |S|
X X X
Pf = ⟨P f, vk ⟩π vk = ⟨f, P vk ⟩π vk = ⟨f, vk ⟩π λk vk ,
k=1 k=1 k=1

et plus généralement, pour tout n ∈ N∗ ,


|S|
(7.4)
X
n
P f= ⟨f, vk ⟩π λnk vk .
k=1

En particulier, pour tout i, j ∈ S,


|S| |S|
(7.5)
X X
pij (n) = (P n δj )(i) = ⟨δj , vk ⟩π λnk vk (i) = π(j)vk (j)λnk vk (i).
k=1 k=1

7.2 Vitesse de convergence


Le résultat suivant fournit une borne spectrale sur la vitesse de convergence vers l’équilibre.
Théorème 7.4. Soit P irréductible et réversible sur S. Alors,
s
1 1 − π(i)
∥P(Xn = · | X0 = i) − π∥VT ⩽ (1 − γ∗ )n .
2 π(i)
60 Chapitre 7. Convergence des chaînes de Markov réversibles

Démonstration. On a
X 2 X q 2
π(j)
4∥P(Xn = · | X0 = i) − π∥2VT = |pij (n) − π(j)| = π(j) |p ij (n) − π(j)|
j∈S j∈S
X X 1 
⩽ π(j) |pij (n) − π(j)|2
π(j)
j∈S j∈S
X 1
pij (n)2 − 2pij (n)π(j) + π(j)2

=
π(j)
j∈S
X pij (n)2
= − 1, (7.6)
π(j)
j∈S

oì l’on a utilisé l’inégalité de Cauchy–Schwarz pour obtenir la seconde ligne. Observons à présent que
la réversibilité de P permet de réécrire
X pij (n)2 X pij (n)pji (n) π(j) 1 X 1
= = pij (n)pji (n) = pii (2n). (7.7)
π(j) π(j) π(i) π(i) π(i)
j∈S j∈S j∈S

Par (7.5) et la définition de γ∗ ,


|S| |S|
X X
pii (2n) = π(i)vk (i)λ2n
k vk (i) = π(i)v1 (i)2 λ2n
1 + π(i) vk (i)2 λ2n
k
k=1 k=2
|S|
(7.8)
X
2n
⩽ π(i) + π(i)(1 − γ∗ ) vk (i)2 .
k=2

En appliquant (7.2) à la fonction f = δi , on obtient


|S| |S|
1 X 1  1 − π(i)
(7.9)
X
2
vk (i) = ⟨δi , vk ⟩π vk (i) = δi (i) − ⟨δi ⟩π = .
π(i) π(i) π(i)
k=2 k=2

La conclusion suit en combinant (7.6), (7.7), (7.8) et (7.9).

Pour être utile quantitativement, le Théorème 7.4 requière d’être capable de calculer (ce qui est en
général difficile, voire impossible) ou au moins de borner γ∗ . Il existe diverses manières de procéder,
dont nous décrirons certaines plus tard. Introduisons avant cela un peu de terminologie classique.

7.3 Temps de relaxation et temps de mélange


Il existe plusieurs façons de quantifier le temps nécessaire pour qu’une chaîne de Markov s’approche
de l’équilibre. Nous en introduisons deux dans cette section et démontrons un résultat permettant de
les comparer sous des hypothèses appropriées.
Notons d(n) := maxi∈S ∥P(Xn = · | X0 = i) − π∥VT . La première notion, celle de temps de
mélange, est très naturelle.

Définition 7.5. Soit ϵ > 0. Le ϵ-temps de mélange est défini par

tmix (ϵ) := min{n ∈ N | d(n) ⩽ ϵ}.

On définit le temps de mélange par


tmix := tmix (1/4).
7.3. Temps de relaxation et temps de mélange 61

(Évidemment, la valeur 1/4 dans cette définition n’a rien de spécial et est purement conventionnelle.)
La seconde notion est celle de temps de relaxation.

Définition 7.6. Le temps de relaxation est défini par


1
trel := .
γ∗

Afin de mieux appréhender ce que mesure cette seconde notion, rappelons qu’il suit du théorème de
convergence que limn→∞ P n f (i) = ⟨f ⟩π pour tout i ∈ S. En particulier, limn→∞ Varπ (P n f ) = 0.
La notion de temps de relaxation permet de rendre cette dernière convergence quantitative : par (7.3)
et (7.4), pour toute fonction f ∈ ℓ2 (π) et tout n ∈ N∗ ,

|S| |S| |S| |S|


X X X X
n n
Varπ (P f ) = ⟨P f, vk ⟩2π = n 2
⟨ ⟨f, vℓ ⟩π λℓ vℓ , vk ⟩π = ⟨f, vk ⟩2π λ2n
k
k=2 k=2 ℓ=1 k=2
⩽ (1 − γ∗ ) 2n
Varπ (f ) ⩽ e−2n/γ∗ Varπ (f ) = e−2n/trel ,

ce qui montre que Varπ (P n f ) converge vers 0 exponentiellement rapidement à une échelle de temps
de l’ordre du temps de relaxation.
Les deux théorèmes suivants fournissent une comparaison entre les deux notions précédentes.

Théorème 7.7. Soit P irréductible et réversible sur S. Soit πmin := mini∈S π(i). Alors, pour tout ϵ > 0,
1 1 − π 
min
tmix (ϵ) ⩽ log trel .
2 4πmin ϵ2

Démonstration. Cela suit presque immédiatement du Théorème 7.4. Ce dernier implique que
s r
1 1 − π(i) n 1 − πmin
d(n) = max∥P(Xn = · | X0 = i) − π∥VT ⩽ max (1 − γ∗ ) ⩽ (1 − γ∗ )n .
i∈S 2 i∈S π(i) 4πmin

Comme (1 − γ∗ )n ⩽ e−γ∗ n = e−n/trel , la conclusion suit, puisque

1 1 − π 
min
∀ϵ > 0, n⩾ log trel =⇒ d(n) ⩽ ϵ.
2 4πmin ϵ2

Théorème 7.8. Soit P irréductible, apériodique et réversible sur S. Alors, pour tout ϵ > 0,

tmix (ϵ) ⩾ |log(2ϵ)|(trel − 1).

Démonstration. Il suit de l’orthogonalité des vecteurs propres que


X
∀k ∈ {2, . . . , |S|}, π(j)vk (j) = ⟨1, vk ⟩π = ⟨v1 , vk ⟩π = 0.
j∈S

On a donc, pour tout i ∈ S et tout n ∈ N∗ ,


X
|λnk vk (i)| = |P n vk (i)| =

pij (n)vk (j) − π(j)vk (j) ⩽ ∥vk ∥∞ 2d(n).
j∈S

En particulier, en choisissant i ∈ S tel que vk (i) = ∥vk ∥∞ , on obtient

∀k ∈ {2, . . . , |S|}, |λk |n ⩽ 2d(n).


62 Chapitre 7. Convergence des chaînes de Markov réversibles

La meilleure borne est obtenue lorsque |λk | = 1 − γ∗ , ce qui donne

1 1
d(n) ⩾ (1 − γ∗ )n ⩾ e−nγ∗ /(1−γ∗ ) ,
2 2

puisque 1 − x ⩾ e−x/(1−x) pour tout x ∈ [0, 1). On en conclut que

1 − γ∗
tmix (ϵ) ⩾ |log(2ϵ)| = |log(2ϵ)|(trel − 1).
γ∗

7.4 Caractérisation variationnelle du trou spectral


Définition 7.9. La forme de Dirichlet associée à la chaîne de Markov (Xn )n⩾0 est définie par

Eπ (f ) := ⟨(I − P )f, f ⟩π .

L’opérateur I − P est le laplacien associé à la chaîne de Markov.

Observons que
X  X  X
Eπ (f ) = f (i) f (i) − pij f (j) π(i) = π(i)pij f (i)(f (i) − f (j))
i∈S j∈S i,j∈S

(7.10)
X X
= π(j)pji f (i)(f (i) − f (j)) = π(i)pij f (j)(f (j) − f (i)),
i,j∈S i,j∈S

où l’on a utilisé la réversibilité pour la troisième identité et interchangé i et j pour la dernière. En


particulier, en sommant la troisième et la dernière expressions, on obtient

(7.11)
X
Eπ (f ) = 12 π(i)pij (f (i) − f (j))2 .
i,j∈S

Un calcul similaire donne

(7.12)
X
Varπ (f ) = 1
2 π(i)π(j)(f (i) − f (j))2 .
i,j∈S

En particulier, Varπ (f ) = 0 si et seulement si f est un multiple de 1.

Théorème 7.10. On suppose P irréductible et réversible. Alors,

Eπ (f )
 
γ = inf Varπ (f ) ̸= 0 .
Varπ (f )

Une inégalité de la forme Varπ (f ) ⩽ cEπ (f ), pour un c > 0, est appelée une inégalité de Poincaré.

Démonstration. Observons tout d’abord que (7.10) et (7.12) impliquent que, pour tout c ∈ R,

Eπ (f − c1) Eπ (f )
= .
Varπ (f − c1) Varπ (f )

On peut donc supposer sans perte de généralité que ⟨f ⟩π = 0. Il suit alors de (7.2) que

|S|
X
f= ⟨f, vk ⟩π vk .
k=2
7.5. Bornes sur les trous spectraux γ et γ∗ 63

Par conséquent,
|S| |S| |S|
X X X
Eπ (f ) = ⟨(I − P )f, f ⟩π = ⟨f, vk ⟩π ⟨f, vℓ ⟩π (1 − λk )⟨vk , vℓ ⟩π = ⟨f, vk ⟩2π (1 − λk )
k=2 ℓ=2 k=2
|S|
X
⩾ (1 − λ2 ) ⟨f, vk ⟩2π = (1 − λ2 )⟨f, f ⟩π = (1 − λ2 ) Varπ (f ).
k=2

La conclusion suit puisque l’inégalité ci-dessus est saturée lorsque f = v2 .

7.5 Bornes sur les trous spectraux γ et γ∗


7.5.1 Conséquences directes de la caractérisation variationnelle
Commençons par un corollaire immédiat du Théorème 7.10.
Corollaire 7.11. On suppose P irréductible et réversible. S’il existe A > 0 tel que

∀f ∈ ℓ2 (π), Varπ (f ) ⩽ AEπ (f ), (7.13)

alors γ ⩾ 1/A.
Remarque 7.12. Évidemment, le résultat précédent ne nous renseigne pas sur la valeur du trou spectral
absolu, qui est celui pertinent pour l’application, par exemple, du Théorème 7.4. L’observation suivante est
donc intéressante. Si l’on remplace la matrice de transition P par la matrice de transition 12 (I + P ), c’est-à-
dire que l’on considère la version paresseuse de la chaîne, en ajoutant à chaque pas une probabilité 1/2 de
rester sur place, alors on peut vérifier (cela sera fait lors des séances d’exercices) que les valeurs propres de
cette nouvelle matrice de transition sont toutes positives ; en particulier, γ∗ = γ pour la variante paresseuse
de la chaîne de Markov. Notons également que cette modification ne modifie pas l’ordre de grandeur du
temps de mélange (en gros, la chaîne évolue deux fois plus lentement, puisqu’elle reste sur place la moitié
du temps). ⋄
Plus généralement, des résultats de comparaison entre chaînes de Markov sont souvent utiles. En voici
un autre.
Lemme 7.13. Soit P et P̃ deux matrices stochastiques irréductibles et réversibles, sur le même espace
d’états fini S. Soit π et π̃ les lois stationnaires associées. Supposons qu’il existe A, B ∈ R∗+ tels que, pour
tout f : S → R et tout i ∈ S,

π(i) ⩽ Aπ̃(i) et Eπ (f ) ⩾ BEπ̃ (f ).


B
Alors, γ ⩾ A γ̃, où γ et γ̃ sont les trous spectraux associés à P et P̃ respectivement.
Démonstration. Observons que
min∥f − c1∥2π = ∥f − ⟨f ⟩π 1∥2π = Varπ (f ).
c∈R

On a donc
X X
Varπ (f ) ⩽ ∥f − ⟨f ⟩π̃ 1∥2π = (f (i) − ⟨f ⟩π̃ )2 π(i) ⩽ A (f (i) − ⟨f ⟩π̃ )2 π̃(i) = A Varπ̃ (f ).
i∈S i∈S

Par conséquent,
Eπ (f ) B Eπ̃ (f )
⩾ .
Varπ (f ) A Varπ̃ (f )
La conclusion suit du Théorème 7.10.
64 Chapitre 7. Convergence des chaînes de Markov réversibles

7.5.2 Chemins pondérés


Décrivons à présent une autre approche possible pour obtenir des bornes sur γ et γ∗ , basée sur la
géométrie du graphe de transition associé à P .
Nous utiliserons les conventions suivantes : si e = (i, j) est une arête orientée, notons e− := i et
e+ := j, et définissons Q(e) := π(i)pij = π(j)pji .
À chaque paire de sommets distincts i, j ∈ S, associons (de façon arbitraire) un unique chemin
γij = (i, i1 , . . . , im , j) tel que pii1 pi1 i2 · · · pim j > 0 et ne visitant aucune arête plus d’une fois. Soit Γ
l’ensemble de tous ces chemins. Pour chaque γij ∈ Γ, on pose
X 1
|γij |Q := .
e∈γ
Q(e)
ij

Définition 7.14. Le coefficient de Poincaré de P est défini par


X
κ = κ(Γ) := max |γij |Q π(i)π(j).
e
γij ∋e

Théorème 7.15. Soit P irréductible et réversible. Alors, γ ⩾ 1/κ.

Démonstration. Il suffit de vérifier que la condition (7.13) est vérifiée avec A = κ. Tout d’abord,
X X hX i2
Varπ (f ) = 21 π(i)π(j)(f (i) − f (j))2 = 21 π(i)π(j) (f (e+ ) − f (e− )) .
i,j∈S i,j∈S e∈γij

Observons que l’inégalité de Cauchy–Schwarz donne


hX i2 h X 1 p i2
(f (e+ ) − f (e− )) = p Q(e)(f (e+ ) − f (e− ))
e∈γij e∈γij Q(e)
X 1 X
⩽ ′)
Q(e)(f (e+ ) − f (e− ))2
Q(e e∈γij
e′ ∈γij
X
= |γij |Q Q(e)(f (e+ ) − f (e− ))2 .
e∈γij

Par conséquent,
X X
Varπ (f ) ⩽ 1
2 π(i)π(j)|γij |Q Q(e)(f (e+ ) − f (e− ))2
i,j∈S e∈γij
X X
= 1
2 Q(e)(f (e+ ) − f (e− ))2 |γij |Q π(i)π(j)
e γij ∋e
X
⩽ κ 21 Q(e)(f (e+ ) − f (e− ))2 = κEπ (f ),
e

où l’on a utilisé (7.11) pour la dernière identité.


Tournons-nous à présent vers la dérivation d’une borne inférieure sur λ|S| . À chaque i ∈ S, on
associe un unique chemin fermé σi = (i, i1 , . . . , im , i) traversant chaque arête au plus une fois et tel
que pii1 · · · pim i > 0 et m est impair. Afin de pouvoir satisfaire cette dernière condition, on supposera
P apériodique 1 . Soit Σ la collection de tous ces chemins.
De façon similaire à ce que l’on a fait précédemment, on définit
X 1
et
X
|σi |Q := , α = α(Σ) := max π(i)|σi |Q .
e∈σ
Q(e) e
σ ∋e
i i

1. Si tous les chemins menant de i à i sont de longueur paire, alors i est de période au moins 2.
7.5. Bornes sur les trous spectraux γ et γ∗ 65

Théorème 7.16. Soit P irréductible, apériodique et réversible. Alors, λ|S| ⩾ −1 + α2 .

Démonstration. Il suffit de montrer que, pour tout f ∈ ℓ2 (π),


α
∥f ∥2π ⩽ ∥f ∥2π + ⟨P f, f ⟩π . (7.14)

2
En effet, appliqué à la fonction f = v|S| , cette inégalité devient 1 ⩽ α2 (1 + λ|S| ).
Observons tout d’abord que, pour tout σi = (i, i1 , . . . , im , i) ∈ Σ,
1

f (i) = 2 (f (i) + f (i1 )) − (f (i1 ) + f (i2 )) + (f (i2 ) + f (i3 )) − · · · + (f (im ) + f (i))
X
= 1
2 (−1)n(e) (f (e− ) + f (e+ )),
e∈σi

où l’on a noté n(e) := k si e = (ik , ik + 1) (avec la convention que i0 := i) et utilisé l’hypothèse que
|σi | est impair. Ainsi,
X hX i2
∥f ∥2π = 1
4 π(i) (−1)n(e) (f (e− ) + f (e+ ))
i∈S e∈σi
hX q i2
Q(e)
X
1 n(e) (f (e− )
= 4 π(i) Q(e) (−1) + f (e+ ))
i∈S e∈σi
X X
⩽ 1
4 π(i)|σi |Q Q(e)(f (e− ) + f (e+ ))2 ,
i∈S e∈σi

où l’on a procédé comme dans la preuve du Théorème 7.15. On obtient donc


1X X αX
∥f ∥2π = Q(e)(f (e− ) + f (e+ ))2 π(i)|σi |Q ⩽ Q(e)(f (e− ) + f (e+ ))2 .
4 e σ ∋e
4 e
i

(7.14) suit immédiatement, puisque


1X X X
Q(e)(f (e− ) + f (e+ ))2 = Q(e)f (e− )2 + Q(e)f (e− )f (e+ )
2 e e e
X X X X
2
= π(i)f (i) pij + π(i)f (i) pij f (j) = ∥f ∥2π + ⟨P f, f ⟩π ,
i j i j

où la première identité suit du fait que l’expression est symétrique en e− , e+ .

Exemple 7.17. Soit G = (S, E) un graphe fini simple connexe. Considérons la marche aléatoire simple
sur G, c’est-à-dire la chaîne de Markov sur S dont les probabilités de transition sont données par pij :=
1{i,j}∈E /d(i), où d(i) := |{j ∈ S | {i, j} ∈ E}| est le degré du sommet i. On vérifie aisément que
cette chaîne de Markov est réversible pour la mesure de probabilité π(i) := d(i)/2|E|. En particulier,
Q({i, j}) = π(i)pij = 1/2|E| pour tout arête {i, j} ∈ E.
On souhaite appliquer le Théorème 7.15. Observons que, pour tout γij ∈ Γ,
X 1
|γij |Q = = 2|E| |γij |,
e∈γij
Q(e)

où l’on a dénoté |γ| la longueur du chemin γ. Par conséquent,


X X d(i) d(j) d2
κ = max |γij |Q π(i)π(j) = max 2|E| |γij | ⩽ K max ,
e
γij ∋e
e
γij ∋e
2|E| 2|E| 2|E|
66 Chapitre 7. Convergence des chaînes de Markov réversibles

où K := maxe et dmax := maxi d(i). On conclut donc du Théorème 7.15 que


P
γij ∋e |γij |

2|E|
γ⩾ .
Kd2max

À présent, bornons inférieurement λ|S| à l’aide du Théorème 7.16. On suppose donc que le graphe
G est tel que la marche aléatoire est apériodique. On a
X X d(i)
α = max π(i)|σi |Q = max 2|E| |σi | ⩽ K ′ dmax ,
e
σi ∋e
e
σ ∋e
2|E|
i

où K ′ := maxe Par conséquent,


P
σi ∋e |σi |.

2
λ|S| ⩾ −1 + .
K ′ dmax
En combinant ces deux bornes, on conclut que
n 2|E| 2 o
γ∗ ⩾ min , . ⋄
Kd2max K ′ dmax

Remarques bibliographiques : La source principale pour ce chapitre est le livre [6], auquel on
pourra se référer pour des informations supplémentaires. Il existe de nombreux autres excellents livres
sur ce sujet, par exemple [17].
8 Méthode de Monte Carlo et simulation parfaite

Dans ce chapitre, nous allons décrire un algorithme permettant d’obtenir un échantillon distribué
exactement selon la loi stationnaire d’une chaîne de Markov. Couplé avec un algorithme de Monte
Carlo, ceci fournit une approche pour obtenir sans approximation des échantillons distribués selon une
mesure de probabilité quelconque sur un ensemble fini.

8.1 Méthode de Monte Carlo


Soit S un ensemble fini et π une mesure de probabilité sur S associant à chaque i ∈ S une probabilité
π(i) > 0. Un problème d’importance centrale dans de nombreux domaines est d’effectuer numérique-
ment des tirages d’éléments de S selon π. Une approche classique à ce problème consiste à construire
une chaîne de Markov irréductible et apériodique (Xn )n⩾0 sur S dont π est l’unique loi stationnaire.
En effet, en notant P la loi de la chaîne, le théorème de convergence garantit que

∀j ∈ S, lim P(Xn = i | X0 = j) = π(i).


n→∞

Ainsi, pour n suffisamment grand, Xn sera approximativement distribué selon π. Évidemment, quan-
tifier ce que l’on entend par « suffisamment grand », ainsi qu’estimer l’erreur commise n’est pas chose
triviale ; le but de ce chapitre sera de décrire une méthode permettant d’éliminer ces problèmes.

8.1.1 Construction d’une chaîne de Markov appropriée


Considérons tout d’abord le problème de construire une chaîne de Markov irréductible et apério-
dique (Xn )n⩾0 sur S ayant π comme loi stationnaire. Il y a évidemment une infinité de telles chaînes.
Il suffit par exemple de choisir les probabilités de transition pij de telle sorte que

∀i, j ∈ S, π(i)pij = π(j)pji . (8.1)

En effet, il suit du cours d’introduction à la théorie des probabilités que π est alors automatiquement
l’unique loi stationnaire de la chaîne (et que celle-ci est réversible par rapport à π).
Soit Q = (qij )i,j∈S une matrice stochastique irréductible arbitraire sur S, que l’on utilisera comme
référence lors de la construction. On cherche une solution à (8.1) de la forme

∀i, j ∈ S distincts, pij = aij qij ,

avec aij ∈ [0, 1] pour tout i, j ∈ S distincts. Ceci peut être interprété comme suit : si l’état de la chaîne
au temps n est i ∈ S, on tire au hasard son état au temps n + 1 de la façon suivante :

67
68 Chapitre 8. Méthode de Monte Carlo et simulation parfaite

▷ On tire au hasard un candidat j ∈ S avec probabilité qij .


▷ On tire au hasard uniformément un nombre u ∈ [0, 1].
▷ Si j ̸= i et u ⩽ aij , on déclare que l’état de la chaîne au temps n + 1 est j.
▷ Si j = i ou u > aij , on déclare que l’état de la chaîne au temps n + 1 est i.
Les nombres (aij )i,j∈S sont appelés probabilités d’acceptation. Il reste à déterminer ces derniers afin
de satisfaire (8.1). Une famille classique de solutions est donnée par des probabilités d’acceptation de la
forme
sij
aij = ,
1 + tij
où (sij )i,j∈S est une matrice symétrique et

π(i)qij
tij = .
π(j)qji

Il faut évidemment choisir la matrice (sij ) de sorte à ce que aij ∈ [0, 1] pour tout i, j ∈ S distincts.
Avec un tel choix, on a bien
π(i)qij sij π(j)qji
π(i)pij = = π(j)pji ,
π(i)qij + π(j)qji
puisque l’expression intermédiaire est symétrique en i et j.

8.1.2 Quelques exemples


Exemple 8.1 (Algorithme de Metropolis–Hastings). Observons qu’afin de garantir que aij ∈ [0, 1],
on doit nécessairement avoir sij ⩽ 1 + min{tij , tji }. L’algorithme de Metropolis consiste à saturer
cette inégalité, ce qui conduit à
n π(j)q o
∀i, j ∈ S distincts,
ji
aij = min 1, .
π(i)qij
La première version de cet algorithme a été publiée par Metropolis et Ulam en 1949 [20, 19]. La version
générale est due à Hastings [12]. ⋄
Exemple 8.2 (Algorithme de Barker). L’algorithme proposé par Barker en 1965 [4] consiste à prendre
sij = 1 pour tout i, j ∈ S distincts. On obtient alors

π(j)qji
∀i, j ∈ S distincts, aij = . ⋄
π(j)qji + π(i)qij

Exemple 8.3 (Échantillonneur de Gibbs). On décrit à présent un choix de probabilité de transition


de nature différente, très souvent utilisé dans la simulation de champs markoviens. Afin de rester
aussi concrets que possible, nous nous contenterons de discuter un cas particulier célèbre : le modèle
d’Ising.
Soit G = (V, A) un graphe fini simple et S := {σ = (σi )i∈V ∈ {−1, 1}V } l’ensemble des confi-
gurations du modèle (cf. Figure 8.1). Le hamiltonien du modèle est la fonction H : S → R définie
par X
H(σ) := − σi σj .
{i,j}∈A

Pour chaque β ∈ R, on considère la mesure de probabilité sur S définie par

e−βH(σ) X
πG,β (σ) := , ZG,β := e−βH(σ) ,
ZG,β
σ∈S
8.2. Simulation parfaite 69

Figure 8.1: Une configuration du modèle d’Ising sur le graphe G = (V, A) avec V = {1, . . . , 5}2 et {i, j} ∈ A
si et seulement si ∥i − j∥1 = 1.

appelée la mesure de Gibbs associée au modèle d’Ising. Le paramètre β > 0 est appelé la température
inverse et joue un rôle essentiel dans l’étude de ce modèle. La constante de normalisation ZG,β est
appelée la fonction de partition.
Étant donné σ ∈ S et i ∈ V , on notera σ i+ , σ i− ∈ S les configurations définies par σji± := σj pour
tout j ̸= i et σii± := ±1.
L’échantillonneur de Gibbs est une implémentation de la méthode de Monte Carlo afin d’échan-
tillonner des configurations de ce modèle (ou d’autres champs markoviens). Il propose de passer d’une
configuration σ à une autre configuration σ ′ de la façon suivante : on tire, indépendamment, un nombre
u ∈ [0, 1] selon la loi uniforme et un sommet i ∈ V également de façon uniforme. On pose alors
πG,β (σ i+ )  h X i−1
si ,
( i+
σ u ⩽ = 1 + exp −2β σj
σ ′ := πG,β (σ i+ ) + πG,β (σ i− ) (8.2)
σ i− sinon,
j∼i

où la notation j ∼ i signifie que j est un voisin de i, c’est-à-dire que {i, j} ∈ A. En d’autres termes, on
choisit un sommet i ∈ V au hasard, et on met à jour σi en tirant sa valeur au hasard selon la loi πG,β
conditionnellement au reste de la configuration, (σj )j∈V \{i} .
Notons pσσ′ les probabilités de transition correspondantes. Clairement, pσσ′ ̸= 0 si et seulement si
σ et σ ′ diffèrent en au plus un sommet. De plus, il est immédiat que la chaîne de Markov ainsi définie
est irréductible et apériodique. Vérifions qu’elle est bien réversible par rapport à πG,β : pour toute
configuration σ ∈ S et tout i ∈ V ,

1 πG,β (σ i− )
πG,β (σ i+ ) pσi+ σi− = πG,β (σ i+ )
|V | πG,β (σ i+ ) + πG,β (σ i− )
1 πG,β (σ i+ )πG,β (σ i− )
= = πG,β (σ i− ) pσi− σi+ . ⋄
|V | πG,β (σ i+ ) + πG,β (σ i− )

8.2 Simulation parfaite


Nous avons vu qu’il est aisé de construire des chaînes de Markov dont la loi stationnaire est donnée
par une loi que l’on désire simuler. Nous sommes à présent confrontés à un problème d’ordre pratique :
on ne peut évidemment pas laisser cet algorithme tourner infiniment longtemps, ce qui nous force à
l’interrompre après un nombre fini M d’itérations. Comment doit-on choisir M si l’on veut être assuré
d’être proche de la distribution stationnaire ? Une approche possible est d’étudier la vitesse de conver-
gence de la chaîne (par exemple, avec les méthodes décrites dans le Chapitre 7). Malheureusement, cela
ne fournit en général que des bornes trop peu quantitatives pour être réellement utiles en pratique,
même si elles peuvent donner des indications.
70 Chapitre 8. Méthode de Monte Carlo et simulation parfaite

Nous allons à présent présenter une approche, due à Propp et Wilson [21] et appelée « couplage
depuis le passé » (coupling from the past en anglais), qui permet de générer des configurations distri-
buées exactement selon la loi stationnaire d’une chaîne de Markov, tout en ne nécessitant qu’un nombre
fini d’itérations. Afin de faciliter sa description, nous allons faire une brève parenthèse pour expliquer
comment on peut exprimer une chaîne de Markov en termes de fonctions aléatoires itérées.

8.2.1 Fonctions aléatoires itérées


Soit S un ensemble fini et (Xn )n∈Z une chaîne de Markov sur S avec probabilités de transition
(pij )i,j∈S . Une façon équivalente de représenter cette chaîne de Markov consiste à considérer une fa-
mille (fk )k∈Z de fonctions aléatoires i.i.d. fk : S → S dont la loi Q est définie par

∀j ∈ S, Q(fk (i) = j) := pij ,

indépendamment pour chaque i ∈ S. On a alors, pour tout m, n ∈ Z tels que m < n,


n

P(Xn = j | Xm = i) = Q Fm (i) = j ,

où l’on a introduit la notation Fmn (i) := f


n−1 ◦fn−2 ◦· · ·◦fm+1 ◦fm (i). En effet, on a Q(Fm
m+1 (i) = j) =

Q(fm (i) = j) = pij = P(Xm+1 = j| Xm = i). Procédons donc par récurrence en supposant que
P(Xℓ = j | Xm = i) = Q Fm ℓ (i) = j pour tout ℓ ∈ Jm + 1, n − 1K et montrons qu’elle reste vraie

pour ℓ = n :
n n−1
Q(Fm (i) = j) = Q(fn−1 ◦ Fm (i) = j)
X
n−1
= Q(fn−1 (k) = j, Fm (i) = k)
k∈S
X
n−1
= Q(fn−1 (k) = j)Q(Fm (i) = k)
k∈S
X
= P(Xn = j | Xn−1 = k)P(Xn−1 = k | Xm = i) = P(Xn = j | Xm = i),
k∈S

où la troisième identité suit de l’indépendance des (fr )r∈Z , la quatrième de l’hypothèse de récurrence
et la dernière de la propriété de Markov.
Exemple 8.4. Considérons la chaîne de Markov (Xn )n∈Z sur {0, 1} avec probabilités de transition p01 :=
p, p00 := 1−p, p10 := q et p11 := 1−q. Il existe 4 fonctions gi : {0, 1} → {0, 1}, i = 1, . . . , 4 : g1 (0) = 0,
g1 (1) = 1 ; g2 (0) = g2 (1) = 0 ; g3 (0) = 1, g3 (1) = 0 ; g4 (0) = g4 (1) = 1. La chaîne (Xn )n∈Z est alors
équivalente à l’itération de fonctions aléatoires i.i.d. (fk )k∈Z de loi Q telle que

Q(fk = g1 ) = (1−p)(1−q), Q(fk = g2 ) = (1−p)q, Q(fk = g1 ) = pq, Q(fk = g1 ) = p(1−q).

La Figure 8.2 illustre cette construction. ⋄

8.2.2 Algorithme de couplage depuis le passé


Soit (pij )i,j∈S les probabilités de transition d’une chaîne de Markov X = (Xk )k∈Z irréductible,
apériodique et de loi stationnaire π. Afin d’analyser la dépendance en l’état initial de la chaîne, on
démarre, au temps m, |S| copies de celle-ci, chacune partant d’un état différent. L’évolution se fait de
façon indépendante tant que les trajectoires ne coïncident pas. Si deux (ou plus) trajectoires coïncident
à un temps n > m, alors on les fait évoluer ensemble pour tous les temps ultérieurs, comme représenté
sur la Figure 8.3. On réalise ainsi un couplage de ces |S| chaînes. Une façon équivalente de présenter ce
couplage est de l’encoder en termes d’une famille (fk )k∈Z de fonctions aléatoires i.i.d. fk : S → S de loi
8.2. Simulation parfaite 71

g2 g3 g4 g4 g3 g4 g1

1 1 1 1 1 1 1 1

0 0 0 0 0 0 0 0

m n
Figure 8.2: Une partie d’une réalisation de la trajectoire de la chaîne de Markov (Xn )n∈Z de l’Exemple 8.4,
exprimée en termes des fonctions aléatoires (fk )k∈Z . Dans cette réalisation, Fm
n
(0) = 1 (en rouge).

2 2 2 2 2 2 2 2

1 1 1 1 1 1 1 1

0 0 0 0 0 0 0 0

m m+2 m+5 n

Figure 8.3: Trois copies d’une chaîne de Markov sur S = {0, 1, 2}, partant de trois états différents au temps m.
Les trajectoires sont indiquées par les flèches en gras. Les trajectoires issues de 1 et 2 se rejoignent au temps
m + 2, puis leur trajectoire commune fusionne avec celle issue de 0 au temps m + 5.

Q comme expliqué dans la section précédente. En particulier, la distribution au temps n ∈ Z de la chaîne


partant de l’état i au temps m < n est identique à celle de Fmn (i) := f
n−1 ◦ fn−2 ◦ · · · ◦ fm+1 ◦ fm (i).
Les |S| trajectoires auront donc fusionné si et seulement si la fonction Fmn est constante.

Le résultat suivant garantit que toutes les trajectoires auront fusionné après un temps presque-
sûrement fini.
Lemme 8.5. Q-presque-sûrement, F0n = const pour tout n suffisamment grand.

Démonstration. Par irréductibilité et apériodicité, il existe K < ∞ tel que la probabilité d’aller de i à
j en K pas est strictement positive pour toute paire i, j ∈ S. Par conséquent, Q(F0K = const) est
également strictement positive. Les indicatrices des événements FnK = const , n ⩾ 0, étant
 (n+1)K

i.i.d., on peut, Q-presque sûrement, trouver N ∈ N tel que FN K soit constante.


(N +1)K

Soit s > r ⩾ 0 ; observant que Fr = const implique F0 = const pour tout n ⩾ s, on en déduit
s n

que F0n sera constante pour tout n ⩾ (N + 1)K.


Manifestement, une fois que les |S| trajectoires ont fusionné, toute information sur l’état de départ
est perdue. On pourrait donc penser que l’on obtient à cet instant un échantillon distribué selon la
loi stationnaire. Mais c’est faux, comme on peut le voir facilement sur l’exemple de la Figure 8.4. Le
problème est que l’observation n’est pas faite en un temps déterministe, ce qui conduit à un biais. Cette
idée n’est cependant pas à rejeter complètement, une modification très simple permettant de la faire
fonctionner.
L’idée est de ne pas chercher à coupler « dans le futur » comme on vient de le faire, mais « depuis le
passé » : on va démarrer les |S| chaînes à un temps suffisamment reculé dans le passé, puis observer le
résultat au temps 0. Plus précisément, on sait que F−n0 =f
−1 ◦ f−2 ◦ · · · f−n+1 ◦ f−n est constante pour
tout n suffisamment grand, puisque F−n 0 = F n . Observez que l’on n’exige pas que le premier temps
loi
0
auquel toutes les copies ont fusionné soit égal à 0, mais seulement que cela ait eu lieu avant 0 ; cette
nuance est cruciale.
72 Chapitre 8. Méthode de Monte Carlo et simulation parfaite

1/2 1/2

1/2 0 1 2

1/2 1

Figure 8.4: Un exemple montrant qu’à l’instant où les trajectoires ont toutes fusionné, la chaîne n’est pas né-
cessairement distribuée selon la loi stationnaire : l’état 2 ne pouvant être atteint qu’en venant de l’état 1, il est
impossible que les chaînes soient dans l’état 2 lorsque la fusion de toutes les trajectoires se produit, alors que 2
a évidemment une probabilité strictement positive sous la loi stationnaire.

0
Théorème 8.6. Soit M une variable aléatoire Q-presque sûrement finie telle que F−M soit constante.
0
Alors, l’unique image de F−M est distribuée selon la loi π.

Démonstration. Fixons i, j ∈ S. Pour tout n ∈ N,


0 0 0
Q(F−n (i) = j) = Q(F−n (i) = j, M ⩽ n) + Q(F−n (i) = j, M > n)
0 0
= Q(F−M (i) = j, M ⩽ n) + Q(F−n (i) = j, M > n)
0 0 0
= Q(F−M (i) = j) − Q(F−M (i) = j, M > n) + Q(F−n (i) = j, M > n).

Donc,
0 0 0 0
Q(F−M (i) = j) − π(j) ⩽ Q(F−n (i) = j) − π(j) + Q(F−M (i) = j) − Q(F−n (i) = j)
⩽ P(Xn = j | X0 = i) − π(j) + Q(M > n),
0 (i) = j) = P(X = j | X = i) par construction. La conclusion suit
où l’on a utilisé le fait que Q(F−n n 0
en prenant la limite n → ∞, puisque limn→∞ P(Xn = j | X0 = i) − π(j) = 0, la chaîne (Xk )k⩾0
étant irréductible et apériodique, et limn→∞ Q(M > n) = 0 par hypothèse.

Remarque 8.7. Il est instructif d’observer ce qui ne marcherait pas si l’on avait procédé « vers le futur » :
dans ce cas, il n’est plus vrai que F0n (i) = F0M (i) pour tout n ⩾ M . Un coup d’œil à la Figure 8.5 (bas)
devrait rendre cela évident. ⋄

−n −m 0

0 m n

Figure 8.5: Haut : couplage depuis le passé ; F−m


0
étant constante, c’est également le cas de F−n
0
, et leur unique
image est identique. Bas : évolution vers le futur ; F0 étant constante, F0 l’est aussi, mais il n’est plus vrai en
m n

général que leur unique image est identique.


8.2. Simulation parfaite 73

En résumé, l’algorithme suivant renvoie un élément de S distribué selon π après un temps presque-
sûrement fini (voir aussi la Figure 8.6) :
Algorithme 2 : couplage depuis le passé
Initialisation : n = 0, F00 = identité
répéter
On remplace n par n + 1
On tire f selon Q
On pose F−n 0 = F0
−n+1 ◦ f
0
jusqu’à F−n est constante
retourner l’unique valeur dans l’image de F−n
0

−1 0 −2 0 −3 0

−4 0 −5 0 −6 0
Figure 8.6: Une réalisation de l’algorithme de couplage depuis le passé. La fonction F−n 0
ne devient constante
qu’à partir de n = 6. Observez que le temps auquel les 5 trajectoires fusionnent n’est pas égal à 0, mais à −2.

8.2.3 Quelques commentaire à propos de cet algorithme


Temps d’échantillonnage. Il n’est pas nécessaire (et pas désirable du tout !) d’appliquer l’algorithme
ci-dessus pour chaque n ∈ N. Il suffit bien sûr de choisir une suite décroissante de temps −nk < 0 telle
que limk→∞ (−nk ) = −∞, et de vérifier successivement, pour k = 1, 2, . . ., si F−n 0
k
est constante. On
peut montrer que le choix −nk = −2 est proche du choix optimal.
k

La dynamique sous-jacente. Bien entendu, un pas de temps dans l’algorithme ci-dessus ne corres-
pond pas nécessairement à l’application d’un pas de la chaîne de Markov sous-jacente. Par exemple,
dans le cas de l’échantillonneur de Gibbs, un pas de la chaîne de Markov ne modifie la configuration
qu’en au plus un sommet, ce qui ne favorise guère la fusion des trajectoires. Il est évidemment beau-
coup plus judicieux d’effectuer un nombre suffisant de pas de la chaîne de Markov pour chaque pas de
l’algorithme ci-dessus.
Il est également important de bien choisir cette dynamique sous-jacente. Plus elle converge rapide-
ment, plus l’algorithme de couplage depuis le passé s’arrêtera rapidement. Par exemple, appliquée au
modèle d’Ising, l’échantillonneur de Gibbs converge rapidement pour de petites valeurs du paramètre
β, mais la vitesse de convergence devient catastrophique lorsque β est grand. Heureusement, il existe
des chaînes de Markov simulant ce modèle beaucoup plus efficacement (par exemple, l’algorithme de
Swendsen–Wang [24]).

Couplage indépendant. Le couplage utilisé ci-dessus est tel que f0 (i) est choisie comme étant égale
à j avec probabilité pij indépendamment pour chaque i ∈ S. Le choix d’un tel couplage indépendant
entre les différentes trajectoires jusqu’à leur rencontre n’est bien entendu pas le seul possible. En fait,
on peut en général faire beaucoup mieux, en choisissant un couplage qui favorise une fusion plus rapide
du processus. On en verra un exemple ci-dessous.
74 Chapitre 8. Méthode de Monte Carlo et simulation parfaite

Couplage monotone. L’approche esquissée ci-dessus présente une faiblesse évidente : la nécessité
de considérer des chaînes partant de chaque état de S peut sembler rendre cette approche inutilisable
dans les situations les plus intéressantes pratiquement. Après tout, pour le modèle d’Ising sur le graphe
avec sommets V = {1, . . . , 1000}2 , le nombre de configurations est déjà de 21 000 000 ≃ 10301 030 . Ceci
rend évidemment totalement impossible la simulation de |S| chaînes de Markov simultanément ! Heu-
reusement, dans de nombreuses situations importantes il est possible d’utiliser des propriétés d’ordre
afin d’éliminer cette difficulté. Décrivons le principe dans le cas de l’échantillonneur de Gibbs appliqué
au modèle d’Ising.
L’ensemble S des configurations du modèle d’Ising sur un graphe fini G = (V, A) possède un ordre
partiel naturel : σ ⩽ σ̃ si et seulement si σi ⩽ σ̃i pour tout i ∈ V . On dit qu’une fonction f : S → R
est croissante si
∀σ, σ̃ ∈ S, σ ⩽ σ̃ =⇒ f (σ) ⩽ f (σ̃).
On introduit le couplage suivant : on tire un nombre u uniformément dans [0, 1] et un site i uni-
formément dans V , indépendamment, et on définit f0 (σ) comme dans (8.2), c’est-à-dire que l’on pose
f0 (σ) = σ i+ avec probabilité
 h X i−1
1 + exp −2β σj
j∼i

et f0 (σ) = σ i− sinon.
Remarquez que ce couplage n’est pas du tout indépendant, puisque l’on utilise les mêmes i et u
pour toute configuration initiale σ. En observant que la fonction
 h X i−1
σ 7→ 1 + exp −2β σj
j∼i

est croissante, on constate que ce couplage possède la propriété remarquable suivante :

∀σ, σ̃ ∈ S, σ ⩽ σ̃ =⇒ f0 (σ) ⩽ f0 (σ̃).

Un tel couplage est dit monotone.


L’intérêt d’un tel couplage est qu’il suffit de considérer l’évolution de deux trajectoires seulement :
celles partant des configurations constantes σ+ ≡ 1 et σ− ≡ −1. En effet, comme toute trajectoire
partant d’une autre configuration va toujours être prise en sandwich entre ces deux trajectoires-ci, ce
seront toujours les dernières à fusionner.
Observons que la preuve du Théorème 8.6 reste valide pour cette variante. En effet, la seule chose à
vérifier est que le Lemme 8.5 est encore vrai, mais ceci est encore plus simple à vérifier dans ce contexte :
il suffit de réaliser que la fusion de toutes les trajectoires a forcément lieu au plus tard la première fois
que la copie de la chaîne partant de σ+ atteint la configuration σ− , ce qui se produit presque-sûrement
en temps fini, par irréductibilité de la chaîne de Markov.

Remarques bibliographiques : Il y a de très nombreuses sources d’information sur ce sujet, dont


les livres [5, 11].
Bibliographie

[1] N. Alon and J. H. Spencer. The probabilistic method. Wiley Series in Discrete Mathematics and
Optimization. John Wiley & Sons, Inc., Hoboken, NJ, fourth edition, 2016.
[2] R. Arratia, L. Goldstein, and L. Gordon. Two moments suffice for Poisson approximations : the
Chen-Stein method. Ann. Probab., 17(1) :9–25, 1989.
[3] J. Baik, P. Deift, and K. Johansson. On the distribution of the length of the longest increasing
subsequence of random permutations. Journal of the American Mathematical Society, 12(4) :1119–
1178, 1999.
[4] A. A. Barker. Monte Carlo calculations of the radial distribution functions for a proton–electron
plasma. Aust. J. Phys., 18(2) :119–134, 1965.
[5] P. Brémaud. Discrete probability models and methods, volume 78 of Probability Theory and Stochas-
tic Modelling. Springer, Cham, 2017.
[6] P. Brémaud. Markov chains—Gibbs fields, Monte Carlo simulation and queues, volume 31 of Texts
in Applied Mathematics. Springer, Cham, 2020.
[7] N. Curien. Random walks and graphs, 2020. Notes de cours, disponibles à l’adresse https:
//www.imo.universite-paris-saclay.fr/~nicolas.curien/enseignement.html.
[8] P. R. de Montmort. Essay d’analyse sur les jeux de hazard. J. Quillau, 1713.
[9] P. Erdős and A. Rényi. On random graphs. I. Publ. Math. Debrecen, 6 :290–297, 1959.
[10] E. N. Gilbert. Random graphs. Ann. Math. Statist., 30 :1141–1144, 1959.
[11] O. Häggström. Finite Markov chains and algorithmic applications, volume 52 of London Mathema-
tical Society Student Texts. Cambridge University Press, Cambridge, 2002.
[12] W. K. Hastings. Monte Carlo sampling methods using Markov chains and their applications.
Biometrika, 57(1) :97–109, 1970.
[13] H. Kesten. Aspects of first passage percolation. In École d’été de probabilités de Saint-Flour, XIV—
1984, volume 1180 of Lecture Notes in Math., pages 125–264. Springer, Berlin, 1986.
[14] M. Krivelevich and B. Sudakov. The phase transition in random graphs : a simple proof. Random
Structures Algorithms, 43(2) :131–138, 2013.
[15] K. G. Larsen and J. Nelson. Optimality of the Johnson-Lindenstrauss lemma. In 58th Annual IEEE
Symposium on Foundations of Computer Science—FOCS 2017, pages 633–638. IEEE Computer Soc.,
Los Alamitos, CA, 2017.

75
76 Bibliographie

[16] M. Ledoux. The concentration of measure phenomenon, volume 89 of Mathematical Surveys and
Monographs. American Mathematical Society, Providence, RI, 2001.
[17] D. A. Levin and Y. Peres. Markov chains and mixing times. American Mathematical Society,
Providence, RI, 2017.
[18] T. Lindvall. Lectures on the coupling method. Dover Publications, Inc., Mineola, NY, 2002. Corrected
reprint of the 1992 original.
[19] N. Metropolis, A. W. Rosenbluth, M. N. Rosenbluth, A. H. Teller, and E. Teller. Equation of State
Calculations by Fast Computing Machines. J. Chem. Phys., 21(6) :1087–1092, 12 2004.
[20] N. Metropolis and S. Ulam. The Monte Carlo method. J. Amer. Statist. Assoc., 44 :335–341, 1949.
[21] J. G. Propp and D. B. Wilson. Exact sampling with coupled Markov chains and applications to
statistical mechanics. In Proceedings of the Seventh International Conference on Random Structures
and Algorithms (Atlanta, GA, 1995), volume 9, pages 223–252, 1996.
[22] S. Roch. Modern discrete probability : An essential toolkit, 2023. Notes de cours, disponibles à
l’adresse https://people.math.wisc.edu/~roch/mdp/.
[23] D. Romik. The surprising mathematics of longest increasing subsequences, volume 4 of Institute of
Mathematical Statistics Textbooks. Cambridge University Press, New York, 2015.
[24] R. H. Swendsen and J.-S. Wang. Nonuniversal critical dynamics in Monte Carlo simulations. Phys.
Rev. Lett., 58 :86–88, Jan 1987.
[25] M. Talagrand. A new look at independence. Ann. Probab., 24(1) :1–34, 1996.
[26] H. Thorisson. Coupling, stationarity, and regeneration. Probability and its Applications (New York).
Springer-Verlag, New York, 2000.
Notations

Ensembles, objets
Kn le graphe complet à n sommets
JnK l’ensemble {1, . . . , n}
Z⩾ℓ l’ensemble {k ∈ Z | k ⩾ ℓ}
Z>ℓ l’ensemble {k ∈ Z | k > ℓ}
Z⩽ℓ l’ensemble {k ∈ Z | k ⩽ ℓ}
Z<ℓ l’ensemble {k ∈ Z | k < ℓ}
N l’ensemble Z⩾0 des entiers positifs
N∗ l’ensemble Z>0 des entiers strictement positifs
R+ l’ensemble {x ∈ R | x ⩾ 0} des réels positifs
R∗+ l’ensemble {x ∈ R | x > 0} des réels strictement positifs
M1 (Ω) l’ensemble des mesures de probabilité sur Ω
Lois de probabilité
G(n, p) graphe d’Erdős–Rényi avec n sommets et probabilité de rétention p
Bern(p) loi de Bernoulli de paramètre p
Binom(n, p) loi binomiale de paramètres n et p
N (µ, σ 2 ) loi normale de paramètres µ et σ 2
Poisson(λ) loi de Poisson de paramètre λ
pλ mesure de probabilité associée à la loi de Poisson de paramètre λ
Divers
a := b a est défini comme étant égal à b
A⊂B A est un sous-ensemble de B (le cas A = B est possible)
A⊊B A est un sous-ensemble strict de B
∥µ − ν∥VT distance en variation totale entre les mesures µ et ν

77
78 Bibliographie


i −1
L (X) loi de la variable aléatoire X
µ(i) notation alternative pour µ({i}) lorsque µ ∈ M1 (Ω), Ω dénombrable et i ∈ Ω
FX fonction de répartition de la variable aléatoire X : FX (x) := P(X ⩽ x)
φX fonction caractéristique de X : φX (t) := E[eitX ]

X a la même loi que Y


loi
X=Y

X a la même loi que Y conditionnée par l’événement A


loi
X = Y |A
a∨b max{a, b}
a∧b min{a, b}
∥·∥1 la norme ℓ1 ou L1
∥·∥2 la norme ℓ2 ou L2
∥·∥∞ la norme ℓ∞ ou L∞
Index

A forme de Dirichlet . . . . . . . . . . . . . . . . . . . . . 62

algorithmes G
couplage depuis le passé . . . . . . . . . . . . . 70
de Barker . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 graphe aléatoire d’Erdős–Rényi . . 1, 10, 26
de Metropolis–Hastings . . . . . . . . . . . . . 68
échantillonneur de Gibbs . . . . . . . . . . . . 68 H
méthode de Monte Carlo . . . . . . . . . . . . 67
parcours en profondeur . . . . . . . . . . . . . . . 3 hamiltonien . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
apériodique harmonique . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
loi apériodique . . . . . . . . . . . . . . . . . . . . . . 15
loi fortement apériodique . . . . . . . . . . . . 14 I

inégalité de Talagrand . . . . . . . . . . . . . . . . . 31
C
isométrie restreinte . . . . . . . . . . . . . . . . . . . 44
configuration . . . . . . . . . . . . . . . . . . . . . . . . . . 68
couplage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 L
couplage maximal . . . . . . . . . . . . . . . . . . . 11
laplacien (discret) . . . . . . . . . . . . . . . . . . . . . 62
couplage
lemme de Johnson–Lindenstrauss . . . . . 42
indépendant . . . . . . . . . . . . . . . . . . . . . . 10
loi des petits nombres . . . . . . . . . . . . . . . . . 19
monotone . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
couplage monotone . . . . . . . . . . . . . . . . . . . 74
M
D
marche aléatoire
dérangement . . . . . . . . . . . . . . . . . . . . . . . . . . 25 paresseuse . . . . . . . . . . . . . . . . . . . . . . . . . 16
distance sur un graphe . . . . . . . . . . . . . . . . . . . . . . 65
de Hamming . . . . . . . . . . . . . . . . . . . . . . . 29 médiane et espérance . . . . . . . . . . . . . . . . . . 35
en variation totale . . . . . . . . . . . . . . . . . . 59 mesure de Gibbs . . . . . . . . . . . . . . . . . . . . . . . 69
distance en variation totale . . . . . . . . . . . . . 9 modèle d’Ising . . . . . . . . . . . . . . . . . . . . . 68, 74

F P

fonction certifiable . . . . . . . . . . . . . . . . . . . . 37 percolation de premier passage . . . . . . . . 37


fonction de partition . . . . . . . . . . . . . . . . . . 68 plus longue sous-suite croissante . . . . . . 39
fonction lipschitzienne . . . . . . . . . . . . . . . . 34 problème des anniversaires . . . . . . . . . . . 23
fonctions aléatoires itérées . . . . . . . . . . . . 70 problème des rencontres . . . . . . . . . . . . . . 25

79
80 Index

sparse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
superharmonique . . . . . . . . . . . . . . . . . . . . . 49

temps
de mélange . . . . . . . . . . . . . . . . . . . . . . . . . 60
de relaxation . . . . . . . . . . . . . . . . . . . . . . . 61
température inverse . . . . . . . . . . . . . . . . . . . 69
transformée de Doob . . . . . . . . . . . . . . . . . . 49
transition de phase
graphe aléatoire d’Erdős–Rényi . . . . . . . 1
trou spectral . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

Vous aimerez peut-être aussi