Chapitres Choisis de Théorie Des Probabilités B: - Yvan Velenik
Chapitres Choisis de Théorie Des Probabilités B: - Yvan Velenik
i
ii Table des matières
Bibliographie 75
Notations 77
Index 79
1 Transition de phase dans le graphe d’Erdős–Rényi
Le but de ce chapitre est de présenter une preuve particulièrement simple de l’existence d’une tran-
sition de phase dans le modèle de graphe aléatoire d’Erdős–Rényi. La preuve fournit des estimées du
bon ordre de grandeur, mais ne cherche pas à obtenir les constantes correctes (ce qui requiert des ar-
guments plus sophistiqués).
1
2 Chapitre 1. Transition de phase dans le graphe d’Erdős–Rényi
Figure 1.1: Deux réalisations du graphe aléatoire d’Erdős–Rényi avec n = 500. Gauche : phase sous-critique
(p = 0.5/n). Droite : phase sur-critique (p = 1.3/n).
Ceci est formulé de façon précise dans le théorème suivant, dont la démonstration est donnée dans la
Section 1.5.
Théorème 1.1. Soit ϵ > 0 suffisamment petit. Soit G ∼ G(n, p).
1. Soit p = 1−ϵ
n . Alors, avec grande probabilité, aucune composante connexe de G ne contient plus de
7ϵ−2 log n sommets.
1+ϵ
2. Soit p = n . Alors, avec grande probabilité, G contient un chemin de longueur au moins 15 ϵ2 n.
1.4 Préliminaires
Cette section contient quelques outils techniques qui se révéleront utiles pour la preuve des Théo-
rèmes 1.1 et 1.2 : tout d’abord, une discussion de l’algorithme de « parcours en profondeur » d’un graphe,
qui joue un rôle central dans les preuves de ces théorèmes, puis des estimées sur des sommes de va-
riables de Bernoulli indépendantes.
1.4. Préliminaires 3
Exemple 1.3. Afin d’être certain d’avoir bien compris comment cet algorithme fonctionne, considérons
par exemple le graphe représenté sur la Figure 1.2. Voici l’évolution de l’algorithme lors de l’exploration
de ce dernier (on indique le “temps” à gauche, ce dernier est incrémenté à chaque fois que la présence
d’une nouvelle arête est testée) :
0 : Initialisation : T = ∅, P = ∅, I = {1, 2, 3, 4, 5, 6}.
4 Chapitre 1. Transition de phase dans le graphe d’Erdős–Rényi
2 6
3 5
4
Figure 1.2: Le graphe discuté dans l’exemple 1.3.
un chemin. En effet, lorsqu’un nouveau sommet est placé sur la pile, ceci se produit parce que ce
sommet est un voisin du sommet se trouvant précédemment au sommet de la pile, incrémentant
d’une unité la longueur du chemin déjà présent dans la pile.
Notons que l’algorithme DFS décrit ci-dessus explore tous les sommets du graphe, mais pas néces-
sairement toutes ses arêtes. Par la suite, on souhaitera déterminer également ces dernières. On com-
plétera donc l’exploration du graphe par une étape finale dans laquelle on teste, dans l’ordre, toutes
les paires de sommets dont on n’a pas encore déterminé s’ils sont reliés par une arête. L’algorithme va
ainsi demander l’état de chacune des N := n2 arêtes du graphe complet à n sommets Kn .
Soit (Xk )Nk=1 des variables aléatoires i.i.d. suivant chacune une loi de Bernoulli de paramètre p.
Appliquer l’algorithme DFS à une réalisation du graphe aléatoire d’Erdős–Rényi, est équivalent à lui
fournir la valeur prise par la variable Xk lors de sa kième demande. Ainsi, toute la structure du graphe
aléatoire est contenue dans la réalisation des variables aléatoires (Xk )N
k=1 . Nous allons voir, à présent,
qu’une telle réalisation possède, avec probabilité tendant vers 1 lorsque n → ∞, certaines propriétés
garantissant que les affirmations des Théorèmes 1.1 et 1.2 sont vraies.
δ 2 pn
∀δ > 0, P X ⩾ (1 + δ)E[X] ⩽ exp − .
2+δ
Démonstration. L’inégalité de Markov implique que, pour tout t > 0,
E(etX1 )n = (pet + 1 − p)n ⩽ e(e −1)pn . On optimise à présent sur t en choisissant t = log(1 + δ). On
t
δ 2 pn
∀δ ∈ (0, 1), P X ⩽ (1 − δ)E[X] ⩽ exp − .
2
6 Chapitre 1. Transition de phase dans le graphe d’Erdős–Rényi
−t )−t(1−δ))pn
P(X ⩽ (1 − δ)pn) ⩽ e−((1−e .
Démonstration. Pour tout a, b ∈ JN K tels que b − a + 1 = kn, bi=a Xi ∼ Bin(kn, p). Soit donc
P
X ∼ Bin(kn, p). Notons que E[X] = kpn = (1 − ϵ)k ⩽ k/(1 + ϵ). Il suit donc du Lemme 1.4 que
où l’on a utilisé le fait que ϵ < 1. La conclusion suit facilement de l’inégalité de Boole :
b
X
P ∃a, b ∈ JN K, b − a + 1 = kn, Xi ⩾ k ⩽ (N − kn + 1)P(X ⩾ k)
i=a
⩽ 12 n2 exp − 13 ϵ2 (1 − ϵ)k ⩽ 12 n2 exp − 73 (1 − ϵ) log n = o(1),
Lemme 1.8. Soit ϵ > 0 et N0 := ⌊ϵn2 /2⌋. Soit (Xk )N k=1 des variables aléatoires i.i.d. suivant chacune
une loi de Bernoulli de paramètre p = (1 + ϵ)/n. Alors, avec grande probabilité,
N0
ϵ(1 + ϵ)n
(1.2)
X
Xi − ⩽ n2/3 .
2
i=1
(O1) À chaque étape de l’algorithme, toutes les paires {i, j} de sommets avec i ∈ T et j ∈ I ont été
testées (négativement : les sommets ne sont pas reliés par une arête). En particulier, au temps t
(c’est-à-dire après t paires testées), on a nécessairement t ⩾ |T | · |I|.
(O2) Les éléments de P appartenant toujours à une même composante connexe et le placement de
n’importe quel sommet d’une composante connexe donnée, sauf le premier, résultant du test
d’une paire de sommets ayant obtenu une réponse positive P(la variable Xi correspondante pre-
nant la valeur 1), on doit nécessairement avoir |P | ⩽ 1 + i=1 Xi au temps t.
t
(O3) De plus, tant que I ̸= ∅, chaque test de présence d’une arête recevant une réponse positive
conduit à retirer un sommet de I et à le placer sur la pile P . Ce sommet rejoindra ultérieurement
T , mais ne peut en aucun cas retourner dans I. Il suit que
P si l’on a toujours I ̸= ∅ après t paires
testées, alors on doit nécessairement avoir |T ∪ P | ⩾ ti=1 Xi .
Nous sommes à présent en mesure de démontrer les deux affirmations du théorème. Nous supposerons
dans la preuve que ϵ est choisi suffisamment petit et n suffisamment grand.
Lemme 1.9. Soit n > k > 0 deux entiers. Soit G = (S, A) un graphe avec |S| = n sommets et tel que
pour toute paire de sous-ensembles disjoints S1 , S2 ⊂ S de taille k, on peut trouver une arête {i, j} ∈ A
avec i ∈ S1 et j ∈ S2 . Alors, G contient un chemin de longueur n − 2k + 2.
Afin de démontrer le Théorème 1.2, il nous suffit donc de prouver que G ∼ G(n, p) contient, avec
grande probabilité, une arête entre toute paire de sous-ensembles disjoints S1 , S2 ⊂ S de taille k :=
⌈ϵn/2⌉. Soit donc S1 , S2 ⊂ S tels que S1 ∩ S2 = ∅ et |S1 | = |S2 | = k. La probabilité que G ne
contienne aucune des |S1 | · |S2 | = k 2 arêtes reliant ces deux ensembles est égale à (1 − p)k . Par
2
conséquent, une application de l’inégalité de Boole nous donne que la probabilité de trouver une telle
paire de sous-ensembles est bornée supérieurement par
2
n n−k en 2 −Ck/n k
k2 n k2
en 2k
−pk2
(1 − p) < (1 − p) < e < e ,
k k k k k
où l’on a utilisé les inégalités élémentaires 1 − p ⩽ e−p et 3 nk < en . En choisissant C := 5|log ϵ|/ϵ,
k
k
on a (en/k)2 e−Ck/n ⩽ 4e2 ϵ1/2 < 1 dès que ϵ < (2e)−4 . On en conclut que la probabilité tend vers 0
exponentiellement rapidement avec n.
Dans tout ce chapitre, nous considérons un ensemble Ω dénombrable (fini ou infini). On note
M1 (Ω) l’ensemble des mesures de probabilité sur (Ω, P(Ω)).
Lemme 2.2. La distance en variation totale définit une métrique sur M1 (Ω).
Passons aux autres affirmations. Soit E := {i ∈ Ω | µ(i) ⩾ ν(i)}. Alors, pour tout A ⊂ Ω,
X X X
µ(A) − ν(A) = µ(i) − ν(i) ⩽ µ(i) − ν(i) ⩽ µ(i) − ν(i) = µ(E) − ν(E),
i∈A i∈A∩E i∈E
avec égalité lorsque A = E, ce qui montre que ∥µ − ν∥VT = µ(E) − ν(E). Finalement, la seconde
identité suit de
1 1X
µ(E) − ν(E) = µ(E) − ν(E) + ν(E c ) − µ(E c ) = |µ(i) − ν(i)|.
2 2
i∈Ω
9
10 Chapitre 2. Distance en variation totale et couplages
X X
1
µ(i) ∧ ν(i) = 2 µ(i) + ν(i) − |µ(i) − ν(i)| = 1 − ∥µ − ν∥VT .
i∈Ω i∈Ω
2.2 Couplage
Rappelons la notion de couplage, qui a probablement déjà été présentée dans le cours d’introduction.
Définition 2.5. Soit µ, ν ∈ M1 (Ω). Un couplage des mesures µ et ν est une mesure de probabilité
ρ ∈ M1 (Ω × Ω) dont les marginales coïncident avec µ et ν :
Si X et Y sont deux variables aléatoires (pas nécessairement définies sur un même espace de probabilité)
toutes deux à valeurs dans Ω, un couplage de X et Y est une paire de variables aléatoires (définies sur
un même espace de probabilité) (X ′ , Y ′ ) dont la loi conjointe est un couplage des lois de X et de Y . Plus
généralement, on dit que (X ′ , Y ′ ) est un couplage de µ et ν si la loi conjointe de (X ′ , Y ′ ) est un couplage
de µ et ν.
Évidemment, considérer la mesure produit, comme dans l’exemple précédent, fournit toujours un cou-
plage (le couplage indépendant). Il est cependant généralement plus intéressant de considérer des cou-
plages possédant des propriétés supplémentaires. Une forme fréquemment utilisée est celle de couplage
monotone.
Définition 2.7. Soit (X, Y ) un couplage des lois µ et ν, où X et Y sont à valeurs dans un ensemble muni
d’un ordre partiel ⩾. Le couplage est dit monotone si P(X ⩽ Y ) = 1.
Soit (Ue )e∈An une collection de variables aléatoires i.i.d., uniformes sur [0, 1]. Soit G′p , resp. G′q , le
sous-graphe de Kn obtenu en conservant tous les sommets et chaque arête e ∈ An telle que Ue ⩽ p,
resp. Ue ⩽ q. Alors (G′p , G′q ) est un couplage de Gp et Gq tel que
P(G′p ⊂ G′q ) = 1.
L’existence d’un tel couplage fournit immédiatement des informations intéressantes, pas toujours
faciles à établir directement. Soit f une fonction définie sur les sous-graphes de Kn et à valeur dans R.
On suppose f croissante : pour toute paire de sous-graphes G, G′ de Kn , G ⊂ G′ =⇒ f (G) ⩽ f (G′ ).
On peut, par exemple, considérer la fonction f (G) := 1{G est connexe} ou encore la fonction f (G) :=
max{|C| | C composante connexe maximale de G}. Soit G ∼ G(n, p). Alors, pour une telle fonction f ,
le couplage précédent implique que l’espérance de f (G) est croissante en p :
Tout couplage entre deux mesures de probabilité fournit une borne sur leur distance en variation
totale.
Lemme 2.10. Soit µ, ν ∈ M1 (Ω). Pour tout couplage (X, Y ) de µ et ν, on a
∥µ − ν∥VT ⩽ P(X ̸= Y ).
Exemple 2.11. Soit λ > ν > 0. On souhaite borner la distance en variation totale entre les lois des
variables aléatoires X ∼ Poisson(λ) et Y ∼ Poisson(ν). On va le faire en construisant un couplage de
X et Y .
Soit Y ′ ∼ Poisson(ν) et Z ′ ∼ Poisson(λ − ν) deux variables aléatoires indépendantes. On pose
X := Y ′ + Z ′ . Il suit du cours d’introduction à la théorie des probabilités que X ′ ∼ Poisson(λ). Par
′
∥µ − ν∥VT = P(X ̸= Y ).
Démonstration. Les cas ∥µ − ν∥VT ∈ {0, 1} sont triviaux et sont laissés en exercice ; on suppose donc
∥µ − ν∥VT ∈ (0, 1). Considérons à nouveau E := {i ∈ Ω | µ(i) ⩾ ν(i)}. Par le Lemme 2.4,
X
p̃ := µ(i) ∧ ν(i) = 1 − ∥µ − ν∥VT .
i∈Ω
En particulier, X X
(µ(i) − ν(i)) = (ν(i) − µ(i)) = ∥µ − ν∥VT = 1 − p̃.
i∈E i∈E
/
Ainsi,
12 Chapitre 2. Distance en variation totale et couplages
▷ p̃ ∈ (0, 1) ;
▷ ρE (·) := 1
1−p̃ (µ(·) − ν(·)) définit une mesure de probabilités sur E ;
▷ ρE c (·) := 1
1−p̃ (ν(·) − µ(·)) définit une mesure de probabilités sur E c ;
▷ ρmin (·) := p̃1 (µ(·) ∧ ν(·)) définit une mesure de probabilités sur Ω.
On peut à présent définir le couplage de la façon suivante :
▷ Avec probabilité p̃, on tire au hasard la valeur de X = Y dans Ω selon la loi ρmin .
▷ Sinon, on tire X au hasard dans E selon la loi ρE et on tire, indépendamment, Y au hasard dans
E c selon la loi ρE c .
Vérifions que (X, Y ) est un couplage de µ et ν.
En considérant séparément les cas i ∈ E et i ∈ / E, on en déduit aisément que P(X = i) = µ(i) pour
tout i ∈ Ω, c’est-à-dire que X ∼ µ. Un calcul similaire montre que Y ∼ ν.
Finalement, ce couplage est maximal, puisque P(X ̸= Y ) = 1 − p̃ = ∥µ − ν∥VT .
le nombre de sommets de degré d. Dans cette section, on s’intéresse à la fraction asymptotique de som-
mets de degré d, Nd /n. Observons que les variables aléatoires 1{Di =d} sont identiquement distribuées,
mais pas indépendantes. On ne peut donc pas simplement recourir à la loi des grands nombres.
Nd n→∞ cd −c
−−−→ e en probabilité.
n d!
2.3. Quelques applications 13
d
(n − 1)! Y n−k c n−1−d
lim n−d = lim =1 et lim 1 − = e−c ,
n→∞ (n − 1 − d)! n→∞ n n→∞ n
k=1
Notons que P(D1 = d)2 = P(D1 = d, D2′ = d), où D2′ ∼ Binom(n−1, pn ) est indépendante de D1 . La
différence entre les lois conjointes de (D1 , D2 ) et (D1 , D2′ ) est la présence de l’arête {1, 2} dont l’état
affecte à la fois D1 et D2 . Ceci suggère d’utiliser le couplage suivant. Soit Y1 , Y2 , X1 et X2 des variables
aléatoires indépendantes telles que Y1 ∼ Binom(n − 2, pn ), Y2 ∼ Binom(n − 2, pn ), X1 ∼ Bern(pn )
et X2 ∼ Bern(pn ). Alors, (D1 , D2 ) = (Y1 + X1 , Y2 + X1 ) et (D1 , D2′ ) = (Y1 + X1 , Y2 + X2 ). On a
loi loi
donc
Remarque 2.15. Cette condition exclut, par exemple, la marche aléatoire simple sur Z, puisque l’on a
pgcd{j ∈ Z | P(X1 − 1 = j) > 0} = {0, −2} = 2. ⋄
Théorème 2.16. Soit a ∈ Z. Soit (Xk )k∈N∗ et (Xk′ )k∈N∗ des variables
Pnaléatoires i.i.d. à valeurs
Pndans Z.
On suppose que (Xk ) et (Xk ) satisfaisant chacune (2.4). Soit Sn := k=1 Xk et Sn := a + k=1 Xk′ .
′ ′
Alors,
lim ∥L (Sn ) − L (Sn′ )∥VT = 0.
n→∞
Démonstration. Nous allons construire un couplage adéquat de Sn et Sn′ en couplant les trajectoires
des deux marches aléatoires. Soit i∗ comme dans (2.4) et soit c suffisamment grand pour que
(2.5)
pgcd j ∈ Z P(X1 − i∗ = j, |X1 − i∗ | ⩽ c) > 0 = 1.
Définissons
si |Xk − Xk′ | ⩽ c,
(
Xk′
Xk′′ :=
Xk si |Xk − Xk′ | > c,
et considérons la marche aléatoire Sn′′ := a + nk=1 Xk′′ . Faisons quelques observations. Tout d’abord,
P
ce qui implique que (Sk′′ )k∈N = (Sk′ )k∈N (rappelons que les deux marches partent de a par définition).
loi
∀n ∈ N, Rn := Sn − Sn′′ .
P(|X1 − X1′′ | > c) = P(|X1 − X1′ | > c, |X1 − X1′ | ⩽ c) + P(|X1 − X1 | > c, |X1 − X1′ | > c) = 0,
et symétriques,
De plus,
Il suit, par conséquent, de (2.4) et de (2.5) que la loi des incréments de (Rn )n∈N est apériodique :
pgcd j ∈ Z P(X1 − X1′′ = j) > 0 = 1.
Le lemme suivant, dont la preuve est donnée plus bas, implique donc que la marche (Rn )n∈N est irré-
ductible et récurrente.
Lemme 2.17. Toute marche aléatoire sur Z dont les incréments sont bornés, symétriques et apériodiques
est nécessairement irréductible et récurrente.
(Rn )n∈N étant irréductible et récurrente, T := inf{k ∈ N | Sk = Sk′′ } = inf{k ∈ N | Rk = 0} est
presque sûrement fini. Finalement, définissons la marche aléatoire (Sk′′′ )k∈N par
Sk′′ si k < T ,
(
∀n ∈ N, Sk′′′ :=
Sk si k ⩾ T .
Observons que (Sn , Sn′′′ ) est un couplage de Sn et Sn′ . De plus, {Sn ̸= Sn′′′ } ⊂ {T > n}. Il suit donc du
Lemme 2.10 que
∥L (Sn ) − L (Sn′ )∥VT ⩽ P(Sn ̸= Sn′′′ ) ⩽ P(T > n).
T étant presque sûrement fini, on a bien
lim ∥L (Sn ) − L (Sn′ )∥VT = 0.
n→∞
Preuve du Lemme 2.17. Sans perte de généralité, soit R̃n := nk=1 X̃k une marche aléatoire sur Z dont
P
les incréments i.i.d. (X̃k )k∈N∗ satisfont P(|X̃1 | ⩽ c) = 1 pour une constante c < ∞, P(X̃1 = i) =
P(X̃1 = −i) pour tout i ∈ Z et pgcd{j ∈ Z | P(X̃1 = j) > 0} = 1.
Soit A := {j ∈ Z | ∃n ∈ N, P(R̃n = j) > 0}. Clairement, A est stable sous addition et satisfait
−A = A (les incréments étant symétriques) et pgcd A = 1. Le lemme suivant, dont la preuve est
donnée plus bas, implique donc que A = Z, ce qui montre que (R̃n )n∈N est irréductible.
Lemme 2.18. Soit A ⊂ Z un ensemble stable sous addition et satisfaisant −A = A et pgcd A = 1. Alors,
A = Z.
Il nous reste donc à établir la récurrence de (R̃n )n∈N . Soit r ∈ N∗ et soit n suffisamment grand pour
que p := P(|R̃n | ⩽ 2r) < 1. Alors, pour tout k ∈ N∗ ,
P(|R̃n | ⩽ r, |R̃2n | ⩽ r, . . . , |R̃kn | ⩽ r) ⩽ pk .
En prenant la limite k → ∞, on en déduit que P(supn |R̃n | ⩽ r) = 0 et donc, r étant arbitraire,
P(sup|R̃n | = ∞) = 1.
n
Les incréments étant symétriques, il suit que
P(sup R̃n = ∞) = P(inf R̃n = −∞) ⩾ 1/2.
n n
Les événements {supn R̃n = ∞} et {inf n R̃n = −∞} appartenant à la tribu asymptotique, la loi 0-1
de Kolmogorov implique finalement que
P(sup R̃n = ∞) = P(inf R̃n = −∞) = 1,
n n
ce qui montre que (R̃n )n∈N change de signe infiniment souvent, presque sûrement. Les incréments
étant bornés, il suit que l’ensemble {−c, . . . , c} doit être visité infiniment souvent. Par conséquent, la
récurrence de (R̃n )n∈N suit de son irréductibilité.
Preuve du Lemme 2.18. Soit d := min{n ⩾ 1 | n ∈ A}. A étant stable sous addition et symétrique, il
suit que dZ ⊂ A. Pour chaque i ∈ A, il existe k ∈ Z tel que 0 ⩽ i − kd < d. Par définition de
d, ceci n’est possible que si i − kd = 0, ce qui montre que A ⊂ dZ, et donc A = dZ. Finalement,
d = pgcd A = 1.
16 Chapitre 2. Distance en variation totale et couplages
1 1
P(X1 = j) = 1{j=0} + 1{∥j∥1 =1} .
2 4d
Étant donné a ∈ Zd , on note Sna := a + ni=1 Xk la marche aléatoire paresseuse sur Zd partant de
P
a.
Démonstration. On définit, itérativement, deux processus stochastiques (Sn′ )n∈N et (Sn′′ )n∈N sur un
même espace de probabilité de la façon suivante :
▷ On pose S0′ := a et S0′′ := b.
▷ Une fois Sk′ et Sk′′ définis, on construit Sk+1
′ et Sk+1
′′ de la façon suivante :
▶ On choisit une composante I ∈ {1, . . . , d} au hasard uniformément.
▶ On pose Sk+1′ ′′ (s) := S ′′ (s) pour tout s ∈ {1, . . . , d} \ {I}.
(s) := Sk′ (s) et Sk+1 k
▶ Si Sk′ (I) = Sk′′ (I), alors
• avec probabilité 1/2, on pose Sk+1
′ (I) := Sk′ (I) et Sk+1
′′ (I) := S ′′ (I) ;
k
• avec probabilité 1/2, on tire W ∈ {−1, 1} au hasard uniformément et on pose Sk+1
′ (I) :=
Sk (I) + W , Sk+1 (I) := Sk (I) + W .
′ ′′ ′′
Il est clair que (Sn′ )n∈N = (Sna )n∈N et (Sn′′ )n∈N = (Snb )n∈N . En outre, pour chaque composante s ∈
loi loi
{1, . . . , d}, la marche aléatoire définie par Rns := Sn′ (s) − Sn′′ (s) est une marche aléatoire sur Z dont
les incréments sont symétriques, bornés (égaux à −1, 0 ou 1) et apériodiques, jusqu’à la première visite
en 0, après quoi la marche ne quitte plus 0. Il suit donc du Lemme 2.17 que τ s := inf{n ∈ N | Rns = 0}
est fini presque sûrement, pour chaque s ∈ {1, . . . , d}. On en conclut que T := max1⩽s⩽d τ s est fini
presque sûrement.
Finalement, (Sn′ , Sn′′ ) fournit un couplage de Sna et Snb , et Sn′ ̸= Sn′′ implique que T > n. Il suit donc
du Lemme 2.10 que
∥L (Sna ) − L (Snb )∥VT ⩽ P(Sn′ ̸= Sn′′ ) ⩽ P(T > n)
tend vers 0 lorsque n → ∞.
Avant de conclure cette section, mentionnons une conséquence directe du Théorème 2.19. Le La-
placien discret sur Zd est l’opérateur défini par
1 X
(∆f )(i) := f (j) − f (i) ,
2d
j∼i
2.3. Quelques applications 17
où la somme porte sur tous les sommets de Zd voisins du sommet i (c’est-à-dire tels que ∥j − i∥1 = 1).
Une fonction harmonique sur Zd est une fonction f : Zd → R telle que ∆f ≡ 0, c’est-à-dire telle
que la valeur en chaque sommet i ∈ Zd est égal à la moyenne des valeurs prises sur les voisins de i :
1 X
∀i ∈ Zd , f (i) = f (j).
2d
j∼i
Corollaire 2.20. Toutes les fonctions harmoniques bornées sur Zd sont constantes.
Démonstration. Soit (Sna )n∈N la marche aléatoire paresseuse sur Zd partant de a ∈ Zd et f une fonction
harmonique telle que supj |f (j)| ⩽ M . Alors, pour tout n ∈ N∗ ,
X
E[f (Sna )] = f (i)P(Sna = i)
i∈Zd
X X
= f (i) P(Sna = i | Sn−1
a a
= j) P(Sn−1 = j)
i∈Zd j∈Zd
X 1
X 1{j∼i}
a a
= f (i) P(Sn−1 = i) + P(Sn−1 = j)
d
2 d
4d
i∈Z j∈Z
1 a 1 X a 1 X
= E[f (Sn−1 )] + P(Sn−1 = j) f (i)
2 2 2d
d j∈Z i∼j
1 a 1 X a a
= E[f (Sn−1 )] + P(Sn−1 = j)f (j) = E[f (Sn−1 )].
2 2 d j∈Z
En itérant, on obtient E[f (Sna )] = E[f (S0a )] = f (a). Alors, pour tout a, b ∈ Zd ,
X
|f (a) − f (b)| = E[f (Sna )] − E[f (Snb )] = f (j) P(Sna = j) − P(Snb = j)
j∈Zd
X
⩽M P(Sna = j) − P(Snb = j)
j∈Zd
Remarques bibliographiques : Ce chapitre est basé sur les notes de cours [22] et sur le livre [26].
Une autre référence classique sur les couplages est [18].
3 Approximation de Poisson :
la méthode de Chen–Stein
Le résultat élémentaire suivant, parfois appelé la loi des petits nombres, est souvent établi dans
les cours d’introduction à la théorie des probabilités :
(n) (n)
Pour chaque n ∈ N∗ , soit I1 , . . . , In des variables aléatoires i.i.d. suivant chacune une loi
(n)
de Bernoulli de paramètre pn . Supposons que limn→∞ npn = λ > 0. Alors, Sn := nk=1 Ik
P
converge en loi vers une variable aléatoire S ∼ Poisson(λ) lorsque n → ∞.
Le but de ce chapitre est d’introduire une approche permettant d’étendre ce type de résultats au cas de
variables aléatoires ni forcément indépendantes, ni forcément identiquement distribuées. De plus, cette
approche fournira un contrôle de la distance entre les lois de Sn et de S.
2. 1 + Vk = Sn | {Ik = 1}.
loi
Exemple 3.2. Appliquons le théorème au cas particulier où les Ik sont indépendantes. Dans ce cas,
l’hypothèse H est clairement satisfaite pour le choix Uk := Sn et Vk := i∈JnK\{k} Ii = Sn − Ik .
P
n n
1 − e−λ X 2 X
∥L (Sn ) − pλ ∥VT ⩽ 1
ρk ⩽ min{1, λ } ρ2k .
λ
k=1 k=1
19
20 Chapitre 3. Approximation de Poisson : la méthode de Chen–Stein
Cette version est connue sous le nom de théorème de Le Cam. En particulier, dans le cas où les (Ik )
sont i.i.d., de loi Bern(ρ), on obtient
∥L (Sn ) − pλ ∥VT ⩽ min{nρ2 , ρ},
où l’on a utilisé le fait que λ = nρ. ⋄
Nous démontrerons le Théorème 3.1 dans la Section 3.2. Avant cela, énonçons quelques corollaires utiles
pour les applications. (D’autres versions sont également discutées dans les séries d’exercices.)
(k)
Corollaire 3.3. Supposons que, pour chaque k ∈ JnK, il existe des variables aléatoires (Zi )i∈JnK\{k}
(k) loi
telles que (Zi )i∈JnK\{k} = (Ii )i∈JnK\{k} | {Ik = 1}. Alors,
n
1 − e−λ X X (k)
∥L (Sn ) − pλ ∥VT ⩽ ρk ρk + E |Ii − Zi | .
λ
k=1 i∈JnK\{k}
(k) (k)
X X
E |Uk − Vk | ⩽ E |Ik | + E |Ii − Zi | = ρk + E |Ii − Zi | .
i∈JnK\{k} i∈JnK\{k}
Corollaire 3.4. Supposons que, pour chaque i ∈ JnK, il existe Vi ⊂ JnK \ {i} tel que Ii soit indépendant
de (Ij )j ∈{i}∪V
/ i
. Alors,
n
1 − e−λ X 2 X
∥L (Sn ) − pλ ∥VT ⩽ ρk + ρj ρk + E[Ij Ik ] .
λ
k=1 j∈Vk
où les variables aléatoires (Ij )j∈Vk sont tirées selon la loi conditionnelle
(k)
(k)
P(∀j ∈ Vk , Ij / V k , Ii = ai ).
= bj | ∀i ∈ JnK, Ii = ai ) = P(∀j ∈ Vk , Ij = bj | Ik = 1, ∀i ∈
La conclusion suit alors de
h i
(k) (k)
X X
E |Uk − Vk | = E Ik + (Ij − Ij ) ⩽ E |Ik | + E |Ij | + E |Ij |
j∈Vk j∈Vk
X X E[Ij Ik ]
= ρk + ρj + E[Ij | Ik = 1] = ρk + ρj + .
ρk
j∈Vk j∈Vk
où N ∼ Poisson(λ). L’idée au cœur de l’approche de Chen, inspirée d’une idée originellement intro-
duite par Stein dans un contexte gaussien, est d’utiliser la caractérisation suivante de la loi de Poisson.
3.2. Preuve du Théorème de Chen 21
Lemme 3.5. Soit Z une variable aléatoire à valeurs dans N et λ > 0. Alors, Z ∼ Poisson(λ) si et
seulement si
E[λf (Z + 1) − Zf (Z)] = 0,
pour toute fonction bornée f : N → R.
Au vu du lemme précédent 1 , on peut espérer que si la loi de Sn est proche d’une loi de Poisson, alors
E[λf (Sn + 1) − Sn f (Sn )] ≈ 0 pour toute fonction f : N → R bornée. On peut dès lors se demander
s’il n’existerait pas une fonction fA : N → R bornée et satisfaisant l’équation de Chen :
1 − e−λ
∀i, j ∈ N∗ , |fA (j) − fA (i)| ⩽ |j − i|.
λ
Preuve du Lemme 3.6. On pose fA (0) := 0, puis on procède via la relation de récurrence fournie par
l’équation de Chen :
i 1 1
fA (i + 1) = fA (i) + 1A (i) − P(N ∈ A)
λ λ λ
i(i − 1) 1 i 1 i
= fA (i − 1) + 1A (i) + 2 1A (i − 1) − P(N ∈ A) − 2 P(N ∈ A)
λ2 λ λ λ λ
= ···
i i
i! X λk i! X λk
= 1 A (k) − P(N ∈ A)
λi+1 k! λi+1 k!
k=0 k=0
P(N ∈ A, N < i + 1) − P(N ∈ A)P(N < i + 1)
= .
λP(N = i)
Preuve du Lemme 3.7. Par l’inégalité triangulaire, il suffit de montrer que
1 − e−λ
∀i ∈ N∗ , |fA (i + 1) − fA (i)| ⩽ . (3.1)
λ
Observons d’une part que le Lemme 3.6 implique que fA∪B = fA + fB lorsque A ∩ B = ∅. En
particulier, X
fA (i + 1) − fA (i) = f{j} (i + 1) − f{j} (i) .
j∈A
i i
Comme P(N < i) ⩽ P(N < i + 1) et P(N ⩾ i) ⩾ P(N ⩾ i + 1), il suit que f{j} est décroissante
λ λ
sur {1, . . . , j}, ainsi que sur {j + 1, j + 2, . . . }. En particulier, f{j} (i + 1) − f{j} (i) ⩽ 0 pour tout i ̸= j,
ce qui implique que
1 λ
fA (i + 1) − fA (i) ⩽ f{i} (i + 1) − f{i} (i) =P(N ⩾ i + 1) + P(N < i)
λ i
1 1 1 − e−λ
⩽ 1 − P(N ⩽ i) + P(0 < N ⩽ i) = 1 − P(N = 0) = .
λ λ λ
Comme fA + fAc = fN ≡ 0, on obtient, en appliquant l’inégalité précédente à fAc ,
1 − e−λ
fA (i + 1) − fA (i) = − fAc (i + 1) − fAc (i) ⩾ − .
λ
La borne (3.1) est démontrée.
E[Iα Iβ ] = 365−|α∪β|+1 .
1 − e−λ 2
(3.2)
X
∥L (S) − pλ ∥VT ⩽ ρ + ρ2 + 365−|α∪β|+1 ,
ρ
β∈Vα
k+ℓ−1
Y
Ik := (1 − Xk−1 ) Xi = 1.
i=k
ℓ
Y
I1 := Xi = 1.
i=1
24 Chapitre 3. Approximation de Poisson : la méthode de Chen–Stein
n
X
Rn < ℓ ⇔ Sn := Ii = 0.
i=1
−c
P(Rn < ℓ) ≈ e−λ = e−2 .
Considérons à titre d’exemple, n := 2047. On a alors log2 12 (n − 1) + 1 = log2 (1024) = 10. Estimons
−4
P(R2047 ⩾ 14) ≈ 1 − e−2 ∼
= 0,06059.
On souhaite appliquer le Corollaire 3.4 afin d’évaluer la précision de cette approximation. On introduit,
pour chaque i ∈ JnK, le voisinage Vi := {j ∈ JnK \ {i} | |i − j| ⩽ ℓ}. Avec ce choix, (Ij )j ∈V
/ i ∪{i} est
bien indépendant de Ii . De plus,
∀i ∈ JnK, ∀j ∈ Vi , E[Ii Ij ] = 0.
n n
1 − e−λ X 2 X 1 − e−λ X X
∥L (Sn ) − pλ ∥VT ⩽ ρk + ρk ρj = ρk ρj .
λ λ
k=1 j∈Vk k=1 j∈Vk ∪{k}
En utilisant
n
X X
ρk ρj ⩽ (n − ℓ − 1)(2ℓ + 1)2−2ℓ−2
k=ℓ+2 j∈Vk ∪{k}
ℓ+1
X X
ρk ρj ⩽ (ℓ + 1)(2ℓ + 1)2−2ℓ−1 ,
k=1 j∈Vk ∪{k}
on obtient
∥L (Sn ) − pλ ∥VT ⩽ 0,000054.
En particulier,
P(R2047 ⩾ 14) ∈ [0,06053, 0,06065].
3.3. Quelques exemples d’application 25
On souhaite appliquer le Théorème 3.1. Pour ce faire, étant donné k ∈ JnK et la permutation σn , consi-
dérons la permutation σ̃nk := τk,σn (k) ◦ σn où τi,j est la transposition échangeant i et j. Manifestement
σ̃nk est distribuée comme une permutation aléatoire uniforme conditionnée à avoir un point fixe en k.
On pose Uk := Sn et Vk := i∈JnK\{k} 1{σ̃nk (i)=i} . Alors, 1 + Vk = Sn | {Ik = 1}. Le Théorème 3.1
P loi
donne donc
n
−1 1
X
∥L (Sn ) − p1 ∥VT ⩽ (1 − e ) E |Uk − Vk | ,
n
k=1
puisque ρk = ρ = 1/n pour tout k ∈ JnK et λ = nρ = 1. On observe ensuite que
1 si σn (k) = k,
|Uk − Vk | = 1 si k appartient à un 2-cycle de σn ,
0 sinon.
Par conséquent,
1 1 2
E |Uk − Vk | = P(σn (k) = k) + P(∃j ∈ JnK \ {k}, σn (k) = j, σn (j) = k) = + = .
n n n
On obtient donc finalement
2(1 − e−1 )
∥L (Sn ) − p1 ∥VT ⩽ , (3.3)
n
3. L’intérêt de Montmort pour ce problème était motivé par le problème plus complexe de déterminer l’avantage du
banquier dans le jeu de hasard connu sous le nom de « Treize ».
26 Chapitre 3. Approximation de Poisson : la méthode de Chen–Stein
ce qui tend bien vers 0. En particulier, la probabilité que Pierre perde, soit P(Sn = 0), satisfait
Évidemment, les variables aléatoires Ii ont même loi, Ii ∼ Bern(ρi ) avec ρi ≡ ρ := (1 − pn )n−1 , mais
elles ne sont
Ppas indépendantes. Le nombre de sommets isolés du graphe G est alors simplement donné
par Sn := ni=1 Ii .
Nous allons utiliser le Corollaire 3.3. Pour ce faire, introduisons, pour chaque k ∈ JnK, les variables
aléatoires
(k)
Y
∀i ∈ JnK \ {k}, Zi := (1 − Xij ).
j∈JnK\{i,k}
Manifestement, (Zi )i∈JnK\{k} = (Ii )i∈JnK\{k} | {Ik = 1}. Une application du Corollaire 3.3 fournit
(k) loi
donc
n
1 − e−λ X X (k)
∥L (Sn ) − pλ ∥VT ⩽ ρk ρk + E |Ii − Zi | ,
λ
k=1 i∈JnK\{k}
(k)
Y Y Y
Ii − Zi = (1 − Xij ) − (1 − Xij ) = Xik (1 − Xij ).
j∈JnK\{i} j∈JnK\{i,k} j∈JnK\{i,k}
1 − e−λ pn pn
∥L (Sn ) − pλ ∥VT ⩽ nρ ρ + (n − 1)ρ ⩽ρ 1+n .
λ 1 − pn 1 − pn
Considérons à présent deux formes spécifiques pour la probabilité d’occupation pn .
3.3. Quelques exemples d’application 27
log n + c
Cas 1 : pn := , avec c ∈ R et n suffisamment grand.
n
Dans ce cas,
e−c (log n)2 (log n)2
ρ= +O , et λ = e−c + O .
n n2 n
On sait de l’inégalité triangulaire que
Comme log n
∥L (Sn ) − pλ ∥VT = O
n
et, par l’Exemple 2.11,
−c |
(log n)2
∥pλ − pe−c ∥VT ⩽ 1 − e−|λ−e =O ,
n
on en conclut que, dans la limite n → ∞, la loi du nombre Sn de sommets isolés de G converge vers la
loi de Poisson de paramètre e−c :
c log n
Cas 2 : pn := , avec 0 < c < 1.
n
Dans ce cas,
(log n)2 (log n)2
ρ = n−c + O , et λ = n1−c + O .
n1+c nc
On obtient donc
√ (log n)2
P (Sn − n1−c )/ n1−c ⩽ x = P Ŷ ⩽ x + O
∀x ∈ R, .
nc
√
On en conclut que L ((Sn − n1−c )/ n1−c ) −−−→ N (0, 1).
n→∞
Remarques bibliographiques : Ce chapitre est basé sur le livre [5] et l’article [2].
4 Concentration de la mesure :
l’inégalité de Talagrand
Soit (Xk )k⩾1 des variables aléatoires identiquement distribuées, non corrélées et de variance finie.
Soit sn := n1 (X1 + · · · + Xn ) la moyenne empirique des n premières variables aléatoires. L’inégalité
de Bienaymé-Tchebychev montre alors que, pour toute suite (an )n⩾1 satisfaisant limn→∞ na2n = +∞,
Var(sn ) Var(X1 )
lim P(|sn − E(X1 )| > an ) ⩽ lim 2
= lim = 0.
n→∞ n→∞ an n→∞ na2n
En particulier, l’essentiel de la masse associée à la loi de (X1 + · · · + Xn )/n est concentrée dans un
intervalle de longueur n−1/2+ϵ (ϵ > 0 arbitraire) autour de E(X1 ) lorsque n devient grand.
Le but de ce chapitre est d’introduire certaines approches utiles à l’étude de ce type de phénomènes
de concentration. Il s’agit d’un domaine très vaste, que nous ne ferons qu’effleurer. Plus précisément,
nous allons démontrer l’inégalité de Talagrand, qui constitue une contribution majeure à cette théorie.
Nous travaillerons toujours sous des hypothèses d’indépendance. Par contre, nous ne nous restrein-
drons pas à des fonctions linéaires comme la moyenne empirique. Un principe général dans cette théorie
est qu’une fonction f de variables aléatoires X1 , . . . , Xn indépendantes ne dépendant que faiblement
de la valeur prise par chacune de ces variables, devrait être approximativement constante avec une
probabilité proche de 1. Observez que c’est le cas de la moyenne empirique : la contribution de chacune
des n variables étant typiquement d’ordre 1/n lorsque ces variables sont d’espérance finie.
Définition 4.1. Soit Sn+ := {α ∈ Rn+ | ∥α∥2 = 1}. La distance de Hamming pondérée par α ∈ Sn
+
sur Ω est définie par
n
X
∀x, y ∈ Ω, dα (x, y) := αi 1{xi ̸=yi } .
i=1
1. Dans tout ce chapitre, les sous-ensembles de Ω considérés seront toujours implicitement supposés mesurables.
29
30 Chapitre 4. Concentration de la mesure : l’inégalité de Talagrand
x x VA
v∗
0 0
Figure 4.1: Illustration du cas où n = 3, x = (0, 1, 0), A = {(1, 0, 0), (1, 1, 1)}. Gauche : représentation de
cette situation (en blanc, les sommets de A). Droite : représentation de UA = {(1, 1, 0), (1, 0, 1), (1, 1, 1)} (som-
mets blancs),
p VA (en gris) et du vecteur v∗ (en rouge)préalisant
p le minimum dans le Lemme 4.3. On obtient ainsi
DA (x) = 3/2, ce qui correspond aux poids α = ( 2/3, 1/6, 1/6).
p
Exemple 4.2. Considérons le cas où Ω := {0, 1}n muni de la loi uniforme. Soit A ⊊ Ω non vide et
x ∈ Ω \ A. On a alors DA (x) ⩾ miny∈A {i ∈ JnK | xi ̸= yi } n−1/2 , puisque cette borne revient à
choisir αi = n−1/2 pour chaque i ∈ JnK.
D’un autre côté, s’il existe un ensemble de coordonnées I ⊂ JnK tel que, pour se retrouver dans
A, il est nécessaire que toutes les composantes xi , i ∈ I, changent de valeur, alors DA (x) ⩾ |I|1/2 , la
borne correspondant au choix α = |I|−1/2 pour i ∈ I et αi = 0 pour i ∈ JnK \ I. ⋄
Considérons l’ensemble
En d’autres termes, s ∈ UA (x) s’il est possible de passer de x à un élément de A en ne changeant que
des composantes xi avec si = 1. 2
Avec cette notation, 3
n
X n
X
DA (x) = sup inf αi 1{xi ̸=yi } = sup min αi si = sup min α · s.
α∈Sn y∈A α∈Sn s∈UA (x) α∈Sn s∈UA (x)
+ i=1 + i=1 +
Soit VA (x) l’enveloppe convexe de UA (x) (considéré comme un sous-ensemble de Rn ) (cf. Fig. 4.1).
Nous pouvons à présent donner une caractérisation alternative de DA (x).
Démonstration. Soit v∗ ∈ VA (x) tel que ∥v∗ ∥2 = minv∈VA (x) ∥v∥2 . Par convexité de VA (x), l’hyperplan
normal à v∗ et passant par v∗ sépare l’origine et VA (x). En particulier, pour tout v ∈ VA (x), v · v∗ ⩾
∥v∗ ∥22 . On choisit α∗ = v∗ /∥v∗ ∥2 . Alors, pour tout s ∈ UA (x) ⊂ VA (x), on a α∗ ·s = ∥v∗1∥2 s·v∗ ⩾ ∥v∗ ∥2 .
Par conséquent,
2. On pourrait trouver plus naturel de définir UA (x) de sorte à ce que xi ̸= yi ⇐⇒ si = 1. Il se trouve cependant que
la flexibilité additionnelle donnée par (4.1) va se révéler très utile dans Pla preuve de l’inégalité de Talagrand.
3. Pour la seconde identité, observons que, pour tout n
i=1 αi si , puisque
Pn
y ∈ A, i=1 αi 1{xi P
̸=yi } ⩾ mins∈UA (x)
(1{xi ̸=yi } )i=1 ∈ UA (x). On a donc inf y∈A i=1 αi 1{xi ̸=yi } ⩾ mins∈UA (x) i=1P αi si . Pour l’autre direction, fixons
n Pn n
Pour
Pnl’autre borne, considérons α ∈ S+ arbitraire. Alors, α · v∗ ⩽ ∥v∗ ∥2 . Par définition de VA (x),
n
ce qui implique qu’il existe i ∈ JnK tel que α · si ⩽ ∥v∗ ∥2 . Par conséquent, quel que soit α ∈ Sn+ , on a
mins∈UA (x) α · s ⩽ ∥v∗ ∥2 et donc
Exemple 4.5. Dans cet exemple, considérons Ω := {0, 1}n muni de la loi uniforme.
▷ Soit A ⊂ Ω tel que µ(A) ⩾ p > 0. L’inégalité de Talagrand implique donc
1 −t2 /4 2
µ(At ) ⩾ 1 − e ⩾ 1 − p1 e−t /4 .
µ(A)
Pour comprendre ce qu’implique cette inégalité, il peut être utile de considérer les poids αi :=
√
1/ n pour tout i ∈ JnK. On a alors
n
√
x ∈ At =⇒ dα (x, A) ⩽ DA (x) ⩽ t =⇒ ∃y ∈ A tel que
X
1{xi ̸=yi } ⩽ t n.
i=1
Ainsi, si l’on tire au hasard un élément de Ω, alors, avec probabilité au moins 1 − p1 e−t , il existe
2 /4
√
un point de A ne différant de celui-ci qu’en au plus t n coordonnées.
▷ Soit A ⊂ Ω avec µ(A) ⩾ 10−6 . Alors,
2 /4
µ(At ) ⩾ 1 − 106 e−t .
En particulier, cela signifie qu’avec une probabilité d’au moins 0,999986, un point tiré au hasard
√
uniformément dans Ω différera en au plus 10 n coordonnées d’un point de l’ensemble A.
▷ Considérons à présent A := {x ∈ {0, 1}n | ∥x∥1 ⩽ n/2}. Par symétrie, µ(A) ⩾ 1/2. Il suit donc
des considérations ci-dessus que, si X est un élément aléatoire de Ω tiré uniformément,
n √ 1 −t2 /4 2
µ ∥X∥1 > + t n ⩽ µ(Act ) ⩽ e = 2e−t /4 ,
2 µ(A)
√ √
puisque, si ∥x∥1 > n2 + t n et y ∈ A, alors ni=1 1{xi ̸=yi } = ∥x − y∥1 ⩾ ∥x∥1 − ∥y∥1 > t n.
P
Notons que la borne ci-dessus reproduit qualitativement (les constantes sont moins bonnes) celle
du Lemme 1.4. ⋄
32 Chapitre 4. Concentration de la mesure : l’inégalité de Talagrand
Ωn+1
Ω′
ΠA A[y]
Figure 4.2: L’ensemble A (les 3 domaines en bleu) et les projections ΠA (en rouge) et A[y] (en vert) sur Ω′ .
1
Z
exp 14 DA (x)2 µ(dx) ⩽
.
Ω µ(A)
Avant de démontrer cette proposition, voyons comment en déduire l’inégalité de Talagrand.
Preuve du Théorème 4.4. Soit X un élément aléatoire de Ω de loi µ. Il suit alors de l’inégalité de Markov
et de la Proposition 4.6 que, pour tout t > 0,
2 /4 2 /4 2 /4 2 /4 1 −t2 /4
1 − µ(At ) = µ(DA (X) > t) = µ eDA (X) > et ⩽ Eµ (eDA (X) )e−t
⩽ e .
µ(A)
Preuve de la Proposition 4.6. La preuve se fait par récurrence sur la dimension n. Le cas n = 1 est facile.
En effet, dans ce cas, DA (x) = inf y∈A 1{x̸=y} = 1{x∈A}
/ , ce qui implique
1
Z
exp 14 DA (x)2 µ(dx) = (1 − e1/4 )µ(A) + e1/4 ⩽
,
Ω µ(A)
puisqu’on a (1 − a)x + a ⩽ 1/x pour tout x ∈ (0, 1], lorsque a ∈ [1, 2].
Supposons donc que l’affirmation de la proposition soit vérifiée pour Ω′ := ×ni=1 Ωi (et la mesure
µ := ×ni=1 µi ) et considérons Ω := Ω′ × Ωn+1 . Nous noterons les éléments de Ω sous la forme (x, y)
′
La seconde observation est que si t ∈ UA[y] (x), alors (t, 0) ∈ UA ((x, y)). En effet, si t ∈ UA[y] (x),
alors il existe x̃ ∈ A[y] tel que ti = 1 pour tout i ∈ JnK tel que xi ̸= x̃i . Or, x̃ appartenant à A[y], on sait
que (x̃, y) ∈ A. L’affirmation suit, puisque (t, 0)i = 1 pour tout i ∈ Jn + 1K tel que (x̃, y)i ̸= (x, y)i .
Il suit immédiatement des deux observations précédentes que si s ∈ VΠA (x) et t ∈ VA[y] (x), alors
(s, 1) ∈ VA ((x, y)) et (t, 0) ∈ VA ((x, y)). Par conséquent,
∀λ ∈ [0, 1], ((1 − λ)s + λt, 1 − λ) ∈ VA ((x, y)).
Il suit donc du Lemme 4.3 que
DA ((x, y))2 = min ∥v∥22 ⩽ ∥((1 − λ)s + λt, 1 − λ)∥22 = ∥(1 − λ)s + λt∥22 + (1 − λ)2
v∈VA (x)
Remarque 4.8. Insistons sur le fait que la valeur de α (et donc la “distance” dα utilisée) n’est pas fixée à
priori, mais peut dépendre du point x choisi. Cette flexibilité est une des grandes forces de cette approche et
se révèle essentielle dans de nombreuses applications. ⋄
1 2 2 2 2
µ(F ⩾ mF + u) ⩽ e−u /4c ⩽ 2e−u /4c ,
µ(F ⩽ mF )
1 2 2 2 2
µ(F ⩽ mF − u) ⩽ e−u /4c ⩽ 2e−u /4c ,
µ(F ⩾ mF )
et la conclusion suit.
Exemple 4.10. Soit X1 , . . . , Xn des variables indépendantes, Xi ∼ bernoulli(pi ) pour chaque i. Dans le
cadre de ce chapitre, cela revient à considérer Ω := {0, 1}n et µ = ×ni=1 µi avec µi ({1}) = pi pour
5. Rappelons que mF est une médiane pour F si µ(F ⩾ mF ) ⩾ 1/2 et µ(F ⩽ mF ) ⩾ 1/2.
4.4. Quelques corollaires et applications 35
Exemple 4.11. On considère n urnes et m boules. Chaque boule est placée au hasard, uniformément et
indépendamment, dans une urne. Soit F le nombre d’urnes non vides et mF une médiane pour F . Cela
correspond à prendre Ω := {1, . . . , n}m , µ := ×m i=1 µi avec µi ({k}) = 1/n pour chaque k ∈ JnK et
chaque i ∈ JmK. Ainsi, pour x ∈ Ω, xi dénote l’urne dans laquelle est placée la ie boule.
Soit x, y ∈ Ω, I := {i ∈ JmK | xi = yi } et soit B := {xi | i ∈ I} l’ensemble des urnes occupées par
les boules dont le numéro appartient à I. Par définition de I, |B| = |{yi | i ∈ I}| ⩽ F (y). On a donc
m
X
F (x) = |B| + |{xi | xi ∈
/ B}| ⩽ F (y) + ai (x)1{xi ̸=yi } ,
i=1
où l’on a posé ai (x) := 1 si la ie boule est la boule de plus petit numéro dans son urne (relativement
à la répartition associée à x), et ai (x) := 0 sinon. L’inégalité suit de l’observation que, pour chaque
u ∈ {xi | xi ∈/ B}, si j := min{i ∈ JmK | xi = u}, alors xj ̸= yj et aj (x)
√ = 1.
En choisissant α(x) := a(x)/∥a(x)∥2 (et en utilisant ∥a(x)∥2 ⩽ n ∧ m), on obtient ainsi, pour
chaque x ∈ Ω,
m
√ X
∀y ∈ Ω, F (x) ⩽ F (y) + n ∧ m αi (x)1{xi ̸=yi } .
i=1
Le Théorème 4.9, énonçant un résultat de concentration autour d’une médiane de F , est typique des
applications de l’inégalité de Talagrand. Le fait qu’une médiane apparaisse, plutôt que l’espérance, peut
sembler ennuyeux, les médianes étant généralement beaucoup plus difficiles à déterminer. Cependant,
lorsqu’un résultat de concentration est disponible, on peut généralement remplacer la médiane par
l’espérance, le prix à payer étant que les constantes se détériorent quelque peu.
On obtient donc
2 /4 2 /4b
∀t ∈ R∗+ , µ(|X − E(X)| ⩾ t) ⩽ (a ∨ eπa )e−t ,
et l’on vérifie aisément que a ⩽ eπa /4 pour tout a ∈ R.
2
Exemple 4.13. Retournons à l’Exemple 4.11. L’espérance du nombre d’urnes non vides est donnée par
E[F ] = 1 − (1 − n1 )m n.
Ainsi, la fonction F est ρ-Lipschitzienne au sens de Talagrand, pour les poids α(x) := |ξ(x)|/∥
ˆ ˆ
ξ(x)∥2.
Une application du Théorème 4.9 conduit donc au résultat de concentration suivant.
Exemple 4.15 (Percolation de premier passage). Soit G = (S, A) un graphe fini et (Ye )e∈A des
variables aléatoires i.i.d. à valeurs dans [0, 1], appelées temps de passage. On interprète Ye comme le
temps nécessaire pour traverser l’arête e. Étant donnés x, y ∈ S, une quantité centrale dans l’étude
de la percolation de premier passage est le temps minimum nécessaire pour aller de x à y. Soit Π une
collection finie de cheminsP auto-évitants de G reliant x à y. Le temps nécessaire pour parcourir le
chemin π ∈ Π est Yπ := e∈π Ye . Le temps minimum pour aller de x à y en parcourant l’un des
chemins de Π est alors donné par la variable aléatoire
X
Z := min Yπ = min 1{e∈π} Ye .
π∈Π π∈Π
e∈A
Soit mZ une
P médiane de Z. Alors, une application du Corollaire 4.14 à la variable aléatoire Z
′ := −Z =
où ℓ := maxπ∈Π |π|.
Sur le graphe Z2 (avec une arête entre i, j ∈ Z2 si ∥i − j∥1 = 1), lorsque les (Ye ) sont i.i.d. et
telles que µ(Ye = 0) < 1/2, il existe C et C ′ indépendantes de n telles qu’avec probabilité au moins
1 − Ce−n/C , le temps minimal pour aller de (0, 0) à (n, 0) ne change pas si on se restreint à la famille
Π des chemins de longueur au plus C ′ n [13]. Combiné avec le résultat de concentration ci-dessus, cela
montre qu’il existe ϵ > 0, indépendant de n, telle que, pour tout n suffisamment grand,
2 /4C ′ n 2 /n
∀t ∈ [0, n], µ(|Z − mZ | ⩾ t) ⩽ Ce−n/C + 4e−t ⩽ e−ϵt . ⋄
Définition 4.16. Soit Ω = ×ni=1 Ωi et f : R → R. Une fonction h : Ω → R est f -certifiable si, pour
tout x ∈ Ω tel que h(x) ⩾ s, il existe I ⊂ JnK avec |I| ⩽ f (s) tel que
∀i ∈ I, yi = xi =⇒ h(y) ⩾ s.
(4.2)
2
∀r ∈ R, ∀t ∈ R∗+ , µ h ⩽ r − ct f (r) µ(h ⩾ r) ⩽ e−t /4 .
p
(4.3)
2 2 2 2
µ h ⩽ mh − u ⩽ 2e−u /4c f (mh ) , µ h ⩾ mh + u ⩽ 2e−u /4c f (mh +u) .
h(x) ⩾ r et soit I ⊂ JnK tel que |I| ⩽ f (r) certifiant que h(x) ⩾ r. On définit α = α(x) ∈ Sn+ par
|I|−1/2 si i ∈ I,
(
αi :=
0 sinon.
Soit ϵ > 0 arbitraire. Montrons que dα (x, A) > t − ϵ et donc, en particulier, que x ∈
/ At−ϵ . Supposons,
par l’absurde que dα (x, A) ⩽ t − ϵ. Alors, il existe y ∈ A tel que
X
t ⩾ dα (x, y) = |I|−1/2 1{xi ̸=yi } ,
i∈I
et donc i∈I 1{xi ̸=yi } ⩽ t|I|1/2 ⩽ t f (r). Définissons z ∈ Ω par zi := xi pour tout i ∈ I et zi := yi
P p
pour
p tout i ∈ JnK \ I. Comme z et x coïncident p sur I, on a h(z) ⩾ r. De plus, y et z différant en au plus
t f (r) coordonnées, on a |h(y) − h(z)| ⩽ ct f (r). Il s’ensuit que h(y) ⩾ h(z) − |h(y) − h(z)| ⩾
r − ct f (r), ce qui contredit le fait que y ∈ A.
p
L’inégalité (4.2) suit en laissant ϵ ↓ 0, puis en exploitant la continuité du membre de droite, comme dans
la preuve du Théorème 4.9.
Les deux conséquences énoncées en (4.3) sont obtenues enp appliquant (4.2) avec r := mh et t :=
u/c f (mh ) pour la première, et avec r := mh + u et t := u/c f (mh + u) pour la seconde.
p
Exemple 4.19. Soit G un graphe d-régulier 7 , sans boucle, avec n sommets. Soit H le sous-graphe aléa-
toire de G obtenu en conservant chaque arête de G indépendamment avec probabilité p. On peut en-
coder H par un élément de Ω := {0, 1}nd/2 , en numérotant les arêtes de G et en associant à l’arête
k la valeur 1 si l’arête est présente dans H. Étant donné x ∈ Ω, on dénotera H(x) le sous-graphe
correspondant.
Notons h(x) le nombre de sommets non isolés de H(x) (c’est-à-dire, de degré au moins 1). Clai-
rement, E[h] = n(1 − (1 − p)d ). Modifier une coordonnée de x ∈ Ω correspond à retirer ou ajouter
une arête à H(x) et ne peut donc changer le nombre de sommets isolés que d’au plus 2 ; on a donc
|h(x) − h(y)| ⩽ 2 lorsque x et y diffèrent en au plus une coordonnée. De plus, h est 1-certifiable,
6. Un triangle de G est un triplet de sommets distincts i, j, k ∈ JnK tels que {i, j}, {i, k}, {j, k} soient des arêtes de G.
7. Un graphe est d-régulier si tous ses sommets sont de degré d.
4.4. Quelques corollaires et applications 39
puisque l’existence d’au moins s sommets non isolés peut être certifiée en révélant la présence d’une
arête incidente à chacun de s sommets non isolés distincts. On peut donc appliquer le Théorème 4.18,
ce qui donne, pour toute médiane mh de h,
2 2
µ h ⩽ mh − u ⩽ 2e−u /16mh , µ h ⩾ mh + u ⩽ 2e−u /16(mh +u) .
√
En particulier, en combinant ces bornes et le point 2 du Lemme 4.12, on conclut que lorsque un ≫ n,
on a h ∈ [n(1 − (1 − p)d ) − un , n(1 − (1 − p)d ) + un ] avec grande probabilité. ⋄
Exemple 4.20 (Plus longue sous-suite croissante). Soit σ une permutation aléatoire uniforme de
l’ensemble JnK. Un problème très étudié est celui de déterminer la longueur L = L(σ) de la plus
grande sous-suite (σ(i1 ), . . . , σ(iL )), 1 ⩽ i1 < i2 < · · · < iL ⩽ n, de la suite (σ(1), . . . , σ(n)) telle
que σ(i1 ) < σ(i2 ) < · · · < σ(iL ).
Commençons par reformuler ce problème dans le langage de ce chapitre. Soit Ω := [0, 1]n et µ :=
ν ×n le produit des mesures uniformes sur [0, 1]. On note x = (x1 , . . . , xn ) les éléments de Ω. On
considère la fonction h : Ω → R définie par
h(x) := max{k ∈ N | ∃1 ⩽ i1 < i2 < · · · < ik ⩽ n, xi1 < xi2 < · · · < xik }.
En d’autres termes, h(x) est la longueur de la plus grande sous-suite croissante de x. µ n’ayant aucun
atome, on vérifie facilement que h possède la même loi que L(σ). Commençons par montrer que h est
√
d’ordre n avec grande probabilité.
√
Soit ℓ := ⌈ n⌉, N := ⌊n/ℓ⌋, Ik := (k −1)ℓ+1, . . . , kℓ et Jk := (k −1)n−1/2 , kn−1/2 , k ∈ N∗ .
Notons Yk (x) := 1{∃j∈Ik tel que xj ∈Jk } . Les variables aléatoires Y1 , . . . , YN sont i.i.d., chacune de loi de
Bernoulli de paramètre
−1/2 ℓ
p := µ(Yi = 1) = 1 − (1 − n−1/2 )ℓ ⩾ 1 − e−n ⩾ 1 − e−1 .
On utilise l’algorithme suivant pour construire une sous-suite croissante à partir de x : pour chaque
k ∈ JN K, on inclut i dans la sous-suite si i est le premier nombre de l’intervalle Ik tel que xi ∈ Jk . Ceci
produit une sous-suite de longueur Y := Y1 + · · · + YN . Par conséquent, il suit du Lemme 1.6 que
−1 )(√n−2)/8
µ(h ⩽ 21 pN ) ⩽ µ(Y ⩽ 21 E[Y ]) ⩽ e−pN/8 ⩽ e−(1−e ,
I1 I2 I3
1 2 3 4 5 6 7 8 9 10 11 12 13 14
0 J1 J2 J3 1
Figure 4.3: Extraction d’une sous-suite croissante. Dans chaque bloc Ik , on inclut le premier point i ∈ Ik tel que
xi ∈ Jk (s’il en existe au moins un). Pour des raisons de lisibilité, seul les images des points de I1 sont indiquées.
Le premier élément de la sous-suite croissante est donc ici égal à 2. Dans cet exemple, n = 14, ℓ = 4 et N = 3.
Passons à la borne supérieure. La probabilité qu’une sous-suite donnée i1 < i2 < · · · < ik soit
croissante est égale à 1/k!. Notons MR le nombre de telles sous-suites de longueur au moins R ∈ JnK.
On a 8
n n n
X n 1 X ne k e k X nk e2k
E(MR ) = ⩽ = .
k k! k k k 2k
k=R k=R k=R
8. On utilise les inégalités établies dans la note en bas de page 8.
40 Chapitre 4. Concentration de la mesure : l’inégalité de Talagrand
√
Avec le choix R := ⌈4e n⌉, on obtient
n n ∞
X nk e2k X
−2k
X
−k 16 −4e√n
E(MR ) ⩽ ⩽ 4 ⩽ 16 ⩽ 16 .
R2k 15
k=R k=R k=R
En particulier, ces bornes montrent que si un ≫ n1/4 , alors h ∈ [mh − un , mh + un ] avec grande
probabilité.
On dispose aujourd’hui d’informations considérablement plus détaillées sur ce problème. En par-
√
ticulier, E[L(σ)] = 2 n et le remarquable résultat suivant détermine le comportement asymptotique
des fluctuations autour de l’espérance [3] :
√
L(σ) − 2 n
lim P ⩽ s = F2 (s),
n→∞ n1/6
avec des conditions au bord appropriées. En particulier, ce résultat montre que l’approche que l’on a
utilisée ci-dessus ne fournit pas l’ordre de grandeur correct des fluctuations. Le lecteur intéressé par
ces questions trouvera une discussion approfondie dans le livre [23]. ⋄
Remarques bibliographiques : Ce chapitre est basé sur les livres [1] et [16], ainsi que sur la source
originale, l’article [25].
5 Réduction de la dimensionnalité :
le lemme de Johnson–Lindenstrauss
À l’ère du big data, on est fréquemment confronté à des jeux de données consistant en un très grand
nombre de points dans un espace de très grande dimension. Malheureusement, les algorithmes usuels
permettant l’extraction d’information à partir de ces données souffrent alors du « fléau de la dimen-
sion » (curse of dimensionality en anglais) : ils deviennent extrêmement inefficaces sur un plan pratique,
lorsque la dimension croît. Il est alors désirable de réduire la dimension des données tout en préservant
les propriétés essentielles. C’est ce que l’on appelle le problème de la réduction de la dimensionnalité.
Il en existe de nombreuses approches. Le but de ce chapitre est de présenter un résultat classique de
ce type : le lemme de Johnson–Lindenstrauss. Pour une importante classe d’algorithmes (par exemple,
l’algorithme de recherche des plus proches voisins et ses nombreuses variantes), la propriété à préser-
ver est la distance entre chaque paire de points. Le lemme de Johnson–Lindenstrauss affirme qu’un
ensemble de m points dans un espace de dimension arbitraire peut être plongé dans un espace de di-
mension O(log m)/ϵ2 tout en ne modifiant la distance entre chaque paire de points qu’au plus d’un
facteur compris entre 1 − ϵ et 1 + ϵ, avec ϵ ∈ (0, 1) arbitraire. Ce lemme (et ses variantes) trouve des
applications dans de nombreux domaines. Un exemple est donné dans la section 5.3.
Remarque 5.2. La preuve fait recours à la méthode probabiliste : nous allons construire une application
linéaire aléatoire dont nous montrerons qu’elle satisfait la condition désirée avec probabilité positive, ce
qui implique l’existence d’une fonction f comme dans l’énoncé. En particulier, cet argument n’est pas
constructif. Ce n’est toutefois pas un problème en pratique, car la probabilité d’obtenir une application
satisfaisant (5.1) est supérieure ou égale à 1/m ; il suffit donc de faire de l’ordre de m tirages pour obtenir
l’application désirée. En fait, quitte à empirer très légèrement la borne sur n, on peut obtenir une probabilité
de succès proche de 1 : si n ⩾ (2 + α)(ϵ2 − 13 ϵ3 )−1 log m, pour un α > 0, alors la même preuve (il suffit
de choisir δ = m−2−α ) montre que la probabilité de succès est d’au moins 1 − m−α . ⋄
Remarque 5.3. On peut montrer [15] qu’il n’est pas possible de faire mieux qu’une borne de la forme
n ⩾ O(ϵ−2 ) log m). ⋄
41
42 Chapitre 5. Réduction de la dimensionnalité : le lemme de Johnson–Lindenstrauss
n X
hX N 2 i Xn X
N X
N
E ∥Az∥22 = E E[Aij Aik ]zj zk = n∥z∥22 ,
Aij zj =
i=1 j=1 i=1 j=1 k=1
puisque E[Aij Aik ] = δjk par hypothèse. Il suit que l’application linéaire L := n−1/2 A préserve, en
moyenne, le carré de la norme euclidienne : E[∥Lz∥22 ] = ∥z∥22 . L est donc un bon candidat pour l’appli-
cation recherchée, pour peu que l’on parvienne à montrer que la distribution de ∥Lz∥22 est concentrée
au voisinage de son espérance.
Avant de démontrer ce lemme, vérifions qu’il permet de conclure la preuve du Théorème 5.1.
On prend δ := 1/m2 . Soit x, y ∈ V distincts. Comme n ⩾ 2(ϵ2 − 31 ϵ3 )−1 log m = |log δ|/(ϵ2 − 31 ϵ3 ),
on peut appliquer le Lemme 5.4 à z := (x − y)/∥x − y∥2 , ce qui donne
∥Lx − Ly∥2
P ∈/ (1 − ϵ, 1 + ϵ) ⩽ 2δ.
∥x − y∥2
On en conclut que la probabilité que L possède la propriété (5.1) est strictement positive, ce qui dé-
montre l’existence d’une telle application.
N
X
(Az)i = Aij zj ∼ N (0, 1),
j=1
puisque les variables aléatoires Aij zj ∼ N (0, zj2 ) sont indépendantes et z12 + · · · + zN
2 = ∥z∥2 = 1. En
2
particulier, la variable aléatoire
Xn
W := ∥Az∥22 = (Az)2i
i=1
est la somme des carrés de n variables aléatoires indépendantes de loi N (0, 1) 1 . Pour Z ∼ N (0, 1), on
a
Z ∞ Z ∞
2 1 1 2 2 1 1 2 1
∀t ∈ (−∞, 21 ), E etZ = √ e− 2 x etx dx = √ e− 2 (1−2t)x dx = √ .
2π −∞ 2π −∞ 1 − 2t
1. En d’autres termes, W suit une loi du χ2 à n degrés de liberté.
5.3. Application à l’acquisition comprimée 43
Par conséquent,
2 n
E etW = E etZ = (1 − 2t)−n/2 .
Bornons tout d’abord la probabilité que ∥Lz∥2 ⩾ 1 + ϵ. Une application de l’inégalité de Chernoff
conduit à la borne
2
P(∥Lz∥2 ⩾ 1 + ϵ) = P(∥Az∥22 ⩾ (1 + ϵ)2 n) = P(W ⩾ (1 + ϵ)2 n) ⩽ inf e−t(1+ϵ) n E etW .
t⩾0
On en conclut que
Figure 5.1: Minimiser la norme ℓ1 sur un sous-espace affine tend à produire une solution sparse (droite), contrai-
rement au cas de la norme ℓ2 (gauche).
Définition 5.5. Soit k ∈ N∗ . Un vecteur x ∈ RN est k-sparse s’il possède au plus k composantes non
nulles. On notera SkN l’ensemble de tous les vecteurs k-sparse.
Des considérations élémentaires d’algèbre linéaire montrent qu’une condition nécessaire et suffi-
sante pour que l’application x 7→ M x soit injective (de sorte à ce que le problème soit bien posé) est
qu’aucune famille de 2k colonnes de M ne soit linéairement indépendante. En effet, observons que
pour toute paire x, x′ ∈ SkN , on a x − x′ ∈ S2k N . Par conséquent, il existe deux vecteurs distincts
santes non nulles de x − x′ sont linéairement dépendantes. Observons que cette condition est satisfaite
(presque sûrement) par la matrice L introduite dans la preuve du Lemme de Johnson–Lindenstrauss.
Le problème est qu’étant donné y ∈ Rn , il n’est pas aisé de trouver le vecteur x ∈ SkN tel que Lx = y.
Nous allons à présent décrire une approche plus efficace. Celle-ci repose sur la notion suivante.
Définition 5.6. Soit k ∈ N∗ et ϵ ∈ (0, 1). Une application linéaire M : RN → Rn possède la propriété
d’isométrie restreinte d’ordre k et de constante ϵ si
L’intérêt de cette notion est démontré par le résultat suivant, qui réduit le problème de reconstruction
d’un signal sparse à un problème d’optimisation pouvant être implémenté de façon numériquement
efficace.
Proposition 5.7. Soit M : RN → Rn une application linéaire vérifiant RIP10k,1/3 . Alors, pour chaque
x ∈ SkN , le problème d’optimisation
Remarque 5.8. Il est important d’observer que minimiser la norme ℓ1 sur un sous-espace affine tend à
générer une solution sparse, contrairement à ce qui se produit avec la norme ℓ2 . Ceci est illustré (dans le
cas de R2 ) dans la Fig. 5.1. ⋄
Évidemment, le problème à présent est d’obtenir des transformations linéaires vérifiant cette condi-
tion. Il se trouve que la même approche que pour le lemme de Johnson–Lindenstrauss fonctionne ici.
Soit A une matrice n × N dont les éléments sont des variables aléatoires i.i.d. de loi N (0, 1) et soit
L := n−1/2 A.
Proposition 5.9. Pour tout n ⩾ 500k log N , L vérifie RIP10k,1/3 avec probabilité au moins 1 − 1/N .
5.3. Application à l’acquisition comprimée 45
I01
I0 I1 I2 I3
k 9k 9k 9k
Figure 5.2: La décomposition de N∗ employée dans la preuve de la Proposition 5.7 (ici, avec k = 4).
En combinant les Propositions 5.7 et 5.9, on obtient le résultat principal de cette section.
Théorème 5.10. Soit n ⩾ 500k log N . Avec probabilité au moins 1−1/N , on peut reconstruire n’importe
quel vecteur x ∈ SkN à partir de la connaissance de Lx en résolvant le problème d’optimisation
Observons à présent que M r = M z − M x = 0, ce que l’on peut réécrire M rI01 = − i⩾2 M rIi . Il
P
suit donc de l’hypothèse que M satisfait RIP10k,1/3 que
(5.3)
X X
2 4
3 ∥rI01 ∥2 ⩽ ∥M rI01 ∥2 ⩽ ∥M rIi ∥2 ⩽ 3 ∥rIi ∥2 ,
i⩾2 i⩾2
√
où l’on a utilisé (5.2). Par Cauchy–Schwarz, ∥rI0 ∥1 ⩽ k∥rI0 ∥2 . On obtient donc finalement
X
∥rIi ∥2 ⩽ 31 ∥rI0 ∥2 ⩽ 31 ∥rI01 ∥2 .
i⩾2
Combiné avec (5.3), on en déduit que ∥rI01 ∥2 = 0 et donc que rI01 = 0. Les entrées |rℓ |, ℓ ⩾ k, étant
décroissantes, il suit que r = 0, comme souhaité.
SI := x ∈ SkN′ xI c = 0, ∥x∥2 = 1 ,
où l’on a noté I c := [N ] \ I.
La proposition sera démontrée une fois que l’on aura établi que
n o 1
(5.4)
[
P sup Λ(z) z ∈ SI ⩽ 1/3 ⩾ 1 − .
N
I∈I
Il semble naturel d’utiliser le Lemme 5.4. Notons cependant que, contrairement au lemme de Johnson–
Lindenstrauss qui ne s’applique qu’à des collections finies de points, l’événement intervenant dans (5.4)
porte sur une infinité non dénombrable de vecteurs z, ce qui rend impossible un simple argument basé
sur l’inégalité de Boole. Afin de contourner cette difficulté, nous allons tout d’abord « discrétiser » les
ensembles SI .
On pose ρ := (63 N log N )−1/2 . Soit DI := {x1 , . . . , xK } ⊂ SI tel que
K
[
y ∈ SI ∥y − xi ∥2 ⩽ ρ = SI
i=1
et K soit minimal. En particulier, K ⩽ (3/ρ)k . En effet, on peut générer une telle famille x1 , . . . , xK
′
en choisissant successivement les points xi ∈ SI de sorte à ce que ∥xi −xj ∥2 > ρ pour tout 1 ⩽ j < i ;
la sélection s’achève lorsqu’il n’est plus possible de trouver de tels points. Notons ΠI : RN → Rk la
′
projection sur les coordonnées appartenant à I et x̃i := ΠI xi ∈ Rk . Par construction, les boules
′
′
y ∈ Rk ∥x̃i − y∥2 ⩽ ρ/2
sont disjointes ; leur volume total est donc égal à 2 Kck′ (ρ/2)k . De plus, toutes ces boules sont incluses
′
dans la boule de Rk de rayon 3/2 et centrée en 0. Le volume de cette dernière étant égal à ck′ (3/2)k ,
′ ′
Nous allons à présent appliquer le Lemme 5.4 aux points de I∈I (k′ ,N ) DI . On fixe ϵ := 1/6 et
S
−1
δ := 4N | I∈I DI | . Notre hypothèse sur n et la borne grossière
S
N 3eN k′ N k′
k′
[
DI ⩽ (3/ρ) ⩽ ⩽
k′ k′ ρ ρ
I∈I
impliquent que |log δ|/(ϵ2 − 13 ϵ3 ) ⩽ 38(k ′ + 2) log N ⩽ 500k log N ⩽ n. Il suit donc du Lemme 5.4
que
n o 1
(5.5)
[
P sup Λ(z) z ∈ DI ⩽ 1/6 ⩾ 1 − .
2N
I∈I
2. Le volume de la boule de rayon R dans R est cd Rd avec cd := π d/2 Rd /Γ( d2 + 1). Notons toutefois que la valeur de
d
Observons à présent que (5.4) suivrait de (5.5), si nous étions en mesure de montrer que
1
P ∀y, z ∈ RN , |Λ(z) − Λ(y)| ⩽ (5.6)
p
6N log N ∥z − y∥2 ⩾ 1 − .
2N
En effet, la construction des ensembles DI garantit que pour tout y ∈ SI , il existe x ∈ DI tel que
∥x − y∥2 ⩽ ρ. Les événements dans (5.5) et (5.6) se produisent avec probabilité au moins 1 − 1/N et
lorsque c’est le cas,
p
Λ(y) ⩽ Λ(x) + |Λ(y) − Λ(x)| ⩽ 61 + 6N log N ρ = 13 .
Il nous suffit donc d’établir (5.6). Soit y, z ∈ RN . Tout d’abord, deux applications de l’inégalité du
triangle permettent d’écrire
Il nous reste à contrôler les valeurs typiques de ∥A∥∞ . Par une inégalité classique sur les queues de
gaussiennes 3 et l’inégalité de Boole,
r
2 1
P(∥A∥∞ ⩾ 6 log N ) = P(∃i, j t.q. |Aij | ⩾ 6 log N ) ⩽ N n N −3 ⩽
p p
.
6π log N 2N
√
Ainsi,
√ avec probabilité au moins 1 − 2N1
, on a ∥A∥∞ < 6 log N , ce qui garantit que |Λ(z) − Λ(y)| ⩽
6N log N ∥z − y∥2 .
et
X
∀i ∈ A, h(i) > 0 h(i) = p(i, j)h(j).
j∈S
On définit alors
h(j)
∀i ∈ A, ∀j ∈ S, q(i, j) := p(i, j).
h(i)
Il suit de la P -harmonicité de h que, pour tout i ∈ A,
X 1 X 1
q(i, j) = h(j)p(i, j) = h(i) = 1.
h(i) h(i)
j∈S j∈S
Les q(i, j) peuvent donc être interprétés comme les probabilités de transition d’une chaîne de Markov.
Définition 6.1. Soit i0 ∈ A. La chaîne de Markov (Yn )n⩾0 avec probabilités de transition q(i, j), partant
de Y0 = i0 et stoppée lorsqu’elle quitte A est appelée la h-transformée de Doob 1 de la chaîne (Xn ). On
notera Qi0 la loi de la chaîne (Yn ) partant de i0 .
La construction ci-dessus peut sembler artificielle. Pourtant, comme nous allons le voir à présent
sur quelques exemples, le processus (Yn ) possède souvent une interprétation très naturelle.
1. En anglais : Doob h-transform.
49
50 Chapitre 6. Transformée de Doob et marche aléatoire sur Z
la troisième identité suivant de la propriété de Markov. Nous sommes donc dans le cadre de la section
précédente et pouvons considérer la h-transformée de Doob (Yn ).
Proposition 6.2. Soit i0 ∈ A et (Yn ) la h-transformée de Doob partant de i0 . Alors, (Yn ) a la même loi
que la chaîne (Xn ) démarrée en i0 , stoppée à la première visite en a et conditionnée à quitter A par l’état
a en un temps fini.
Démonstration. C’est une conséquence de (6.1) : pour toute trajectoire finie i0 , i1 , . . . , in−1 , in , avec
i0 , . . . , in−1 ∈ A et in = a,
n
h(a) Y
Qi0 (Y0 , . . . , Yn ) = (i0 , . . . , in ) = p(ik−1 , ik )
h(i0 )
k=1
Pi0 (X0 , . . . , Xn ) = (i0 , . . . , in )
=
Pi0 (τS\A < ∞, XτS\A = a)
= Pi0 (X0 , . . . , Xn ) = (i0 , . . . , in ) τS\A < ∞, XτS\A = a .
Insistons sur le caractère remarquable d’avoir une description markovienne d’un processus (Xn ) condi-
tionné sur un événement faisant intervenir le comportement futur de (Xn ). La même chose se produit
dans les exemples suivants.
Par notre hypothèse ci-dessus, h(i) > 0 pour tout i ∈ A. De plus, h(i) = 0 pour tout i ∈
/ A. On vérifie
aisément que la propriété de Markov implique à nouveau que h est P -harmonique sur A. Nous sommes
donc dans le cadre de la Section 6.1 et pouvons considérer la h-transformée de Doob (Yn ).
Proposition 6.3. Soit i0 ∈ A et (Yn ) la h-transformée de Doob partant de i0 . Alors, (Yn ) a la même loi
que la chaîne (Xn ) démarrée en i0 et conditionnée à ne jamais quitter A.
6.2. Quelques exemples 51
Démonstration. C’est à nouveau une conséquence immédiate de (6.1) : pour toute trajectoire finie i0 ,
i1 , . . . , in de probabilité strictement positive sous Qi0 (observez que cela implique en particulier que
ik ∈ A pour tout 0 ⩽ k ⩽ n),
n
h(in ) Y
Qi0 (Y0 , . . . , Yn ) = (i0 , . . . , in ) = p(ik−1 , ik )
h(i0 )
k=1
Pi0 (X0 , . . . , Xn ) = (i0 , . . . , in ) Pin (τS\A = ∞)
=
Pi0 (τS\A = ∞)
= Pi0 (X0 , . . . , Xn ) = (i0 , . . . , in ) τS\A = ∞ ,
puisque, par la propriété de Markov,
Pin (τS\A = ∞) = Pi0 τS\A = ∞ (X0 , . . . , Xn ) = (i0 , . . . , in ) .
Définissons
h(n + 1, j)
qn (i, j) := p(i, j)
h(n, i)
lorsque h(n, i) ̸= 0 et qn (i, j) := 0 sinon. On a alors, pour tout i ∈ S tel que h(n, i) > 0,
X 1 X 1
qn (i, j) = h(n + 1, j)p(i, j) = h(n, i) = 1.
h(n, i) h(n, i)
j∈S j∈S
On peut donc considérer la chaîne de Markov inhomogène (Yn )n∈N avec probabilités de transition
Qi0 (Yn+1 = j | Yn = i) = qn (i, j)
démarrée en i0 et stoppée au temps N .
Proposition 6.4. Soit N ∈ N∗ , B ⊂ S non vide et i0 ∈ S tel que Pi0 (XN ∈ B) > 0. Soit (Yn ) la chaîne
de Markov définie ci-dessus, partant de i0 . Alors, (Yn ) a la même loi que la chaîne (Xn ) démarrée en i0 et
conditionnée à visiter B au temps N .
Démonstration. Soit i0 , i1 , . . . , iN ∈ S avec iN ∈ B et h(n, in ) > 0 pour tout 0 ⩽ n ⩽ N − 1
(observons que la probabilité de toute trajectoire de (Yn ) ne satisfaisant pas cette dernière condition
est nécessairement nulle). Alors, on a bien
N −1
Y h(n + 1, in+1 )
Qi0 (Y0 = i0 , . . . , YN = iN ) = p(in , in+1 )
h(n, in )
n=0
N −1
h(N, iN ) Y
= p(in , in+1 )
h(0, i0 )
n=0
Pi (X0 ∈ B)
= N Pi (X0 = i0 , . . . , XN = iN )
Pi0 (XN ∈ B) 0
= Pi0 (X0 = i0 , . . . , XN = iN | XN ∈ B).
52 Chapitre 6. Transformée de Doob et marche aléatoire sur Z
(
1 si µ(−1) ⩾ µ(1),
α=
µ(−1)/µ(1) si µ(−1) < µ(1).
Démonstration. Clairement, h↓ (0) = 1. Il suit de la propriété de Markov forte que, pour tout i ⩾ 1,
On en déduit que h↓ (i) = αi , pour tout i ∈ N∗ et, par conséquent, h↑ (i) = 1+α+· · ·+αi . Déterminons
α. En conditionnant sur le premier pas de la marche et en utilisant la propriété de Markov, on obtient
α = P0 (τ−1 < ∞) = µ(−1)P−1 (τ−1 < ∞) + µ(0)P0 (τ−1 < ∞) + µ(1)P1 (τ−1 < ∞)
= µ(−1) + µ(0)α + µ(1)α2 .
Il existe donc N ∈ N∗ tel que P0 (∀n ⩾ N, Sn ⩾ 0) ⩾ 1/2. Étant donné que l’on a également
P0 (∀n ∈ JN − 1K, Sn ⩾ 0) > 0, on a bien α < 1.
Il suit immédiatement de la loi forte des grands nombres que le cas µ(1) > µ(−1) correspond au
cas où limn→∞ Sn = +∞ presque sûrement ; on dit que la marche (Sn ) dérive vers +∞. Symétri-
quement, le cas µ(1) < µ(−1) correspond au cas où limn→∞ Sn = −∞ presque sûrement ; on dit que
la marche (Sn ) dérive vers −∞. Finalement, le cas µ(−1) = µ(1) correspond au cas récurrent, dans
lequel la marche oscille : lim inf n→∞ Sn = −∞ et lim supn→∞ Sn = +∞ presque sûrement.
Pour le prochain résultat, on étend h↑ de façon naturelle en posant h↑ (−1) := 0.
6.3. Marche aléatoire sur Z conditionnée à rester positive 53
Démonstration. La µ-harmonicité de h↓ suit immédiatement du Lemme 6.5, mais peut être déduite de
façon plus transparente de la propriété de Markov : pour tout i ∈ N∗ ,
X
h↓ (i) = P0 (τ−i < ∞) = µ(k)P0 (τ−i < ∞ | S1 = k)
k∈{−1,0,1}
X X
= µ(k)P0 (τ−i−k < ∞) = µ(k)h↓ (i + k).
k∈{−1,0,1} k∈{−1,0,1}
X i+k
X
=1+ µ(k) h↓ (j)
k∈{−1,0,1} j=1+k
X
= µ(−1) − αµ(1) + µ(k)h↑ (i + k).
k∈{−1,0,1}
Étant donné que µ(−1) ⩾ αµ(1), il suit que h↑ est µ-superharmonique sur N∗ et qu’elle est µ-
harmonique sur N∗ précisément lorsque µ(−1) = αµ(1), ce qui se produit si et seulement si µ(−1) ⩽
µ(1). L’extension de la µ-(super)harmonicité de h↑ à N est immédiate :
puisque αµ(1) ⩽ µ(−1), ce qui établit la µ-superharmonicité. À nouveau, le cas d’égalité correspond
à αµ(1) = µ(−1).
La Proposition 6.6 nous fournit deux fonctions harmoniques sur N ou N∗ (sous des conditions adé-
quates). Nous pouvons donc essayer d’implémenter l’approche de la Section 6.1.
Proposition 6.7. On suppose que µ(1) ⩾ µ(−1). Alors, la chaîne de Markov (Sn↑ ) est transiente.
h↑ (i − 1) X h↑ (i − 1)
P↑i (τi−1 < ∞) = P↑i (τi−1 = n) =
X
P (τ
i i−1 = n) = Pi (τi−1 < ∞),
h↑ (i) h↑ (i)
n⩾0 n⩾0
Pi (τZ<0 = ∞)
∀i ∈ N, h↑ (i) = .
P0 (τZ<0 = ∞)
Pi (τZ<0 = ∞) = Pi (min{Sn | n ⩾ 0} ⩾ 0)
i
X
= Pi (min{Sn | n ⩾ 0} = i − k)
k=0
Xi
= Pi (τi−k < ∞, τi−k−1 = ∞)
k=0
i
X
= Pi (τi−k < ∞) Pi−k (τi−k−1 = ∞),
k=0
par la propriété de Markov forte. On a évidemment Pi (τi−k < ∞) = P0 (τ−k < ∞) = h↓ (k) et
Pi−k (τi−k−1 = ∞) = P0 (τZ<0 = ∞). Par conséquent,
i
X
Pi (τZ<0 = ∞) = P0 (τZ<0 = ∞) h↓ (k) = P0 (τZ<0 = ∞) h↑ (i).
k=0
Une application de la Proposition 6.3 montre que la loi de (Sn↑ ) démarrée en i0 ∈ N, coïncide, lorsque
µ(1) > µ(−1), avec celle de (Sn ) démarrée en i0 et conditionnée à ne jamais visiter Z<0 .
6.3. Marche aléatoire sur Z conditionnée à rester positive 55
ce dernier ayant probabilité strictement positive. Commençons par montrer un lemme technique, qui
est un pendant de la Proposition 6.8 (la preuve est d’ailleurs presque identique).
Pi (ΛN )
∀i ∈ N, h↑ (i) ⩽ lim inf .
N →∞ P0 (ΛN )
Pi (ΛN ) = Pi (min{Sn | 0 ⩽ n ⩽ N } ⩾ 0)
i
X
= Pi (min{Sn | 0 ⩽ n ⩽ N } = i − k)
k=0
i
Pi (τi−k ⩽ N et ∀n ∈ {τi−k , . . . , N }, Sn ⩾ i − k)
X
=
k=0
Xi
⩾ Pi (τi−k ⩽ N ) Pi−k (∀n ∈ {0, . . . , N }, Sn ⩾ i − k)
k=0
i
X
= P0 (∀n ∈ {0, . . . , N }, Sn ⩾ 0) P0 (τ−k ⩽ N ).
k=0
Par conséquent,
i i
Pi (ΛN ) X X
lim inf ⩾ lim P0 (τ−k ⩽ N ) = P0 (τ−k < ∞) = h↑ (i).
N →∞ P0 (ΛN ) N →∞
k=0 k=0
Le résultat suivant montre que la limite en loi des processus conditionnés lorsque N → ∞ est bien
donnée par le processus (Sn↑ ).
la dernière identité suivant du fait que h↑ (−1) = 0, puisqu’il suit que toute trajectoire visitant −1 a
probabilité nulle sous P↑0 . La contradiction conclut la preuve.
Remarques bibliographiques : Ce chapitre s’inspire largement du chapitre 5 des notes de cours [7].
Pour le lecteur intéressé, ces dernières traitent de marches aléatoires générales sur Z, pas uniquement
de celles dont les incréments prennent valeur dans {−1, 0, 1}.
7 Convergence des chaînes de Markov réversibles
Dans ce chapitre, nous allons étudier la vitesse de convergence vers l’équilibre des chaînes de Mar-
kov réversibles sur un espace d’états fini à l’aide de méthodes spectrales.
Cadre mathématique dans ce chapitre. Dans ce chapitre, nous considérerons le cadre suivant :
(Xn )n⩾0 est une chaîne de Markov irréductible et réversible sur un espace d’états S fini. Nous noterons
P = (pij )i,j∈S sa matrice de transition et π = (π(i))i∈S son unique loi stationnaire. Nous utiliserons
également la notation pij (n) := (P n )ij = P(Xn = j | X0 = i).
(7.1)
X
⟨f ⟩π := f (i)π(i) = ⟨f, 1⟩π
i∈S
pour l’espérance de f sous π (nous avons noté 1 la fonction 1(i) := 1 pour tout i ∈ S).
Naturellement, la matrice de transition P peut être interprétée comme un opérateur dans ℓ2 (π)
agissant sur f ∈ ℓ2 (π) par (P f )(i) := j∈S pij f (j).
P
Théorème 7.1. Une chaîne de Markov (Xn )n⩾0 sur S est réversible par rapport à sa loi stationnaire π si
et seulement si sa matrice de transition P est un opérateur autoadjoint dans ℓ2 (π) :
57
58 Chapitre 7. Convergence des chaînes de Markov réversibles
Démonstration. ▷ Supposons tout d’abord que, π(i)pij = π(j)pji pour tout i, j ∈ S. Alors, pour tout
f, g ∈ ℓ2 (π),
XhX i
⟨P f, g⟩π = pij f (j) g(i)π(i)
i∈S j∈S
XX
= pji f (j)g(i)π(j)
i∈S j∈S
X hX i
= f (j) pji g(i) π(j) = ⟨f, P g⟩π .
j∈S i∈S
▷ Supposons à présent que P soit autoadjoint dans ℓ2 (π). Alors, pour tout i, j ∈ S,
XhX i
π(j)pji = prs δi (s) δj (r)π(r) = ⟨P δi , δj ⟩π = ⟨δi , P δj ⟩π = π(i)pij ,
r∈S s∈S
λ1 ⩾ λ2 ⩾ · · · ⩾ λ|S| .
On vérifie facilement que λ1 = 1 et λ|S| ⩾ −1. En effet, (P 1)(i) = j∈S pij 1(j) = j∈S pij =
P P
1 et donc 1 est une valeur propre de P . Le fait que ce soit la plus grande en valeur absolue suit de
l’observation que si P v = λv et i ∈ S est tel que |v(i)| = maxj∈S |v(j)|, alors |λ||v(i)| = |λv(i)| =
| j∈S pij v(j)| ⩽ |v(i)|. Deux quantités vont jouer un rôle crucial dans la suite.
P
Définition 7.2. Le trou spectral est défini par γ := 1 − λ2 . Le trou spectral absolu est défini par
γ∗ := min{γ, 1 − |λ|S| |}.
Théorème 7.3. Soit P une matrice stochastique irréductible, apériodique et réversible. Alors, γ ⩾ γ∗ > 0.
d’où l’on conclut à nouveau que |λ2n | < 1, et donc que |λ| < 1.
7.2. Vitesse de convergence 59
P étant autoadjointe, on sait du cours d’algèbre linéaire que l’on peut trouver une base ortho-
normale (par rapport au produit scalaire ⟨· , ·⟩π ) composée de vecteurs propres (vk )k=1,...,|S| , avec
v1 := 1 et, pour chaque k ∈ {1, . . . , |S|}, P vk = λk vk . (Notons que v1 est bien normalisé puisque
P|S|
∥v1 ∥π = i=1 π(i) = 1.)
On peut alors décomposer toute fonction f ∈ ℓ2 (π) dans cette base :
|S|
X
f= ⟨f, vk ⟩π vk .
k=1
et donc
|S| |S| |S| 2
X 2 X X
Varπ (f ) = f (i) − ⟨f ⟩π π(i) = ⟨f, vk ⟩π vk (i) π(i)
i=1 i=1 k=2
|S| |S| |S|
X XX
= ⟨f, vk ⟩π ⟨f, vℓ ⟩π vk (i)vℓ (i)π(i)
i=1 k=2 ℓ=2
|S| |S|
X X
= ⟨f, vk ⟩π ⟨f, vℓ ⟩π ⟨vk , vℓ ⟩π
k=2 ℓ=2
|S|
(7.3)
X
= ⟨f, vk ⟩2π .
k=2
Démonstration. On a
X 2 X q 2
π(j)
4∥P(Xn = · | X0 = i) − π∥2VT = |pij (n) − π(j)| = π(j) |p ij (n) − π(j)|
j∈S j∈S
X X 1
⩽ π(j) |pij (n) − π(j)|2
π(j)
j∈S j∈S
X 1
pij (n)2 − 2pij (n)π(j) + π(j)2
=
π(j)
j∈S
X pij (n)2
= − 1, (7.6)
π(j)
j∈S
oì l’on a utilisé l’inégalité de Cauchy–Schwarz pour obtenir la seconde ligne. Observons à présent que
la réversibilité de P permet de réécrire
X pij (n)2 X pij (n)pji (n) π(j) 1 X 1
= = pij (n)pji (n) = pii (2n). (7.7)
π(j) π(j) π(i) π(i) π(i)
j∈S j∈S j∈S
Pour être utile quantitativement, le Théorème 7.4 requière d’être capable de calculer (ce qui est en
général difficile, voire impossible) ou au moins de borner γ∗ . Il existe diverses manières de procéder,
dont nous décrirons certaines plus tard. Introduisons avant cela un peu de terminologie classique.
(Évidemment, la valeur 1/4 dans cette définition n’a rien de spécial et est purement conventionnelle.)
La seconde notion est celle de temps de relaxation.
Afin de mieux appréhender ce que mesure cette seconde notion, rappelons qu’il suit du théorème de
convergence que limn→∞ P n f (i) = ⟨f ⟩π pour tout i ∈ S. En particulier, limn→∞ Varπ (P n f ) = 0.
La notion de temps de relaxation permet de rendre cette dernière convergence quantitative : par (7.3)
et (7.4), pour toute fonction f ∈ ℓ2 (π) et tout n ∈ N∗ ,
ce qui montre que Varπ (P n f ) converge vers 0 exponentiellement rapidement à une échelle de temps
de l’ordre du temps de relaxation.
Les deux théorèmes suivants fournissent une comparaison entre les deux notions précédentes.
Théorème 7.7. Soit P irréductible et réversible sur S. Soit πmin := mini∈S π(i). Alors, pour tout ϵ > 0,
1 1 − π
min
tmix (ϵ) ⩽ log trel .
2 4πmin ϵ2
Démonstration. Cela suit presque immédiatement du Théorème 7.4. Ce dernier implique que
s r
1 1 − π(i) n 1 − πmin
d(n) = max∥P(Xn = · | X0 = i) − π∥VT ⩽ max (1 − γ∗ ) ⩽ (1 − γ∗ )n .
i∈S 2 i∈S π(i) 4πmin
1 1 − π
min
∀ϵ > 0, n⩾ log trel =⇒ d(n) ⩽ ϵ.
2 4πmin ϵ2
Théorème 7.8. Soit P irréductible, apériodique et réversible sur S. Alors, pour tout ϵ > 0,
1 1
d(n) ⩾ (1 − γ∗ )n ⩾ e−nγ∗ /(1−γ∗ ) ,
2 2
1 − γ∗
tmix (ϵ) ⩾ |log(2ϵ)| = |log(2ϵ)|(trel − 1).
γ∗
Eπ (f ) := ⟨(I − P )f, f ⟩π .
Observons que
X X X
Eπ (f ) = f (i) f (i) − pij f (j) π(i) = π(i)pij f (i)(f (i) − f (j))
i∈S j∈S i,j∈S
(7.10)
X X
= π(j)pji f (i)(f (i) − f (j)) = π(i)pij f (j)(f (j) − f (i)),
i,j∈S i,j∈S
(7.11)
X
Eπ (f ) = 12 π(i)pij (f (i) − f (j))2 .
i,j∈S
(7.12)
X
Varπ (f ) = 1
2 π(i)π(j)(f (i) − f (j))2 .
i,j∈S
Eπ (f )
γ = inf Varπ (f ) ̸= 0 .
Varπ (f )
Une inégalité de la forme Varπ (f ) ⩽ cEπ (f ), pour un c > 0, est appelée une inégalité de Poincaré.
Démonstration. Observons tout d’abord que (7.10) et (7.12) impliquent que, pour tout c ∈ R,
Eπ (f − c1) Eπ (f )
= .
Varπ (f − c1) Varπ (f )
On peut donc supposer sans perte de généralité que ⟨f ⟩π = 0. Il suit alors de (7.2) que
|S|
X
f= ⟨f, vk ⟩π vk .
k=2
7.5. Bornes sur les trous spectraux γ et γ∗ 63
Par conséquent,
|S| |S| |S|
X X X
Eπ (f ) = ⟨(I − P )f, f ⟩π = ⟨f, vk ⟩π ⟨f, vℓ ⟩π (1 − λk )⟨vk , vℓ ⟩π = ⟨f, vk ⟩2π (1 − λk )
k=2 ℓ=2 k=2
|S|
X
⩾ (1 − λ2 ) ⟨f, vk ⟩2π = (1 − λ2 )⟨f, f ⟩π = (1 − λ2 ) Varπ (f ).
k=2
alors γ ⩾ 1/A.
Remarque 7.12. Évidemment, le résultat précédent ne nous renseigne pas sur la valeur du trou spectral
absolu, qui est celui pertinent pour l’application, par exemple, du Théorème 7.4. L’observation suivante est
donc intéressante. Si l’on remplace la matrice de transition P par la matrice de transition 12 (I + P ), c’est-à-
dire que l’on considère la version paresseuse de la chaîne, en ajoutant à chaque pas une probabilité 1/2 de
rester sur place, alors on peut vérifier (cela sera fait lors des séances d’exercices) que les valeurs propres de
cette nouvelle matrice de transition sont toutes positives ; en particulier, γ∗ = γ pour la variante paresseuse
de la chaîne de Markov. Notons également que cette modification ne modifie pas l’ordre de grandeur du
temps de mélange (en gros, la chaîne évolue deux fois plus lentement, puisqu’elle reste sur place la moitié
du temps). ⋄
Plus généralement, des résultats de comparaison entre chaînes de Markov sont souvent utiles. En voici
un autre.
Lemme 7.13. Soit P et P̃ deux matrices stochastiques irréductibles et réversibles, sur le même espace
d’états fini S. Soit π et π̃ les lois stationnaires associées. Supposons qu’il existe A, B ∈ R∗+ tels que, pour
tout f : S → R et tout i ∈ S,
On a donc
X X
Varπ (f ) ⩽ ∥f − ⟨f ⟩π̃ 1∥2π = (f (i) − ⟨f ⟩π̃ )2 π(i) ⩽ A (f (i) − ⟨f ⟩π̃ )2 π̃(i) = A Varπ̃ (f ).
i∈S i∈S
Par conséquent,
Eπ (f ) B Eπ̃ (f )
⩾ .
Varπ (f ) A Varπ̃ (f )
La conclusion suit du Théorème 7.10.
64 Chapitre 7. Convergence des chaînes de Markov réversibles
Démonstration. Il suffit de vérifier que la condition (7.13) est vérifiée avec A = κ. Tout d’abord,
X X hX i2
Varπ (f ) = 21 π(i)π(j)(f (i) − f (j))2 = 21 π(i)π(j) (f (e+ ) − f (e− )) .
i,j∈S i,j∈S e∈γij
Par conséquent,
X X
Varπ (f ) ⩽ 1
2 π(i)π(j)|γij |Q Q(e)(f (e+ ) − f (e− ))2
i,j∈S e∈γij
X X
= 1
2 Q(e)(f (e+ ) − f (e− ))2 |γij |Q π(i)π(j)
e γij ∋e
X
⩽ κ 21 Q(e)(f (e+ ) − f (e− ))2 = κEπ (f ),
e
1. Si tous les chemins menant de i à i sont de longueur paire, alors i est de période au moins 2.
7.5. Bornes sur les trous spectraux γ et γ∗ 65
où l’on a noté n(e) := k si e = (ik , ik + 1) (avec la convention que i0 := i) et utilisé l’hypothèse que
|σi | est impair. Ainsi,
X hX i2
∥f ∥2π = 1
4 π(i) (−1)n(e) (f (e− ) + f (e+ ))
i∈S e∈σi
hX q i2
Q(e)
X
1 n(e) (f (e− )
= 4 π(i) Q(e) (−1) + f (e+ ))
i∈S e∈σi
X X
⩽ 1
4 π(i)|σi |Q Q(e)(f (e− ) + f (e+ ))2 ,
i∈S e∈σi
Exemple 7.17. Soit G = (S, E) un graphe fini simple connexe. Considérons la marche aléatoire simple
sur G, c’est-à-dire la chaîne de Markov sur S dont les probabilités de transition sont données par pij :=
1{i,j}∈E /d(i), où d(i) := |{j ∈ S | {i, j} ∈ E}| est le degré du sommet i. On vérifie aisément que
cette chaîne de Markov est réversible pour la mesure de probabilité π(i) := d(i)/2|E|. En particulier,
Q({i, j}) = π(i)pij = 1/2|E| pour tout arête {i, j} ∈ E.
On souhaite appliquer le Théorème 7.15. Observons que, pour tout γij ∈ Γ,
X 1
|γij |Q = = 2|E| |γij |,
e∈γij
Q(e)
2|E|
γ⩾ .
Kd2max
À présent, bornons inférieurement λ|S| à l’aide du Théorème 7.16. On suppose donc que le graphe
G est tel que la marche aléatoire est apériodique. On a
X X d(i)
α = max π(i)|σi |Q = max 2|E| |σi | ⩽ K ′ dmax ,
e
σi ∋e
e
σ ∋e
2|E|
i
2
λ|S| ⩾ −1 + .
K ′ dmax
En combinant ces deux bornes, on conclut que
n 2|E| 2 o
γ∗ ⩾ min , . ⋄
Kd2max K ′ dmax
Remarques bibliographiques : La source principale pour ce chapitre est le livre [6], auquel on
pourra se référer pour des informations supplémentaires. Il existe de nombreux autres excellents livres
sur ce sujet, par exemple [17].
8 Méthode de Monte Carlo et simulation parfaite
Dans ce chapitre, nous allons décrire un algorithme permettant d’obtenir un échantillon distribué
exactement selon la loi stationnaire d’une chaîne de Markov. Couplé avec un algorithme de Monte
Carlo, ceci fournit une approche pour obtenir sans approximation des échantillons distribués selon une
mesure de probabilité quelconque sur un ensemble fini.
Ainsi, pour n suffisamment grand, Xn sera approximativement distribué selon π. Évidemment, quan-
tifier ce que l’on entend par « suffisamment grand », ainsi qu’estimer l’erreur commise n’est pas chose
triviale ; le but de ce chapitre sera de décrire une méthode permettant d’éliminer ces problèmes.
En effet, il suit du cours d’introduction à la théorie des probabilités que π est alors automatiquement
l’unique loi stationnaire de la chaîne (et que celle-ci est réversible par rapport à π).
Soit Q = (qij )i,j∈S une matrice stochastique irréductible arbitraire sur S, que l’on utilisera comme
référence lors de la construction. On cherche une solution à (8.1) de la forme
avec aij ∈ [0, 1] pour tout i, j ∈ S distincts. Ceci peut être interprété comme suit : si l’état de la chaîne
au temps n est i ∈ S, on tire au hasard son état au temps n + 1 de la façon suivante :
67
68 Chapitre 8. Méthode de Monte Carlo et simulation parfaite
π(i)qij
tij = .
π(j)qji
Il faut évidemment choisir la matrice (sij ) de sorte à ce que aij ∈ [0, 1] pour tout i, j ∈ S distincts.
Avec un tel choix, on a bien
π(i)qij sij π(j)qji
π(i)pij = = π(j)pji ,
π(i)qij + π(j)qji
puisque l’expression intermédiaire est symétrique en i et j.
π(j)qji
∀i, j ∈ S distincts, aij = . ⋄
π(j)qji + π(i)qij
e−βH(σ) X
πG,β (σ) := , ZG,β := e−βH(σ) ,
ZG,β
σ∈S
8.2. Simulation parfaite 69
Figure 8.1: Une configuration du modèle d’Ising sur le graphe G = (V, A) avec V = {1, . . . , 5}2 et {i, j} ∈ A
si et seulement si ∥i − j∥1 = 1.
appelée la mesure de Gibbs associée au modèle d’Ising. Le paramètre β > 0 est appelé la température
inverse et joue un rôle essentiel dans l’étude de ce modèle. La constante de normalisation ZG,β est
appelée la fonction de partition.
Étant donné σ ∈ S et i ∈ V , on notera σ i+ , σ i− ∈ S les configurations définies par σji± := σj pour
tout j ̸= i et σii± := ±1.
L’échantillonneur de Gibbs est une implémentation de la méthode de Monte Carlo afin d’échan-
tillonner des configurations de ce modèle (ou d’autres champs markoviens). Il propose de passer d’une
configuration σ à une autre configuration σ ′ de la façon suivante : on tire, indépendamment, un nombre
u ∈ [0, 1] selon la loi uniforme et un sommet i ∈ V également de façon uniforme. On pose alors
πG,β (σ i+ ) h X i−1
si ,
( i+
σ u ⩽ = 1 + exp −2β σj
σ ′ := πG,β (σ i+ ) + πG,β (σ i− ) (8.2)
σ i− sinon,
j∼i
où la notation j ∼ i signifie que j est un voisin de i, c’est-à-dire que {i, j} ∈ A. En d’autres termes, on
choisit un sommet i ∈ V au hasard, et on met à jour σi en tirant sa valeur au hasard selon la loi πG,β
conditionnellement au reste de la configuration, (σj )j∈V \{i} .
Notons pσσ′ les probabilités de transition correspondantes. Clairement, pσσ′ ̸= 0 si et seulement si
σ et σ ′ diffèrent en au plus un sommet. De plus, il est immédiat que la chaîne de Markov ainsi définie
est irréductible et apériodique. Vérifions qu’elle est bien réversible par rapport à πG,β : pour toute
configuration σ ∈ S et tout i ∈ V ,
1 πG,β (σ i− )
πG,β (σ i+ ) pσi+ σi− = πG,β (σ i+ )
|V | πG,β (σ i+ ) + πG,β (σ i− )
1 πG,β (σ i+ )πG,β (σ i− )
= = πG,β (σ i− ) pσi− σi+ . ⋄
|V | πG,β (σ i+ ) + πG,β (σ i− )
Nous allons à présent présenter une approche, due à Propp et Wilson [21] et appelée « couplage
depuis le passé » (coupling from the past en anglais), qui permet de générer des configurations distri-
buées exactement selon la loi stationnaire d’une chaîne de Markov, tout en ne nécessitant qu’un nombre
fini d’itérations. Afin de faciliter sa description, nous allons faire une brève parenthèse pour expliquer
comment on peut exprimer une chaîne de Markov en termes de fonctions aléatoires itérées.
Q(fm (i) = j) = pij = P(Xm+1 = j| Xm = i). Procédons donc par récurrence en supposant que
P(Xℓ = j | Xm = i) = Q Fm ℓ (i) = j pour tout ℓ ∈ Jm + 1, n − 1K et montrons qu’elle reste vraie
pour ℓ = n :
n n−1
Q(Fm (i) = j) = Q(fn−1 ◦ Fm (i) = j)
X
n−1
= Q(fn−1 (k) = j, Fm (i) = k)
k∈S
X
n−1
= Q(fn−1 (k) = j)Q(Fm (i) = k)
k∈S
X
= P(Xn = j | Xn−1 = k)P(Xn−1 = k | Xm = i) = P(Xn = j | Xm = i),
k∈S
où la troisième identité suit de l’indépendance des (fr )r∈Z , la quatrième de l’hypothèse de récurrence
et la dernière de la propriété de Markov.
Exemple 8.4. Considérons la chaîne de Markov (Xn )n∈Z sur {0, 1} avec probabilités de transition p01 :=
p, p00 := 1−p, p10 := q et p11 := 1−q. Il existe 4 fonctions gi : {0, 1} → {0, 1}, i = 1, . . . , 4 : g1 (0) = 0,
g1 (1) = 1 ; g2 (0) = g2 (1) = 0 ; g3 (0) = 1, g3 (1) = 0 ; g4 (0) = g4 (1) = 1. La chaîne (Xn )n∈Z est alors
équivalente à l’itération de fonctions aléatoires i.i.d. (fk )k∈Z de loi Q telle que
g2 g3 g4 g4 g3 g4 g1
1 1 1 1 1 1 1 1
0 0 0 0 0 0 0 0
m n
Figure 8.2: Une partie d’une réalisation de la trajectoire de la chaîne de Markov (Xn )n∈Z de l’Exemple 8.4,
exprimée en termes des fonctions aléatoires (fk )k∈Z . Dans cette réalisation, Fm
n
(0) = 1 (en rouge).
2 2 2 2 2 2 2 2
1 1 1 1 1 1 1 1
0 0 0 0 0 0 0 0
m m+2 m+5 n
Figure 8.3: Trois copies d’une chaîne de Markov sur S = {0, 1, 2}, partant de trois états différents au temps m.
Les trajectoires sont indiquées par les flèches en gras. Les trajectoires issues de 1 et 2 se rejoignent au temps
m + 2, puis leur trajectoire commune fusionne avec celle issue de 0 au temps m + 5.
Le résultat suivant garantit que toutes les trajectoires auront fusionné après un temps presque-
sûrement fini.
Lemme 8.5. Q-presque-sûrement, F0n = const pour tout n suffisamment grand.
Démonstration. Par irréductibilité et apériodicité, il existe K < ∞ tel que la probabilité d’aller de i à
j en K pas est strictement positive pour toute paire i, j ∈ S. Par conséquent, Q(F0K = const) est
également strictement positive. Les indicatrices des événements FnK = const , n ⩾ 0, étant
(n+1)K
Soit s > r ⩾ 0 ; observant que Fr = const implique F0 = const pour tout n ⩾ s, on en déduit
s n
1/2 1/2
1/2 0 1 2
1/2 1
Figure 8.4: Un exemple montrant qu’à l’instant où les trajectoires ont toutes fusionné, la chaîne n’est pas né-
cessairement distribuée selon la loi stationnaire : l’état 2 ne pouvant être atteint qu’en venant de l’état 1, il est
impossible que les chaînes soient dans l’état 2 lorsque la fusion de toutes les trajectoires se produit, alors que 2
a évidemment une probabilité strictement positive sous la loi stationnaire.
0
Théorème 8.6. Soit M une variable aléatoire Q-presque sûrement finie telle que F−M soit constante.
0
Alors, l’unique image de F−M est distribuée selon la loi π.
Donc,
0 0 0 0
Q(F−M (i) = j) − π(j) ⩽ Q(F−n (i) = j) − π(j) + Q(F−M (i) = j) − Q(F−n (i) = j)
⩽ P(Xn = j | X0 = i) − π(j) + Q(M > n),
0 (i) = j) = P(X = j | X = i) par construction. La conclusion suit
où l’on a utilisé le fait que Q(F−n n 0
en prenant la limite n → ∞, puisque limn→∞ P(Xn = j | X0 = i) − π(j) = 0, la chaîne (Xk )k⩾0
étant irréductible et apériodique, et limn→∞ Q(M > n) = 0 par hypothèse.
Remarque 8.7. Il est instructif d’observer ce qui ne marcherait pas si l’on avait procédé « vers le futur » :
dans ce cas, il n’est plus vrai que F0n (i) = F0M (i) pour tout n ⩾ M . Un coup d’œil à la Figure 8.5 (bas)
devrait rendre cela évident. ⋄
−n −m 0
0 m n
En résumé, l’algorithme suivant renvoie un élément de S distribué selon π après un temps presque-
sûrement fini (voir aussi la Figure 8.6) :
Algorithme 2 : couplage depuis le passé
Initialisation : n = 0, F00 = identité
répéter
On remplace n par n + 1
On tire f selon Q
On pose F−n 0 = F0
−n+1 ◦ f
0
jusqu’à F−n est constante
retourner l’unique valeur dans l’image de F−n
0
−1 0 −2 0 −3 0
−4 0 −5 0 −6 0
Figure 8.6: Une réalisation de l’algorithme de couplage depuis le passé. La fonction F−n 0
ne devient constante
qu’à partir de n = 6. Observez que le temps auquel les 5 trajectoires fusionnent n’est pas égal à 0, mais à −2.
La dynamique sous-jacente. Bien entendu, un pas de temps dans l’algorithme ci-dessus ne corres-
pond pas nécessairement à l’application d’un pas de la chaîne de Markov sous-jacente. Par exemple,
dans le cas de l’échantillonneur de Gibbs, un pas de la chaîne de Markov ne modifie la configuration
qu’en au plus un sommet, ce qui ne favorise guère la fusion des trajectoires. Il est évidemment beau-
coup plus judicieux d’effectuer un nombre suffisant de pas de la chaîne de Markov pour chaque pas de
l’algorithme ci-dessus.
Il est également important de bien choisir cette dynamique sous-jacente. Plus elle converge rapide-
ment, plus l’algorithme de couplage depuis le passé s’arrêtera rapidement. Par exemple, appliquée au
modèle d’Ising, l’échantillonneur de Gibbs converge rapidement pour de petites valeurs du paramètre
β, mais la vitesse de convergence devient catastrophique lorsque β est grand. Heureusement, il existe
des chaînes de Markov simulant ce modèle beaucoup plus efficacement (par exemple, l’algorithme de
Swendsen–Wang [24]).
Couplage indépendant. Le couplage utilisé ci-dessus est tel que f0 (i) est choisie comme étant égale
à j avec probabilité pij indépendamment pour chaque i ∈ S. Le choix d’un tel couplage indépendant
entre les différentes trajectoires jusqu’à leur rencontre n’est bien entendu pas le seul possible. En fait,
on peut en général faire beaucoup mieux, en choisissant un couplage qui favorise une fusion plus rapide
du processus. On en verra un exemple ci-dessous.
74 Chapitre 8. Méthode de Monte Carlo et simulation parfaite
Couplage monotone. L’approche esquissée ci-dessus présente une faiblesse évidente : la nécessité
de considérer des chaînes partant de chaque état de S peut sembler rendre cette approche inutilisable
dans les situations les plus intéressantes pratiquement. Après tout, pour le modèle d’Ising sur le graphe
avec sommets V = {1, . . . , 1000}2 , le nombre de configurations est déjà de 21 000 000 ≃ 10301 030 . Ceci
rend évidemment totalement impossible la simulation de |S| chaînes de Markov simultanément ! Heu-
reusement, dans de nombreuses situations importantes il est possible d’utiliser des propriétés d’ordre
afin d’éliminer cette difficulté. Décrivons le principe dans le cas de l’échantillonneur de Gibbs appliqué
au modèle d’Ising.
L’ensemble S des configurations du modèle d’Ising sur un graphe fini G = (V, A) possède un ordre
partiel naturel : σ ⩽ σ̃ si et seulement si σi ⩽ σ̃i pour tout i ∈ V . On dit qu’une fonction f : S → R
est croissante si
∀σ, σ̃ ∈ S, σ ⩽ σ̃ =⇒ f (σ) ⩽ f (σ̃).
On introduit le couplage suivant : on tire un nombre u uniformément dans [0, 1] et un site i uni-
formément dans V , indépendamment, et on définit f0 (σ) comme dans (8.2), c’est-à-dire que l’on pose
f0 (σ) = σ i+ avec probabilité
h X i−1
1 + exp −2β σj
j∼i
et f0 (σ) = σ i− sinon.
Remarquez que ce couplage n’est pas du tout indépendant, puisque l’on utilise les mêmes i et u
pour toute configuration initiale σ. En observant que la fonction
h X i−1
σ 7→ 1 + exp −2β σj
j∼i
[1] N. Alon and J. H. Spencer. The probabilistic method. Wiley Series in Discrete Mathematics and
Optimization. John Wiley & Sons, Inc., Hoboken, NJ, fourth edition, 2016.
[2] R. Arratia, L. Goldstein, and L. Gordon. Two moments suffice for Poisson approximations : the
Chen-Stein method. Ann. Probab., 17(1) :9–25, 1989.
[3] J. Baik, P. Deift, and K. Johansson. On the distribution of the length of the longest increasing
subsequence of random permutations. Journal of the American Mathematical Society, 12(4) :1119–
1178, 1999.
[4] A. A. Barker. Monte Carlo calculations of the radial distribution functions for a proton–electron
plasma. Aust. J. Phys., 18(2) :119–134, 1965.
[5] P. Brémaud. Discrete probability models and methods, volume 78 of Probability Theory and Stochas-
tic Modelling. Springer, Cham, 2017.
[6] P. Brémaud. Markov chains—Gibbs fields, Monte Carlo simulation and queues, volume 31 of Texts
in Applied Mathematics. Springer, Cham, 2020.
[7] N. Curien. Random walks and graphs, 2020. Notes de cours, disponibles à l’adresse https:
//www.imo.universite-paris-saclay.fr/~nicolas.curien/enseignement.html.
[8] P. R. de Montmort. Essay d’analyse sur les jeux de hazard. J. Quillau, 1713.
[9] P. Erdős and A. Rényi. On random graphs. I. Publ. Math. Debrecen, 6 :290–297, 1959.
[10] E. N. Gilbert. Random graphs. Ann. Math. Statist., 30 :1141–1144, 1959.
[11] O. Häggström. Finite Markov chains and algorithmic applications, volume 52 of London Mathema-
tical Society Student Texts. Cambridge University Press, Cambridge, 2002.
[12] W. K. Hastings. Monte Carlo sampling methods using Markov chains and their applications.
Biometrika, 57(1) :97–109, 1970.
[13] H. Kesten. Aspects of first passage percolation. In École d’été de probabilités de Saint-Flour, XIV—
1984, volume 1180 of Lecture Notes in Math., pages 125–264. Springer, Berlin, 1986.
[14] M. Krivelevich and B. Sudakov. The phase transition in random graphs : a simple proof. Random
Structures Algorithms, 43(2) :131–138, 2013.
[15] K. G. Larsen and J. Nelson. Optimality of the Johnson-Lindenstrauss lemma. In 58th Annual IEEE
Symposium on Foundations of Computer Science—FOCS 2017, pages 633–638. IEEE Computer Soc.,
Los Alamitos, CA, 2017.
75
76 Bibliographie
[16] M. Ledoux. The concentration of measure phenomenon, volume 89 of Mathematical Surveys and
Monographs. American Mathematical Society, Providence, RI, 2001.
[17] D. A. Levin and Y. Peres. Markov chains and mixing times. American Mathematical Society,
Providence, RI, 2017.
[18] T. Lindvall. Lectures on the coupling method. Dover Publications, Inc., Mineola, NY, 2002. Corrected
reprint of the 1992 original.
[19] N. Metropolis, A. W. Rosenbluth, M. N. Rosenbluth, A. H. Teller, and E. Teller. Equation of State
Calculations by Fast Computing Machines. J. Chem. Phys., 21(6) :1087–1092, 12 2004.
[20] N. Metropolis and S. Ulam. The Monte Carlo method. J. Amer. Statist. Assoc., 44 :335–341, 1949.
[21] J. G. Propp and D. B. Wilson. Exact sampling with coupled Markov chains and applications to
statistical mechanics. In Proceedings of the Seventh International Conference on Random Structures
and Algorithms (Atlanta, GA, 1995), volume 9, pages 223–252, 1996.
[22] S. Roch. Modern discrete probability : An essential toolkit, 2023. Notes de cours, disponibles à
l’adresse https://people.math.wisc.edu/~roch/mdp/.
[23] D. Romik. The surprising mathematics of longest increasing subsequences, volume 4 of Institute of
Mathematical Statistics Textbooks. Cambridge University Press, New York, 2015.
[24] R. H. Swendsen and J.-S. Wang. Nonuniversal critical dynamics in Monte Carlo simulations. Phys.
Rev. Lett., 58 :86–88, Jan 1987.
[25] M. Talagrand. A new look at independence. Ann. Probab., 24(1) :1–34, 1996.
[26] H. Thorisson. Coupling, stationarity, and regeneration. Probability and its Applications (New York).
Springer-Verlag, New York, 2000.
Notations
Ensembles, objets
Kn le graphe complet à n sommets
JnK l’ensemble {1, . . . , n}
Z⩾ℓ l’ensemble {k ∈ Z | k ⩾ ℓ}
Z>ℓ l’ensemble {k ∈ Z | k > ℓ}
Z⩽ℓ l’ensemble {k ∈ Z | k ⩽ ℓ}
Z<ℓ l’ensemble {k ∈ Z | k < ℓ}
N l’ensemble Z⩾0 des entiers positifs
N∗ l’ensemble Z>0 des entiers strictement positifs
R+ l’ensemble {x ∈ R | x ⩾ 0} des réels positifs
R∗+ l’ensemble {x ∈ R | x > 0} des réels strictement positifs
M1 (Ω) l’ensemble des mesures de probabilité sur Ω
Lois de probabilité
G(n, p) graphe d’Erdős–Rényi avec n sommets et probabilité de rétention p
Bern(p) loi de Bernoulli de paramètre p
Binom(n, p) loi binomiale de paramètres n et p
N (µ, σ 2 ) loi normale de paramètres µ et σ 2
Poisson(λ) loi de Poisson de paramètre λ
pλ mesure de probabilité associée à la loi de Poisson de paramètre λ
Divers
a := b a est défini comme étant égal à b
A⊂B A est un sous-ensemble de B (le cas A = B est possible)
A⊊B A est un sous-ensemble strict de B
∥µ − ν∥VT distance en variation totale entre les mesures µ et ν
77
78 Bibliographie
√
i −1
L (X) loi de la variable aléatoire X
µ(i) notation alternative pour µ({i}) lorsque µ ∈ M1 (Ω), Ω dénombrable et i ∈ Ω
FX fonction de répartition de la variable aléatoire X : FX (x) := P(X ⩽ x)
φX fonction caractéristique de X : φX (t) := E[eitX ]
A forme de Dirichlet . . . . . . . . . . . . . . . . . . . . . 62
algorithmes G
couplage depuis le passé . . . . . . . . . . . . . 70
de Barker . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 graphe aléatoire d’Erdős–Rényi . . 1, 10, 26
de Metropolis–Hastings . . . . . . . . . . . . . 68
échantillonneur de Gibbs . . . . . . . . . . . . 68 H
méthode de Monte Carlo . . . . . . . . . . . . 67
parcours en profondeur . . . . . . . . . . . . . . . 3 hamiltonien . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
apériodique harmonique . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
loi apériodique . . . . . . . . . . . . . . . . . . . . . . 15
loi fortement apériodique . . . . . . . . . . . . 14 I
inégalité de Talagrand . . . . . . . . . . . . . . . . . 31
C
isométrie restreinte . . . . . . . . . . . . . . . . . . . 44
configuration . . . . . . . . . . . . . . . . . . . . . . . . . . 68
couplage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 L
couplage maximal . . . . . . . . . . . . . . . . . . . 11
laplacien (discret) . . . . . . . . . . . . . . . . . . . . . 62
couplage
lemme de Johnson–Lindenstrauss . . . . . 42
indépendant . . . . . . . . . . . . . . . . . . . . . . 10
loi des petits nombres . . . . . . . . . . . . . . . . . 19
monotone . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
couplage monotone . . . . . . . . . . . . . . . . . . . 74
M
D
marche aléatoire
dérangement . . . . . . . . . . . . . . . . . . . . . . . . . . 25 paresseuse . . . . . . . . . . . . . . . . . . . . . . . . . 16
distance sur un graphe . . . . . . . . . . . . . . . . . . . . . . 65
de Hamming . . . . . . . . . . . . . . . . . . . . . . . 29 médiane et espérance . . . . . . . . . . . . . . . . . . 35
en variation totale . . . . . . . . . . . . . . . . . . 59 mesure de Gibbs . . . . . . . . . . . . . . . . . . . . . . . 69
distance en variation totale . . . . . . . . . . . . . 9 modèle d’Ising . . . . . . . . . . . . . . . . . . . . . 68, 74
F P
79
80 Index
sparse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
superharmonique . . . . . . . . . . . . . . . . . . . . . 49
temps
de mélange . . . . . . . . . . . . . . . . . . . . . . . . . 60
de relaxation . . . . . . . . . . . . . . . . . . . . . . . 61
température inverse . . . . . . . . . . . . . . . . . . . 69
transformée de Doob . . . . . . . . . . . . . . . . . . 49
transition de phase
graphe aléatoire d’Erdős–Rényi . . . . . . . 1
trou spectral . . . . . . . . . . . . . . . . . . . . . . . . . . . 58