0% ont trouvé ce document utile (0 vote)
375 vues43 pages

Theorie Information PDF

Transféré par

Widad Bouzida
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
375 vues43 pages

Theorie Information PDF

Transféré par

Widad Bouzida
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 43

Grenoble INP Laurent Ros

PHELMA, filière Sicom 2°année

Notes de cours « THEORIE DE l’INFORMATION »

Septembre 2015

Bibliographie
Théorie de l’Information
[Cov06] T.M. Cover, J.A. Thomas, “ Elements of Information Theory”, Wiley & Sons, 2nd edition, 2006.
[Bat97] Gérard Battail, « Théorie de l’information : application aux techniques de communication », collection
pédagogique de Télécommunication, MASSON, 1997
[Weh03] Louis Wehenkel, Théorie de l’Information et du codage, cours de l’Université de Liège, 2003
http://www.montefiore.ulg.ac.be/~lwh/Info/
[Rou70] E. Roubine, « Introduction à la théorie de la communication. Tome III : Théorie de l’information », collection
MASSON et Cie, 1970
[Spa87] A. Spataru, « Fondements de la théorie de la transmission de l’information », presses polytechniques
romandes, complément au traité d’électricité, 1987
[Mac03] David J.C. MacKay “Information Theory, Inference, and Learning Algorithm”, Cambridge Univ. Press, 2003
http://www.cs.toronto.edu/~mackay/itprnn/ps/
[Aug07] François Auger, « Introduction à la théorie du signal et de l’information , cours et exercices », collection
Sciences et Technologies, éditions Technip, 1999
[Gal68] R.G. Gallager, « Information Theory and reliable communication », Wiley, 1968

[Jou95] Geneviève Jourdain, « Théorie de l’Information », polycopié de cours DEA SIPT (INPG), 1992
[Bri01] Jean Brini, « cours de Théorie de l’information », polycopié de cours 2° année ENSERG 2001/2002

1
Plan détaillé du document

Théorie de l’information, et application au codage (de source et de canal)


Avant Propos

I Eléments généraux de théorie de l’information : Mesure d’information


I.1 Historique et Introduction
I.2 Mesure d’information - Quantité d’information d’un « symbole »
I.3 Entropie ou contenu d’information moyen d’une source discrète
I.4 Diverses entropies entre deux Variables Aléatoires et Information mutuelle
I.5 Source avec mémoire, et source Markovienne : une introduction

Fiche d’exercices page 16

II Codage de source (compression) :


II.1 Introduction
II.2 Caractérisation d’un codage
II.3 Théorème du codage de source (1° théorème de Shannon)
II.4 Techniques de codage de source : codage de Shannon-Fano, codage d’Huffman.

Fiche d’exercices page 25

III Capacité et codage de Canal (cas discret) :


III.1 « Canaux » de la théorie de l’information
III.2 Capacité d’un canal discret
III.3 Codage de canal et théorème fondamental (2° théorème de Shannon)

Fiche d’exercices page 34

IV Eléments de Théorie de l’Information dans le cas d’un canal continu (Introduction)


Cas d’un canal continu à Bruit Blanc Additif Gaussien, Entropie et formule de la Capacité,
Annexes : représentation géométrique des signaux et th. fondamental dans le cas continu,
performances de diverses modulations par rapport aux limites de la théorie de l’information.

Fiche d’exercices page 43

2
Avant propos
Ce document présente des notes de cours (et exercices) d’introduction à la Théorie de l’Information. Le contexte
illustré est surtout tourné vers celui des communications point à point (contexte initial pour lequel la théorie de
l’Information a été développée par Claude Shannon), mais le champ d’application de la Théorie de l’Information est
beaucoup plus vaste.

La figure 1 schématise une chaîne de transmission (entre un émetteur / un destinataire) numérique :

Source normalisée Étage RF  Signal


Modulateur M émis
signal Emetteur
voies O
S U B formation I D x(t)
SOURCE Codage  Codage Transpo. HF
Source Canal    symboles Amplification
bits bits I
(numérique a[m] / FI filtrage
Q
ou numérisée) Q
CODAGE
(pouvant inclure « cryptage »)
Perturbations Canal RF
(bruit, échos, brouilleurs …) physique
Destinataire normalisé
Étage RF 
Démodulateur Récepteur
S’ U’ B’ r(t)
DESTINA‐ Décodage  Décodage Demod I/Q Filtrage,
TAIRE Source Canal    Egalisation Amp faible bruit
bits bits
Synchronisation
FI Signal
Transpo. HF reçu
Décision bits CAG
DECODAGE
(pouvant inclure « décryptage ») « Canal » binaire de capacité C (théorie de l’information)

« Canal » normalisé
Débits binaires (bit/sec) :  Db(S) ≥  Db(U)  ≤ Db(B)
FI: fréquence intermédaire, typiquement 70MHz à 400 MHz
RF: radio‐fréquences, typiquement 900 Mhz à 5 GHz
* Décodage canal avec décisions « dures »

figure 1: Schéma global typique d’une transmission numérique sur fréquence porteuse

Dans la chaîne d’émission, on part de la source numérique (symboles discrets) jusqu’au signal analogique émis x(t):
 On a d’abord une partie CODAGE, qui transforme la suite de symboles discrets ‘S’ en une autre suite de symboles
discrets ‘B’. Le but du codage peut être multiple :
- Sécurité de l’information : cryptage, authentification (=> « Cryptographie » ou science du secret),
- Rentabilité : compression des données (« Codage de source »)
- Tolérance aux erreurs de transmission : correction / détection d’erreurs (« Codage de Canal »)

 On a ensuite une partie TRANSMISSION DU SIGNAL NUMERIQUE qui transforme la suite de symboles
numériques en un signal analogique x(t) adapté au support de transmission : cette opération est désignée
généralement par modulation numérique.

Les outils généraux de la Théorie de l’Information peuvent être utiles pour de nombreux domaines, et seront étudiées
d’abord en tant que tels dans le présent document (principalement en considérant des Variables Aléatoires discrètes) .
L’application de la T.I. au domaine des communications apporte un éclairage sur les parties codage/décodage :
« codage de source » et capacité liée au « codage de canal » seront présentés dans ce document. Notons qu’elle apporte
aussi un élégant éclairage sur les performances des modulations numériques, ce que nous évoquerons brièvement avec
la dernière partie consacrée aux Variables Aléatoires continues et au canal à Bruit Blanc Additif Gaussien.

3
Notations :

Débit littéral d’une source discrète X : - symbole : D(X) symb/sec - binaire (équivalent) : Db(X) bit/sec

Une source numérique est caractérisée par son débit littéral (à ne pas confondre avec son « débit d’information » du
vocabulaire de la Théorie de l’Information), défini comme le nombre d’éléments (symboles) qu’elle émet, en moyenne
s’il y a lieu, par unité de temps, c’est à dire par seconde.

 Pour une source X émettant des symboles Q-aire (avec Q états possibles), il est naturel de considérer le débit
littéral symbole, D(X), avec pour unité les symboles par seconde. Notons que ce débit symbole littéral n’indique
pas de manière transparente la quantité de « données » transmise par seconde, il faut préciser la taille de l’alphabet
des symboles (Q) ou le point de la chaîne considéré (la taille de l’alphabet peut varier d’un point à l’autre :
groupement de ‘lettres’ pour former des ‘mots’, passage en binaire, …).

 Il peut parfois être commode (pour faire des comparaisons notamment) de considérer un débit binaire (ou bit)
littéral équivalent, que nous noterons Db(X) , avec pour unité de temps les bits par seconde. Pour passer du débit
symbole (littéral) au débit binaire équivalent, on a la correspondance :

Db(X) = D(X) . lb(Q) bit/s avec lb(Q) en bit/symb

Notes : Cette définition est valable même si lb(Q) n’est pas entier (d’où le mot « équivalent »).
Pour des symboles binaires (Q=2), on a Db(X) = D(X).

Annexe 1 : Liaison point à point ou réseau de communication ?


Aujourd’hui, de nombreux systèmes de transmission numériques de données opèrent en réseau, où cohabitent plusieurs
émetteurs et destinataires de données. En plus du lien physique entre deux éléments, de nouvelles questions
apparaissent concernant les stratégies de coopérations ou de relais, les voies de retour, la limitation due aux
interférences, …, ce qui amène au domaine de la Théorie de l’Information des Réseaux. Le présent cours d’introduction
ne couvre pas directement ces questions, en traitant majoritairement le cas de la liaison point à point, mais donnera les
outils de base (notamment en Théorie de l’Information) nécessaires pour pouvoir les aborder. Nous donnons ci-dessous
quelques références en « Network Information Theory » pour le lecteur désireux d’aller plus loin :

 T.M. Cover, J.A. Thomas, " chapter 15: Network Information Theory" from "Elements of information Theory" ,
Wiley and Sons, Second Edition, 2006,
 Ephremides, b. Hajek, "Information Theory and communication networks: an Unconsummated Union", IEEE
Trans. It Information theory, vol. 44, n ° 6 October 1998,
 L.L. Xie, P.R. Kumar, "A network information Theory for Wireless. Communication: Scaling Laws and optimal
Operations" , IEEE Trans. On information Theory, flight 50, n ° 5, May 2004,
http://www.ece.uwaterloo.ca/~llxie/pdf_files/XieKum04.pdf
http://www.ipam.ucla.edu/publications/cnself/cnself_4005.pdf
 Chia-Ping Chen, "Network Information Theory" , race of National Sun Yat - Sen University,
http://slpl.cse.nsysu.edu.tw/cpchen/courses/ita/l14_network.pdf

Annexe 2 : Théorie de l’Information quantique .


Nous pouvons mentionner aussi que depuis les années 2000, la théorie de l’information dite classique (ou de Shannon)
est en train d’être généralisée pour le cas où l’information est échangée au moyen de ressources (états, canaux)
quantiques. Dans ce cadre, on peut encore obtenir des théorèmes indiquant les limites du possible en termes de
stockage ou transmission fiable d’information (information étant alors protégée par des codes correcteurs d’erreurs
quantiques). Le lecteur intéressé par ce nouveau champ d’étude pourra consulter entre-autre les références ci-dessous :

 Charles H. Bennett, Peter W. Shor, " Quantum Information Theory" , IEEE Transaction on Information Theory,
vol. 44, n°6, October 1998.
http://www.mcl.hu/wcdma/Pubs/qInfo.pdf

 M.A. Nielsen and Isaac L. Chuang, " Quantum Computation and Quantum Information" , Cambridge 2000.
http://michaelnielsen.org/blog/qcqi/QINFO-book-nielsen-and-chuang-toc-and-chapter1-nov00.pdf

4
I. Eléments généraux de théorie de l’information :
Mesure d’information

I.1 Historique et introduction


La théorie de l’information est née dans le contexte de la théorie statistique des communications. Ses méthodes,
essentiellement mathématiques, ont permis de rendre compte et d’expliquer l’évaluation des performances des systèmes
de communications, en raisonnant au niveau le plus élémentaire, abstraction faite des moyens ou supports physiques.

- 1928, Hartley : 1° tentative de définition scientifique d’une « quantité d’information »


- 1948, C. Shannon : introduit le nouveau concept de « quantité d’information » de façon mathématique , en
déduisant les principales conséquences : réel début de la « théorie de l’information ».
Référence: Claude E. Shannon, A Mathematical Theory of Communication, Bell System Technical Journal, vol. 27,
pp.379-423 and 623-656, July and October 1948, http://pespmc1.vub.ac.be/books/Shannon-TheoryComm.pdf

 Pour définir une théorie scientifique de l’information, il a fallu tout d’abord partir d’une définition scientifique du
mot « information », avec donc un sens précis qui peut différer du langage usuel. On cherche à attribuer une
quantité numérique du contenu informatif des messages à l’aide des probabilités d’émission des différents
messages, avec une quantité d’information importante si le message est inattendu. Le sens du mot « information »
est donc très restrictif par rapport au langage « usuel », puisqu’on ne se préoccupe pas de la signification (coté
« subjectif ») du message, ni de la personnalité du destinataire. L’approche probabiliste des communications se
justifie (outre la présence d’un bruit additif) par le fait que si il n’y avait aucune incertitude sur le message émis, il
n’y aurait pas d’information à la réception du message.
 Le champ d’application de la théorie dépasse largement celui des techniques de communication, elle constitue une
puissance de synthèse considérable pour expliquer des expériences parfois surprenantes dans des domaines aussi
différents que la physique (thermodynamique, optique, rayonnement, …), la biologie, voire aussi la sociologie,
l’économie …
 Appliquée aux communications, l’objectif (initial) de la T.I. est de caractériser de manière probabiliste la source, le
canal, et le destinataire afin d’évaluer les limites théoriques de transmission en fonction des divers paramètres, et
de mettre en œuvre les systèmes de codage / décodage adéquats. On évalue ainsi numériquement :
1. la quantité d’information émise par une source discrète de symboles
2. la capacité de transmission d’information d’un canal bruité, c'est-à-dire la quantité d’information
maximale (par élément ou pas seconde) qui peut être transmise de manière fiable dans le canal.
On note que la connaissance du débit littéral de la source ou du canal ne suffit pas à évaluer 1. ou 2,
en remarquant que :
- une source qui émet le même symbole 1000 fois / seconde n’apporte aucune information,
- un canal qui transmet 1000 symboles par seconde n’achemine pas la même quantité d’information si la
probabilité d’erreur Pe = 10-1 ou Pe =10-6.

Aujourd’hui, le champ de recherche / application de la T.I. ne concerne non plus seulement la capacité des liaisons
point à point (chaîne de Shannon) mais l’optimisation et la capacité des réseaux complexes de communication. De
manière plus futuriste et en perspective de l’ordinateur et des moyens de communications quantiques, la T.I. s’intéresse
aussi à l’optimisation pour le cas où l’information n’est plus portée par un symbole discret à 2 états (par exemple) mais
par un élément obéissant aux lois de la mécanique quantique (qubit, pour quantum bit) (Cf Chapitre « Avant propos »).
Mais ces deux derniers points ne seront pas abordés dans ce cours d’introduction.

5
I.2 Quantité d’information associée à la réalisation d’un évènement (émission
d’un symbole)
La quantité d’information associée à la réalisation d’un événement parmi N possibles reflète objectivement
l’imprévisibilité ou le degré d’incertitude de l’événement. Elle est donc d’autant plus grande que la probabilité de
l’événement était petite (Note : incertitude importante avant l’événement quantité d’information importante après).
Contexte :
On se place dans le cadre d’une expérience aléatoire délivrant un évènement (ou résultat) s parmi un ensemble fini de N
évènements élémentaires (résultats) possibles : As = { s1 , s2 , …, sN } , tels que si  sj =  ,  i, j, i≠j
L’évènement certain est E = (s1 U s2 U … U sN).
N
A chaque résultat est associé une probabilité p(si) [0, 1], encore notée pi. On a bien sûr Pr( E )  p
i 1
i 1 .

La plupart du temps dans le cours, les N évènements élémentaires seront les N messages possibles délivrés par une
source discrète S à un instant donné. As est alors l’alphabet de la source S, et {pi}i =1..N, le jeu de probabilités associé.

Notations :
 Le résultat en sortie de la source S peut être modélisé par une Variable Aléatoire (V.A.) discrète, et les évènements
devraient en toute rigueur être notés {S = si } et les probabilités Pr({S = si}) ou encore pS( si ) , en tant que
distribution de probabilité (discrète) de S. Mais nous utiliserons le plus souvent les notations abrégées si et p(si).
 dans le cas où l’expérience délivre plus d’un résultat, (si , uj ) correspondra à l’évènement {S = si }  {U = uj }
pris dans un espace de dimension NS  NU, où S et U sont 2 V.A. (de dimensions respectives NS et NU).

Quantité d’information associée à un évènement (à l’émission d’un symbole par une source discrète)
La quantité d’information obtenue en observant la réalisation de l’évènement S = si , (source S émettant le symbole si )
de probabilité pi ([0, 1]), est par définition :

h(si ) = – K . ln( pi ) où K est une constante réelle positive qui dépend de l’unité choisie

Propriétés : la fonction f = -log a été choisie car elle seule (parmi les fonctions continue monotone) a les propriétés:
- d’obtenir une fonction h(si) = f(pi) décroissante avec la probabilité de l’événement pi ,
- d’additivité pour des évènements indépendants : de sorte que l’observation de deux évènements statistiquement
indépendants (émission indépendante de deux symboles si1 et si2 par exemple) fournisse une information cumulée :
h(si1 , si2) = h(si1) + h(si2)
En effet, l’indépendance mène à p(si1 , si2) = pi1  pi2 , et finalement à f( p(si1, si2) ) = f(p(si1)) + f(p(si2))

L’information ainsi définie est une grandeur toujours positive. Si la source émet le symbole s avec la probabilité p = 1
(événement certain), on a une quantité d’information nulle h(s) = 0 associée à cet évènement certain.

Unité d’information
La constante K est libre : choisir K consiste à choisir une unité d’information. Cela revient à choisir la base b du
logarithme : h(si ) = –logb ( pi ), avec alors K = 1 / ln ( b ),
Différents choix possibles pour différentes unités : base b=e => natural unit (nit), : b=10 => decimal unit (dit) ou
Hartley, …
Choix le plus fréquent (utilisé dans le cours), base b = 2 => log binaire : lb(x) = log2(x) = ln(x) / ln(2) :

h(si ) = – lb( pi ) unité Sh (Shannon)

Le Shannon (Sh) fait parti du système international des unités de mesure des grandeurs physiques.
Note : initialement (ouvrages anciens, articles de C. Shannon, …) l’unité Sh était dénommée « bit » pour « binary
unit », mais avec le risque de confondre avec le digit binaire (symbole de l’alphabet binaire) qui ne transporte 1 Sh
d’information que si les deux états possibles sont équiprobables (p(0) = p(1) = ½).

Exemples et remarques :
 pour une source discrète binaire d’alphabet As = {0, 1},
- si p(0)= p(1) =1/2 => h(0)=h(1)= 1 Sh
- si p(0) = 0,2 et p(1) = 0,8 => l’émission d’un 0 correspond à une quantité d’information h(0) = 2.32 Sh ;
l’émission d’un 1 à h(1) =0,32 Sh

6
 pour une source S, avec N messages équiprobables : h(si ) = – lb( 1/N ) = lb(N)
- information apportée par un chiffre décimal, si les 10 chiffres sont équiprobables : Lb(10) = 3.32 Sh
- si N = 2n (formé à partir de n bits) => h(si ) = n Sh

 information apportée par les évènements :


- tirage d’une carte parmi 32 : -lb(1/32) = 5 Sh.
- tirage de 2 cartes respectivement dans 2 jeux différents de 32 cartes : 5 Sh + 5 Sh = 10 Sh.

I.3 Entropie ou contenu d’information moyen d’une source discrète S


I.3.a) source discrète simple (ou « sans mémoire », ou « indépendante ») :
Une source discrète simple (et stationnaire) émet des symboles de manière indépendante à des instants successifs, avec
la même loi de probabilité d’un symbole à l’autre. Les symboles appartiennent à un alphabet As = {s1 , s2 , … , sN } de
taille N, avec les probabilités respectives p1, p2 , … , pN pour les N symboles possibles (on a donc
N

p n  1, avec pn  Pr S  sn   0; 1 ) ;


n 1
Modèle mathématique : Une source discrète (stationnaire) S peut ainsi être modélisée par une suite de m variables
aléatoires (V.A.) : Sm = S[1] , S[2], …, S[m] , d’indice temporel i = 1, 2, …, m (représentant les instants d’émission des
symboles). Chaque V.A. S[i] est à valeur dans As et de même distribution {pn}n=1…N. La situation est celle des processus
discrets. Dans le cas d’une source simple, toutes les V.A. sont de plus générées indépendamment. Une source discrète
simple produit ainsi en sortie une suite de symboles (1 réalisation) : sm = s 1, s 2 , … , s m avec 1  i  N, et si 
As, de probabilité p( Smsm ), ou p(s 1, s 2 , … , s m ) = p 1  p 2  …  p m , en raison de l’indépendance.

Note de vocabulaire : le mot « symbole » désigne ici de façon générale les éléments de la source. Selon le contexte, ces
éléments pourront être des lettres, des mots de plusieurs lettres, … , et on pourra utiliser le vocabulaire le plus adéquat.

I.3.b) Entropie de la source discrète simple S : quantité moyenne d’information que la source délivre par symbole :
N
H ( S )  E h( S )     p n lb( p n ) en Sh/symb
n 1

L’entropie définit ainsi l’incertitude moyenne au sens des probabilités de l’expérience aléatoire : S  { sn }

Notes :
 on parlera indifféremment de l’entropie H(S) de la source S ou de l’entropie H(p1, p2 , … , pN) (ou encore HN(p1, p2
, … , pN-1)) de la loi de probabilité (p1, p2 , … , pN). La notation H(S) largement utilisée est en fait un abus de
notation. Elle semblerait dire que H est fonction de la V.A. S, alors que H n’est qu’un nombre, en réalité fonction
seulement de la distribution de probabilité {pn}n=1…N , et qui ne dépend même pas des valeurs de l’alphabet As.
 la définition H(S) ci-dessus est en fait d’abord celle de l’entropie d’une V.A. S. Elle s’étend au cas où S est une
source discrète simple (i.e. une séquence de V.A.) grâce à l’indépendance (entropie par symbole, à chaque instant).
Annexe : mais dans le cas d’une source avec mémoire (évoquée en I.5), l’entropie (moyenne) a une définition plus
complexe, basée sur l’entropie conjointe normalisée des symboles successifs, ou à partir de l’entropie
conditionnelle du symbole présent, connaissant tous les symboles précédemment générés.

exemple pour une source binaire : p = probabilité de « 0 », 1-p = probabilité de « 1 »


H(s) = H2(S) = - p.lb(p) – (1-p).lb(1-p) Cf figure 2

=> l’entropie est maximale et vaut = 1 Sh/symb quand les 2 symboles binaires sont équiprobables
1 élément binaire (ou bit) ne véhicule 1 Sh que lorsque les 2 états sont équiprobables (p = 0.5)
=> la quantité d’information moyenne d’information H(S) tend vers zéro lorsqu’un des symboles devient
beaucoup plus fréquent que l’autre

7
1
H(S)
(Sh/digit) 0.8

0.6

0.4

0.2

p
0 0.2 0.4 0.6 0.8 1

figure 2: Entropie d’une source binaire dissymétrique en fonction de la probabilité d’un des 2 symboles

autres exemples :
N 1 1
 alphabet de N lettres équiprobables : H ( S )  H [N]
eq
  lb( N )  lb( N ) Sh/symb
n 1 N
=> pour un symbole à N = 4 états => H= 2 Sh/symb

 alphabet français : si on suppose les 27 lettres (avec caractère espace) équiprobables, H = lb(27) = 4.75 Sh/symb
En fait, H  1 à 2 Sh/symb car les lettres ne sont pas équiprobables et les symboles ne sont pas indépendants
(probabilités conjointes) : Contraintes supplémentaires (information liée) => baisse de l’entropie !

Avant de décrire les propriétés de l’entropie (majoration), citons ci-dessous l’énoncé de l’inégalité fondamentale qui
constitue un lemme fort utile en théorie de l’information, et que nous utiliserons à plusieurs reprises:

inégalité de Gibbs :
Etant donné 2 alphabets de K éléments A={a1, a2, …, aK} et B={b1, b2, …, bK } de répartitions de probabilités
p   q  1, et p , q  0; 1 )
K K
respectives : {p1, p2, …, pK} et {q1, q2, …, qK } (avec 
k k k k
k 1 k 1
K
qk
- on a l’inégalité : p
k 1
k . lb(
pk
)0 (soit  K pk . lb(pk )   K pk . lb(qk ) )
k 1

k 1

- l’égalité ayant lieu pour « pk = qk ;  k = 1 …K »

démonstration se déduit de l’inégalité « x  +, ln(x)  x-1 » (égalité seulement si x = 1) en posant x = qk / pk , en


multipliant par pk, et en faisant la somme pour tout k.

propriétés de l’Entropie :
(on adopte la convention pi log pi = 0 pour pi =0)
 continuité : l’entropie H(S) = H(p1, p2 , … , pN) est une fonction continue de chaque variable pi sur [0, 1[
 symétrie : par rapport à toutes les variables pi : i, j H(p1,…, pi, … , pj, … , pN) = H(p1,…, pj, … , pi, … , pN)
 encadrement : H(S) est positive et majorée :

0  H(S)  lb(N)
démonstration à partir de l’inégalité de Gibbs appliquée à qk = 1/N et à pk ,
=> on a donc une majoration de H(S) par Heq [N] = lb(N), c’est à dire que H(S) est la plus grande lorsque les symboles
indépendants de la source simple sont équiprobables, pn = 1/N, ce qui correspond à l’incertitude globale la plus grande.

I.3.c) Redondance d’une source: écart relatif à l’entropie maximale Heq [N] (que permettrait la taille N de son alphabet)
H(S)
R( S )  1 -
lb( N )
Permet d’apprécier l’usage que fait la source de son alphabet, c’est à dire l’adéquation de cet alphabet au message
délivré par la source. On a 0  R(S)  1, avec une pleine utilisation lorsque la redondance est nulle.

8
I.3.d) Débit d’information par seconde d’une source:
L’entropie exprime une quantité d’information moyenne par symbole. Pour s’affranchir de préciser la taille de
l’alphabet (N) des symboles, qui peut varier d’un point à l’autre de la chaîne (extensions, codage de source, …), on a
souvent intérêt à discuter de la quantité d’information moyenne par seconde (Sh / seconde), que l’on nommera ici Débit
d’information :

Débit d’information (ou Débit entropique)


Ht (S) = H(S) . D(S) Sh/sec
où D(S) : débit symbole littéral (symb/s)

Notes :
1- Ne pas confondre le débit d’information Ht(S) (en Sh/sec) avec le débit binaire littéral (équivalent) Db(S) (bit/sec) .
On a l’inégalité : Ht (S)  Db (S) = D(S).lb(N) puisque H(S)  lb(N)

2- Dans certains ouvrages, le débit d’information est dénommé « Entropie par seconde », ou « Débit entropique » ce
qui correspond bien à sa définition.

exemple débit d’information : avec alphabet binaire (N=2) et Db(S) = 34 Mbit/s


- alphabet binaire équiprobable (p1 = p2 = 0,5) => H(S) = 1 Sh/bit, Ht(S) = 34 MSh/s,
redondance R(S) = 0;

- alphabet binaire tel que (p1 = 0,2 ; p2 = 0,8) => H(S) = 0.72 Sh/bit, Ht(S) = 24.5 MSh/s.
redondance R(S) = 28%;

I.3.e) Cas de l’extension d’une source simple:


Extension d’une source simple
Soit une source simple S = ({si}, {pi}) de N lettres (1 symbole = 1 lettre). L’extension d’ordre k de S, notée Sk, émet
des messages (mots) x j , en nombre Nk , construits à partir de k symboles (ou k lettres) si , qui peuvent s’écrire :
x j = sj1 sj2 … sjk et dont les probabilités sont : p( x j ) = p(sj1 ) . p( sj2 ) … p( sjk )
(On a donc 1 symbole étendu = 1 mot de k lettres)

Entropie de l’extension d’une source simple : H( Sk ) = k .H(S), en Sh / mot de k lettres

Cette propriété se déduira immédiatement des résultats à venir sur la dépendance entre 2 Variables Aléatoires ( I.4 ).

Exercice E1 : On utilise un alphabet de 3 lettres A, B, C de probabilité respective : pA = 0,7 ; pB = 0,2 ; pC = 0,1 ;


 Source S1 : émet successivement des mots de 1 lettre (indépendance d’une lettre à l’autre)
 Source S2 : émet des mots de 2 lettres (statistiquement indépendantes)
 Source S3 : émet des mots (groupement de 2 lettres non indépendantes), avec indépendance d’un mot à l’autre.
On donne les probabilités de mots suivantes : pAA = 0,6 ; pAB = 0,1 ; pAC = 0 ; pBA = 0,06 ; pBB = 0,1 ; pBC = 0.04 ;
pCA = 0,04 ; pCB = 0 ; pCC = 0.06 ;
Calculer les entropies H(S1), H(S2) et H(S3) à partir des jeux de probabilités.
Commentaires sur l’exercice : attention à n’utiliser la formule de l’entropie qu’après s’être assuré que la source était
bien simple. Pour S3, la source n’est pas simple si on considère l’émission des lettres, elle l’est si on considère
l’émission des mots (1 symbole de la source simple = 1 mot de 2 lettres).

Exercice E2 : On tire à Pile ou Face avec une pièce équilibrée jusqu’à obtenir Pile. Donner la loi, puis l’Entropie du
nombre de lancés nécessaire, X. (Annexe : nombre moyen de questions binaires pour identifier efficacement X ?)
 
1 1
N.B. : formulaire mathématique : pour q  [0 ;1[, on a  qn 
n 1 1 q
et nq
n 1
n 1

1  q 2
.

Note annexe au paragraphe I.3 : théorie de l’information et thermodynamique [ Léon Brillouin, « La science et la
théorie de l’information », Masson, 1959] : l’entropie ainsi définie est en « correspondance » avec l’entropie rencontrée
en théorie statistique de la thermo-dynamique (H = k ln(P) où k= cte de Boltzman, P = nombre d’états stables
possibles à l’échelle atomique), qui mesure l’ « état de désordre » d’un système physique ; L’entropie
thermodynamique représente en fait le manque d’information sur la véritable structure du système (acquisition
d’information sur le système physique => baisse de l’entropie thermodynamique).

9
I.4 Diverses entropies entre 2 Variables Aléatoires et Information mutuelle:
On considère le cas de 2 V.A. X et Y, qui peuvent être dépendantes ou non, et on va définir des entropies et
informations mutuelles entre ces 2 V.A., permettant une mesure de leur degré de ressemblance. Ces concepts sont
particulièrement importants lorsqu’on considère une source avec mémoire (X et Y peuvent alors représenter les
résultats aléatoires à 2 instants différents). Dans un autre contexte (Ch2.III), X et Y pourraient représenter les entrée /
sortie d’un canal discret bruité. Ou encore plus directement, X et Y peuvent représenter (le résultat à un instant donné
de) deux sources sans mémoire diffusant des messages plus ou moins ressemblants.

Les 2 V.A. X et Y sont donc respectivement caractérisées par les deux alphabets {x1, x2, …, xN } et {y1, y2, …, yM }, avec
les probabilités { p(x1), p(x2), …, p(xN)} et { p(y1), p(y2), …, p(yM) } .
On note que le couple (X, Y) peut-être assimilé à une source virtuelle émettant le mot ( x i , yj ) de deux lettres.

I.4.a) Rappel probabilités conjointes, marginales, conditionnelles


 probabilités conjointes : aux variables aléatoires X et Y qui viennent d’être définis dans deux espaces d’épreuves
{x1 , x2 , …, xN} et {y1 , y2 , …, yM }, on peut définir le champ conjoint {x}{y}={x}{y} sur le produit cartésien de
ces espaces, auquel est associé un tableau P(X,Y) de N x M probabilités conjointes p(xi , yj).
=> Pr( X = xi ; Y = yj ), noté en abrégé p(xi , yj) : probabilité pour que le mot (xi , yj) soit émis par la source
virtuelle.
M N
 probabilités marginales : p( xi )   p( xi , y j ) et p ( y j )   p ( xi , y j )
j 1 i 1

=> p(xi ) : probabilité pour que la lettre xi soit la première lettre du mot émis

N M N M
on a donc les relations : 
i 1 j 1
p ( x i , y j )   p ( xi )   p ( y j )  1
i 1 j 1

 probabilités conditionnelles : p ( xi / y j )
p(x i / yj ) désigne la probabilité d’émettre x i sachant que yj est émis (Pr(X = x i | Y= yj) en notation plus rigoureuse).
Lorsqu’on a la connaissance que yj est émis, l’ensemble des évènements possibles (mot ( xi , yj ) émis), initialement
produit cartésien {x}{y} de cardinal NM a été réduit à l’ensemble de N événements {x}{yj}.
Les probabilités associés sont les probabilités conditionnelles : p( x1 / yj ), p( x2 / yj ), …, p( xN / yj )
Elles peuvent s’exprimer à partir des probabilités conjointes et marginales :

p ( xi , y j )
p ( xi / y j ) 
p( y j )
 Résultat fondamental : établir l’axiome des probabilités totales : p ( y j ) en fonction de p ( y j xi ) et de
p ( xi ) .

I.4.b) Entropie conjointe H(X, Y)


L’incertitude moyenne (ou quantité d’information moyenne par mot) de (X, Y) est donnée par l’entropie conjointe (ou
composée) :
H ( X , Y )  E  h ( X , Y )   -   p ( x i , y j ) . lb  p ( x i , y j ) 
N M

i 1 j 1

 Si X et Y indépendants, somme des entropies marginales : H(X,Y) = H(X) + H(Y)


 Si X = Y : H(X, Y) = H(X) = H(Y)
 Cas général : l’observation globale de (X, Y) apporte moins d’information que la somme des informations
apportées par les observations séparées de X et Y :

0  H(X,Y)  H(X) + H(Y)

démonstration à partir de l’inégalité de Gibbs, avec pk = p(xi , yj), qk = p(xi ).p( yj) , pour les K = NM valeurs de k
en fait H(X,Y)  Max{H(X) ; H(Y)}

10
I.4.c) Entropies conditionnelles H(X / Y):
L’incertitude moyenne (ou indétermination, ambiguïté) sur X après la connaissance de Y (quantité d’information qu’il
reste à acquérir pour connaître X lorsque Y est connu) est donnée par l’entropie conditionnelle :
H ( X / Y )  -  p ( x i , y j ) . lb  p ( x i / y j ) 
N M

i 1 j 1

H(X / Y) correspond à l’espérance de g(X,Y) = -lb{p(X | Y}, qui peut s’obtenir en sommant avec les poids de la
distribution conjointe de probabilité p(xi, yj) du couple (X,Y).

Cette expression peut aussi être obtenue en revenant à l’information élémentaire associée à xi conditionnellement à la
réalisation de yj : h(xi / yj) = -lb( p(xi / yj) :
 Indétermination (incertitude moyenne, entropie) sur X lorsque Y est connu et égal à Y = yj :
N N
H (X / Y  y j )   p( x
i 1
i /y j ) . h( xi / y j )  -  p ( x i /y j ) . lb ( p ( x i / y j ))
i 1

 Indétermination sur X sachant Y, moyennée sur l’ensemble des valeurs possibles de Y :


M
H(X / Y )   p( y
j 1
j ) . H(X / Y  y j )

En utilisant la définition des p. conditionnelles, on retrouve la 1° définition de H(X / Y).

Relation entre les entropies :


H(X / Y) = H(X, Y) – H(Y)
démonstration à partir de la définition de H(X,Y) et en utilisant : p(xi , yj) = p(yj). p(xi / yj),
Exercice : interpréter la relation ci-dessus en terme de chaîne, et généraliser à n V.A., avec n >2.

Cas particuliers :
 Si X et Y indépendants : H(X / Y) = H(X)
 Si X = Y : H(X / Y) = 0

Cas général : on en déduit une majoration en utilisant la majoration de H(X, Y) :


0  H(X/Y)  H(X)

=> l’entropie conditionnelle H(X / Y) est inférieure ou égale à la quantité d’information apportée par X, puisque la
connaissance de Y réduit l’incertitude sur X.

I.4.d) Information mutuelle I(X ; Y): quantité d’information (moyenne) partagée par X et Y, en Sh /symb
C’est à dire la quantité d’information que la donnée de l’une des deux variables du couple de variables dépendantes
(X,Y) apporte sur l’autre.
I(X ; Y) mesure l’écart par rapport à l’indépendance entre X et Y, avec les définitions équivalentes :

I(X ;Y) = H(X) + H(Y) - H(X,Y)


I(X ; Y) = H(X) – H(X/Y) ; I(X ; Y) = H(Y) – H(Y/X)

 Si X et Y indépendants : I(X ; Y) = 0 ;
 Si X = Y : I(X ; Y) = H(X) = H(Y)
 Cas général :
0  I(X ;Y)  H(X) ; et 0  I(X ;Y)  H(Y) ;

Le diagramme de Venn résume, pour le cas de 2 Variables Aléatoires, la définition de l’information mutuelle ainsi que
les relations entre les différentes entropies qui ont été définies dans le paragraphe I :

11
H(X, Y)
H(Y)
H(X)

H(X/Y) I(X,Y) H(Y/X)

figure 3 : diagramme de Venn

Le calcul de l’information partagée entre X et Y peut se faire directement à partir des probabilités marginales et
conjointes, ce qui se déduit des définitions précédentes de I(X, Y) :
N M  p ( xi , y j ) 
I(X ;Y )     p( x , y i j ) . lb 
 p(x ).p(y ) 

i 1 j 1  i j 

Note Annexe :
1) On considère parfois (en particulier dans les applications de communication, X : entrée, Y : sortie d’un canal) que
l’information mutuelle (moyenne) I(X ;Y) est une grandeur plus importante que l’entropie. C’est pourquoi dans
certains ouvrages, on commence à définir I(X ;Y) à partir d’une information mutuelle élémentaire i(x,y), et la
définition de l’entropie s’en déduit :
 i(xi , yj) = lb{ p(xi /yj)/p(xi ) } = i(yj , xi ) => quantité d’information apportée par la réalisation Y = yj ,
sur l’état possible de X, X = xi : réduction de l’incertitude sur X.
 I(X ; Y) = E{ i(xi , yj) } et H(X) =I(X ; X).

2) I(X ; Y) peut aussi être interprété comme une « entropie relative » (ou distance de Kullback Leibler) entre la
masse de probabilité conjointe p(xi , yj) et la masse de probabilité « produit » p(xi )  p(yj).
3) Extension au cas de 3 V.A. discrètes X, Y, Z :

 on peut définir les entropies entre 3 V.A. (exemple H(X,Y,Z) ) mais l’information mutuelle se mesure
seulement entre 2 V.A. (Cf interprétation en terme de « distance » de Kullback Leibler).

 mais on peut par exemple définir l’information mutuelle conditionnelle de X et Y connaissant Z :


I ( X ;Y Z )  H ( X Z ) H ( X Y , Z ) (   p ( xi , y j , z k ).lb( p ( x i , y j z k ) ) ).
N M L

i 1 j 1 k 1 p ( x i z k ). p ( y j z k )

 Annexe : en présence d’un nombre de V.A. supérieur à 2, le diagramme de Venn peut ne pas être valide, en
tout cas si on veut que les différentes entropies correspondent à des surfaces à valeurs positives (Cf cas où
l’information mutuelle entre 2 V.A. augmente après connaissance d’une 3° V.A. Exemple : X, Y indépendants
et Z = X+Y: on a I(X ;Y) = 0 donc H(X) et H(Y) doivent être représentées par 2 surfaces disjointes dans le
diagramme de Venn, mais problème de représentation si on connait Z car alors I(X ;Y| Z) > 0 …).

Exercice
(Note : Les exemples les plus utiles seront donnés en III lorsque X et Y seront les entrées /sorties d’un canal)
Considérons ici le cas de deux sources discrètes binaires X, Y telles que :
- X émet de manière indépendante et équiprobable les symboles « 0 » et « 1 »
- Y émet de manière dépendante de X : le symbole « 1 » si X émet « 0 », les symboles « 0 » ou « 1 » de manière
équiprobable si X émet 1
En déduire les diverses probabilités, entropie et information mutuelle du système (X,Y) ?

12
I.5 Source de Markov : une introduction
Jusqu’à présent : source sans mémoire (indépendance d’un symbole émis à l’autre). En pratique, il y a souvent
dépendance temporelle entre les symboles x[n] émis par la source aux indices temporels n.

1.5.a) Entropie d’une source Markovienne (d’ordre M=1) :


Soit une source X à N symboles (ou états) possibles {x1 , x2 , …, xN }, dont l’état X[n+1] à l’instant n+1 dépend de l’état
X[n] à l’instant n, selon la matrice de transition M :

Pr( X[n+1] / X[n] )

à [n+1] x1 … xN
de [n]
x1 p1 / 1 pN / 1

xN p1 / N pN / N

Avec pi / j = Pr(X[n+1] = xi | X[n] = xj )


N
On a donc : p
i 1
i/ j  1, j  1, ..., N

La dépendance par rapport à tout le passé se résume donc à celle de l’état qui est atteint.
(pour une définition plus précise : X[1] -> X[2] -> …-> X[n] -> X[n+1] forme une chaine de Markov).

 à l’instant n : le système est caractérisé par un jeu de probabilité P[n] ={p1[n] , p2 [n] , …, pN[n]} pour les différents
états {x1 , x2 , …, xN }, avec pj [n] = Pr { X[n] = xj }

 à l’instant n+1 : le jeu de probabilité change P[n+1] = { p1[n+1] , p2 [n+1] , …, pN[n+1] } , avec

N
pi [n  1]   pi / j . p j [n], i  1, ..., N
j 1
Soit sous forme vectorielle :
P[ n 1]  P[ n ] . M

 Etat stationnaire du système : On montre que si la matrice est telle que tous les états « communiquent
effectivement » (c'est-à-dire si il est possible de passer de n’importe quel état à n’importe quel autre état en un
nombre fini de fois. En particulier la matrice ne doit comporter aucune colonne de zéro) le système atteint (pour n
suffisamment grand) un état stationnaire pour lequel le jeu de probabilité P* = {p1 , p2 , …, pN } n’évolue plus
d’un instant à l’autre.

Notes :
- l’état stationnaire est atteint (plus ou moins vite) quelque-soit le jeu de probabilités initial P[0] . Bien sûr, si
l’état initial correspond déjà aux probabilités stationnaires, alors la chaine de Markov forme un processus
stationnaire (P[0] = P*).
N
- P* est donc solution du système linéaire : P  P . M , avec la condition supplémentaire p
i 1
i  1.

 Entropie (moyenne par symbole): l’entropie par symbole de la source (« entropy rate »), notée H(X),
ou H ( X ) (définie en annexe) joue le rôle de l’entropie des sources avec mémoire. Lorsque la source est avec
mémoire, la connaissance des symboles passés rend moins inattendu le symbole qui va être émis. Il y a ainsi
une réduction de l’entropie qui résulte de la prise en compte du passé dans l’appréciation des symboles émis.
Pour une source de Markov stationnaire, H ( X ) est égal à l’entropie conditionnelle de la source à un instant,
connaissant l’état précédent (notée H M 1 ( X ) ). Ainsi, pour une source de Markov d’ordre 1, l’entropie par
symbole peut être calculée lorsque le jeu de probabilité stationnaire est atteint, par :

13
def def N N
H M 1 ( X )  H ( X [ n1] X [ n ] ) avec H ( X [ n1] X [ n ] )    ( pi / j . p j )  lb( pi / j )
j 1 i 1

Ce qui est équivalent aussi, d’après la définition de l’entropie conditionnelle (Cf I.4) à la valeur moyenne de
l’indétermination sur X, conditionnée par les différents états précédents possibles :
N N
H M 1 ( X )   p j .H ( X [ n ] / X [ n  1]  x j )
j 1
avec H ( X [ n ] / X [ n  1]  x j )   p
i 1
i/ j . lb( pi / j )

ANNEXE : Cas d’une source avec mémoire plus générale (pas nécessairement stationnaire ni de Markov)
Soit une source définie par une séquence de V.A. X [1] , X [ 2 ] ,..., X [ n ] avec possible dépendance entre les V.A.
- Entropie moyenne (Entropy Rate) : mesure l’incertitude moyenne par symbole de la source. La définition générale de
def
1
l’entropie (par symbole) est : H ( X )  lim .H ( X [1] , X [ 2] ,..., X [ n ] ) , en Sh/symbole.
n  n
- pour une source stationnaire, l’entropie moyenne peut aussi être calculée comme l’entropie conditionnelle de la V.A.
présente, connaissant celles passées. Alors H ( X )  lim H ( X [ n ] X [1] , X [ 2 ] ,..., X [ n 1] )
n 

- pour une source de Markov stationnaire, l’entropie (moyenne) est réduite à H ( X )  H ( X [ n ] X [ n 1] ) , où
l’entropie conditionnelle est calculée en utilisant la distribution stationnaire.

1.5.b) Annexe 1 : chaîne de Markov et « Data Processing Theorem » :


En 1.5.a), la source avec mémoire d’ordre 1 introduite, représente en fait une chaîne de Markov :
X[1] -> X[2] -> X[3] -> …-> X[n-1] -> X[n] -> …

Plus formellement :

Chaine de Markov : Soit X, Y, Z, 3 variables aléatoires discrètes d’alphabets finis. Elles forment une chaîne de
Markov dans le sens X -> Y-> Z ssi Z est indépendante de X conditionnellement à la connaissance de Y, soit de
manière équivalente :

 Pr(Z = z | Y = y, X = x) = Pr(Z = z | Y = y)

ou

 Pr(Z = z , Y = y , X = x) = Pr( X = x ). Pr( Y = y | X = x). Pr(Z = z | Y = y)

« Data processing Theorem » : Si X -> Y-> Z forment une chaîne de Markov, alors : I(X ; Z)  I(X ;Y)

Aucun traitement sur Y ne peut augmenter l’information que Y contient sur X.

1.5.c) Annexe 2 : extension à la source de Markov d’ordre M : symbole envoyé à l’instant « n » dépend des M
précédents symboles, envoyés aux instants « n-1 » à « n-M ». Généralisation du cas M=1.

La source X est parfaitement connue avec les probabilités de transition :


Pr(xi / X j ) = Pr( x[n] = xi / X j ) , avec X j l’état de la source pour les M symboles précédents
N N
H (X / X j)  -  p( x i / X j ) . lb  p( x i / X j)   -  p( X i / X j ) . lb  p( X i / X j) 
i 1 i 1

avec X i = ( x[n], …, x[n-M+1] ) ; X j = ( x[n-1], …, x[n-M] )

L’entropie de la source X est la moyenne des entropies conditionnelles :

14
NM
HM (X )  - j 1
p( X j ) . H ( X / X j )

Cette entropie peut être calculée à partir des probabilités de transition p(Xi, Xj), rassemblées dans la matrice de
transition T(NM x NM) où Tij= p(Xi, Xj).

On montre que HM(X) est une suite décroissante telle que :


0  HM(X)  HM-1(X)  ...  H1(X)  H0(X)  lb(N)
avec H0(X) : entropie de la source sans mémoire

Maintenant que les notions générales de théorie de l’information ont été introduites, nous allons voir comment
elles peuvent s’appliquer aux problèmes du codage afin de déterminer les limites théoriquement atteignables. Le
codage sera séparé en « codage de source » et « codage de canal », car cette séparation peut être réalisée sans perte
d’optimalité dans le cas d’une liaison point à point (1 émetteur vers un destinataire), comme l’a montré Claude
Shannon*.

* Notons que la séparation du codage en « codage de source » - « codage canal » sans perte d’optimalité ne serait plus forcément vraie dans le
problème plus général de la communication en réseau, domaine de recherche actuel, comme développé dans :

M. Gastpar, M. Vetterli, and P.L. Dragotti. “Sensing reality and communicating bits: A dangerous liaison - Is digital communication sufficient for
sensor networks?” , IEEE Signal Processing Magazine, 23(4):70–83, 2006.

15
Fichier n°0 : Mesure d’information, Outils Généraux.

Exercice 1 : Lancer de dés


Soit l’épreuve aléatoire « lancer deux dés non pipés », et les variables aléatoires (V.A.) suivantes :
 P1 qui vaut 0 si le nombre tiré (dé 1) est pair, 1 s'il est impair.
 X1 qui représente le nombre tiré (dé 1).
 X12 qui représente le couple de nombre tirés (dé 1, dé 2).
  qui représente la somme des nombres tirés (dé 1 + dé 2).
Calculer et commentez :
A) la quantité d’information associée aux évènements : {X1 = 4} ; {P1 = 0} ; { = 6} ; { X12 =
(4,2) } ; { X12 = (4,2) |  = 6 }

B) les Entropies des V.A. X1 ; P1 ; X12 ; ainsi que leurs Redondances.


C) l’Information mutuelle I(X1, P1) ainsi que le diagramme de Venn du couple (X1, P1) .
Réponses : h{X1 = 4} = 2,585 Sh; h{ P1 = 0 } = 1 Sh; h{  = 6 } = 2,845 Sh; h{ X12 = (4,2) } = 5,17 Sh; h{ X12 = (4,2) |  = 6 } = 2,325
Sh ; H(X1) = 2,585 Sh/dé; H(P1) = 1Sh/état ; H(X12) = 2H(X1); H() = = 3,2744 Sh / numéro

Exercice 2 : généralisation à 3 V.A., chaîne, et « Data Processing Theorem »


Soit 3 V.A. discrètes X, Y, Z d’alphabets finis. Montrer les propriétés suivantes et commenter
( Rappel : Pr( X = x , Y = y | Z = z) = Pr( X = x | Y = y , Z = z) .Pr( Y = y | Z = z) ):

(1) H(X, Y, Z) = H(X) + H(Y|X) + H(Z | Y, X)


N.B : via l’entropie conditionnelle H(Y , Z | X) = H(Y | X) + H(Z | Y, X)

(2) I( (X ,Y) ; Z) = I(X ; Z) + I(Y ; Z | X)


N.B. : via l’info. mutuelle conditionnelle : I (Y ; Z X )  H (Y X )  H (Y Z , X )

(3) « Data Processing Theorem » : si X->Y->Z forment une chaine de Markov


(i.e. X et Z indépendants conditionnellement à Y  PX,Y,Z (x,y,z) = PX (x).PY|X (y|x) PZ|Y (z|y) )
alors I(X;Z)  I(X;Y)
N.B. : - via I(X ;Z |Y) = 0 (pour la chaine de Markov, à commenter)
- via les développements de I((Y, Z) ; X) en fonction de I(X ;Z) puis de I(X ;Y)

Cf [L. Wehenkel], Théorie de l’Information et du codage, Univ.Liege 2003, http://www.montefiore.ulg.ac.be/~lwh/Info

Exercice 3 : Entropie (moyenne par symbole) d’une source avec mémoire stationnaire X
X est modélisée par une séquence indexée de V.A. : X1, X2, X3, …, Xk , où chaque VA Xi est tirée
selon la même loi {pn, n=1 …N} et le même alphabet AX (les VA Xi,Xj, ij peuvent être dépendantes).
N.B.: la stationnarité implique en particulier : H(X1) = H(X2) , H(X3 | X2) = H(X2 | X1) , …
1 1
1) Prouver (et interpréter) : H (X1, X 2 , X 3 )  H (X1, X 2 )  H (X1)
3 2
def
1
2) Généraliser et conclure que la séquence H k ( X )  H ( X 1 , X 2 ,..., X k ) converge quand k -> .
k

16
II. Codage de source (Compression)

II.1 Introduction

S Codage U Canal
SOURCE Codage
messages Source
Source (normalisé)
symboles élémentaires Q-aire
N-aire L : longueur moyenne Au= {u1, ..uQ}
As ={s1, ..sN} d’un mot code en général bits (Q=2)

Source normalisée

Figure 4 : Adaptation de la source au canal

Nous avons vu dans la partie I.1 que le maximum absolu (lb(Q) si Q est la taille de l’alphabet) de l’entropie d’une
distribution discrète était atteint lorsque les différents symboles étaient également probables et qu’ils étaient transmis
de façon indépendante. Lorsque les symboles de la source ne sont pas équiprobables ou / et indépendants, la source
présente de la redondance, ce qui signifie que l’alphabet naturel de la source n’est pas utilisé de manière optimum (il
transporte une quantité d’information en dessous de ses possibilités). Nous sommes alors intéressés par une
représentation plus efficace des données émises par la source.

 Objectif majeur du codage de source : transformer la « source + codeur de source » en une source « normalisée » :
- ne présentant quasiment plus de redondance, de sorte que le débit bit littéral soit réduit ( Db(U)  Db(S)
bit/sec) pour une transmission temps réel (supposée par défaut)

- sans perte d’information. La quantité d’information en Sh de l’ensemble des messages à transmettre est
conservée après codage.
Ainsi, pour une transmission de la source en temps réel, le débit d’information est conservé après codage:
Ht(U) = Ht(S) Sh /sec.

N.B : on appellera transmission temps réel une transmission qui respecte la durée naturelle d’émission de la
source, égale au nombre de symboles de la source à transmettre divisé par le débit de la source D(S).
Exemple : 1 heure de vidéo en sortie d’une caméra numérique transmise en une heure (à un délai près).
Autrement dit, on retrouvera bien le débit littéral naturel de la source D(S) après le décodage source .

 Autre rôle du codage de source : faire la conversion nécessaire entre l’alphabet de la source As = {s1 , …, sN} et
l’alphabet d’entrée du canal Au = {u1, …, uQ}. L’alphabet N-aire de la source peut être quelconque, l’alphabet
d’entrée du canal est le plus souvent binaire : Q = 2
Exemple : passer de l’alphabet de N=26 lettres d’un texte à des symboles binaires, Q=2. La conversion directe
(sans codage de source) des lettres en séquences binaires de 5 bits est possible mais pas efficace (25 = 32 > 26).

Notons qu’à ce stade (étude du codage/décodage de source), on considère un canal idéal (canal sans bruit, ou sans
erreur), qui achemine les messages sans erreur. L’hypothèse d’un canal sans erreur est toutefois plausible si la
normalisation « codage de canal + canal » a eu lieu (Cf figure 1).

Note de vocabulaire : pour éviter les confusions dans le sous chapitre II, on réservera le mot « symbole » (ou symbole
élémentaire, ou symbole codé) pour désigner les éléments du résultat du codage de source (éléments d’alphabet Q-aire
avec en général des symboles binaires Q=2), c'est-à-dire encore les éléments de la source secondaire ou normalisée U.
D’autre part, le mot « message » (ou « lettre », ou « mot-source ») désignera les éléments N-aire (ou leur extension :
« mot de plusieurs lettres ») émis par la source discrète (primaire) S. Le terme « mot-code » désignera le groupe de
symboles élémentaires résultant du codage d’ 1 message donné.

17
II.2 Caractérisation d’un codage
II.2a) Définitions :
 codage de source : défini à partir d’une application des messages de la source (lettres N-aire {si , i=1…N}  As
d’abord, ou ensuite généralisation à des mots étendus de k lettres,  Ask ) vers les mot-codes Ci = {u1(i) , …, uli(i) }
composés de li symboles élémentaires Q-aires uj(i)  Au, avec i = 1 … N d’abord, et ensuite i = 1 … N k ). On
obtient un codage à longueur (de bloc) fixe en entrée, mais variable en sortie.

 longueur li du mot-code Ci (en symboles): entier positif égal au nombre de symboles élémentaires qui composent le
mot-code Ci.

Le procédé global de codage de source consiste à encoder une suite de messages de la source (séquence de lettres ou
par extension, séquence de mots de k lettres) en concaténant les mot-codes correspondant à chacun des messages.

 utilisation de mot-codes de longueurs variables afin de réaliser la compression de données.

 longueur moyenne des mot-codes L (ou longueur du code) :


  N
L  E li   p ( si ) . li
i 1
en symboles élémentaires (par mot-code, ou par message)

L indique la compacité du code : plus L est faible et plus le débit binaire littéral de sortie D(U) sera réduit :
D(U) = D(S).L => Db(U) = D(S).L.lb(Q), avec en général symboles binaires (lb(Q) = 1).
D(S) en message /sec, D(U) en symboles élémentaires /sec, Db(U) en bit /sec

Lorsque le codage de source est sans perte, on a obligatoirement la relation suivante entre les entropies
(moyennes) avant et après codage de source :
H(S)
H(U) 
L
(H(S) en Sh/message, H(U) en Sh/symb. élémentaire )
ce qui est en accord avec la conservation du débit d’information : D(U) = L.D(S) et H(U) = H(S)/L => Ht(U)= Ht(S)

On peut déjà en déduire une limite minimale pour L (code sans perte):
H(S)
L   L min
lb(Q)
étant donné que l’entropie en sortie H(U) ne peut pas dépasser la valeur maximale lb(Q), puisque U est une source
(normalisée) de symboles Q-aire (Cf I.3).
(N.B. : une preuve directe plus rigoureuse de cette limite inférieure est établie en II.3-A-Lemme initial)

 l’ efficacité du codage de source est définit par :


L min H(S)
  
L L. lb(Q)
ou encore   H(U) / lb (Q) . On vérifie immédiatement que l’efficacité se déduit aussi en comparant le débit
binaire équivalent Db(U) = D(U).lb(Q), en bit/sec, au débit d’information Ht(U), en Sh/sec :   H t (U) / D b (U ) .

 la redondance du code est par définition 1- .


Elle correspond aussi à la redondance de la source normalisée U (source S + codage source): R(U) = 1- 
En effet, par définition, la redondance de U est (Cf I.3): R(U) = 1 - H(U)/lb(Q),

Anticipant sur la suite, on donne un exemple qui montre qu’il y a possibilité de faire un codage de source permettant de
réduire la redondance, et ainsi le débit binaire littéral. L’idée toujours exploitée est d’associer les longueurs de mot-
codes les plus grandes (resp. les plus courtes) aux messages les moins probables (resp. les plus probables).

18
Exemple :
Construction d’un codage de source binaire (Q = 2) pour une source délivrant N = 4 types de message de probabilités
différentes :

Alphabet de la source : A s = { s1 ; s2 ; s3; s4 }


Probabilités: Pr = { 0,64; 0,16; 0,1; 0.1}

C1 C2 C3 C4
Exemple de code : C = { 0; 10; 110; 111} alphabet des symboles de sortie : Au={0, 1}
Longueur mot-codes : l1= 1, l2=2, l3=3, l4=3 symboles

Longueur moyenne : L = 0,64x1+ 0,16x2+ 0,1x3 + 0,1x3 => L = 1,56 symboles

Exemple
suite de messages: s1 s2 s1 s1 s3 s1 s4 s1 s1 s2 s1 => cod. direct: 22 bits
symboles codés 0 1 0 0 0 1 1 0 0 1 1 1 0 0 1 0 0 => cod. C : 17 bits

Caractérisation de la source S:
- entropie : H(S) = 1,5 Sh/lettre (au lieu de 2 Sh possibles au maximum avec N=4)
- redondance : R(S) = 25%
On suppose un débit littéral de la source S de D(S) = 17 Mmessage/sec, soit Db(S) = D(S).lb(N) = 34 Mbit/sec
=> débit d’information : Ht(U) = Ht(S) = H(S). D(S) = 25,5 MSh/sec

Avec le code C, le débit binaire (moyen) littéral en sortie du codeur de source est : D(U) = D(S).L = 26,52 Mbit/sec
Soit un débit binaire littéral réduit de 22 % par le code de source C.
On peut calculer en sortie du codeur:
- l’entropie : H(U) = H(S)/L = 0,962 Sh/symboles binaires
- la redondance : R(U) = 1-H(U)/lb(Q)= 3,8% : la redondance a bien diminuée
- l’efficacité du codage :  = 1-R(U) = 96,2%
On vérifie L=1,56  Lmin = H(S)/1= 1,5 symboles

II.2b) Qualité requises pour les codes


Un code doit pouvoir être décodé sans ambiguïté. Plus précisément, n’importe quelle suite de messages doit pouvoir
être parfaitement retrouvée à partir de la suite de symboles codés correspondante. Un tel code est appelé code à
décodage unique. Les codes les plus recherchés sont de plus instantanés (ou irréductibles).

 Code à décodage unique : à chaque suite distincte de messages N-aire de la source doit correspondre une suite
distincte de symboles élémentaires Q-aire en sortie du codeur. Un tel code est donc :
1. régulier : un même mot-code ne peut pas être associé à 2 messages différents (sinon code avec perte)
exemple : le code C’ = {0, 10, 110, 110} n’est pas régulier

2. déchiffrable : à la réception d’une suite de symboles élémentaires (résultant d’une suite quelconque de
messages), il faut pouvoir trouver le début et la fin des mot-codes (déchiffrable = séparable).
exemple : le code C’’ = {1, 10, 110, 111} est régulier mais pas déchiffrable
réception de « 110 » => s1s2 ou s3 ?
conditions suffisantes (mais non optimum en compacité !) pour avoir un code déchiffrable :
utiliser des mot-codes de longueur constante, ou utiliser un séparateur ou …

Annexe: la Condition Nécessaire et Suffisante (CNS) pour qu’un code soit à « décodage unique » est finalement que
l’extension du code soit régulière. (L’extension du code désigne l’application d’une suite finie de messages de la source
vers la suite correspondante de symboles codés, obtenue par concaténation des mot-codes des différents messages).

 Code instantané (ou irréductible) : code à décodage unique particulier tel que le décodage d’un mot-code est
possible dès la fin de sa réception, sans attendre la réception du début du mot-code suivant. Il n’utilise donc pas
d’artifice de séparateur, mais satisfait à la condition du préfixe (qui va être énoncée).

19
exemples : le code C’’’= {0, 01, 011, 0111} est déchiffrable mais pas instantané (utilise séparateur « 0 »)
le code C = {0; 10; 110; 111} est instantané

Condition du préfixe
un code est irréductible (ou instantané) ssi aucun mot-code n’est le préfixe d’un autre mot-code.
=> description du code par un arbre dont les nœuds sont des groupements de symbole de la source secondaire
exemple (Q=2) : racine se subdivise en 2 branches (0,1), les 2 nœuds obtenus peuvent se subdiviser en 2, …
=> condition de préfixe : ne choisir comme mot-codes que des extrémités de branche (autres nœuds n’ont pas de sens)

Inégalité de Kraft
CNS d’existence d’un code instantané pour coder N messages (alphabet de S) avec des mot-codes de longueur (l1, l2,
…, lN) construits à partir de symboles élémentaires Q-aire:
N
- ln
Q
n 1
1

démonstration :
lN
CN : condition du préfixe => on compte le nombre total de sommets exclus de l’arbre complet parmi les Q possibles
lN
1 « arbre complet » : Q nœuds terminaux. On suppose code de longueurs ordonnées telles que 1  l1  l2  lN .
lN - li N
l - ln l
Choix d’un mot-code de longueur li exclut Q nœuds terminaux de l’arbre complet => QN
n 1
 QN

CS : relation de Kraft => on arrive à construire un code irréductible (ou instantané)

Théorème de MacMillan : généralise le théorème de Kraft à tout code déchiffrable (avec la même inégalité).
On en déduit en particulier qu’un code déchiffrable pourra toujours être remplacé par un code instantané de même
longueur. Ainsi, la classe des codes “à décodage unique”, bien que plus large, ne permet pas de réduction des longueurs
par rapport à la classe des codes instantanés.

 Codes « optimaux absolus » : codes instantanés tel que L = Lmin.


L’égalité ne peut avoir lieu que lorsque les symboles de l’alphabet de sortie Au sont utilisés de manière
indépendante et avec des probabilités égales : p(u1)=p(u2)= … = 1/Q ;
En considérant les symboles du code comme indépendants, les messages de la source (primaire) doivent alors
nécessairement avoir pour probabilités :
-l
p(si) = p(Ci) = Q i pour i = 1, …, N. (i)
Pour de tels codes, l’inégalité de Kraft-MacMillan est une égalité.

Remarques :
- Ce résultat peut aussi être prouvé plus formellement à partir de l’inégalité de Gibbs, sous contrainte du respect
de la condition de Kraft-Mac Millan pour les longueurs des mot-codes (Cf « Autre démonstration (directe) »
du lemme initial du théorème du codage de source).
- Une distribution de probabilité respectant (i), et permettant ainsi une parfaite adaptation de la longueur des
mot-codes, est bien sûr un cas très particulier. Mais comment dans le cas général choisir au mieux les
longueurs des mot-codes pour une source de probabilités quelconques ? La solution à ce problème réside dans
l’application du procédé d’encodage par blocs (ou mots) de k lettres plutôt que par lettres individuelles.

20
II.3 Théorème du codage de source (1° théorème de Shannon)
Une source étant donnée, peut-on assigner une limite à l’économie de débit littéral qu’un codage approprié permet
d’atteindre ? Le 1° théorème de Shannon donne une réponse en termes de propriété asymptotique du codage de source :

1° théorème de Shannon (encore appelé: « th. du codage de source » ou « th. du codage sans bruit »)
Soit S une source discrète stationnaire, d’ alphabet de taille N, et d’entropie (ou « entropie moyenne » dans le cas d’une
source avec mémoire) par lettre H(S) . Il existe un procédé de codage instantané (donc déchiffrable), utilisant un
alphabet de codage de taille Q, dont la longueur moyenne des mot-codes (exprimée en symboles élémentaires Q-aire
par lettre) est aussi proche que l’on veut de sa borne inférieure Lmin = H(S)/lb(Q) :

L = Lmin + ,   >0,

Autrement dit : D(U) = Ht(S ) / lb(Q) + ’,  ’ >0-

Il est donc toujours possible de trouver un encodage de source amenant un débit littéral binaire équivalent après codage
def def
Db (U )  D (U )lb(Q ) aussi voisin que l’on veut du débit d’information de la source H t ( S )  H ( S ) D( S ) en Sh/sec.

Ainsi  un procédé de codage tel que:


- l’efficacité du code est aussi proche que l’on veut de 1 (code proche de l’optimal),
- l’entropie H(U) de la source normalisée en sortie de codage est aussi proche que l’on veut de lb(Q),
- les symboles élémentaires ui après codage sont proches à volonté de l’équiprobabilité et de l’indépendance.

La clef du théorème réside dans l’utilisation de blocs de grande taille (large valeurs de k) pour réaliser le codage (i.e.
l’application vers les mot-codes de longueurs variables, comme révélé par les 2 résultats fondamentaux (étapes A et B)
donnés dans la démonstration du théorème.

Eléments de démonstration du 1° th. de Shannon (pour 1 source simple) :


A- lemme initial :
Pour une source sans mémoire S, on peut toujours construire un code instantané dont la longueur moyenne L de ces
mot-codes vérifie :
H (S) H (S)
 L  1
lb(Q) lb(Q)
Une telle construction permet déjà une approche du codage optimal des messages (avec dépassement d’un symbole).

Exercice : faire la démonstration à partir des « codes optimaux absolus » (facile).


Autre démonstration (directe) :
-li N
Se démontre aussi à partir de l’inégalité de Gibbs appliquée à pi = p(si) , et qi = Q /  , où    Q- li :
i 1
N N
H ( S )  -  p i . lb ( p i )  p i . l i . lb (Q )  lb(σ )  L.lb(Q)  lb(σ )
i 1 i 1

Sous contrainte de la condition de Kraft-MacMillan,   1 , d’où : H(S) – L . lb(Q)  lb()  0

D’abord, nous obtenons une preuve de la limite inférieure : L ≥ H(S) / lb(Q).


De plus, nous avons l’égalité H(S) = L. lb(Q) si et seulement si (ssi) :
 = 1 (égalité de Kraft-Mac-Millan) , et
–li
 p(si ) = qi = Q (condition d’égalité dans le lemme de Gibbs), (1)
et donc les mot-codes doivent avoir des longueurs telles que : li = - lb( pi ) / lb(Q) .(2)
Ainsi, deux cas sont à considérer :
(1) distribution Q-adique : si il existe un ensemble de N entiers { li , i= 1 ... N} satisfaisant la condition (2)
=> longueurs de mot-codes d’un code “absolument optimal” (i.e. avec efficacité = 100%)
(2) sinon, dans le cas général où logQ(1/pi) n’est pas entier, on peut toujours arrondir à l’entier supérieur en choisissant
N longueurs entières li telles que : - lb( pi ) / lb(Q)  li < - lb ( pi ) / lb (Q) + 1 .(3)
A noter que cet ensemble de longueurs satisfait bien l’inégalité de Kraft-Mac Millan.
On obtient le lemme en multipliant par pi et en faisant la somme pour i = 1 à N.

21
Remarque : le code obtenu grâce à la procédure .(3) est nommé “code de Shannon”. Il n’est généralement pas un code
optimal (d’autres codes ont souvent de meilleures efficacités), mais il suffit à prouver le lemme initial, et par suite à
prouver le théorème du codage de source par application du lemme à Sk, la k-ème extension d’ordre k de S (Cf B.),
puis en faisant tendre k vers l’infini.

B- Application du lemme initial à Sk (extension d’ordre k de la source discrète sans mémoire S) :


Pour une source sans mémoire S, il est possible d’attribuer Nk mot-codes à l’alphabet Ask contenant les Nk blocs de k
lettres de la source, de telle manière que la condition du préfixe soit satisfaite, et que la longueur moyenne du code,
exprimée en symboles Q-aires par lettre, L, vérifie :
H (S) H (S) 1
 L  
lb(Q) lb(Q) k

Finalement, il est possible de choisir la taille des blocs, k , suffisamment large pour que L = Lmin + ,   >0, ce qui
prouve le théorème (asymptotique) du codage de source, pour une source discrète sans mémoire quelconque.

Preuve :
Lemme appliqué à Sk : extension d’ordre k de la source S, avec un code instantané Q-aire utilisé pour coder des mots
de k lettres. L’entropie de la source étendue, H(Sk) = k.H(S).
Lk est la longueur moyenne (exprimée en symboles Q-aire) des mot-codes utilisée pour coder les blocs de k lettres =>
Lk / k = L
L’ordre k de l’extension peut être pris arbitrairement grand d’où l’assertion du 1°th. de Shannon pour une source sans
mémoire.

Commentaires :
- la preuve du 1° théorème de Shannon a été donnée pour une source sans mémoire, mais peut se généraliser à une
source stationnaire quelconque (en particulier pour les sources Markoviennes en régime stationnaire). Dans ce
cas général, la limite inférieure Lmin = H (S ) / lb(Q) est calculé à partir de l’entropie (moyenne) par lettre, H (S ) .
- Le théorème du codage de source confirme de manière éclatante l’utilité du concept d’entropie en
communications, qui apparaît lié au codage qui réalise l’économie maximale. D’où une deuxième interprétation de
l’entropie : H est la longueur moyenne des mot-codes nécessaire pour procéder à un codage binaire (Q=2).
- Distinction entre l’unité d’information binaire (« Sh »), et les symboles de l’alphabet binaires (souvent dénommés
« bits » ou « digits »): ce n’est qu’après un codage de source idéal, c’est à dire atteignant la borne inférieure dans
l’expression du théorème, que chacun des symboles binaires est porteur d’une quantité d’information égale à 1
Shannon. Dans tous les autres cas, il est porteur d’une quantité d’information inférieure.

Annexe: autres interprétations de l’entropie et du théorème du codage de source peuvent être formulées à partir de la
notion d’ensemble de séquences typiques ( Cf “[Mac03] , [Cov03] => typical sequences set”).

II.4 Techniques de codage de source


Il existe des méthodes pratiques de construction de codes très efficaces. Les algorithmes les plus utilisés sont :
Codage de Shannon-Fano, Codage de Huffman, algorithme de Lempel-Ziv, …
Appliqués dans: systèmes de télécopies, commandes « pack », « compress », « gzip » de Unix, …

On va présenter les deux premiers algorithmes en supposant que les messages de la source sont codés individuellement,
lettre par lettre (k=1). Ces algorithmes peuvent évidemment être utilisés sur les extensions d’ordre k de la source (alors
1 mot-code pour 1 message étendu de k lettres), ce qui d’ailleurs est généralement nécessaire pour améliorer
l’efficacité, mais au prix d’une complexité accrue.

II.4.a) Codage de Shannon-Fano


Ce codage irréductible repose sur la maximisation de l’entropie en sortie du codeur.
On sait que pour obtenir la longueur L minimale, les longueurs des mot-codes devraient être li = -lb( pi ) / lb(Q)
si les résultats étaient des nombres entiers, ce qui n’est généralement pas le cas. L’algorithme essaie alors d’approcher
cette condition (en cherchant à avoir les mêmes probabilités pour des nœuds de l’arbre du code de même niveau, donc
de même longueur, en optimisant en partant de la racine). La procédure est simple à implémenter, mais sous-optimale.

22
On le présente dans le cas particulier qui nous intéresse le plus, avec des symboles binaires (Q=2) en résultat de
codage. Il est basé sur la procédure suivante, qui peut être représentée à l’aide d’un arbre :

1) Ordonner les messages de la source dans l’ordre des probabilités décroissantes


2) Diviser ces messages en deux (Q) sous-ensembles aussi équilibrés que possible au sens de la sommation des
probabilités élémentaires des messages
3) Attribuer respectivement le symbole 0 puis 1 (jusqu’à Q-1) au premier et deuxième (jusqu’à Q-1) sous-
ensemble (racine divisée en Q=2 branches)
4) Répéter le processus de codage 2) 3) à chaque sous-ensemble (nœuds divisés en Q=2 nouvelles branches)
jusqu’à ce que l’opération devienne impossible (alors chaque message de la source possède un mot-code
distinct).

Exemple 1 : Source S à 5 messages de probabilités respectives : 0,4 ; 0,19 ; 0,16 ; 0,15 ; 0,1.
Cas d’un codage de source binaire de type Shannon-Fano, on obtient les mot-codes respectifs : 00, 01, 10, 110, 111
avec : L=2,25 symb., Lmin = H(S)/1=2,15 symb. => efficacité  = Lmin/L=95,6%, redondance =4,4%

Exemple 2 : Source S à 2 lettres {A,B} de probabilités respectives : pA = 0,8 et pB = 0,2.


- Cas d’un codage direct (mot-codes 0 et 1) : L=1 symb. (/lettre),  = H(S)/(L.1) = 72,2%,
- Cas d’un codage de Shannon-Fano de S2 , extension d’ordre 2 de S, les messages {AA, AB, BA, BB} de
probabilités {0,64 ; 0,16 ; 0,16 ; 0,04} ont respectivement pour mot-codes : 0, 10, 110, 111.
avec : L2=1,56 symb. (par mot de 2 lettres) => efficacité  = H(S2)/(L2.1) =2H(S)/L2 = 92,56%,
- Cas d’un codage de Shannon-Fano de S3 , extension d’ordre 3 de S, les messages {AAA, AAB, ABA, BAA, ABB,
BAB, BBA, BBB} de probabilités {0,512 ; 0,128 ; 0,128 ; 0,128 ; 0,032 ; 0,032 ; 0,032 ; 0,008} ont
respectivement pour mot-codes : 0, 100, 101, 110, 11100, 11101, 11110, 11111.
avec : L3=2,184 symb. (par mot de 3 lettres) => efficacité  = H(S3)/(L3.1) =3H(S)/L3 = 99,17%,

II.4.b) Codage de Huffman


Lorsque les messages sont codés un par un, le codage de Huffman est optimal, dans le sens où son efficacité (1, pas
nécessairement optimal absolu…) ne peut être dépassée par aucun autre code. En particulier, le code obtenu par
l’algorithme de Huffman a une efficacité supérieure ou égale à celle de Shannon-Fano. Pour qu’un code soit optimal, il
faut en particulier que:
- les mot-code les plus courts soient attribués aux messages ayant les probabilités les plus grandes,
- les longueurs des deux (Q) plus longs (i.e. moins probables) mot-codes soient égales
- parmi les mot-codes de longueur maximale, deux (Q) ne diffèrent que par leur dernier symbole

On présente l’algorithme de Huffman dans le cas de symboles binaires (Q=2) en résultat de codage.
Il est basé sur la procédure suivante, qui peut être représentée à l’aide d’un arbre :

1) Ordonner les « éléments » (« messages » initialement) dans l’ordre des probabilités décroissantes,
2) Additionner les probabilités des deux (Q) messages de probabilité les plus faibles, qui forment un nouvel «
élément » qui remplace les deux (Q) précédents.
3) Si le nombre d’ « éléments » restants est 1 (le nœud restant est la racine de l’arbre), aller à l’étape suivante ;
Sinon, retourner à l’étape 1) (en incrémentant le nombre d’itération), avec une nouvelle liste à ordonner, avec
un nombre d’éléments réduit (de Q-1).

Pour le codage (affectation des symboles Q-aires aux différents nœuds) on repart en arrière, c’est à dire de la
racine de l’arbre (= dernière itération) vers les différents nœuds extrémaux (incluant nœuds de la 1° itération) :

4) Attribuer « 0 » et « 1 » (jusqu’à « Q-1 ») comme premier symbole des 2 (Q) mots ou nœuds correspondant aux
2 (Q) derniers éléments (nœud de la dernière itération, dont la somme des probabilités égale 1).
5) On descend d’un niveau (itération) et on attribue les symboles « 0 » et « 1 » (jusqu’à « Q-1 ») comme symbole
suivant des mot-codes associés aux deux (Q) éléments qui ont été combinés au niveau précédent, en
maintenant les affectations obtenues au niveau précédent. On répète 5) de façon régressive jusqu’à ce que l’on
atteigne le 1° niveau.

23
Exemple 1: Source S à 5 messages de probabilités respectives : 0,4 ; 0,19 ; 0,16 ; 0,15 ; 0,1.
Cas d’un codage de source binaire de type Hufman, on obtient les mot-codes respectifs : 1, 000, 001, 010, 011
avec : L=2,2 symb., Lmin = H(S)/1=2,15 symb. => efficacité  = Lmin/L=97,7%, redondance = 2,3%

Exemple 2 : Source S à 2 lettres {A,B} de probabilités respectives : pA = 0,8 et pB = 0,2.


- Cas d’un codage d’Huffman de S2 , extension d’ordre 2 de S, les messages {AA, AB, BA, BB} de probabilités
{0,64 ; 0,16 ; 0,16 ; 0,04} ont respectivement pour mot-codes : 0, 11, 100, 101.
On obtient L=1,56 symb. et une efficacité  = 92,56% : idem code Shannon-Fano
- Cas d’un codage d’Huffman de S3 , extension d’ordre 3 de S, les messages {AAA, AAB, ABA, BAA, ABB, BAB,
BBA, BBB} de probabilités {0,512 ; 0,128 ; 0,128 ; 0,128 ; 0,032 ; 0,032 ; 0,032 ; 0,008} on respectivement pour
mot-codes : 0, 100, 101, 110, 11100, 11101, 11110, 11111.
On obtient L=2,184 symb. et une efficacité  = 99,17%, idem code Shannon-Fano dans cet exemple

Note pour codage de Huffman ternaire: pour le codage de Huffman à Q>2 symboles, par exemple le codage ternaire
Q=3, on peut être amené à introduire des lettres fictives de la source de probabilité nulle afin que le dernier
regroupement avant la racine soit bien toujours de Q éléments (sinon il est clair que le code ne serait pas optimal).
Plus précisément, après le premier groupement, on obtient une source à N-Q+1=N-(Q-1) éléments, et après n
groupements, on obtient une source à N-n(Q-1) éléments. Afin de pouvoir effectuer le codage, la dernière source doit
avoir Q éléments, donc Q=N-n(Q-1), et ainsi : n = (N-Q)/(Q-1) doit être un nombre entier. Si ce n’est pas le cas on
accroîtra N par l'introduction de symboles fictifs de probabilité nulle.

Commentaires sur le codage de source (entropique) :


- ATTENTION, pas de réduction d’information : compression de données mais pas d’INFORMATION ! !
- Plus la source est redondante et plus le codage de source pourra être efficace.
- Nécessité d’avoir connaissance d’une description statistique de la source. En pratique, estimation des
fréquences des messages (qui peut être adaptative pour suivre les évolutions éventuelles) à partir de
l’observation.
- Le codage de source rend plus vulnérable aux erreurs de transmission, qui entraînent la multiplication des
erreurs après décodage de source (codes irréductibles de longueur nécessairement variable). Le codeur de
canal réintroduit de la redondance, ce qui diminue évidemment la réduction de débit amenée par le codeur
de source.

24
Fiche n°1 Théorie de l’information : Débit d’Information, Codage de Source.

Exercice 1 : Application. Un système de « Contrôle Qualité » automatique placé en sortie d’une chaîne de
fabrication fournit pour chaque produit (à cadence régulière) 1 résultat parmi 3 possibles :
{ B(bon), D(défectueux), V(à vérifier/régler)} ,
avec les probabilités respectives de : 60%, 10%, 30%.

La cadence est de 180000 produits testés par heure. Le résultat de ce contrôle doit être transmis en temps
réel au moyen d’un modem binaire de débit maximum 96 bit/s, supposé sans erreur.

1°) Quel est le débit (littéral) des messages (résultats) de la source S ? En déduire s’il est possible de
transmettre (sans perte) en utilisant un codage binaire direct (à longueurs fixes): {B, D, V} => {00, 11, 01}.

2°) Quelle est l’entropie (Sh /lettre), la redondance et le débit d’information (Sh/sec) de la source supposée
sans mémoire S ?

3°) Avec un codage de source binaire idéal, quelle est la longueur minimale du code qu’il est théoriquement
possible d’atteindre et le débit littéral minimal théorique possible Db_min ? La transmission (sans perte) est-
elle alors possible au travers du modem ?

4°) Codage de Huffman : pour réduire pratiquement le débit, on utilise le codage de source entropique de
Huffman. Quelle est la longueur du code, l’efficacité du codage, et le débit obtenu ?

5°) Extension d’ordre 2 : Pour réduire encore le débit, on code non plus les lettres (résultats) séparément,
mais les groupes de 2 lettres à l’aide du codage de Huffman. Vérifier qu’1 résultat possible du codage est le
suivant :
BB => 1, BV => 000, VB => 001, VV => 0100, BD=> 0110,
DB => 0111, DV => 01011, VD => 010100, DD =>010101
Quel est alors le débit binaire de cette source ? Conclure.
Question annexe A1) Qu’aurait on obtenu en 4) et 5) avec un codage de Shannon-Fano ?

6°) Source avec mémoire S’: on suppose désormais qu’il y a une dépendance entre l’état du produit testé à
l’instant n et l’état du produit testé à l’instant n-1, selon :
Pr( S[n+1] / S[n] )
(n+1) B V D
(n)
B 0.7 0.3 0
V 0.6 0.3 0.1
D 0 0.3 0.7
 Calculer les probabilités (stationnaires) des 3 états et vérifier leur conformité à l’énoncé général,
 Calculer la nouvelle entropie, ainsi que la redondance, et le débit d’information de la source S’.

Exercice 2 : Codage de source avec des longueurs de mot-codes imposées.


Soit une source simple d’alphabet de taille N=6. On veut appliquer un code instantané à cette source.
2.1) Calculer la taille minimale d’alphabet Q des symboles élémentaires du code permettant d’avoir:
a) 1 mot-code de longueur 1 et 5 mot-codes de longueur 2.
b) 2 mot-codes de longueur 2 et 4 mot-codes de longueur 3.
Donner dans chaque cas un exemple de code et son arbre.

2.2) Pour les 2 cas précédents, préciser l’efficacité du code si on suppose que les probabilités des N
messages sont {1/12 ; 1/8 ; 1/8 ; 1/8 ; 1/6 ; 3/8 }, et que l’on affecte au mieux les longueurs.

25
III. Capacité et codage de canal

III.1 « Canaux » de la théorie de l’information


III.1.a) Introduction:
Comme vu au chapitre d’introduction (figure 1), le canal de la théorie de l’information peut englober différents blocs
(ou parties de bloc) de la chaîne. En considérant des messages numériques codés constitués d’entités binaires (ou Q-
aire), l’entrée du canal est discrète et binaire (ou Q-aire), mais sa sortie peut-être discrète ou continue.

Sortie discrète : une décision « dure » (hard) est prise en sortie du démodulateur (bit 0 ou 1 décidé typiquement à partir
d’un seuillage) qui fournit au décodeur une suite d’éléments binaires. La perte d’information est irréversible, mais
autorise des algorithmes de décodage simples à partir d’éléments binaires.
Sortie continue : une « décision souple » (soft) est délivrée en sortie du démodulateur qui fournit au décodeur une suite
d’échantillons « analogiques », typiquement prélevés régulièrement sur le signal après un filtrage de restitution. Les
performances du décodeur à entrées souples sont meilleures, mais avec un accroissement de la complexité des
algorithmes de décodage.

Selon le cas à traiter, on définit deux principaux modèles de canaux, le canal discret et le canal continu à bruit blanc
additif Gaussien (BBAG). Si le canal est sans mémoire, la réception d’un symbole (ou échantillon « analogique ») à un
instant donné ne dépend que de l’émission de celui-ci : il n’y a pas d’ « Interférence-Entre-Symboles ».

Dans la suite, on considèrera le canal discret sans mémoire, et stationnaire (statistiques invariantes dans le temps).
Le canal continu à BBAG ne sera qu’évoqué au chapitre IV.

III.1.b) Caractérisation d’un canal discret : matrice de transition

X Y
Canal
Canal discret
discret
SOURCE (avec
(avec perturbations)
perturbations)
Alphabet N-aire Alphabet M-aire
{x1, ..xN}
{y1, ..yM}

pour N = M = 2: canal discret avec alphabet binaire {0, 1}

Figure 5 : Canal discret

On note ici : X : entrée du canal à symboles N-aire, appartenant à l’alphabet fini d’entrée Ax = {x1, …, xN},
Y : sortie du canal à symboles M-aire, appartenant à l’alphabet fini de sortie Ay = {y1, …, yM }

- M = N (=2 pour symboles binaires) en général,


- si M > N : création de niveaux intermédiaires,
- si M < N : fusion de niveaux (niveaux indiscernables).

Le canal est caractérisé par le lien entre l’entrée et la sortie.


Seules les matrices contenant les probabilités conditionnelles à priori p{yj / xi} (ou à posteriori p{ xi / yj }) pour i = 1…
N, j = 1 … M caractérisent le canal indépendamment de la source (probabilités p( xi ) ), contrairement aux entropies
H(X,Y), H(Y/X), H(X/Y).

26
 p(y1 / x1 ) ... p(y M / x1 ) 
 
 
Matrice de transition [P(Y/X)], taille N x M : [ P (Y / X )]   p(y j / xi ) 
 
 
 p(y1 / xN ) p(y M / xN ) 

Le canal de transmission est donc un opérateur de type aléatoire qui à l’espace des x fait correspondre l’espace des y.
Remarques :
M
- la somme des éléments d’une ligne est égale à 1 :  p(y
j1
j / xi )  1,  i  1...N , ce n’est pas le cas en colonne.
N
- p(y j )   p(y
i 1
j / xi ) . p(xi ) d’où le vecteur ligne [P(Y)] = [P(X)].[P(Y/X)] .

- Cas particulier : la matrice d’un canal sans bruit est carrée et égale à la matrice « Identité ».

III.1.c) Types particuliers de canaux discrets: canaux « uniformes »

 Canal uniforme par rapport à l’entrée : le symbole émis à l’entrée peut être transformé en M symboles en sortie,
avec le même jeu de probabilités quelque-soit le symbole émis xi : le canal perturbe de la même façon les
différents symboles d’entrée.
( chaque ligne de [P(Y/X)] est une permutation de chaque autre ligne, quelque-soit l’index de la ligne, i).

def
Ainsi : H(Y/X) est indépendant des p(xi) et se résume à H const  H (Y / X  xi ), i dans ce cas particulier :

  p ( y j / xi ) . lb p( y j / xi )  i  1...N
def M
H (Y / X )  H (Y / X  xi ) 
j 1

exemple : N = 2, M = 3 : [P(Y / X)]  1 pq p q


 q 1 pq p

 Canal uniforme par rapport à la sortie : canal dont la matrice de transition [P(Y/X)] a le même jeu de probabilités
de transition sur les différentes colonnes, quelque-soit le numéro j de la colonne.
( chaque colonne de [P(Y/X)] est une permutation de chaque autre colonne,  l’index de la colonne, j).

1 0
exemple : N = 3, M =2 : 
[ P (Y / X )]   0 1 
0,5 0,5
Propriété pour un canal uniforme par rapport à la sortie :
distribution uniforme en entrée (p(xi)=1/N) => distribution uniforme en sortie (p(yj)=1/M) :
N N
si p(xi)=1/N  i, p(y j )   p( xi ). p( y j / xi )  1/ N .  p( y j / xi ) indépendant de j, d’où le résultat.
i 1 i 1

 Canal symétrique canal doublement uniforme ( uniforme par rapport à l’entrée et à la sortie), avec de plus N = M.
Exemple : canal binaire symétrique (CBS), N=M=2, p= p(y2/x1) = p(y1/x2) ;
Note : p = Pe : probabilité d’erreur binaire (Pe = p(x2 , y1) + p(x1 , y2) ) ; [P(Y / X)]   1 p p 
 p 1 p 
C’est le modèle le plus utilisé pour les transmissions de données numériques.
« symétrique » : on retrouve des erreurs uniformément réparties sur les 2 symboles, H(Y/X) ne dépend pas des
probabilités des symboles. L’entropie conditionnelle H(Y/X) est égale à l’entropie d’une source binaire
dissymétrique (avec probabilité p pour un symbole, 1-p pour l’autre).

27
III.2 Capacité d’un canal discret
III.2.a) Entropies, Information mutuelle, et définition de la Capacité de Canal :
Soit 2 sources X et Y (Cf .I.4) respectivement entrée et sortie du canal

Interprétations compte-tenu du rôle de X et de Y :


H(X) : quantité d’information moyenne appliquée à l’entrée du canal,
c’est la quantité d’info. moyenne de la source (après émission) = incertitude moyenne (avant émission)
H(Y) : incertitude moyenne à la réception (une part due à l’information provenant de X, une part due au bruit/erreurs) :
H(Y) = I(X ;Y) + H(Y/X)
H(Y/X) : « erreur moyenne du canal » = incertitude moyenne sur Y sachant X, due aux erreurs de transmission
I(X ;Y) : information moyenne partagée par X et Y, donc bien transmise.

On a :
I(X ; Y) = H(X) – H(X/Y)
H(X/Y) : ambiguïté ou équivoque = quantité d’information moyenne non transmise, perdue à cause du bruit.
I(X ; Y) mesure donc la quantité d’information réellement transmise par le canal.

On définit la capacité (par symbole, « per channel use ») du canal comme le maximum de l’information mutuelle
I(X ;Y), le maximum étant pris sur toutes les sources stationnaires sans mémoire d’alphabet N possibles à l’entrée du
canal.

Ainsi, pour un canal (discret sans mémoire) donné, le calcul de la capacité se faira en cherchant le maximum de I(X ;Y)
vis à vis de tous les jeux possibles de probabilités p(xi) de symboles d’entrée successivement indépendants. La Capacité
est donc obtenue à partir de l’information mutuelle, en cherchant la distribution des symboles d’entrée qui permet de la
maximiser

Capacité du canal par symbole :


C  Max  I(X ; Y)  en Sh/symb.
P(X)

La capacité du canal est intrinsèque au canal, contrairement aux entropies ou Information Mutuelle qui dépendent de la
source. C est la plus grande quantité d’information dont le canal peut assurer le transfert. Le 2° théorème de Shannon
donnera tout son intérêt à la notion de capacité (en tant que borne maximum sur la quantité d’information qui peut en
fait être transmise de manière fiable, c'est-à-dire avec une probabilité d’erreur aussi proche que l’on veut de zéro).

On en déduit la capacité par seconde connaissant le débit symbole (littéral) du canal Dc =D(X)
Capacité du canal par seconde:
Ct = C . D(X) en Sh/s

Remarques:
on démontre l’existence de ce maximum pour une certaine distribution des p(xi) (étant donné que la fonction est
continue, et que la maximisation est réalisée sur une région limitée)
- dans le cas général, le calcul de la capacité est très complexe, on ne cherche pas toujours une forme analytique,
- on vérifie évidemment que C  lb(N) Sh/symb et Ct  Db(X) Sh/sec

III.2.b) Capacité de canaux particuliers

 Canal sans bruit : canal déterministe (H(Y/X)=0) et sans perte (H(X/Y)=0). On a N=M, et [P(Y/X)] = Identité.
Le jeu de probabilités à l’entrée qui maximise I(X,Y) est aussi celui qui maximise H(X), soit p(xi)=1/N,  i. On a
ainsi : C = max {I(X ;Y)} = max{H(X)} = lb(N).
Sans bruit, la transmission la plus efficace utilise l’équiprobabilité des symboles en entrée (obtenue grâce au
codage de source) . En présence de bruit, ce n’est généralement pas vrai.

 Canal uniforme par rapport à l’entrée : on a vu que H(Y/X) = Hconst était indépendant des p(xi) pour ce canal
particulier . D’où la capacité est obtenue en maximisant H(Y) :

  p ( y j / xi ) . lb p ( y j / xi )  i  1...N ,
def M
C  Max  H(Y)  - H const , avec H const 
P(X)
j 1

28
M
d’où : C  lb(M)   p(y j / xi) . lb  p( y j / xi ) 
j 1

Il y a égalité si il existe (ce n’est pas toujours le cas) un jeu de probabilités { p(xi) } à l’entrée tel que les
probabilités des symboles de sortie, {p(yj) } , soient équiprobables.

 Canal uniforme par rapport à la sortie : dans le cas général, on ne peut rien en tirer à priori pour la capacité.

 Canal symétrique : le canal étant uniforme par rapport à l’entrée, la capacité est obtenu en maximisant H(Y). Le
canal étant uniforme par rapport à la sortie, on a vu (Cf III.1.c) qu’on peut obtenir le maximum absolu pour H(Y)
(c’est à dire lb(M)) car le jeu de probabilité p(xi) qui rend la sortie Y uniformément distribuée existe, et correspond
à des symboles à l’entrée également distribués, d’où la formule de capacité pour un canal doublement uniforme (et
donc aussi pour le cas particulier N=M du canal symétrique) :

M
C  lb(M)   p(y j / xi) . lb  p( y j / xi ) 
j 1

Donc, pour un canal symétrique, l’information mutuelle I(X, Y) est maximale pour des symboles d’entrée
équiprobables.

Exemple du Canal Binaire Symétrique (CBS) : on note Pe = p(0/1) = p(1/0) => 1-Pe = p(0/0) = p(1/1) ;
(p(0/1) représente ici directement la probabilité d’erreur binaire)

C = Max{H(Y) – H(Y/X)} = Max{H(Y)} – H(Y/X) car canal uniforme / entrée.


Avec : max{H(Y)} = lb(2) = 1 ; correspondant à {p(yj)} équiprobables, obtenu avec {p(xj)} équiprobables
H(Y/X) = H(Y/X=xi) = Pe .lb(Pe) + (1- Pe).lb(1- Pe) => correspond à H2(Pe).
D’où : C = 1 + Pe.lb(Pe) + (1- Pe).lb(1-Pe) = 1-H2(Pe) exemple : C = 0.92 Sh/digit pour Pe = 10-2.

C 1
(Sh/digit)
0.5

0 Pe
0 0.5 1

Figure 6 : Capacité du Canal Binaire Symétrique en fonction de la probabilité d’erreur

Remarques :
- pour un CBS « sans perturbation » (Pe = 0) : C est maximale, on a alors H(X/Y) = 0 et H(Y) = H(X)
=> C = max{H(X)}=lb{2} obtenue pour des xi équiprobables
- pour un CBS perturbé à l’extrême (Pe = 0,5) : C = 0 Sh/s => Aucune information n’est transmise !

III.3 Codage de canal et théorème fondamental


III.3.a) Introduction
 Lorsque le canal est sans bruit, on a vu qu’il était caractérisé seulement par son débit (littéral) symbole, Dc=D(B)
symb/s, et par la taille de son alphabet, Q. La capacité C d’un tel canal est alors donnée par lb(Q) Sh/symb, et
correspond à la quantité maximale d’information que l’on peut acheminer sans erreur, obtenue grâce au codage de
source qui rend les symboles d’entrée équiprobables.

Sans perte de généralité, on suppose la source normalisée U (source réelle + codage de source parfait) sans
redondance, d’entropie H(U) = lb(Q), où Q est la taille de l’alphabet des symboles équiprobables et indépendants.

29
Lorsque le canal est bruité :
 d’une part, la quantité d’information maximale transmissible dans le canal diminue (C < lb(Q) ), et d’autre part, il
faut s’intéresser à la qualité de la liaison. En effet, le fait de transmettre dans un canal bruité (entrée : B, sortie B’:
symboles d’entrée Q-aire) une quantité d’information H(B) inférieure à la capacité du canal C ne suffit aucunement
à assurer une bonne fiabilité de la communication. Or, pour être utilisable, la communication doit être fiable : il
faut que la probabilité d’erreur soit suffisamment faible (< ), ou encore que l’ambiguïté ou équivoque soit
suffisamment faible : H(B/B’) < ’ , sachant que la quantité d’information moyenne bien transmise (Cf III.2.a) est
donnée par:

I(B ; B’) = H(B) – H(B/B’)

 Si on connectait directement la source normalisée U en entrée du canal (B=U), H(B) serait maximum ( =lb(Q) )
mais H(B/B’) ne dépendrait alors que du canal bruité (  lb(Q) –C), et pourrait s’avérer trop élevée par rapport au
critère de qualité (') que l’on s’est donné (et correspondrait à une probabilité d’erreur Pe> ).

 Pour améliorer la qualité, le message de la source normalisée doit être transformé par un certain codage, dit de
canal, et la sortie du canal subir l’opération inverse de décodage, censée restituer le message pour le destinataire.
Pour permettre de réduire (en moyenne) H(B/B’), c’est à dire la vulnérabilité au bruit, le codage de canal sera
nécessairement redondant (on aura H(B) < lb(Q) ). Pour permettre H(B/B’) quasi-nul, la redondance doit même
nécessairement être telle que H(B) ≤ C, si on veut H(B/B’)  0+ et I(B ; B’)  C- .

Ainsi, les intermédiaires introduits doivent permettre de diminuer la probabilité d’erreur Ped (après décodage) entre
U et U’, ainsi que l’équivoque globale H(U/U’). Notons que même si la source U est sans redondance, H(U/U’) dépend
cette fois du canal mais aussi des intermédiaires de codage et décodage.
Notons également que la redondance imposée à B n’implique pas des symboles d’entrée du canal non-équiprobables,
puisque le codage de canal rajoutera généralement de la dépendance entre les symboles successifs.

U Codage B B’ Décodage
U’
Codage Canal
Canal discret
discret Décodage
SOURCE Canal Canal
DESTINATAIRE
Canal (avec
(avec perturbations)
perturbations) Canal
normalisée Alphabet Q-aire Alph. Q-aire Alph. Q-aire Alph. Q-aire normalisé
{u1, ..uQ}
C : capacité

En général Q = 2

Figure 7 : Insertion d’un codage de canal pour protéger la liaison

En résumé,
 Objectif du codage de canal: protéger le message contre les perturbations du canal,
obtenue en ajoutant de la redondance contrôlée par un loi de codage (sans perte) connue du récepteur.

 Lorsque le codeur de canal est réalisé, on a entre l’entrée et la sortie du codeur :


- diminution de l’entropie normalisée: H(B)/lb(Q) < H(U)/lb(Q) = 1 Sh/digit ;
puisque redondance R(B) >0 => 1 digit porte moins d’information après le codage de canal,
- conservation du débit d’information (pour trans. temps réel) : Ht(B) = Ht(U) Sh/sec ;
puisque codage sans perte => le codage canal ne rajoute pas d’information, ni n’en supprime

=> augmentation du débit littéral (pour trans. temps réel) : Db(B) > Db(U) bit/s ;
en effet, la redondance étant positive : Db(B) > Ht(B) = Ht(U) = Db(U)

N.B. : si on raisonne à débit de transmission dans le canal ( Db(B) bit/s ou D(B) = Dc symb/s ) constant , (et débit
de la source D(U) variable) il faut pour pouvoir insérer le codage canal (mais avec amélioration de la qualité !) :
- diminuer le débit binaire littéral de la source normalisée par rapport à la situation sans codage:
sans codage: Dbsc(U)= Db(B) ; avec codage: Db(U) < Db(B) = Dbsc(U)
- et ainsi diminuer le débit d’information de la source:
sans codage: Ht(U)sc = Db(B) ; avec codage: Ht(U) = Db(U) < Db(B) = Ht(U)sc

30
III.3.b) Caractérisation d’un codage de canal

Le codage de canal insère des bits (ou symboles) de redondance de manière séquentielle (codes convolutifs) ou par
blocs (codes bloc). Nous ne nous intéresserons qu’au codage par bloc.

 Cas du codage par bloc - code (n, k):


Les symboles de la source normalisée U sont regroupés en messages de k symboles (Qk messages possibles de
l’extension d’ordre k de la source U ) : mi = ui1 … uik , avec 1 < i1, …, ik < Q .
A chaque message, le codeur fait correspondre de manière unique un mot-code de n symboles Q-aire, avec n > k.
Ainsi, on a une application des messages (k symboles) vers les mot-codes (n symboles):
1 code = 1 jeu de Qk mot-codes parmi Qn possibles

k bits de données (message) (n-k) bits de contrôle

un mot code = 1 bloc de taille n bits

Figure 8 : Format d’un codage bloc(n, m) systématique (avec des éléments binaires : Q =2)

Note : La source B est donc avec mémoire.


Elle peut délivrer des symboles équiprobables, avec pourtant H(B) < Hmax = lb(Q)

Pour réaliser une transmission temps réel des données (c’est à dire système de transmission respecte le débit
naturel imposé par la source D(U), qui correspond aussi au débit reçu au niveau du destinataire), on vérifie que le
débit littéral après codage de canal doit être augmenté (« sur-débit ») du rapport n/k : D(B)=(n/k).D(U) symb/sec

N.B. : en pratique, pour l’insertion des symboles de redondance et la réalisation du sur-débit, il y aura nécessité de
stockage des données initiales en mémoire (dans une FIFO par exemple) avec une horloge d’écriture à la cadence
D(U) Hertz, et une horloge de lecture (des données et des symboles de redondance calculées) à la cadence
accélérée D(B) Hertz.

taux de codage canal :


cc = 1 – k/n = (n-k)/n
correspond à la redondance de la source codée R(B) (ou redondance du code) lorsque la source normalisée est sans
redondance.
en effet: l’entropie (moyenne) après codage de canal est H(B) = H(U).k/n,
d’où la redondance après codage R(B) = 1 – H(B)/lb(Q), avec lb(Q)=H(U) ici.

 Efficacités (théorie information) : à partir de la capacité du canal, on peut définir :


- Efficacité du codage canal (par rapport au canal) : K = H(B)/C
- Efficacité (de l’utilisation) du canal : ca = I(B, B’)/C
ca  K car I(B, B’)  H(B))

N.B.: les efficacités ainsi définies ne traduisent pas la qualité de la transmission.

 Décodage : après transmission dans un canal bruyant, le décodage nécessite une règle de décision.
A chacun des mots bruités reçus rj (j = 1 … Qn possibles), on associe un mot-code ou message mi :
Maximum A Postériori : { mi tel que : Prob(mi / rj) maximum }
La règle du Maximum à Postériori permet d’obtenir la probabilité d’erreur Ped minimale.
Elle est équivalente à opérer sur les probabilités de transition en cas de loi d’émission uniforme :
Maximum de Vraisemblance { mi tel que : Prob(rj / mi) maximum }

On mesurera alors une probabilité d’erreur binaire Ped, en comparant bits avant codage et après décodage.

Exemple de redondance « simple » pour améliorer la qualité mais en détériorant le débit d’information:
répéter R = 2r+1 fois chaque bit de la source U, ce qui peut–être vu comme un codage bloc (R,1).
A la réception d’un bloc de R bits, si plus de r bits à « 1 », on décide « 1 », sinon on décide « 0 »

31
-2
 pour CBS, R=3 répétitions et Pe = 10 : code bloc (3,1)
-4 -2
Amélioration de la qualité : Ped = 3.10 au lieu de Pe = 10 sans codage :
-4
- probabilité d’erreur Ped = pr. de 2 ou 3 erreurs/ message = 3Pe2(1-Pe) + Pe3 = 3.10 ,
Mais
Code peu efficace :
- redondance R(cc= 66.7%, H(B) = 1/3 Sh/digit pour H(U) = 1 Sh/digit,
- efficacité codage /canal : K=(1/3)/0.92=36.2%,
car avec (CBS): C=1+Pe.lb(Pe)+(1- Pe).lb(1-Pe)=0.92 Sh/digit pour Pe = 10-2,
- débit d’information Ht(U) = Ht(B) = H(B).D(B) divisé par 3 par rapport à la situation sans codage, en
raisonnant à débit constant dans le canal (ou alors Dc a dû être multiplié par 3, en résonnant à débit source
constant).

 Conclusion : avec R répétitions, la probabilité d’erreur Ped diminue, mais le débit d’information transmis Ht(U)
est divisé par R (à Dc constant dans le canal). Lorsque R  , Ped 0 mais Ht(U)  0 , donc intérêt très limité!

C. Shannon démontre un résultat tout à fait remarquable (inattendu en 1948) concernant l’existence de codes
efficaces :

III.3.c) Théorème du codage de canal

2° théorème de Shannon (encore appelé: « th. du codage de canal », « th. du codage avec bruit », ou « th. fondamental
de la théorie de l’information »)

Si (et seulement si) le débit d’information de la source U est inférieur à la capacité du canal (exprimé par seconde), soit
Ht(U) ≤ Ct Sh/sec, il existe un codage de canal permettant d’avoir une fiabilité de transmission aussi bonne que l’on
veut, c’est à dire :
une probabilité d’erreur après décodage: Ped <  réel > 0 ,

Autrement dit, avec un débit d’information très proche de la capacité du canal ( taux de redondance, R(B) proche > de
1 – C / lb(Q) ), il est théoriquement possible d’avoir une transmission aussi fiable que l’on veut. Le bruit (et
perturbations) du canal n’impose pas de limite à la qualité de la transmission, mais seulement au débit d’info. permis.

Note : Ht(U) ≤ Ct Sh/sec et Ht(U) = Ht(B)  H(B).D(B) < C.D(B) Sh/symb, soit H(B) < C Sh/symb .
Entropie de la source codée (entrée du canal) inférieure à la capacité par symbole
-2
Exemple : CBS avec Pe = 10 , Q =2 et un débit binaire littéral de canal donné Db(B)=D(B)= Dc=34 Mbit/s.
On veut passer un débit d’information minimal de Ht(U)  Ht0 = 30MSh/s :
(Soit un débit binaire littéral Db(U) de 30 Mbit/s, en supposant la source U sans redondance)

On a:
C = 0,92 Sh/digit, Ct = 0,92.D(B)= 31.3 MSh/s < Db(B) = 34 Mbit/s .
source U sans redondance => H(U) = 1 Sh/digit, et Ht(U) = Db(U) = Db(B). k/n

(Si on ne rajoutait pas de redondance dans le codage de canal, on aurait: Ht(U)=H(U).D(B) = 1. Db(B) > Ct = 31.3
MSh/s => erreurs incompressibles, car 2° th de Shannon non respecté)

 Respect 2° th. Shannon : => limite maximale pour le taux de données utiles k/n : Ht(U) = (k/n). Db(B) < Ct
soit (k/n) < 92%, correspondant à un taux de codage cc > 8 % =>  codes / Ped <  .

 débit d’information de Ht(U)  Ht0 = 30MSh/s => limite minimale pour le rapport k/n: (k/n). Db(B) > Ht0
soit k/n  88.2%, correspondant à un taux de codage cc  11.8 %

D’où finalement pour passer un débit d’information d’au moins Ht0 , un rapport (k/n) à choisir tel que :

Ht0 < (k/n).Db(B) < Ct A.N. : 88.23%  k/n  92 %,


mais ce n’est évidemment pas suffisant pour garantir la qualité souhaitée => trouver un bon code !

32
Clef de la démonstration du 2° théorème de Shannon: (la démonstration est dans le livre de G. Battail par exemple):
Borne : Lorsque le débit d’information Ht (= Ht(U)) est inférieur à la capacité du canal Ct, on montre qu’il existe des
codes permettant d’atteindre une probabilité d’erreur de décodage Ped telle que :
– n . F ( Ht )
Ped  2

- F(Ht) est une fonction déterminée appelée fonction « de fiabilité » : non-négative, nulle pour Ht  Ct,
décroissante avec Ht pour Ht < Ct
- n est la taille des blocs

F(Ht ) Ped
pour
Ht = 0,9.Ct
pour
Ht = 0,5.Ct
Ht 0 n
Ct

Figure 9 : Allures de la fonction de fiabilité en fonction du débit d’information (gauche)


Et de la probabilité d’erreur en fonction de la taille du bloc n, à rapport k/n constant (droite)

Autrement dit,
 pour un taux de codage ou de redondance donné (cc =1 - k/n), augmenter la taille des blocs n (ou la longueur du
code) permet de réduire la probabilité d’erreur Ped. On a Ped  0 lorsque n   !
Ainsi, augmenter n permet, pour une performance visée, de limiter la redondance et donc l’accroissement de débit
littéral binaire.

 Prix à payer :
- retard dans la liaison dû au codage / décodage (délai typique : 1 bloc à l’émission pour calculer les bits de
redondance, 1 bloc à la réception pour décoder)
- complexité accrue des opérations de codage-décodage

Commentaires :
 C’est un théorème d’existence, qui ne dit pas comment construire des codes efficaces, ce qui a alimenté la
recherche durant une cinquantaine d’années !
(La démonstration de C. Shannon est basée sur l’emploi d’un codage aléatoire).
 le théorème du codage de canal donne tout son sens au concept de capacité de canal défini en théorie de
l’information : la capacité Ct correspond à la plus grande quantité d’information/seconde transmissible dans le
canal avec une fiabilité aussi bonne que l’on veut, du moment que l’on utilise un codage de canal approprié dont
l’existence est démontrée.

III.3.d) Exemples de codes : Codes Détecteurs et correcteurs d’Erreurs


(Exemples de codes linéaires blocs : codes de Hamming, codes cycliques, …)

Introduction au code de Hamming à faire en cours selon temps restant …

Note : les codes algébriques permettent bien de diminuer la probabilité d’erreur en augmentant la taille du code à taux
de codage donné, mais avec des performances assez éloignées de la limite (borne) théorique. Ce n’est que depuis 1993
que les limites énoncées par C. Shannon sont approchées de très près par un codage (et surtout décodage !) réalisable,
avec l’invention des turbo-codes par des chercheurs de l’ENST Bretagne, C. Berrou et A. Glavieux.
(Annexe : 3 éléments clefs dans la réussite des turbo-codes : les turbo-codes utilisent (1-) la combinaison de 2 codes
convolutifs courts et d’un entrelaceur pseudo-aléatoire à l’émission, similaires à un code global long. Le décodage se
fait de manière itérative (-2), vis-à-vis du premier décodeur puis du deuxième, et à nouveau du premier décodeur et
ainsi de suite. Les décodeurs ne s’échangent pas les décisions dures mais des « décisions souples » (–3), c’est-à-dire
une information sur la fiabilité de chaque élément « décidé » (temporairement à une itération donnée).
Les Codes Correcteurs seront étudiés en 3° année pour les étudiants filière « SICOM » / option STIC – Système de
Traitement de l’Information et Communication ».

33
Fiche n°2 Théorie de l’information : Capacité de canal .

Exercice 1 : Capacité de canaux particuliers


Calculer la capacité C des différents canaux (discrets sans mémoire) ci-dessous, en précisant un (ou le) jeu
de probabilités d’entrée permettant de maximiser l’information mutuelle :

0,9 0,1
1.1) canal en Z de matrice de transition P (Y / X )  
0 1 

1.2) canal tel que :


1
x1 y1
x2 1
x3 y2
1

0,5 0,5 0 0 
1.3) canal tel que P (Y / X )  
 0 0 0,5 0,5

Exercice 2 d’application : limite théorique de transmission fiable au travers d’un Canal


Binaire Symétrique
On désire transmettre des données binaires au travers d’un modem « bruité » de débit maximum Dc_max =
96 kbit/s, modélisé par un CBS de probabilité d’erreur Pe = 3.10 –2 ( le débit Dc utilisé). On veut
protéger la liaison par insertion d’un codeur de canal (par bloc systématique) entre le codeur de source
supposé idéal (débit en sortie = 64,5 kbit/s, sans redondance) et le canal.

1°) Existe-t-il théoriquement un codage de canal permettant d’acheminer en temps réel les données avec une
probabilité d’erreur binaire après décodage aussi faible que voulu (< 10-12, par exemple …).

2°) Quelle est alors la plage de redondance (taux de codage) possible pour ce codage de canal ?

Question annexe : A1) Si l’on fixait le débit du modem à Dc_max, quel serait le débit d’information
maximal de la source pour garantir l’existence d’un codage de canal amenant la fiabilité désirée?

Exercice 3 : matrice de transition et Capacité


Soit un canal discret d’entrée X  { -1,5 ; +1,5 },
Le canal est tel que : Y= X+Z pour –1,5  X + Z  1,5 ;
et « saturations » : Y = -1,5 pour X + Z < -1,5 ; et Y = +1,5 pour X + Z > 1,5 .

où Z  {-2 ; -1 ; 0 ; +1 ; +2 } est aléatoire, avec les probabilités respectives


P_Z = { 0,06 ; 0,25 ; 0,38 ; 0,25 ; 0,06 }

1) Donner la matrice P(Y/X) et le diagramme de transition du canal. Exemple de situation modélisée ?

2) Pour des entrées équiprobables :


 Calculer l’information mutuelle I(X,Y).
 Commentez l’intérêt ou non d’avoir garder 4 niveaux en sortie au lieu de 2 (décision par signe) ?
N.B. : on peut comparer I(X,Y) à I(X,Y’) où Y’ = signe {Y}.
 I(X,Y) correspond-elle à la capacité C du canal X-> Y ?

34
IV. Eléments de Théorie de l’Information dans le
cas d’un canal continu (canal à Bruit Blanc Additif Gaussien )
Avertissements :
Nous avons traité principalement de sources et canaux discrets, en guise d’introduction à la théorie de l’information.
La généralisation au cas continu mériterait un développement complet. Nous nous contentons ici de présenter les
principaux résultats (= le plus célèbre : Capacité d’un canal à BBAG) et les interprétations.

Notons que la théorie de l’information appliquée au cas de canaux et sources continus présente un grand intérêt pour les
transmissions numériques, car :
1- le canal physique de transmission est continu, avec en particulier un bruit physique additif à amplitude continue : la
conversion des signaux reçus en symboles discrets (prise de décision binaire en sortie du démodulateur) avant
d’aborder la tâche de décodage canal implique donc une perte d’information. Pour être optimal, il ne faudrait pas de
prise de décision avant le décodage, mais le décodage – soft decoding - devient alors beaucoup plus complexe !
Notons tout de même que la restriction de la sortie du canal à un alphabet discret n’est quasiment pas dommageable si
l’alphabet de sortie est choisi avec une taille très supérieure à celle des symboles émis (alphabet d’entrée) …
2- la source numérique est souvent issue d’un signal analogique ;

Au lieu de s’intéresser dans le cas continu seulement à des procédés de codage efficaces avant la modulation, on peut
s’intéresser aux procédés efficaces de construction de signaux à partir des symboles (« association » de modulation et
de codage, avec des « codes » construits dans l’espace Euclidien), et les comparer en termes de performances aux
limites du possible.

Note : dans la généralisation des grandeurs introduites pour la mesure de l’information au cas continu, l’information
mutuelle garde une interprétation cohérente, mais ce n’est plus le cas de l’entropie. Elle peut être définie et manipulée,
mais son interprétation physique est plus délicate (elle peut être négative, tendre vers l’infini, …).

IV.1. Capacité d’un canal continu à Bruit Blanc Additif Gaussien :


Avec un canal à BBAG, le théorème fondamental s’étend et stipule l’existence d’un procédé de transmission
permettant d’atteindre, avec une Probabilité d’Erreur Pe aussi faible que voulu, une limite possible de débit
d’information (Sh/sec). Cette limite (capacité) s’exprime directement en fonction des paramètres physiques : la bande
passante B, et le rapport signal à bruit (mesurée dans la bande B) en entrée du récepteur. Quelques éléments sur la
démonstration du Théorème Fondamental seront donnés ultérieurement, en annexe IV.2. Nous établissons ici
l’expression de la capacité du canal à BBAG, à partir de sa définition (maximum de l’information mutuelle sur
l’ensemble des lois de probabilité examinées en entrée).

Hypothèses valables pour toute la partie IV :


signal reçu en sortie du canal : r(t) = x(t) + n(t) ,
où :
 x(t) : signal utile émis (aléatoire stationnaire), réel, de bande limitée B (support spectre [-B ; +B]),
de puissance moyenne finie P, de moyenne nulle.
 n(t) : bruit additif Gaussien, réel, stationnaire, centré (E{n(t)}= 0), indépendant du signal x(t),
blanc, c’est à dire de DSP bi-latérale N0/2 constante pour f  ] -  ; +  [
(soit une dsp mono-latérale N0 constante sur [ 0 ; + [ ).

Le signal x(t) ayant une bande limitée B, on peut travailler (sans perte d’information concernant le signal utile) avec
un modèle de signal obtenu après filtrage passe-bas idéal de r(t) :
signal reçu après limitation de la bande à B : y(t) = x(t) + b(t) ,
où :
 b(t) : bruit additif Gaussien, réel, stationnaire, centré (E{b(t)}= 0), indépendant du signal x(t),
de DSP bi-latérale N0/2 constante pour f  [ - B ; + B ] , donc de puissance (ou variance) : N =  2 = N0.B.

35
 Théorème d’échantillonnage : la connaissance de x(t) est équivalente à la donnée d’une suite de réels X, dits
échantillons, à la fréquence 2B (fréquence d’échantillonnage minimale pour respecter le théorème
d’échantillonnage). Pour traiter le cas d’un signal analogique (c’est à dire à amplitude et temps continus), on peut
donc se ramener au cas du signal continu en amplitude, mais discret en temps :
Modèle pour les échantillons : Y = X + Z,
Z : échantillon de bruit = V.A. Gaussienne de moyenne nulle, de variance (puissance du bruit) : Z 2 =  2.

 Information mutuelle : I(X,Y) = Hd(Y) – Hd(Y/X),


avec Hd entropie « différentielle » définie par Hd (X) = -p(x).lb[p(x)]dx, avec p(x) la densité de probabilité de x.

 (Y = X + Z) et (X et Z indépendants) => Hd (Y/X) = Hd (Z) d’où : I(X ;Y) = Hd (Y) – Hd (Z)

On cherche à calculer la capacité : C  Max  I(X ; Y)  Max  H d (Y) - H d (Z )


p(X) p(X)

 Pour obtenir le maximum de I(X ;Y), on admet par analogie au cas discret et symétrique, que ce maximum est
obtenu pour une densité de probabilité sur X rendant Hd (X) (et donc Hd (Y)) maximum : on démontre que la
distribution qui maximise l’entropie différentielle d’une v. a. continue de variance donnée est la distribution
Gaussienne.

=> X : V.A. Gaussienne de moyenne nulle et de variance (puissance du signal) : X 2 = P.


=> Y : V.A. Gaussienne de moyenne nulle et de variance (ou puissance) : Y 2 = X 2 + Z 2.

 En développant les calculs de l’entropie différentielle sur une distribution Gaussienne à moyenne nulle :
On vérifie facilement que H d (Y)  lb Y 2 e  et H d ( Z )  lb Z 2 e 
   
=> C  lb( Y 2 e )  lb( Z 2 e )  lb   Y   1 lb   Y   1 lb 1   X 
   
2 2

  2   Z2  2   Z2 
 Z

La capacité par symbole (c’est à dire par échantillon à amplitude continue) peut ainsi s’exprimer en fonction du rapport
Signal à Bruit (RSB) à l’entrée, intégrée sur la bande du signal [-B ;B], soit RSB = P / N = P / (N0.B) :
C  1 .lb( 1  P )  1.lb( 1  RSB ) en Sh/symb
2 N 2

Un symbole étant émis tous les 1/2B, la quantité d’information maximale que le canal bruité peut transmettre par
seconde, qui correspond à la capacité Ct par seconde, est obtenue en multipliant par la fréquence d’échantillonnage 2B.

La capacité par seconde d’un canal continu est donnée finalement par Formule de Hartley-Tuller-Shannon :

Ct  B.lb( 1  P )  B.lb( 1  RSB ) en Sh/sec


N

(Notons que Cx2B est un maximum de la capacité par seconde, obtenu en supposant indépendance entre les
échantillons successifs, ce qui est vrai en limite du théorème d’échantillonnage et si le signal est blanc sur [-B ; B]) .

Commentaires et interprétations :
 Ct représente la quantité d’information maximale transmissible par seconde en présence de BBAG : tout système
de communication, aussi bien analogique que numérique, avec ou sans codage, pourra donc être confronté à Ct …

 Relation durée-spectre : à RSB fixée, la même quantité d’information est fournie par un signal court à large-bande
ou un signal long à bande-étroite (pour un même nombre d’échantillons indépendants D = T2B, où T = durée).
Exemple : musiques ou images peuvent être transmises sur des supports bande-étroite au moyen d’enregistrements
magnétiques déroulés plus lentement que lors de l’enregistrement.

 Il existe deux moyens (non symétriques) d’augmenter la capacité d’une voie bruitée:
- A Bande Passante donnée, le Débit binaire maximal permis sera d’autant plus élevé que le RSB est élevé =>

36
modulations à grand nombre d’états.
Exemple modulation « Discrete-Multi-Tone » utilisée dans les modem haut-débit VDSL sur les lignes
téléphoniques : de nombreuses sous-porteuses orthogonales sont modulées individuellement, avec un nombre
d’états de la modulation alloué (entre 4 et 2048 par exemple) pour chaque sous-porteuse, en fonction de son
RSB local.

- A RSB donné, le Débit binaire maximal est proportionnel à la Bande Passante. Notons qu’une transmission
fiable est tout à fait possible avec un signal quasiment indiscernable, noyé dans le bruit (RSB << 1) : il suffit
pour cela d’utiliser une bande B suffisamment importante => principe des modulations par étalement de
spectre (utilisation militaire depuis les années 50, systèmes GPS, UMTS, …).

Mais attention à puissance P de signal fixée, la puissance du bruit étant proportionnelle à la bande, le RSB chute
lorsque la bande augmente : la capacité maximale est alors limitée à P/(N0 . ln2) même si B croit à l’infini (Cf fiche
n°3).

Les conséquences de la formule de Shannon en terme d’efficacité spectrale (bit/sec /Hz) possible pour les modulations
numériques, à énergie par bit dépensée donnée, en fonction de la largeur de bande, est évoquée en annexe 2 .

Illustration du théorème fondamental à l’aide d’une représentation géométrique à plusieurs dimensions : Cf Annexe 1

=> Commentaire de conclusion: Le théorème fondamental (cas continu ou discret) de la Théorie de l’Information
nous montre que, contrairement à ce que l’on a pu souvent croire, la meilleure protection contre le bruit est obtenue
lorsque le nombre d’hypothèses entre lesquelles il faut choisir tend vers l’infini. Le choix d’hypothèses binaires n’est
donc absolument pas le meilleur, à moins que l’on ne dispose que d’une seule dimension, c’est à dire que l’on veuille
une transmission instantanée !

En résumé, deux résultats fondamentaux de la théorie de l’information appliquée aux transmissions numériques :
- Il est possible de « comprimer » sans perte d’information une source discrète (redondante) à l’aide d’un
code dont la longueur moyenne peut être rendue aussi proche que l’on veut de la limite minimale
théorique.
- Si le canal a une capacité suffisante pour acheminer cette quantité d’information, la transmission peut se
faire avec une probabilité d’erreur aussi petite que l’on veut, au prix d’une complexité accrue de
l’algorithme de codage/décodage et d’un retard accrue dans la restitution des messages.

37
ANNEXE 1 : Représentation géométrique des signaux et illustration du théorème
fondamental

IV.2) Représentation géométrique des signaux :


On peut utiliser une représentation géométrique des signaux dans l’espace euclidien à grand nombre de dimension qui
permet de décrire les phénomènes simplement en termes de distance. Elle permet notamment de démontrer le théorème
fondamental et de retrouver l’expression de la capacité.

IV.2.a) Définition d’espaces des signaux

Représentation du signal utile : Afin de travailler avec un nombre de dimension fini, on suppose dorénavant que le
signal réel x(t) , toujours de puissance moyenne finie, P, de largeur de bande B, est à durée limitée T (on a
nécessairement T >> 1/B pour qu’une telle description soit approximativement correcte) .

On peut alors définir un espace de signaux de dimension D = 2BT dans lequel tout signal x(t) pourra alors se
représenter comme les coordonnées d’un vecteur, x , regroupant les D composantes de x(t), exprimés dans une base
orthonormée { 0(t) , … , D-1(t) } de l’espace des signaux :

 x0 
1 D 1
x   ...  avec x (t )  .  xi . i (t ) , D = 2BT : Nb de dimensions
2 B i 0
 x D 1 

T T
où xi   x(t ). i (t ) dt ,   i (t ). j (t ) dt  2B. ij avec  ij  1 si i  j , 0 sinon ,
0 0

Cet espace de signaux est un sous-espace de l’espace de Hilbert des fonctions de carré sommable sur [0, T], muni du
D -1 2 D 1
produit scalaire : x . y T   x i . y i , d’où l’on déduit la norme d’un élément : x  x . x   x i2 .
T

i 0 i 0
A puissance et bande donnée, l’augmentation du nombre de dimensions, D, passe par une augmentation de la durée des
signaux ,T.

Un exemple (mais  de nombreuses autres bases orthogonales possibles !) : Représentation de Shannon


Dans la représentation de Shannon , la construction de x(t) à partir des xi correspond à une interpolation, avec :
- l’utilisation des sinus cardinaux pour la base :  i (t )  2 B. sin c{ 2 B(t  i.Te)} , avec sinc(x) = sin(x) / x .
- les composantes xi qui correspondent directement aux échantillons prélevés tous les Te = 1/(2B) : xi  x(i .Te)

NB : Avec les conventions de normalisation adoptées, xi a même dimension que le signal x(t) (ex : Volt), i(t) est
homogène à la R.I. d’un filtre, de dimension l’inverse d’un temps.

La puissance du signal (en V2) , P  1  x 2 (t ) dt , peut s’exprimer par :


T 1 2 1 2
P . x  . x
T0 2 BT D

Représentation du bruit :
Si le signal x(t) est perturbé additivement par un bruit n(t), on montre que seules les composantes ni du bruit exprimées
dans l’espace des signaux perturbent de manière irrémédiable le signal x(t) :

T
 n0 
n i   n(t ). i (t ).dt , pour i  0 ...D - 1 et n   ... 
0
 n D 1 

n(t) représente une réalisation du bruit, les ni sont des variables aléatoires.

38
On vérifie que si n(t) est un bruit blanc stationnaire centré de dsp bilatérale N0/2, les composantes ni ont une variance
 
égale à 2 = N0.B, et leur corrélation est nulle : E ni . n j   2 .  ij

N 0   
 TF  i (t ) df avec  TF  i (t ) df    i (t ) dt  2B
2 2
En effet,  2  2

2  - -
Il est intéressant de noter que quelque soit la base orthogonale de représentation choisie, le bruit blanc stationnaire
affecte (en terme de puissance) de la même manière les composantes des signaux. On pourra ainsi traiter de la
protection contre le bruit de manière géométrique , indépendamment de la base choisie.

N.B : dans l’exemple de la représentation de Shannon, les composantes ni sont obtenues à partir de n(t) par filtrage
passe-bas idéal de limitation en fréquence à [-B ; +B] (soit une R.I. de filtre du type 2 B. sin c( 2 Bt ) ), suivi d’un
échantillonnage tous les 1/2B.

IV.2.b) Géométrie de la protection contre le bruit et théorème fondamental

Le signal bruité reçu se représente donc comme un « point » (ou extrémité de vecteur) à D dimensions de l’espace
Euclidien : r  x  n

Les « points bruités » reçus sont donc distribués autour des « points – signal » représentatifs des signaux sans bruit,
avec une symétrie sphérique et une distribution Gaussienne de variance 2 par coordonnée, en raison du bruit blanc
additif Gaussien. Afin de caractériser géométriquement r , on va s’intéresser d’abord à x puis à n .

 Hyper-sphère contenant le « point signal » x :


le signal x(t) étant de puissance moyenne finie, P, le point x appartient nécessairement à une « hyper-sphère » à D
dimensions de rayon Rx = D.P , autour de l’origine.

En particulier, aucune coordonnée xj ne peut dépasser D.P , étant donné que la norme du « point » est
D-1
  x  DP (on a x j   D.P ssi les D-1 autres coordonnées xi sont nulles pour i  j).
2 2
x i
i 0

 Densité de probabilité (ddp) du « vecteur bruit seul » n :


- chaque composante de bruit a une ddp Gaussienne centrée de variance 2 = N0.B :
1  n2 
pn (ni )  . exp  i 2 
2 2  2 
 
- les D composantes de bruit étant indépendantes, la ddp de l’extrémité du vecteur n se déduit du produit des
ddp des différentes composantes :

1  R2  D 1
pn ( n )  . exp   n 2  où R n2   n i2 est la norme du vecteur bruit.
 2 
2 
D i 0
2 2  

Le rayon du vecteur « bruit-seul » , Rn , est une variable aléatoire dont on peut calculer l’espérance et la variance.
On considérera ici plutôt les caractéristiques du carré (ou norme) du rayon, Rn2 , plus faciles à obtenir.

En effet, les ni étant des v.a. gaussiennes indépendantes de même variance 2 , on en déduit que Rn2 suit une
 
distribution du 2 (non normalisée) à D degrés de liberté, de moyenne E R n2  D. 2 et de variance
Var Rn2  2 D. 4 .

L’ interprétation de ces résultats va être faite après une normalisation des distances.

39
 Introduction d’une normalisation des « points » : 1 . r  1 . x  1 ..n
D D D
On considère une normalisation des distances par rapport à la racine carrée du nombre de dimensions, de telle sorte
que les normes du « point - signal » et du « vecteur bruit-seul » normalisés deviennent indépendantes du nombre
de dimension D (au lieu d’être proportionnels à D).

1) L’ « hyper-sphère » à D dim contenant le « point-signal » normalisé, 1 . x , a pour rayon : R '  P .


x
D
2) La variable aléatoire Rn'  Rn / D représente le rayon du « vecteur bruit- seul » normalisé. Après
D 1  Rn 2     2 4 .
2
mise au carré R' 2n  1  ni2 a pour moyenne E
      2 , et pour variance Var Rn
    D
D i 0  D    D  

On peut en conclure que lorsque le nombre de dimensions D augmente et tend vers l’infini, le rayon du « vecteur
bruit-seul » normalisé Rn'  Rn / D tend vers une valeur presque certaine, Rn' égale à l’écart type du bruit, .
En effet, la norme de Rn' a une variance qui tend vers zéro lorsque D tend vers l’infini, pour une valeur moyenne
indépendante de D. Ce résultat peut être aussi formalisé à partir de la loi des grands nombres.

L’extrémité du « vecteur bruit-seul » , 1 . n , est donc localisée « à la surface » d’une sphère à D dimensions
D
de rayon R  Rn / D   , centrée à l’origine , lorsque D devient important.
'
n

3) En conclusion lorsque D devient important, on a une localisation presque certaine du « point » représentatif d’un
signal reçu bruité, 1 . r , conditionnellement à la donnée du signal émis, 1 . x , « à la surface » d’une « sphère
D D
de bruit » à D dimensions de rayon R  Rn / D   , centrée sur le « point-signal » représentatif du signal
'
n
sans bruit. On parle de phénomène de « durcissement des sphères ».

1
Par ailleurs, la norme moyenne de . r étant P   2 , on en déduit que pour D grand, le signal reçu
D
1
normalisé, . r , se trouve presque sûrement à la « surface » d’une grande sphère à D dimensions de rayon
D
R r'  R r / D  P   2 autour de l’origine.

IV.2.c) Approche géométrique du théorème fondamental

Le Théorème fondamental annonce que si le débit d’information à l’entrée du canal, Ht(X) , est inférieur à la capacité
du canal, Ct , exprimés en Sh/sec (donnée par la formule de Hartley-Tuller-Shannon), il existe un procédé de
transmission (modulation / codage) permettant de transmettre avec une fiabilité aussi bonne que l’on veut.

Nous avons donné en IV.1 une démonstration de la formule de la capacité, sans toutefois montrer l’existence d’un
procédé de transmission fiable pour un débit Ht aussi proche que l’on veut de Ct . La représentation géométrique
associée à la notion de codage aléatoire, peut permettre à la fois de retrouver l’expression de la capacité et d’obtenir
une démonstration du théorème fondamental, comme présenté dans [Bat97] ou ([Rou70], [Mac03]…). Nous ne
donnons pas ici cette démonstration qui fait intervenir les relations fines entre le « point bruité reçu » et les « points-
signal » les plus proches. Nous allons nous contenter de présenter une déduction géométrique d’ensemble plus
grossière qui montre que la transmission peut être garanti pour un débit d’information inférieur à une valeur Htmax 
Ct – B (comme présenté par exemple dans la référence classique : J.H. CONWAY, N.J.A SLOANE, « Sphere
Packings, Lattice and groups », 3rd edition, Springer, 1999).

Soit à transmettre un débit d’information Ht Sh/sec, à partir d’une puissance moyenne inférieure ou égale
à P, et une bande limitée B.

40
A cette fin, on peut définir un dictionnaire de M signaux possibles (puissance  P, bande B) de durée T, notés x[m] (t) ,
avec un indice m = 1 à M. On pourra alors transmettre un signal x(t) parmi M possibles toutes les T secondes.
On a donc une quantité d’information de T. Ht Sh (ou bit) par signal x[m] (t), ce qui nécessite l’emploi de :
Ht T
M  2 signaux distincts de durée T, soit M « points - signal » x[m] possibles.

Une manière de garantir une probabilité d’erreur de transmission arbitrairement petite, est de choisir les M « points
signal » tels que en présence de bruit (et pour un nombre de dimensions D important), les M « sphères de bruit »
associées soient disjointes. Le volume total de ces M « sphères de bruit » de rayon R n doit être nécessairement
inférieur au volume de la « grande sphère » qui les contient toutes. Le volume d’une sphère à D dimensions étant
proportionnel à la puissance D du rayon, on en déduit que : M . R n  D
 R 
r
D

Dans une telle démarche d’empilement de sphères (« sphere packing ») disjointes à très grand nombre de dimensions,
le débit d’information sera d’autant plus grand que l’arrangement des sphères est dense, puisque :
D BT
 Rr 
  .  P   
 2

M  . 
R   2 
 n   
où  désigne la densité de l’empilement des sphères, égale à la proportion de l’espace disponible qui est occupé par les
sphères.
De la relation M  2 t , on déduit : H t  B . lb  P     2B . lb ()
2
H T

 
2
 D
Si il existait un empilement de sphères complètement dense tel que  on aurait une transmission fiable avec un
débit Ht max correspondant à la formule de la capacité Ct (expression en IV.1, formule de Hartley-Tuller-Shannon,).
En réalité, on peut montrer que (pour un arrangement des points en réseau) la densité maximale possible est telle que :
lb ( max )
1   -0.599 , pour D >> 1
D
(pour D = 1 ; 2 ; 3 on a respectivement max = 1 ;  / 12 = 0.9069 ;  / 18 = 0.74048)

D’où, au mieux, à partir d’un empilement disjoint de sphères, on obtiendrait une transmission fiable pour un débit
d’information maximal :
H tmax  B . [ lb( 1  RSB ) - 1,2 ] < Ct.

Htmax se rapproche tout de même de l’expression de la capacité pour les très forts RSB tels que lb(RSB) >> 1.

La démonstration exacte du théorème fondamental utilisant une description géométrique plus fine [Bat97] (sphères
non entièrement disjointes et nombre de dimensions finie), montrerait que du moment que Ht < Ct, il existe un
procédé de transmission dont la probabilité d’erreur décroît exponentiellement avec le nombre de dimensions D.

Commentaire de conclusion: Le théorème fondamental (cas continu ou discret) de la Théorie de l’Information nous
montre que, contrairement à ce que l’on a pu souvent croire, la meilleure protection contre le bruit est obtenu lorsque le
nombre d’hypothèses entre lesquelles il faut choisir tend vers l’infini. Le choix d’hypothèses binaires n’est donc
absolument pas le meilleur, à moins que l’on ne dispose que d’une seule dimension, c’est à dire que l’on veuille une
transmission instantanée !

41
ANNEXE 2 : Confrontation des performances de diverses modulations numériques
vis à vis des limites énoncées par la Théorie de l’Information pour un canal BBAG
La théorie de l’information (formule HTS) nous indique, pour une puissance utile reçue donnée, le débit d’information
maximum en Sh/sec (ou également en bit/sec en supposant les bits délivrés par la source au rythme Db = 1/Tb
indépendants et équiprobables, c’est à dire une source sans redondance), que l’on peut théoriquement acheminer avec
une Probabilité d’erreur Pe arbitrairement faible.

On peut en déduire, pour un rapport Eb/N0 donné (Energie par bit Eb normalisée par la Densité Spectrale de Puissance
mono-latérale du Bruit Blanc Additif Gaussien N0), la courbe qui donne l’efficacité spectrale (bit/sec)/Hz maximale
possible (toujours avec Pe arbitrairement faible).
Par ailleurs, pour différentes modulations (étudiées dans les cours de Transmissions Numériques), on peut calculer
l’efficacité spectrale (en considérant la bande minimum sans IES, roll-off nul), et comparer le Eb/N0 requis (pour avoir
Pe égale à 10-5) pour cette modulation au Eb/N0 minimum issu de la théorie de l’information (Cf figure ci-dessous).

Par exemple, en BPSK, on utilise un Eb/N0 de l’ordre de 9.5 dB pour Pe = 10-5 avec une efficacité spectrale de 1
(bit/sec)/Hz, alors que la théorie de l’information nous indique que le (Eb/N0)min est de 0 dB pour cette efficacité
spectrale ! Grâce à l’opération de codage / décodage canal, on pourra se rapprocher de (Eb/N0)min.

Limite fondamentale (Théorie de l’information) pour le canal à BBAG
Pour signal x(t) de puissance moyenne finie Px (= Eb .Db) et bande limitée B,  perturbé 
par Bruit Blanc Additif Gaussien centré de puissance 2 (= N0 .B) dans bande B :

• formule de la capacité : Px
C t  B . log 2 ( 1  ) Sh / sec
2
• Efficacité spectrale maximale : Eb bits/sec
pour qu’il existe un procédé de transmission fiable  max  log2 (1  .max )
à volonté (débit d’information  Ht (= Db)  Ct ) N0 Hz
Db  bit/sec : débit binaire après codage de source supposé 
idéal  (et avant codage canal éventuel) Mod. Num (sans codage) pour Pe = 10‐5

Bits / sec
Hz 10

16‐QAM
 3 QPSK 8‐PSK
 2
BPSK Région à bande limitée:  Ht / B >1
Db/B 1
Région à Puissance limitée:  Ht / B < 1
MOD  (16‐FSK)

MOD  (64‐FSK)
0,1
‐1,6 dB (Eb /N0) dB

Figure 10: Efficacité spectrale maximale permettant l’existence d’une transmission fiable (d’après la Théorie de
l’Information) pour un rapport Eb/N0 donné. Comparaison avec l’efficacité spectrale obtenue pour des techniques
de Modulations classiques sans codage (avec Pe = 10-5).

N.B. : pour les modulations numériques sur fréquence porteuse, la formule de la capacité de Shannon (HTS) établie
pour des signaux réels passe-bas de bande [-B ;+B] reste applicable pour un signal x(t) réel bande étroite, avec une
largeur B (c’est à dire  B/2) autour de la fréquence porteuse f0.
En effet, la quantité d’information de ce signal correspond à celle de son enveloppe complexe (signal complexe passe-
bas de bande [-B/2 ; +B/2]) ou encore à celle d’un signal réel passe-bas de bande [-B ; +B].

42
Fiche n°3 Théorie de l’information : V.A. continues et Canal BBAG.

Exercice 1 : V.A. continues


La variable aléatoire x possède une distribution continue p(x), une valeur quadratique moyenne E{x2} finie,
égale àx2, et une valeur moyenne nulle E{x}=0.

1) loi p(x) uniforme : pour x bornée entre –M et +M et uniformément distribuée entre ces valeurs, exprimer
l’entropie HU(x) en fonction de x2.

2) Comparer la valeur trouvée à l’entropie maximale Hmax(x) possible avec cette variance x2 en rappelant
la loi p(x) permettant de l’obtenir (sans contrainte sur la plage des amplitudes).

Exercice 2 : Transmission de photos numériques au travers d’un canal BBAG


Une sonde spatiale doit transmettre par voie RF vers la terre des photos numériques de la planète Mars. On
considère un modèle équivalent (en bande de base) simplifié de la transmission, où le signal réel reçu sur
terre r(t) est une version atténuée et bruitée du signal émis x(t) (construit à partir des photos):

r(t) = a.x(t) + n(t)


où :
 x(t) : signal réel de support fréquentiel [-B ; +B], de puissance Pe = 40W, soit 46dBm,
 a : facteur d’atténuation, tel que a2 = 10-19 , soit –190dB,
 n(t) : bruit thermique Gaussien de dsp mono latérale N0 = 4.10-18 mW/Hz, soit –174dBm/Hz

1) Exprimer le RSB à l’entrée du récepteur (dont la bande est limitée à celle du signal utile), ainsi que
l’expression de la capacité du canal Ct en Sh/sec, en fonction de la bande B.

2) Tracer (quelques points) Ct = f(B) et commenter. Préciser l’expression et la valeur maximale possible
Ctmax en précisant la condition sur la bande B et sur le RSB pour s’en approcher.

NB : la fonction x .ln(1+ 1/x) est croissante depuis 0 pour x  0, et -> 1 pour x -> + .

3) On suppose qu’une photo est constituée de 500000 pixels codés sur 16 bits, que le taux de redondance
est de 90%, et qu’il y a 22 photos à transmettre. Calculer la quantité d’information Q (en Sh) à
transmettre et le temps minimal pour qu’une transmission fiable soit possible (existence d’un dispositif).

4) Annexe : On suppose que le dispositif de transmission imposé se décompose (après suppression de la redondance)
en un codage de canal et une modulation polaire à 2 états, avec une bande B0 = 1kHz. La réception réalise la
démodulation avec décision (dure) sur les bits avant décodage canal. Préciser alors la nouvelle capacité du canal
avec ce schéma de modulation imposé. Commentez.

NB : on admet (ou voir cours de « Transmissions et Communication Numérique ») que la modulation polaire à 2
états dans une bande [-B0 ; +B0] permet d’acheminer un débit de Dc = 2B0 bit/s, avec la probabilité d’erreur Pe =
Q{ (RSB)1/2 } dans le canal discret équivalent (MOD – canal BBAG - DMOD) symétrique. En particulier Q{ (1)1/2 }
= 0,1587.

43

Vous aimerez peut-être aussi