Theorie Information PDF
Theorie Information PDF
Septembre 2015
Bibliographie
Théorie de l’Information
[Cov06] T.M. Cover, J.A. Thomas, “ Elements of Information Theory”, Wiley & Sons, 2nd edition, 2006.
[Bat97] Gérard Battail, « Théorie de l’information : application aux techniques de communication », collection
pédagogique de Télécommunication, MASSON, 1997
[Weh03] Louis Wehenkel, Théorie de l’Information et du codage, cours de l’Université de Liège, 2003
http://www.montefiore.ulg.ac.be/~lwh/Info/
[Rou70] E. Roubine, « Introduction à la théorie de la communication. Tome III : Théorie de l’information », collection
MASSON et Cie, 1970
[Spa87] A. Spataru, « Fondements de la théorie de la transmission de l’information », presses polytechniques
romandes, complément au traité d’électricité, 1987
[Mac03] David J.C. MacKay “Information Theory, Inference, and Learning Algorithm”, Cambridge Univ. Press, 2003
http://www.cs.toronto.edu/~mackay/itprnn/ps/
[Aug07] François Auger, « Introduction à la théorie du signal et de l’information , cours et exercices », collection
Sciences et Technologies, éditions Technip, 1999
[Gal68] R.G. Gallager, « Information Theory and reliable communication », Wiley, 1968
[Jou95] Geneviève Jourdain, « Théorie de l’Information », polycopié de cours DEA SIPT (INPG), 1992
[Bri01] Jean Brini, « cours de Théorie de l’information », polycopié de cours 2° année ENSERG 2001/2002
1
Plan détaillé du document
2
Avant propos
Ce document présente des notes de cours (et exercices) d’introduction à la Théorie de l’Information. Le contexte
illustré est surtout tourné vers celui des communications point à point (contexte initial pour lequel la théorie de
l’Information a été développée par Claude Shannon), mais le champ d’application de la Théorie de l’Information est
beaucoup plus vaste.
« Canal » normalisé
Débits binaires (bit/sec) : Db(S) ≥ Db(U) ≤ Db(B)
FI: fréquence intermédaire, typiquement 70MHz à 400 MHz
RF: radio‐fréquences, typiquement 900 Mhz à 5 GHz
* Décodage canal avec décisions « dures »
figure 1: Schéma global typique d’une transmission numérique sur fréquence porteuse
Dans la chaîne d’émission, on part de la source numérique (symboles discrets) jusqu’au signal analogique émis x(t):
On a d’abord une partie CODAGE, qui transforme la suite de symboles discrets ‘S’ en une autre suite de symboles
discrets ‘B’. Le but du codage peut être multiple :
- Sécurité de l’information : cryptage, authentification (=> « Cryptographie » ou science du secret),
- Rentabilité : compression des données (« Codage de source »)
- Tolérance aux erreurs de transmission : correction / détection d’erreurs (« Codage de Canal »)
On a ensuite une partie TRANSMISSION DU SIGNAL NUMERIQUE qui transforme la suite de symboles
numériques en un signal analogique x(t) adapté au support de transmission : cette opération est désignée
généralement par modulation numérique.
Les outils généraux de la Théorie de l’Information peuvent être utiles pour de nombreux domaines, et seront étudiées
d’abord en tant que tels dans le présent document (principalement en considérant des Variables Aléatoires discrètes) .
L’application de la T.I. au domaine des communications apporte un éclairage sur les parties codage/décodage :
« codage de source » et capacité liée au « codage de canal » seront présentés dans ce document. Notons qu’elle apporte
aussi un élégant éclairage sur les performances des modulations numériques, ce que nous évoquerons brièvement avec
la dernière partie consacrée aux Variables Aléatoires continues et au canal à Bruit Blanc Additif Gaussien.
3
Notations :
Débit littéral d’une source discrète X : - symbole : D(X) symb/sec - binaire (équivalent) : Db(X) bit/sec
Une source numérique est caractérisée par son débit littéral (à ne pas confondre avec son « débit d’information » du
vocabulaire de la Théorie de l’Information), défini comme le nombre d’éléments (symboles) qu’elle émet, en moyenne
s’il y a lieu, par unité de temps, c’est à dire par seconde.
Pour une source X émettant des symboles Q-aire (avec Q états possibles), il est naturel de considérer le débit
littéral symbole, D(X), avec pour unité les symboles par seconde. Notons que ce débit symbole littéral n’indique
pas de manière transparente la quantité de « données » transmise par seconde, il faut préciser la taille de l’alphabet
des symboles (Q) ou le point de la chaîne considéré (la taille de l’alphabet peut varier d’un point à l’autre :
groupement de ‘lettres’ pour former des ‘mots’, passage en binaire, …).
Il peut parfois être commode (pour faire des comparaisons notamment) de considérer un débit binaire (ou bit)
littéral équivalent, que nous noterons Db(X) , avec pour unité de temps les bits par seconde. Pour passer du débit
symbole (littéral) au débit binaire équivalent, on a la correspondance :
Notes : Cette définition est valable même si lb(Q) n’est pas entier (d’où le mot « équivalent »).
Pour des symboles binaires (Q=2), on a Db(X) = D(X).
T.M. Cover, J.A. Thomas, " chapter 15: Network Information Theory" from "Elements of information Theory" ,
Wiley and Sons, Second Edition, 2006,
Ephremides, b. Hajek, "Information Theory and communication networks: an Unconsummated Union", IEEE
Trans. It Information theory, vol. 44, n ° 6 October 1998,
L.L. Xie, P.R. Kumar, "A network information Theory for Wireless. Communication: Scaling Laws and optimal
Operations" , IEEE Trans. On information Theory, flight 50, n ° 5, May 2004,
http://www.ece.uwaterloo.ca/~llxie/pdf_files/XieKum04.pdf
http://www.ipam.ucla.edu/publications/cnself/cnself_4005.pdf
Chia-Ping Chen, "Network Information Theory" , race of National Sun Yat - Sen University,
http://slpl.cse.nsysu.edu.tw/cpchen/courses/ita/l14_network.pdf
Charles H. Bennett, Peter W. Shor, " Quantum Information Theory" , IEEE Transaction on Information Theory,
vol. 44, n°6, October 1998.
http://www.mcl.hu/wcdma/Pubs/qInfo.pdf
M.A. Nielsen and Isaac L. Chuang, " Quantum Computation and Quantum Information" , Cambridge 2000.
http://michaelnielsen.org/blog/qcqi/QINFO-book-nielsen-and-chuang-toc-and-chapter1-nov00.pdf
4
I. Eléments généraux de théorie de l’information :
Mesure d’information
Pour définir une théorie scientifique de l’information, il a fallu tout d’abord partir d’une définition scientifique du
mot « information », avec donc un sens précis qui peut différer du langage usuel. On cherche à attribuer une
quantité numérique du contenu informatif des messages à l’aide des probabilités d’émission des différents
messages, avec une quantité d’information importante si le message est inattendu. Le sens du mot « information »
est donc très restrictif par rapport au langage « usuel », puisqu’on ne se préoccupe pas de la signification (coté
« subjectif ») du message, ni de la personnalité du destinataire. L’approche probabiliste des communications se
justifie (outre la présence d’un bruit additif) par le fait que si il n’y avait aucune incertitude sur le message émis, il
n’y aurait pas d’information à la réception du message.
Le champ d’application de la théorie dépasse largement celui des techniques de communication, elle constitue une
puissance de synthèse considérable pour expliquer des expériences parfois surprenantes dans des domaines aussi
différents que la physique (thermodynamique, optique, rayonnement, …), la biologie, voire aussi la sociologie,
l’économie …
Appliquée aux communications, l’objectif (initial) de la T.I. est de caractériser de manière probabiliste la source, le
canal, et le destinataire afin d’évaluer les limites théoriques de transmission en fonction des divers paramètres, et
de mettre en œuvre les systèmes de codage / décodage adéquats. On évalue ainsi numériquement :
1. la quantité d’information émise par une source discrète de symboles
2. la capacité de transmission d’information d’un canal bruité, c'est-à-dire la quantité d’information
maximale (par élément ou pas seconde) qui peut être transmise de manière fiable dans le canal.
On note que la connaissance du débit littéral de la source ou du canal ne suffit pas à évaluer 1. ou 2,
en remarquant que :
- une source qui émet le même symbole 1000 fois / seconde n’apporte aucune information,
- un canal qui transmet 1000 symboles par seconde n’achemine pas la même quantité d’information si la
probabilité d’erreur Pe = 10-1 ou Pe =10-6.
Aujourd’hui, le champ de recherche / application de la T.I. ne concerne non plus seulement la capacité des liaisons
point à point (chaîne de Shannon) mais l’optimisation et la capacité des réseaux complexes de communication. De
manière plus futuriste et en perspective de l’ordinateur et des moyens de communications quantiques, la T.I. s’intéresse
aussi à l’optimisation pour le cas où l’information n’est plus portée par un symbole discret à 2 états (par exemple) mais
par un élément obéissant aux lois de la mécanique quantique (qubit, pour quantum bit) (Cf Chapitre « Avant propos »).
Mais ces deux derniers points ne seront pas abordés dans ce cours d’introduction.
5
I.2 Quantité d’information associée à la réalisation d’un évènement (émission
d’un symbole)
La quantité d’information associée à la réalisation d’un événement parmi N possibles reflète objectivement
l’imprévisibilité ou le degré d’incertitude de l’événement. Elle est donc d’autant plus grande que la probabilité de
l’événement était petite (Note : incertitude importante avant l’événement quantité d’information importante après).
Contexte :
On se place dans le cadre d’une expérience aléatoire délivrant un évènement (ou résultat) s parmi un ensemble fini de N
évènements élémentaires (résultats) possibles : As = { s1 , s2 , …, sN } , tels que si sj = , i, j, i≠j
L’évènement certain est E = (s1 U s2 U … U sN).
N
A chaque résultat est associé une probabilité p(si) [0, 1], encore notée pi. On a bien sûr Pr( E ) p
i 1
i 1 .
La plupart du temps dans le cours, les N évènements élémentaires seront les N messages possibles délivrés par une
source discrète S à un instant donné. As est alors l’alphabet de la source S, et {pi}i =1..N, le jeu de probabilités associé.
Notations :
Le résultat en sortie de la source S peut être modélisé par une Variable Aléatoire (V.A.) discrète, et les évènements
devraient en toute rigueur être notés {S = si } et les probabilités Pr({S = si}) ou encore pS( si ) , en tant que
distribution de probabilité (discrète) de S. Mais nous utiliserons le plus souvent les notations abrégées si et p(si).
dans le cas où l’expérience délivre plus d’un résultat, (si , uj ) correspondra à l’évènement {S = si } {U = uj }
pris dans un espace de dimension NS NU, où S et U sont 2 V.A. (de dimensions respectives NS et NU).
Quantité d’information associée à un évènement (à l’émission d’un symbole par une source discrète)
La quantité d’information obtenue en observant la réalisation de l’évènement S = si , (source S émettant le symbole si )
de probabilité pi ([0, 1]), est par définition :
h(si ) = – K . ln( pi ) où K est une constante réelle positive qui dépend de l’unité choisie
Propriétés : la fonction f = -log a été choisie car elle seule (parmi les fonctions continue monotone) a les propriétés:
- d’obtenir une fonction h(si) = f(pi) décroissante avec la probabilité de l’événement pi ,
- d’additivité pour des évènements indépendants : de sorte que l’observation de deux évènements statistiquement
indépendants (émission indépendante de deux symboles si1 et si2 par exemple) fournisse une information cumulée :
h(si1 , si2) = h(si1) + h(si2)
En effet, l’indépendance mène à p(si1 , si2) = pi1 pi2 , et finalement à f( p(si1, si2) ) = f(p(si1)) + f(p(si2))
L’information ainsi définie est une grandeur toujours positive. Si la source émet le symbole s avec la probabilité p = 1
(événement certain), on a une quantité d’information nulle h(s) = 0 associée à cet évènement certain.
Unité d’information
La constante K est libre : choisir K consiste à choisir une unité d’information. Cela revient à choisir la base b du
logarithme : h(si ) = –logb ( pi ), avec alors K = 1 / ln ( b ),
Différents choix possibles pour différentes unités : base b=e => natural unit (nit), : b=10 => decimal unit (dit) ou
Hartley, …
Choix le plus fréquent (utilisé dans le cours), base b = 2 => log binaire : lb(x) = log2(x) = ln(x) / ln(2) :
Le Shannon (Sh) fait parti du système international des unités de mesure des grandeurs physiques.
Note : initialement (ouvrages anciens, articles de C. Shannon, …) l’unité Sh était dénommée « bit » pour « binary
unit », mais avec le risque de confondre avec le digit binaire (symbole de l’alphabet binaire) qui ne transporte 1 Sh
d’information que si les deux états possibles sont équiprobables (p(0) = p(1) = ½).
Exemples et remarques :
pour une source discrète binaire d’alphabet As = {0, 1},
- si p(0)= p(1) =1/2 => h(0)=h(1)= 1 Sh
- si p(0) = 0,2 et p(1) = 0,8 => l’émission d’un 0 correspond à une quantité d’information h(0) = 2.32 Sh ;
l’émission d’un 1 à h(1) =0,32 Sh
6
pour une source S, avec N messages équiprobables : h(si ) = – lb( 1/N ) = lb(N)
- information apportée par un chiffre décimal, si les 10 chiffres sont équiprobables : Lb(10) = 3.32 Sh
- si N = 2n (formé à partir de n bits) => h(si ) = n Sh
Note de vocabulaire : le mot « symbole » désigne ici de façon générale les éléments de la source. Selon le contexte, ces
éléments pourront être des lettres, des mots de plusieurs lettres, … , et on pourra utiliser le vocabulaire le plus adéquat.
I.3.b) Entropie de la source discrète simple S : quantité moyenne d’information que la source délivre par symbole :
N
H ( S ) E h( S ) p n lb( p n ) en Sh/symb
n 1
L’entropie définit ainsi l’incertitude moyenne au sens des probabilités de l’expérience aléatoire : S { sn }
Notes :
on parlera indifféremment de l’entropie H(S) de la source S ou de l’entropie H(p1, p2 , … , pN) (ou encore HN(p1, p2
, … , pN-1)) de la loi de probabilité (p1, p2 , … , pN). La notation H(S) largement utilisée est en fait un abus de
notation. Elle semblerait dire que H est fonction de la V.A. S, alors que H n’est qu’un nombre, en réalité fonction
seulement de la distribution de probabilité {pn}n=1…N , et qui ne dépend même pas des valeurs de l’alphabet As.
la définition H(S) ci-dessus est en fait d’abord celle de l’entropie d’une V.A. S. Elle s’étend au cas où S est une
source discrète simple (i.e. une séquence de V.A.) grâce à l’indépendance (entropie par symbole, à chaque instant).
Annexe : mais dans le cas d’une source avec mémoire (évoquée en I.5), l’entropie (moyenne) a une définition plus
complexe, basée sur l’entropie conjointe normalisée des symboles successifs, ou à partir de l’entropie
conditionnelle du symbole présent, connaissant tous les symboles précédemment générés.
=> l’entropie est maximale et vaut = 1 Sh/symb quand les 2 symboles binaires sont équiprobables
1 élément binaire (ou bit) ne véhicule 1 Sh que lorsque les 2 états sont équiprobables (p = 0.5)
=> la quantité d’information moyenne d’information H(S) tend vers zéro lorsqu’un des symboles devient
beaucoup plus fréquent que l’autre
7
1
H(S)
(Sh/digit) 0.8
0.6
0.4
0.2
p
0 0.2 0.4 0.6 0.8 1
figure 2: Entropie d’une source binaire dissymétrique en fonction de la probabilité d’un des 2 symboles
autres exemples :
N 1 1
alphabet de N lettres équiprobables : H ( S ) H [N]
eq
lb( N ) lb( N ) Sh/symb
n 1 N
=> pour un symbole à N = 4 états => H= 2 Sh/symb
alphabet français : si on suppose les 27 lettres (avec caractère espace) équiprobables, H = lb(27) = 4.75 Sh/symb
En fait, H 1 à 2 Sh/symb car les lettres ne sont pas équiprobables et les symboles ne sont pas indépendants
(probabilités conjointes) : Contraintes supplémentaires (information liée) => baisse de l’entropie !
Avant de décrire les propriétés de l’entropie (majoration), citons ci-dessous l’énoncé de l’inégalité fondamentale qui
constitue un lemme fort utile en théorie de l’information, et que nous utiliserons à plusieurs reprises:
inégalité de Gibbs :
Etant donné 2 alphabets de K éléments A={a1, a2, …, aK} et B={b1, b2, …, bK } de répartitions de probabilités
p q 1, et p , q 0; 1 )
K K
respectives : {p1, p2, …, pK} et {q1, q2, …, qK } (avec
k k k k
k 1 k 1
K
qk
- on a l’inégalité : p
k 1
k . lb(
pk
)0 (soit K pk . lb(pk ) K pk . lb(qk ) )
k 1
k 1
propriétés de l’Entropie :
(on adopte la convention pi log pi = 0 pour pi =0)
continuité : l’entropie H(S) = H(p1, p2 , … , pN) est une fonction continue de chaque variable pi sur [0, 1[
symétrie : par rapport à toutes les variables pi : i, j H(p1,…, pi, … , pj, … , pN) = H(p1,…, pj, … , pi, … , pN)
encadrement : H(S) est positive et majorée :
0 H(S) lb(N)
démonstration à partir de l’inégalité de Gibbs appliquée à qk = 1/N et à pk ,
=> on a donc une majoration de H(S) par Heq [N] = lb(N), c’est à dire que H(S) est la plus grande lorsque les symboles
indépendants de la source simple sont équiprobables, pn = 1/N, ce qui correspond à l’incertitude globale la plus grande.
I.3.c) Redondance d’une source: écart relatif à l’entropie maximale Heq [N] (que permettrait la taille N de son alphabet)
H(S)
R( S ) 1 -
lb( N )
Permet d’apprécier l’usage que fait la source de son alphabet, c’est à dire l’adéquation de cet alphabet au message
délivré par la source. On a 0 R(S) 1, avec une pleine utilisation lorsque la redondance est nulle.
8
I.3.d) Débit d’information par seconde d’une source:
L’entropie exprime une quantité d’information moyenne par symbole. Pour s’affranchir de préciser la taille de
l’alphabet (N) des symboles, qui peut varier d’un point à l’autre de la chaîne (extensions, codage de source, …), on a
souvent intérêt à discuter de la quantité d’information moyenne par seconde (Sh / seconde), que l’on nommera ici Débit
d’information :
Notes :
1- Ne pas confondre le débit d’information Ht(S) (en Sh/sec) avec le débit binaire littéral (équivalent) Db(S) (bit/sec) .
On a l’inégalité : Ht (S) Db (S) = D(S).lb(N) puisque H(S) lb(N)
2- Dans certains ouvrages, le débit d’information est dénommé « Entropie par seconde », ou « Débit entropique » ce
qui correspond bien à sa définition.
- alphabet binaire tel que (p1 = 0,2 ; p2 = 0,8) => H(S) = 0.72 Sh/bit, Ht(S) = 24.5 MSh/s.
redondance R(S) = 28%;
Cette propriété se déduira immédiatement des résultats à venir sur la dépendance entre 2 Variables Aléatoires ( I.4 ).
Exercice E2 : On tire à Pile ou Face avec une pièce équilibrée jusqu’à obtenir Pile. Donner la loi, puis l’Entropie du
nombre de lancés nécessaire, X. (Annexe : nombre moyen de questions binaires pour identifier efficacement X ?)
1 1
N.B. : formulaire mathématique : pour q [0 ;1[, on a qn
n 1 1 q
et nq
n 1
n 1
1 q 2
.
Note annexe au paragraphe I.3 : théorie de l’information et thermodynamique [ Léon Brillouin, « La science et la
théorie de l’information », Masson, 1959] : l’entropie ainsi définie est en « correspondance » avec l’entropie rencontrée
en théorie statistique de la thermo-dynamique (H = k ln(P) où k= cte de Boltzman, P = nombre d’états stables
possibles à l’échelle atomique), qui mesure l’ « état de désordre » d’un système physique ; L’entropie
thermodynamique représente en fait le manque d’information sur la véritable structure du système (acquisition
d’information sur le système physique => baisse de l’entropie thermodynamique).
9
I.4 Diverses entropies entre 2 Variables Aléatoires et Information mutuelle:
On considère le cas de 2 V.A. X et Y, qui peuvent être dépendantes ou non, et on va définir des entropies et
informations mutuelles entre ces 2 V.A., permettant une mesure de leur degré de ressemblance. Ces concepts sont
particulièrement importants lorsqu’on considère une source avec mémoire (X et Y peuvent alors représenter les
résultats aléatoires à 2 instants différents). Dans un autre contexte (Ch2.III), X et Y pourraient représenter les entrée /
sortie d’un canal discret bruité. Ou encore plus directement, X et Y peuvent représenter (le résultat à un instant donné
de) deux sources sans mémoire diffusant des messages plus ou moins ressemblants.
Les 2 V.A. X et Y sont donc respectivement caractérisées par les deux alphabets {x1, x2, …, xN } et {y1, y2, …, yM }, avec
les probabilités { p(x1), p(x2), …, p(xN)} et { p(y1), p(y2), …, p(yM) } .
On note que le couple (X, Y) peut-être assimilé à une source virtuelle émettant le mot ( x i , yj ) de deux lettres.
=> p(xi ) : probabilité pour que la lettre xi soit la première lettre du mot émis
N M N M
on a donc les relations :
i 1 j 1
p ( x i , y j ) p ( xi ) p ( y j ) 1
i 1 j 1
probabilités conditionnelles : p ( xi / y j )
p(x i / yj ) désigne la probabilité d’émettre x i sachant que yj est émis (Pr(X = x i | Y= yj) en notation plus rigoureuse).
Lorsqu’on a la connaissance que yj est émis, l’ensemble des évènements possibles (mot ( xi , yj ) émis), initialement
produit cartésien {x}{y} de cardinal NM a été réduit à l’ensemble de N événements {x}{yj}.
Les probabilités associés sont les probabilités conditionnelles : p( x1 / yj ), p( x2 / yj ), …, p( xN / yj )
Elles peuvent s’exprimer à partir des probabilités conjointes et marginales :
p ( xi , y j )
p ( xi / y j )
p( y j )
Résultat fondamental : établir l’axiome des probabilités totales : p ( y j ) en fonction de p ( y j xi ) et de
p ( xi ) .
i 1 j 1
démonstration à partir de l’inégalité de Gibbs, avec pk = p(xi , yj), qk = p(xi ).p( yj) , pour les K = NM valeurs de k
en fait H(X,Y) Max{H(X) ; H(Y)}
10
I.4.c) Entropies conditionnelles H(X / Y):
L’incertitude moyenne (ou indétermination, ambiguïté) sur X après la connaissance de Y (quantité d’information qu’il
reste à acquérir pour connaître X lorsque Y est connu) est donnée par l’entropie conditionnelle :
H ( X / Y ) - p ( x i , y j ) . lb p ( x i / y j )
N M
i 1 j 1
H(X / Y) correspond à l’espérance de g(X,Y) = -lb{p(X | Y}, qui peut s’obtenir en sommant avec les poids de la
distribution conjointe de probabilité p(xi, yj) du couple (X,Y).
Cette expression peut aussi être obtenue en revenant à l’information élémentaire associée à xi conditionnellement à la
réalisation de yj : h(xi / yj) = -lb( p(xi / yj) :
Indétermination (incertitude moyenne, entropie) sur X lorsque Y est connu et égal à Y = yj :
N N
H (X / Y y j ) p( x
i 1
i /y j ) . h( xi / y j ) - p ( x i /y j ) . lb ( p ( x i / y j ))
i 1
Cas particuliers :
Si X et Y indépendants : H(X / Y) = H(X)
Si X = Y : H(X / Y) = 0
=> l’entropie conditionnelle H(X / Y) est inférieure ou égale à la quantité d’information apportée par X, puisque la
connaissance de Y réduit l’incertitude sur X.
I.4.d) Information mutuelle I(X ; Y): quantité d’information (moyenne) partagée par X et Y, en Sh /symb
C’est à dire la quantité d’information que la donnée de l’une des deux variables du couple de variables dépendantes
(X,Y) apporte sur l’autre.
I(X ; Y) mesure l’écart par rapport à l’indépendance entre X et Y, avec les définitions équivalentes :
Si X et Y indépendants : I(X ; Y) = 0 ;
Si X = Y : I(X ; Y) = H(X) = H(Y)
Cas général :
0 I(X ;Y) H(X) ; et 0 I(X ;Y) H(Y) ;
Le diagramme de Venn résume, pour le cas de 2 Variables Aléatoires, la définition de l’information mutuelle ainsi que
les relations entre les différentes entropies qui ont été définies dans le paragraphe I :
11
H(X, Y)
H(Y)
H(X)
Le calcul de l’information partagée entre X et Y peut se faire directement à partir des probabilités marginales et
conjointes, ce qui se déduit des définitions précédentes de I(X, Y) :
N M p ( xi , y j )
I(X ;Y ) p( x , y i j ) . lb
p(x ).p(y )
i 1 j 1 i j
Note Annexe :
1) On considère parfois (en particulier dans les applications de communication, X : entrée, Y : sortie d’un canal) que
l’information mutuelle (moyenne) I(X ;Y) est une grandeur plus importante que l’entropie. C’est pourquoi dans
certains ouvrages, on commence à définir I(X ;Y) à partir d’une information mutuelle élémentaire i(x,y), et la
définition de l’entropie s’en déduit :
i(xi , yj) = lb{ p(xi /yj)/p(xi ) } = i(yj , xi ) => quantité d’information apportée par la réalisation Y = yj ,
sur l’état possible de X, X = xi : réduction de l’incertitude sur X.
I(X ; Y) = E{ i(xi , yj) } et H(X) =I(X ; X).
2) I(X ; Y) peut aussi être interprété comme une « entropie relative » (ou distance de Kullback Leibler) entre la
masse de probabilité conjointe p(xi , yj) et la masse de probabilité « produit » p(xi ) p(yj).
3) Extension au cas de 3 V.A. discrètes X, Y, Z :
on peut définir les entropies entre 3 V.A. (exemple H(X,Y,Z) ) mais l’information mutuelle se mesure
seulement entre 2 V.A. (Cf interprétation en terme de « distance » de Kullback Leibler).
i 1 j 1 k 1 p ( x i z k ). p ( y j z k )
Annexe : en présence d’un nombre de V.A. supérieur à 2, le diagramme de Venn peut ne pas être valide, en
tout cas si on veut que les différentes entropies correspondent à des surfaces à valeurs positives (Cf cas où
l’information mutuelle entre 2 V.A. augmente après connaissance d’une 3° V.A. Exemple : X, Y indépendants
et Z = X+Y: on a I(X ;Y) = 0 donc H(X) et H(Y) doivent être représentées par 2 surfaces disjointes dans le
diagramme de Venn, mais problème de représentation si on connait Z car alors I(X ;Y| Z) > 0 …).
Exercice
(Note : Les exemples les plus utiles seront donnés en III lorsque X et Y seront les entrées /sorties d’un canal)
Considérons ici le cas de deux sources discrètes binaires X, Y telles que :
- X émet de manière indépendante et équiprobable les symboles « 0 » et « 1 »
- Y émet de manière dépendante de X : le symbole « 1 » si X émet « 0 », les symboles « 0 » ou « 1 » de manière
équiprobable si X émet 1
En déduire les diverses probabilités, entropie et information mutuelle du système (X,Y) ?
12
I.5 Source de Markov : une introduction
Jusqu’à présent : source sans mémoire (indépendance d’un symbole émis à l’autre). En pratique, il y a souvent
dépendance temporelle entre les symboles x[n] émis par la source aux indices temporels n.
à [n+1] x1 … xN
de [n]
x1 p1 / 1 pN / 1
…
xN p1 / N pN / N
La dépendance par rapport à tout le passé se résume donc à celle de l’état qui est atteint.
(pour une définition plus précise : X[1] -> X[2] -> …-> X[n] -> X[n+1] forme une chaine de Markov).
à l’instant n : le système est caractérisé par un jeu de probabilité P[n] ={p1[n] , p2 [n] , …, pN[n]} pour les différents
états {x1 , x2 , …, xN }, avec pj [n] = Pr { X[n] = xj }
à l’instant n+1 : le jeu de probabilité change P[n+1] = { p1[n+1] , p2 [n+1] , …, pN[n+1] } , avec
N
pi [n 1] pi / j . p j [n], i 1, ..., N
j 1
Soit sous forme vectorielle :
P[ n 1] P[ n ] . M
Etat stationnaire du système : On montre que si la matrice est telle que tous les états « communiquent
effectivement » (c'est-à-dire si il est possible de passer de n’importe quel état à n’importe quel autre état en un
nombre fini de fois. En particulier la matrice ne doit comporter aucune colonne de zéro) le système atteint (pour n
suffisamment grand) un état stationnaire pour lequel le jeu de probabilité P* = {p1 , p2 , …, pN } n’évolue plus
d’un instant à l’autre.
Notes :
- l’état stationnaire est atteint (plus ou moins vite) quelque-soit le jeu de probabilités initial P[0] . Bien sûr, si
l’état initial correspond déjà aux probabilités stationnaires, alors la chaine de Markov forme un processus
stationnaire (P[0] = P*).
N
- P* est donc solution du système linéaire : P P . M , avec la condition supplémentaire p
i 1
i 1.
Entropie (moyenne par symbole): l’entropie par symbole de la source (« entropy rate »), notée H(X),
ou H ( X ) (définie en annexe) joue le rôle de l’entropie des sources avec mémoire. Lorsque la source est avec
mémoire, la connaissance des symboles passés rend moins inattendu le symbole qui va être émis. Il y a ainsi
une réduction de l’entropie qui résulte de la prise en compte du passé dans l’appréciation des symboles émis.
Pour une source de Markov stationnaire, H ( X ) est égal à l’entropie conditionnelle de la source à un instant,
connaissant l’état précédent (notée H M 1 ( X ) ). Ainsi, pour une source de Markov d’ordre 1, l’entropie par
symbole peut être calculée lorsque le jeu de probabilité stationnaire est atteint, par :
13
def def N N
H M 1 ( X ) H ( X [ n1] X [ n ] ) avec H ( X [ n1] X [ n ] ) ( pi / j . p j ) lb( pi / j )
j 1 i 1
Ce qui est équivalent aussi, d’après la définition de l’entropie conditionnelle (Cf I.4) à la valeur moyenne de
l’indétermination sur X, conditionnée par les différents états précédents possibles :
N N
H M 1 ( X ) p j .H ( X [ n ] / X [ n 1] x j )
j 1
avec H ( X [ n ] / X [ n 1] x j ) p
i 1
i/ j . lb( pi / j )
ANNEXE : Cas d’une source avec mémoire plus générale (pas nécessairement stationnaire ni de Markov)
Soit une source définie par une séquence de V.A. X [1] , X [ 2 ] ,..., X [ n ] avec possible dépendance entre les V.A.
- Entropie moyenne (Entropy Rate) : mesure l’incertitude moyenne par symbole de la source. La définition générale de
def
1
l’entropie (par symbole) est : H ( X ) lim .H ( X [1] , X [ 2] ,..., X [ n ] ) , en Sh/symbole.
n n
- pour une source stationnaire, l’entropie moyenne peut aussi être calculée comme l’entropie conditionnelle de la V.A.
présente, connaissant celles passées. Alors H ( X ) lim H ( X [ n ] X [1] , X [ 2 ] ,..., X [ n 1] )
n
- pour une source de Markov stationnaire, l’entropie (moyenne) est réduite à H ( X ) H ( X [ n ] X [ n 1] ) , où
l’entropie conditionnelle est calculée en utilisant la distribution stationnaire.
Plus formellement :
Chaine de Markov : Soit X, Y, Z, 3 variables aléatoires discrètes d’alphabets finis. Elles forment une chaîne de
Markov dans le sens X -> Y-> Z ssi Z est indépendante de X conditionnellement à la connaissance de Y, soit de
manière équivalente :
Pr(Z = z | Y = y, X = x) = Pr(Z = z | Y = y)
ou
« Data processing Theorem » : Si X -> Y-> Z forment une chaîne de Markov, alors : I(X ; Z) I(X ;Y)
1.5.c) Annexe 2 : extension à la source de Markov d’ordre M : symbole envoyé à l’instant « n » dépend des M
précédents symboles, envoyés aux instants « n-1 » à « n-M ». Généralisation du cas M=1.
14
NM
HM (X ) - j 1
p( X j ) . H ( X / X j )
Cette entropie peut être calculée à partir des probabilités de transition p(Xi, Xj), rassemblées dans la matrice de
transition T(NM x NM) où Tij= p(Xi, Xj).
Maintenant que les notions générales de théorie de l’information ont été introduites, nous allons voir comment
elles peuvent s’appliquer aux problèmes du codage afin de déterminer les limites théoriquement atteignables. Le
codage sera séparé en « codage de source » et « codage de canal », car cette séparation peut être réalisée sans perte
d’optimalité dans le cas d’une liaison point à point (1 émetteur vers un destinataire), comme l’a montré Claude
Shannon*.
* Notons que la séparation du codage en « codage de source » - « codage canal » sans perte d’optimalité ne serait plus forcément vraie dans le
problème plus général de la communication en réseau, domaine de recherche actuel, comme développé dans :
M. Gastpar, M. Vetterli, and P.L. Dragotti. “Sensing reality and communicating bits: A dangerous liaison - Is digital communication sufficient for
sensor networks?” , IEEE Signal Processing Magazine, 23(4):70–83, 2006.
15
Fichier n°0 : Mesure d’information, Outils Généraux.
Exercice 3 : Entropie (moyenne par symbole) d’une source avec mémoire stationnaire X
X est modélisée par une séquence indexée de V.A. : X1, X2, X3, …, Xk , où chaque VA Xi est tirée
selon la même loi {pn, n=1 …N} et le même alphabet AX (les VA Xi,Xj, ij peuvent être dépendantes).
N.B.: la stationnarité implique en particulier : H(X1) = H(X2) , H(X3 | X2) = H(X2 | X1) , …
1 1
1) Prouver (et interpréter) : H (X1, X 2 , X 3 ) H (X1, X 2 ) H (X1)
3 2
def
1
2) Généraliser et conclure que la séquence H k ( X ) H ( X 1 , X 2 ,..., X k ) converge quand k -> .
k
16
II. Codage de source (Compression)
II.1 Introduction
S Codage U Canal
SOURCE Codage
messages Source
Source (normalisé)
symboles élémentaires Q-aire
N-aire L : longueur moyenne Au= {u1, ..uQ}
As ={s1, ..sN} d’un mot code en général bits (Q=2)
Source normalisée
Nous avons vu dans la partie I.1 que le maximum absolu (lb(Q) si Q est la taille de l’alphabet) de l’entropie d’une
distribution discrète était atteint lorsque les différents symboles étaient également probables et qu’ils étaient transmis
de façon indépendante. Lorsque les symboles de la source ne sont pas équiprobables ou / et indépendants, la source
présente de la redondance, ce qui signifie que l’alphabet naturel de la source n’est pas utilisé de manière optimum (il
transporte une quantité d’information en dessous de ses possibilités). Nous sommes alors intéressés par une
représentation plus efficace des données émises par la source.
Objectif majeur du codage de source : transformer la « source + codeur de source » en une source « normalisée » :
- ne présentant quasiment plus de redondance, de sorte que le débit bit littéral soit réduit ( Db(U) Db(S)
bit/sec) pour une transmission temps réel (supposée par défaut)
- sans perte d’information. La quantité d’information en Sh de l’ensemble des messages à transmettre est
conservée après codage.
Ainsi, pour une transmission de la source en temps réel, le débit d’information est conservé après codage:
Ht(U) = Ht(S) Sh /sec.
N.B : on appellera transmission temps réel une transmission qui respecte la durée naturelle d’émission de la
source, égale au nombre de symboles de la source à transmettre divisé par le débit de la source D(S).
Exemple : 1 heure de vidéo en sortie d’une caméra numérique transmise en une heure (à un délai près).
Autrement dit, on retrouvera bien le débit littéral naturel de la source D(S) après le décodage source .
Autre rôle du codage de source : faire la conversion nécessaire entre l’alphabet de la source As = {s1 , …, sN} et
l’alphabet d’entrée du canal Au = {u1, …, uQ}. L’alphabet N-aire de la source peut être quelconque, l’alphabet
d’entrée du canal est le plus souvent binaire : Q = 2
Exemple : passer de l’alphabet de N=26 lettres d’un texte à des symboles binaires, Q=2. La conversion directe
(sans codage de source) des lettres en séquences binaires de 5 bits est possible mais pas efficace (25 = 32 > 26).
Notons qu’à ce stade (étude du codage/décodage de source), on considère un canal idéal (canal sans bruit, ou sans
erreur), qui achemine les messages sans erreur. L’hypothèse d’un canal sans erreur est toutefois plausible si la
normalisation « codage de canal + canal » a eu lieu (Cf figure 1).
Note de vocabulaire : pour éviter les confusions dans le sous chapitre II, on réservera le mot « symbole » (ou symbole
élémentaire, ou symbole codé) pour désigner les éléments du résultat du codage de source (éléments d’alphabet Q-aire
avec en général des symboles binaires Q=2), c'est-à-dire encore les éléments de la source secondaire ou normalisée U.
D’autre part, le mot « message » (ou « lettre », ou « mot-source ») désignera les éléments N-aire (ou leur extension :
« mot de plusieurs lettres ») émis par la source discrète (primaire) S. Le terme « mot-code » désignera le groupe de
symboles élémentaires résultant du codage d’ 1 message donné.
17
II.2 Caractérisation d’un codage
II.2a) Définitions :
codage de source : défini à partir d’une application des messages de la source (lettres N-aire {si , i=1…N} As
d’abord, ou ensuite généralisation à des mots étendus de k lettres, Ask ) vers les mot-codes Ci = {u1(i) , …, uli(i) }
composés de li symboles élémentaires Q-aires uj(i) Au, avec i = 1 … N d’abord, et ensuite i = 1 … N k ). On
obtient un codage à longueur (de bloc) fixe en entrée, mais variable en sortie.
longueur li du mot-code Ci (en symboles): entier positif égal au nombre de symboles élémentaires qui composent le
mot-code Ci.
Le procédé global de codage de source consiste à encoder une suite de messages de la source (séquence de lettres ou
par extension, séquence de mots de k lettres) en concaténant les mot-codes correspondant à chacun des messages.
L indique la compacité du code : plus L est faible et plus le débit binaire littéral de sortie D(U) sera réduit :
D(U) = D(S).L => Db(U) = D(S).L.lb(Q), avec en général symboles binaires (lb(Q) = 1).
D(S) en message /sec, D(U) en symboles élémentaires /sec, Db(U) en bit /sec
Lorsque le codage de source est sans perte, on a obligatoirement la relation suivante entre les entropies
(moyennes) avant et après codage de source :
H(S)
H(U)
L
(H(S) en Sh/message, H(U) en Sh/symb. élémentaire )
ce qui est en accord avec la conservation du débit d’information : D(U) = L.D(S) et H(U) = H(S)/L => Ht(U)= Ht(S)
On peut déjà en déduire une limite minimale pour L (code sans perte):
H(S)
L L min
lb(Q)
étant donné que l’entropie en sortie H(U) ne peut pas dépasser la valeur maximale lb(Q), puisque U est une source
(normalisée) de symboles Q-aire (Cf I.3).
(N.B. : une preuve directe plus rigoureuse de cette limite inférieure est établie en II.3-A-Lemme initial)
Anticipant sur la suite, on donne un exemple qui montre qu’il y a possibilité de faire un codage de source permettant de
réduire la redondance, et ainsi le débit binaire littéral. L’idée toujours exploitée est d’associer les longueurs de mot-
codes les plus grandes (resp. les plus courtes) aux messages les moins probables (resp. les plus probables).
18
Exemple :
Construction d’un codage de source binaire (Q = 2) pour une source délivrant N = 4 types de message de probabilités
différentes :
C1 C2 C3 C4
Exemple de code : C = { 0; 10; 110; 111} alphabet des symboles de sortie : Au={0, 1}
Longueur mot-codes : l1= 1, l2=2, l3=3, l4=3 symboles
Exemple
suite de messages: s1 s2 s1 s1 s3 s1 s4 s1 s1 s2 s1 => cod. direct: 22 bits
symboles codés 0 1 0 0 0 1 1 0 0 1 1 1 0 0 1 0 0 => cod. C : 17 bits
Caractérisation de la source S:
- entropie : H(S) = 1,5 Sh/lettre (au lieu de 2 Sh possibles au maximum avec N=4)
- redondance : R(S) = 25%
On suppose un débit littéral de la source S de D(S) = 17 Mmessage/sec, soit Db(S) = D(S).lb(N) = 34 Mbit/sec
=> débit d’information : Ht(U) = Ht(S) = H(S). D(S) = 25,5 MSh/sec
Avec le code C, le débit binaire (moyen) littéral en sortie du codeur de source est : D(U) = D(S).L = 26,52 Mbit/sec
Soit un débit binaire littéral réduit de 22 % par le code de source C.
On peut calculer en sortie du codeur:
- l’entropie : H(U) = H(S)/L = 0,962 Sh/symboles binaires
- la redondance : R(U) = 1-H(U)/lb(Q)= 3,8% : la redondance a bien diminuée
- l’efficacité du codage : = 1-R(U) = 96,2%
On vérifie L=1,56 Lmin = H(S)/1= 1,5 symboles
Code à décodage unique : à chaque suite distincte de messages N-aire de la source doit correspondre une suite
distincte de symboles élémentaires Q-aire en sortie du codeur. Un tel code est donc :
1. régulier : un même mot-code ne peut pas être associé à 2 messages différents (sinon code avec perte)
exemple : le code C’ = {0, 10, 110, 110} n’est pas régulier
2. déchiffrable : à la réception d’une suite de symboles élémentaires (résultant d’une suite quelconque de
messages), il faut pouvoir trouver le début et la fin des mot-codes (déchiffrable = séparable).
exemple : le code C’’ = {1, 10, 110, 111} est régulier mais pas déchiffrable
réception de « 110 » => s1s2 ou s3 ?
conditions suffisantes (mais non optimum en compacité !) pour avoir un code déchiffrable :
utiliser des mot-codes de longueur constante, ou utiliser un séparateur ou …
Annexe: la Condition Nécessaire et Suffisante (CNS) pour qu’un code soit à « décodage unique » est finalement que
l’extension du code soit régulière. (L’extension du code désigne l’application d’une suite finie de messages de la source
vers la suite correspondante de symboles codés, obtenue par concaténation des mot-codes des différents messages).
Code instantané (ou irréductible) : code à décodage unique particulier tel que le décodage d’un mot-code est
possible dès la fin de sa réception, sans attendre la réception du début du mot-code suivant. Il n’utilise donc pas
d’artifice de séparateur, mais satisfait à la condition du préfixe (qui va être énoncée).
19
exemples : le code C’’’= {0, 01, 011, 0111} est déchiffrable mais pas instantané (utilise séparateur « 0 »)
le code C = {0; 10; 110; 111} est instantané
Condition du préfixe
un code est irréductible (ou instantané) ssi aucun mot-code n’est le préfixe d’un autre mot-code.
=> description du code par un arbre dont les nœuds sont des groupements de symbole de la source secondaire
exemple (Q=2) : racine se subdivise en 2 branches (0,1), les 2 nœuds obtenus peuvent se subdiviser en 2, …
=> condition de préfixe : ne choisir comme mot-codes que des extrémités de branche (autres nœuds n’ont pas de sens)
Inégalité de Kraft
CNS d’existence d’un code instantané pour coder N messages (alphabet de S) avec des mot-codes de longueur (l1, l2,
…, lN) construits à partir de symboles élémentaires Q-aire:
N
- ln
Q
n 1
1
démonstration :
lN
CN : condition du préfixe => on compte le nombre total de sommets exclus de l’arbre complet parmi les Q possibles
lN
1 « arbre complet » : Q nœuds terminaux. On suppose code de longueurs ordonnées telles que 1 l1 l2 lN .
lN - li N
l - ln l
Choix d’un mot-code de longueur li exclut Q nœuds terminaux de l’arbre complet => QN
n 1
QN
Théorème de MacMillan : généralise le théorème de Kraft à tout code déchiffrable (avec la même inégalité).
On en déduit en particulier qu’un code déchiffrable pourra toujours être remplacé par un code instantané de même
longueur. Ainsi, la classe des codes “à décodage unique”, bien que plus large, ne permet pas de réduction des longueurs
par rapport à la classe des codes instantanés.
Remarques :
- Ce résultat peut aussi être prouvé plus formellement à partir de l’inégalité de Gibbs, sous contrainte du respect
de la condition de Kraft-Mac Millan pour les longueurs des mot-codes (Cf « Autre démonstration (directe) »
du lemme initial du théorème du codage de source).
- Une distribution de probabilité respectant (i), et permettant ainsi une parfaite adaptation de la longueur des
mot-codes, est bien sûr un cas très particulier. Mais comment dans le cas général choisir au mieux les
longueurs des mot-codes pour une source de probabilités quelconques ? La solution à ce problème réside dans
l’application du procédé d’encodage par blocs (ou mots) de k lettres plutôt que par lettres individuelles.
20
II.3 Théorème du codage de source (1° théorème de Shannon)
Une source étant donnée, peut-on assigner une limite à l’économie de débit littéral qu’un codage approprié permet
d’atteindre ? Le 1° théorème de Shannon donne une réponse en termes de propriété asymptotique du codage de source :
1° théorème de Shannon (encore appelé: « th. du codage de source » ou « th. du codage sans bruit »)
Soit S une source discrète stationnaire, d’ alphabet de taille N, et d’entropie (ou « entropie moyenne » dans le cas d’une
source avec mémoire) par lettre H(S) . Il existe un procédé de codage instantané (donc déchiffrable), utilisant un
alphabet de codage de taille Q, dont la longueur moyenne des mot-codes (exprimée en symboles élémentaires Q-aire
par lettre) est aussi proche que l’on veut de sa borne inférieure Lmin = H(S)/lb(Q) :
L = Lmin + , >0,
Il est donc toujours possible de trouver un encodage de source amenant un débit littéral binaire équivalent après codage
def def
Db (U ) D (U )lb(Q ) aussi voisin que l’on veut du débit d’information de la source H t ( S ) H ( S ) D( S ) en Sh/sec.
La clef du théorème réside dans l’utilisation de blocs de grande taille (large valeurs de k) pour réaliser le codage (i.e.
l’application vers les mot-codes de longueurs variables, comme révélé par les 2 résultats fondamentaux (étapes A et B)
donnés dans la démonstration du théorème.
21
Remarque : le code obtenu grâce à la procédure .(3) est nommé “code de Shannon”. Il n’est généralement pas un code
optimal (d’autres codes ont souvent de meilleures efficacités), mais il suffit à prouver le lemme initial, et par suite à
prouver le théorème du codage de source par application du lemme à Sk, la k-ème extension d’ordre k de S (Cf B.),
puis en faisant tendre k vers l’infini.
Finalement, il est possible de choisir la taille des blocs, k , suffisamment large pour que L = Lmin + , >0, ce qui
prouve le théorème (asymptotique) du codage de source, pour une source discrète sans mémoire quelconque.
Preuve :
Lemme appliqué à Sk : extension d’ordre k de la source S, avec un code instantané Q-aire utilisé pour coder des mots
de k lettres. L’entropie de la source étendue, H(Sk) = k.H(S).
Lk est la longueur moyenne (exprimée en symboles Q-aire) des mot-codes utilisée pour coder les blocs de k lettres =>
Lk / k = L
L’ordre k de l’extension peut être pris arbitrairement grand d’où l’assertion du 1°th. de Shannon pour une source sans
mémoire.
Commentaires :
- la preuve du 1° théorème de Shannon a été donnée pour une source sans mémoire, mais peut se généraliser à une
source stationnaire quelconque (en particulier pour les sources Markoviennes en régime stationnaire). Dans ce
cas général, la limite inférieure Lmin = H (S ) / lb(Q) est calculé à partir de l’entropie (moyenne) par lettre, H (S ) .
- Le théorème du codage de source confirme de manière éclatante l’utilité du concept d’entropie en
communications, qui apparaît lié au codage qui réalise l’économie maximale. D’où une deuxième interprétation de
l’entropie : H est la longueur moyenne des mot-codes nécessaire pour procéder à un codage binaire (Q=2).
- Distinction entre l’unité d’information binaire (« Sh »), et les symboles de l’alphabet binaires (souvent dénommés
« bits » ou « digits »): ce n’est qu’après un codage de source idéal, c’est à dire atteignant la borne inférieure dans
l’expression du théorème, que chacun des symboles binaires est porteur d’une quantité d’information égale à 1
Shannon. Dans tous les autres cas, il est porteur d’une quantité d’information inférieure.
Annexe: autres interprétations de l’entropie et du théorème du codage de source peuvent être formulées à partir de la
notion d’ensemble de séquences typiques ( Cf “[Mac03] , [Cov03] => typical sequences set”).
On va présenter les deux premiers algorithmes en supposant que les messages de la source sont codés individuellement,
lettre par lettre (k=1). Ces algorithmes peuvent évidemment être utilisés sur les extensions d’ordre k de la source (alors
1 mot-code pour 1 message étendu de k lettres), ce qui d’ailleurs est généralement nécessaire pour améliorer
l’efficacité, mais au prix d’une complexité accrue.
22
On le présente dans le cas particulier qui nous intéresse le plus, avec des symboles binaires (Q=2) en résultat de
codage. Il est basé sur la procédure suivante, qui peut être représentée à l’aide d’un arbre :
Exemple 1 : Source S à 5 messages de probabilités respectives : 0,4 ; 0,19 ; 0,16 ; 0,15 ; 0,1.
Cas d’un codage de source binaire de type Shannon-Fano, on obtient les mot-codes respectifs : 00, 01, 10, 110, 111
avec : L=2,25 symb., Lmin = H(S)/1=2,15 symb. => efficacité = Lmin/L=95,6%, redondance =4,4%
On présente l’algorithme de Huffman dans le cas de symboles binaires (Q=2) en résultat de codage.
Il est basé sur la procédure suivante, qui peut être représentée à l’aide d’un arbre :
1) Ordonner les « éléments » (« messages » initialement) dans l’ordre des probabilités décroissantes,
2) Additionner les probabilités des deux (Q) messages de probabilité les plus faibles, qui forment un nouvel «
élément » qui remplace les deux (Q) précédents.
3) Si le nombre d’ « éléments » restants est 1 (le nœud restant est la racine de l’arbre), aller à l’étape suivante ;
Sinon, retourner à l’étape 1) (en incrémentant le nombre d’itération), avec une nouvelle liste à ordonner, avec
un nombre d’éléments réduit (de Q-1).
Pour le codage (affectation des symboles Q-aires aux différents nœuds) on repart en arrière, c’est à dire de la
racine de l’arbre (= dernière itération) vers les différents nœuds extrémaux (incluant nœuds de la 1° itération) :
4) Attribuer « 0 » et « 1 » (jusqu’à « Q-1 ») comme premier symbole des 2 (Q) mots ou nœuds correspondant aux
2 (Q) derniers éléments (nœud de la dernière itération, dont la somme des probabilités égale 1).
5) On descend d’un niveau (itération) et on attribue les symboles « 0 » et « 1 » (jusqu’à « Q-1 ») comme symbole
suivant des mot-codes associés aux deux (Q) éléments qui ont été combinés au niveau précédent, en
maintenant les affectations obtenues au niveau précédent. On répète 5) de façon régressive jusqu’à ce que l’on
atteigne le 1° niveau.
23
Exemple 1: Source S à 5 messages de probabilités respectives : 0,4 ; 0,19 ; 0,16 ; 0,15 ; 0,1.
Cas d’un codage de source binaire de type Hufman, on obtient les mot-codes respectifs : 1, 000, 001, 010, 011
avec : L=2,2 symb., Lmin = H(S)/1=2,15 symb. => efficacité = Lmin/L=97,7%, redondance = 2,3%
Note pour codage de Huffman ternaire: pour le codage de Huffman à Q>2 symboles, par exemple le codage ternaire
Q=3, on peut être amené à introduire des lettres fictives de la source de probabilité nulle afin que le dernier
regroupement avant la racine soit bien toujours de Q éléments (sinon il est clair que le code ne serait pas optimal).
Plus précisément, après le premier groupement, on obtient une source à N-Q+1=N-(Q-1) éléments, et après n
groupements, on obtient une source à N-n(Q-1) éléments. Afin de pouvoir effectuer le codage, la dernière source doit
avoir Q éléments, donc Q=N-n(Q-1), et ainsi : n = (N-Q)/(Q-1) doit être un nombre entier. Si ce n’est pas le cas on
accroîtra N par l'introduction de symboles fictifs de probabilité nulle.
24
Fiche n°1 Théorie de l’information : Débit d’Information, Codage de Source.
Exercice 1 : Application. Un système de « Contrôle Qualité » automatique placé en sortie d’une chaîne de
fabrication fournit pour chaque produit (à cadence régulière) 1 résultat parmi 3 possibles :
{ B(bon), D(défectueux), V(à vérifier/régler)} ,
avec les probabilités respectives de : 60%, 10%, 30%.
La cadence est de 180000 produits testés par heure. Le résultat de ce contrôle doit être transmis en temps
réel au moyen d’un modem binaire de débit maximum 96 bit/s, supposé sans erreur.
1°) Quel est le débit (littéral) des messages (résultats) de la source S ? En déduire s’il est possible de
transmettre (sans perte) en utilisant un codage binaire direct (à longueurs fixes): {B, D, V} => {00, 11, 01}.
2°) Quelle est l’entropie (Sh /lettre), la redondance et le débit d’information (Sh/sec) de la source supposée
sans mémoire S ?
3°) Avec un codage de source binaire idéal, quelle est la longueur minimale du code qu’il est théoriquement
possible d’atteindre et le débit littéral minimal théorique possible Db_min ? La transmission (sans perte) est-
elle alors possible au travers du modem ?
4°) Codage de Huffman : pour réduire pratiquement le débit, on utilise le codage de source entropique de
Huffman. Quelle est la longueur du code, l’efficacité du codage, et le débit obtenu ?
5°) Extension d’ordre 2 : Pour réduire encore le débit, on code non plus les lettres (résultats) séparément,
mais les groupes de 2 lettres à l’aide du codage de Huffman. Vérifier qu’1 résultat possible du codage est le
suivant :
BB => 1, BV => 000, VB => 001, VV => 0100, BD=> 0110,
DB => 0111, DV => 01011, VD => 010100, DD =>010101
Quel est alors le débit binaire de cette source ? Conclure.
Question annexe A1) Qu’aurait on obtenu en 4) et 5) avec un codage de Shannon-Fano ?
6°) Source avec mémoire S’: on suppose désormais qu’il y a une dépendance entre l’état du produit testé à
l’instant n et l’état du produit testé à l’instant n-1, selon :
Pr( S[n+1] / S[n] )
(n+1) B V D
(n)
B 0.7 0.3 0
V 0.6 0.3 0.1
D 0 0.3 0.7
Calculer les probabilités (stationnaires) des 3 états et vérifier leur conformité à l’énoncé général,
Calculer la nouvelle entropie, ainsi que la redondance, et le débit d’information de la source S’.
2.2) Pour les 2 cas précédents, préciser l’efficacité du code si on suppose que les probabilités des N
messages sont {1/12 ; 1/8 ; 1/8 ; 1/8 ; 1/6 ; 3/8 }, et que l’on affecte au mieux les longueurs.
25
III. Capacité et codage de canal
Sortie discrète : une décision « dure » (hard) est prise en sortie du démodulateur (bit 0 ou 1 décidé typiquement à partir
d’un seuillage) qui fournit au décodeur une suite d’éléments binaires. La perte d’information est irréversible, mais
autorise des algorithmes de décodage simples à partir d’éléments binaires.
Sortie continue : une « décision souple » (soft) est délivrée en sortie du démodulateur qui fournit au décodeur une suite
d’échantillons « analogiques », typiquement prélevés régulièrement sur le signal après un filtrage de restitution. Les
performances du décodeur à entrées souples sont meilleures, mais avec un accroissement de la complexité des
algorithmes de décodage.
Selon le cas à traiter, on définit deux principaux modèles de canaux, le canal discret et le canal continu à bruit blanc
additif Gaussien (BBAG). Si le canal est sans mémoire, la réception d’un symbole (ou échantillon « analogique ») à un
instant donné ne dépend que de l’émission de celui-ci : il n’y a pas d’ « Interférence-Entre-Symboles ».
Dans la suite, on considèrera le canal discret sans mémoire, et stationnaire (statistiques invariantes dans le temps).
Le canal continu à BBAG ne sera qu’évoqué au chapitre IV.
X Y
Canal
Canal discret
discret
SOURCE (avec
(avec perturbations)
perturbations)
Alphabet N-aire Alphabet M-aire
{x1, ..xN}
{y1, ..yM}
On note ici : X : entrée du canal à symboles N-aire, appartenant à l’alphabet fini d’entrée Ax = {x1, …, xN},
Y : sortie du canal à symboles M-aire, appartenant à l’alphabet fini de sortie Ay = {y1, …, yM }
26
p(y1 / x1 ) ... p(y M / x1 )
Matrice de transition [P(Y/X)], taille N x M : [ P (Y / X )] p(y j / xi )
p(y1 / xN ) p(y M / xN )
Le canal de transmission est donc un opérateur de type aléatoire qui à l’espace des x fait correspondre l’espace des y.
Remarques :
M
- la somme des éléments d’une ligne est égale à 1 : p(y
j1
j / xi ) 1, i 1...N , ce n’est pas le cas en colonne.
N
- p(y j ) p(y
i 1
j / xi ) . p(xi ) d’où le vecteur ligne [P(Y)] = [P(X)].[P(Y/X)] .
- Cas particulier : la matrice d’un canal sans bruit est carrée et égale à la matrice « Identité ».
Canal uniforme par rapport à l’entrée : le symbole émis à l’entrée peut être transformé en M symboles en sortie,
avec le même jeu de probabilités quelque-soit le symbole émis xi : le canal perturbe de la même façon les
différents symboles d’entrée.
( chaque ligne de [P(Y/X)] est une permutation de chaque autre ligne, quelque-soit l’index de la ligne, i).
def
Ainsi : H(Y/X) est indépendant des p(xi) et se résume à H const H (Y / X xi ), i dans ce cas particulier :
p ( y j / xi ) . lb p( y j / xi ) i 1...N
def M
H (Y / X ) H (Y / X xi )
j 1
Canal uniforme par rapport à la sortie : canal dont la matrice de transition [P(Y/X)] a le même jeu de probabilités
de transition sur les différentes colonnes, quelque-soit le numéro j de la colonne.
( chaque colonne de [P(Y/X)] est une permutation de chaque autre colonne, l’index de la colonne, j).
1 0
exemple : N = 3, M =2 :
[ P (Y / X )] 0 1
0,5 0,5
Propriété pour un canal uniforme par rapport à la sortie :
distribution uniforme en entrée (p(xi)=1/N) => distribution uniforme en sortie (p(yj)=1/M) :
N N
si p(xi)=1/N i, p(y j ) p( xi ). p( y j / xi ) 1/ N . p( y j / xi ) indépendant de j, d’où le résultat.
i 1 i 1
Canal symétrique canal doublement uniforme ( uniforme par rapport à l’entrée et à la sortie), avec de plus N = M.
Exemple : canal binaire symétrique (CBS), N=M=2, p= p(y2/x1) = p(y1/x2) ;
Note : p = Pe : probabilité d’erreur binaire (Pe = p(x2 , y1) + p(x1 , y2) ) ; [P(Y / X)] 1 p p
p 1 p
C’est le modèle le plus utilisé pour les transmissions de données numériques.
« symétrique » : on retrouve des erreurs uniformément réparties sur les 2 symboles, H(Y/X) ne dépend pas des
probabilités des symboles. L’entropie conditionnelle H(Y/X) est égale à l’entropie d’une source binaire
dissymétrique (avec probabilité p pour un symbole, 1-p pour l’autre).
27
III.2 Capacité d’un canal discret
III.2.a) Entropies, Information mutuelle, et définition de la Capacité de Canal :
Soit 2 sources X et Y (Cf .I.4) respectivement entrée et sortie du canal
On a :
I(X ; Y) = H(X) – H(X/Y)
H(X/Y) : ambiguïté ou équivoque = quantité d’information moyenne non transmise, perdue à cause du bruit.
I(X ; Y) mesure donc la quantité d’information réellement transmise par le canal.
On définit la capacité (par symbole, « per channel use ») du canal comme le maximum de l’information mutuelle
I(X ;Y), le maximum étant pris sur toutes les sources stationnaires sans mémoire d’alphabet N possibles à l’entrée du
canal.
Ainsi, pour un canal (discret sans mémoire) donné, le calcul de la capacité se faira en cherchant le maximum de I(X ;Y)
vis à vis de tous les jeux possibles de probabilités p(xi) de symboles d’entrée successivement indépendants. La Capacité
est donc obtenue à partir de l’information mutuelle, en cherchant la distribution des symboles d’entrée qui permet de la
maximiser
La capacité du canal est intrinsèque au canal, contrairement aux entropies ou Information Mutuelle qui dépendent de la
source. C est la plus grande quantité d’information dont le canal peut assurer le transfert. Le 2° théorème de Shannon
donnera tout son intérêt à la notion de capacité (en tant que borne maximum sur la quantité d’information qui peut en
fait être transmise de manière fiable, c'est-à-dire avec une probabilité d’erreur aussi proche que l’on veut de zéro).
On en déduit la capacité par seconde connaissant le débit symbole (littéral) du canal Dc =D(X)
Capacité du canal par seconde:
Ct = C . D(X) en Sh/s
Remarques:
on démontre l’existence de ce maximum pour une certaine distribution des p(xi) (étant donné que la fonction est
continue, et que la maximisation est réalisée sur une région limitée)
- dans le cas général, le calcul de la capacité est très complexe, on ne cherche pas toujours une forme analytique,
- on vérifie évidemment que C lb(N) Sh/symb et Ct Db(X) Sh/sec
Canal sans bruit : canal déterministe (H(Y/X)=0) et sans perte (H(X/Y)=0). On a N=M, et [P(Y/X)] = Identité.
Le jeu de probabilités à l’entrée qui maximise I(X,Y) est aussi celui qui maximise H(X), soit p(xi)=1/N, i. On a
ainsi : C = max {I(X ;Y)} = max{H(X)} = lb(N).
Sans bruit, la transmission la plus efficace utilise l’équiprobabilité des symboles en entrée (obtenue grâce au
codage de source) . En présence de bruit, ce n’est généralement pas vrai.
Canal uniforme par rapport à l’entrée : on a vu que H(Y/X) = Hconst était indépendant des p(xi) pour ce canal
particulier . D’où la capacité est obtenue en maximisant H(Y) :
p ( y j / xi ) . lb p ( y j / xi ) i 1...N ,
def M
C Max H(Y) - H const , avec H const
P(X)
j 1
28
M
d’où : C lb(M) p(y j / xi) . lb p( y j / xi )
j 1
Il y a égalité si il existe (ce n’est pas toujours le cas) un jeu de probabilités { p(xi) } à l’entrée tel que les
probabilités des symboles de sortie, {p(yj) } , soient équiprobables.
Canal uniforme par rapport à la sortie : dans le cas général, on ne peut rien en tirer à priori pour la capacité.
Canal symétrique : le canal étant uniforme par rapport à l’entrée, la capacité est obtenu en maximisant H(Y). Le
canal étant uniforme par rapport à la sortie, on a vu (Cf III.1.c) qu’on peut obtenir le maximum absolu pour H(Y)
(c’est à dire lb(M)) car le jeu de probabilité p(xi) qui rend la sortie Y uniformément distribuée existe, et correspond
à des symboles à l’entrée également distribués, d’où la formule de capacité pour un canal doublement uniforme (et
donc aussi pour le cas particulier N=M du canal symétrique) :
M
C lb(M) p(y j / xi) . lb p( y j / xi )
j 1
Donc, pour un canal symétrique, l’information mutuelle I(X, Y) est maximale pour des symboles d’entrée
équiprobables.
Exemple du Canal Binaire Symétrique (CBS) : on note Pe = p(0/1) = p(1/0) => 1-Pe = p(0/0) = p(1/1) ;
(p(0/1) représente ici directement la probabilité d’erreur binaire)
C 1
(Sh/digit)
0.5
0 Pe
0 0.5 1
Remarques :
- pour un CBS « sans perturbation » (Pe = 0) : C est maximale, on a alors H(X/Y) = 0 et H(Y) = H(X)
=> C = max{H(X)}=lb{2} obtenue pour des xi équiprobables
- pour un CBS perturbé à l’extrême (Pe = 0,5) : C = 0 Sh/s => Aucune information n’est transmise !
Sans perte de généralité, on suppose la source normalisée U (source réelle + codage de source parfait) sans
redondance, d’entropie H(U) = lb(Q), où Q est la taille de l’alphabet des symboles équiprobables et indépendants.
29
Lorsque le canal est bruité :
d’une part, la quantité d’information maximale transmissible dans le canal diminue (C < lb(Q) ), et d’autre part, il
faut s’intéresser à la qualité de la liaison. En effet, le fait de transmettre dans un canal bruité (entrée : B, sortie B’:
symboles d’entrée Q-aire) une quantité d’information H(B) inférieure à la capacité du canal C ne suffit aucunement
à assurer une bonne fiabilité de la communication. Or, pour être utilisable, la communication doit être fiable : il
faut que la probabilité d’erreur soit suffisamment faible (< ), ou encore que l’ambiguïté ou équivoque soit
suffisamment faible : H(B/B’) < ’ , sachant que la quantité d’information moyenne bien transmise (Cf III.2.a) est
donnée par:
Si on connectait directement la source normalisée U en entrée du canal (B=U), H(B) serait maximum ( =lb(Q) )
mais H(B/B’) ne dépendrait alors que du canal bruité ( lb(Q) –C), et pourrait s’avérer trop élevée par rapport au
critère de qualité (') que l’on s’est donné (et correspondrait à une probabilité d’erreur Pe> ).
Pour améliorer la qualité, le message de la source normalisée doit être transformé par un certain codage, dit de
canal, et la sortie du canal subir l’opération inverse de décodage, censée restituer le message pour le destinataire.
Pour permettre de réduire (en moyenne) H(B/B’), c’est à dire la vulnérabilité au bruit, le codage de canal sera
nécessairement redondant (on aura H(B) < lb(Q) ). Pour permettre H(B/B’) quasi-nul, la redondance doit même
nécessairement être telle que H(B) ≤ C, si on veut H(B/B’) 0+ et I(B ; B’) C- .
Ainsi, les intermédiaires introduits doivent permettre de diminuer la probabilité d’erreur Ped (après décodage) entre
U et U’, ainsi que l’équivoque globale H(U/U’). Notons que même si la source U est sans redondance, H(U/U’) dépend
cette fois du canal mais aussi des intermédiaires de codage et décodage.
Notons également que la redondance imposée à B n’implique pas des symboles d’entrée du canal non-équiprobables,
puisque le codage de canal rajoutera généralement de la dépendance entre les symboles successifs.
U Codage B B’ Décodage
U’
Codage Canal
Canal discret
discret Décodage
SOURCE Canal Canal
DESTINATAIRE
Canal (avec
(avec perturbations)
perturbations) Canal
normalisée Alphabet Q-aire Alph. Q-aire Alph. Q-aire Alph. Q-aire normalisé
{u1, ..uQ}
C : capacité
En général Q = 2
En résumé,
Objectif du codage de canal: protéger le message contre les perturbations du canal,
obtenue en ajoutant de la redondance contrôlée par un loi de codage (sans perte) connue du récepteur.
=> augmentation du débit littéral (pour trans. temps réel) : Db(B) > Db(U) bit/s ;
en effet, la redondance étant positive : Db(B) > Ht(B) = Ht(U) = Db(U)
N.B. : si on raisonne à débit de transmission dans le canal ( Db(B) bit/s ou D(B) = Dc symb/s ) constant , (et débit
de la source D(U) variable) il faut pour pouvoir insérer le codage canal (mais avec amélioration de la qualité !) :
- diminuer le débit binaire littéral de la source normalisée par rapport à la situation sans codage:
sans codage: Dbsc(U)= Db(B) ; avec codage: Db(U) < Db(B) = Dbsc(U)
- et ainsi diminuer le débit d’information de la source:
sans codage: Ht(U)sc = Db(B) ; avec codage: Ht(U) = Db(U) < Db(B) = Ht(U)sc
30
III.3.b) Caractérisation d’un codage de canal
Le codage de canal insère des bits (ou symboles) de redondance de manière séquentielle (codes convolutifs) ou par
blocs (codes bloc). Nous ne nous intéresserons qu’au codage par bloc.
Figure 8 : Format d’un codage bloc(n, m) systématique (avec des éléments binaires : Q =2)
Pour réaliser une transmission temps réel des données (c’est à dire système de transmission respecte le débit
naturel imposé par la source D(U), qui correspond aussi au débit reçu au niveau du destinataire), on vérifie que le
débit littéral après codage de canal doit être augmenté (« sur-débit ») du rapport n/k : D(B)=(n/k).D(U) symb/sec
N.B. : en pratique, pour l’insertion des symboles de redondance et la réalisation du sur-débit, il y aura nécessité de
stockage des données initiales en mémoire (dans une FIFO par exemple) avec une horloge d’écriture à la cadence
D(U) Hertz, et une horloge de lecture (des données et des symboles de redondance calculées) à la cadence
accélérée D(B) Hertz.
Décodage : après transmission dans un canal bruyant, le décodage nécessite une règle de décision.
A chacun des mots bruités reçus rj (j = 1 … Qn possibles), on associe un mot-code ou message mi :
Maximum A Postériori : { mi tel que : Prob(mi / rj) maximum }
La règle du Maximum à Postériori permet d’obtenir la probabilité d’erreur Ped minimale.
Elle est équivalente à opérer sur les probabilités de transition en cas de loi d’émission uniforme :
Maximum de Vraisemblance { mi tel que : Prob(rj / mi) maximum }
On mesurera alors une probabilité d’erreur binaire Ped, en comparant bits avant codage et après décodage.
Exemple de redondance « simple » pour améliorer la qualité mais en détériorant le débit d’information:
répéter R = 2r+1 fois chaque bit de la source U, ce qui peut–être vu comme un codage bloc (R,1).
A la réception d’un bloc de R bits, si plus de r bits à « 1 », on décide « 1 », sinon on décide « 0 »
31
-2
pour CBS, R=3 répétitions et Pe = 10 : code bloc (3,1)
-4 -2
Amélioration de la qualité : Ped = 3.10 au lieu de Pe = 10 sans codage :
-4
- probabilité d’erreur Ped = pr. de 2 ou 3 erreurs/ message = 3Pe2(1-Pe) + Pe3 = 3.10 ,
Mais
Code peu efficace :
- redondance R(cc= 66.7%, H(B) = 1/3 Sh/digit pour H(U) = 1 Sh/digit,
- efficacité codage /canal : K=(1/3)/0.92=36.2%,
car avec (CBS): C=1+Pe.lb(Pe)+(1- Pe).lb(1-Pe)=0.92 Sh/digit pour Pe = 10-2,
- débit d’information Ht(U) = Ht(B) = H(B).D(B) divisé par 3 par rapport à la situation sans codage, en
raisonnant à débit constant dans le canal (ou alors Dc a dû être multiplié par 3, en résonnant à débit source
constant).
Conclusion : avec R répétitions, la probabilité d’erreur Ped diminue, mais le débit d’information transmis Ht(U)
est divisé par R (à Dc constant dans le canal). Lorsque R , Ped 0 mais Ht(U) 0 , donc intérêt très limité!
C. Shannon démontre un résultat tout à fait remarquable (inattendu en 1948) concernant l’existence de codes
efficaces :
2° théorème de Shannon (encore appelé: « th. du codage de canal », « th. du codage avec bruit », ou « th. fondamental
de la théorie de l’information »)
Si (et seulement si) le débit d’information de la source U est inférieur à la capacité du canal (exprimé par seconde), soit
Ht(U) ≤ Ct Sh/sec, il existe un codage de canal permettant d’avoir une fiabilité de transmission aussi bonne que l’on
veut, c’est à dire :
une probabilité d’erreur après décodage: Ped < réel > 0 ,
Autrement dit, avec un débit d’information très proche de la capacité du canal ( taux de redondance, R(B) proche > de
1 – C / lb(Q) ), il est théoriquement possible d’avoir une transmission aussi fiable que l’on veut. Le bruit (et
perturbations) du canal n’impose pas de limite à la qualité de la transmission, mais seulement au débit d’info. permis.
Note : Ht(U) ≤ Ct Sh/sec et Ht(U) = Ht(B) H(B).D(B) < C.D(B) Sh/symb, soit H(B) < C Sh/symb .
Entropie de la source codée (entrée du canal) inférieure à la capacité par symbole
-2
Exemple : CBS avec Pe = 10 , Q =2 et un débit binaire littéral de canal donné Db(B)=D(B)= Dc=34 Mbit/s.
On veut passer un débit d’information minimal de Ht(U) Ht0 = 30MSh/s :
(Soit un débit binaire littéral Db(U) de 30 Mbit/s, en supposant la source U sans redondance)
On a:
C = 0,92 Sh/digit, Ct = 0,92.D(B)= 31.3 MSh/s < Db(B) = 34 Mbit/s .
source U sans redondance => H(U) = 1 Sh/digit, et Ht(U) = Db(U) = Db(B). k/n
(Si on ne rajoutait pas de redondance dans le codage de canal, on aurait: Ht(U)=H(U).D(B) = 1. Db(B) > Ct = 31.3
MSh/s => erreurs incompressibles, car 2° th de Shannon non respecté)
Respect 2° th. Shannon : => limite maximale pour le taux de données utiles k/n : Ht(U) = (k/n). Db(B) < Ct
soit (k/n) < 92%, correspondant à un taux de codage cc > 8 % => codes / Ped < .
débit d’information de Ht(U) Ht0 = 30MSh/s => limite minimale pour le rapport k/n: (k/n). Db(B) > Ht0
soit k/n 88.2%, correspondant à un taux de codage cc 11.8 %
D’où finalement pour passer un débit d’information d’au moins Ht0 , un rapport (k/n) à choisir tel que :
32
Clef de la démonstration du 2° théorème de Shannon: (la démonstration est dans le livre de G. Battail par exemple):
Borne : Lorsque le débit d’information Ht (= Ht(U)) est inférieur à la capacité du canal Ct, on montre qu’il existe des
codes permettant d’atteindre une probabilité d’erreur de décodage Ped telle que :
– n . F ( Ht )
Ped 2
où
- F(Ht) est une fonction déterminée appelée fonction « de fiabilité » : non-négative, nulle pour Ht Ct,
décroissante avec Ht pour Ht < Ct
- n est la taille des blocs
F(Ht ) Ped
pour
Ht = 0,9.Ct
pour
Ht = 0,5.Ct
Ht 0 n
Ct
Autrement dit,
pour un taux de codage ou de redondance donné (cc =1 - k/n), augmenter la taille des blocs n (ou la longueur du
code) permet de réduire la probabilité d’erreur Ped. On a Ped 0 lorsque n !
Ainsi, augmenter n permet, pour une performance visée, de limiter la redondance et donc l’accroissement de débit
littéral binaire.
Prix à payer :
- retard dans la liaison dû au codage / décodage (délai typique : 1 bloc à l’émission pour calculer les bits de
redondance, 1 bloc à la réception pour décoder)
- complexité accrue des opérations de codage-décodage
Commentaires :
C’est un théorème d’existence, qui ne dit pas comment construire des codes efficaces, ce qui a alimenté la
recherche durant une cinquantaine d’années !
(La démonstration de C. Shannon est basée sur l’emploi d’un codage aléatoire).
le théorème du codage de canal donne tout son sens au concept de capacité de canal défini en théorie de
l’information : la capacité Ct correspond à la plus grande quantité d’information/seconde transmissible dans le
canal avec une fiabilité aussi bonne que l’on veut, du moment que l’on utilise un codage de canal approprié dont
l’existence est démontrée.
Note : les codes algébriques permettent bien de diminuer la probabilité d’erreur en augmentant la taille du code à taux
de codage donné, mais avec des performances assez éloignées de la limite (borne) théorique. Ce n’est que depuis 1993
que les limites énoncées par C. Shannon sont approchées de très près par un codage (et surtout décodage !) réalisable,
avec l’invention des turbo-codes par des chercheurs de l’ENST Bretagne, C. Berrou et A. Glavieux.
(Annexe : 3 éléments clefs dans la réussite des turbo-codes : les turbo-codes utilisent (1-) la combinaison de 2 codes
convolutifs courts et d’un entrelaceur pseudo-aléatoire à l’émission, similaires à un code global long. Le décodage se
fait de manière itérative (-2), vis-à-vis du premier décodeur puis du deuxième, et à nouveau du premier décodeur et
ainsi de suite. Les décodeurs ne s’échangent pas les décisions dures mais des « décisions souples » (–3), c’est-à-dire
une information sur la fiabilité de chaque élément « décidé » (temporairement à une itération donnée).
Les Codes Correcteurs seront étudiés en 3° année pour les étudiants filière « SICOM » / option STIC – Système de
Traitement de l’Information et Communication ».
33
Fiche n°2 Théorie de l’information : Capacité de canal .
0,9 0,1
1.1) canal en Z de matrice de transition P (Y / X )
0 1
0,5 0,5 0 0
1.3) canal tel que P (Y / X )
0 0 0,5 0,5
1°) Existe-t-il théoriquement un codage de canal permettant d’acheminer en temps réel les données avec une
probabilité d’erreur binaire après décodage aussi faible que voulu (< 10-12, par exemple …).
2°) Quelle est alors la plage de redondance (taux de codage) possible pour ce codage de canal ?
Question annexe : A1) Si l’on fixait le débit du modem à Dc_max, quel serait le débit d’information
maximal de la source pour garantir l’existence d’un codage de canal amenant la fiabilité désirée?
34
IV. Eléments de Théorie de l’Information dans le
cas d’un canal continu (canal à Bruit Blanc Additif Gaussien )
Avertissements :
Nous avons traité principalement de sources et canaux discrets, en guise d’introduction à la théorie de l’information.
La généralisation au cas continu mériterait un développement complet. Nous nous contentons ici de présenter les
principaux résultats (= le plus célèbre : Capacité d’un canal à BBAG) et les interprétations.
Notons que la théorie de l’information appliquée au cas de canaux et sources continus présente un grand intérêt pour les
transmissions numériques, car :
1- le canal physique de transmission est continu, avec en particulier un bruit physique additif à amplitude continue : la
conversion des signaux reçus en symboles discrets (prise de décision binaire en sortie du démodulateur) avant
d’aborder la tâche de décodage canal implique donc une perte d’information. Pour être optimal, il ne faudrait pas de
prise de décision avant le décodage, mais le décodage – soft decoding - devient alors beaucoup plus complexe !
Notons tout de même que la restriction de la sortie du canal à un alphabet discret n’est quasiment pas dommageable si
l’alphabet de sortie est choisi avec une taille très supérieure à celle des symboles émis (alphabet d’entrée) …
2- la source numérique est souvent issue d’un signal analogique ;
Au lieu de s’intéresser dans le cas continu seulement à des procédés de codage efficaces avant la modulation, on peut
s’intéresser aux procédés efficaces de construction de signaux à partir des symboles (« association » de modulation et
de codage, avec des « codes » construits dans l’espace Euclidien), et les comparer en termes de performances aux
limites du possible.
Note : dans la généralisation des grandeurs introduites pour la mesure de l’information au cas continu, l’information
mutuelle garde une interprétation cohérente, mais ce n’est plus le cas de l’entropie. Elle peut être définie et manipulée,
mais son interprétation physique est plus délicate (elle peut être négative, tendre vers l’infini, …).
Le signal x(t) ayant une bande limitée B, on peut travailler (sans perte d’information concernant le signal utile) avec
un modèle de signal obtenu après filtrage passe-bas idéal de r(t) :
signal reçu après limitation de la bande à B : y(t) = x(t) + b(t) ,
où :
b(t) : bruit additif Gaussien, réel, stationnaire, centré (E{b(t)}= 0), indépendant du signal x(t),
de DSP bi-latérale N0/2 constante pour f [ - B ; + B ] , donc de puissance (ou variance) : N = 2 = N0.B.
35
Théorème d’échantillonnage : la connaissance de x(t) est équivalente à la donnée d’une suite de réels X, dits
échantillons, à la fréquence 2B (fréquence d’échantillonnage minimale pour respecter le théorème
d’échantillonnage). Pour traiter le cas d’un signal analogique (c’est à dire à amplitude et temps continus), on peut
donc se ramener au cas du signal continu en amplitude, mais discret en temps :
Modèle pour les échantillons : Y = X + Z,
Z : échantillon de bruit = V.A. Gaussienne de moyenne nulle, de variance (puissance du bruit) : Z 2 = 2.
Pour obtenir le maximum de I(X ;Y), on admet par analogie au cas discret et symétrique, que ce maximum est
obtenu pour une densité de probabilité sur X rendant Hd (X) (et donc Hd (Y)) maximum : on démontre que la
distribution qui maximise l’entropie différentielle d’une v. a. continue de variance donnée est la distribution
Gaussienne.
En développant les calculs de l’entropie différentielle sur une distribution Gaussienne à moyenne nulle :
On vérifie facilement que H d (Y) lb Y 2 e et H d ( Z ) lb Z 2 e
=> C lb( Y 2 e ) lb( Z 2 e ) lb Y 1 lb Y 1 lb 1 X
2 2
2 Z2 2 Z2
Z
La capacité par symbole (c’est à dire par échantillon à amplitude continue) peut ainsi s’exprimer en fonction du rapport
Signal à Bruit (RSB) à l’entrée, intégrée sur la bande du signal [-B ;B], soit RSB = P / N = P / (N0.B) :
C 1 .lb( 1 P ) 1.lb( 1 RSB ) en Sh/symb
2 N 2
Un symbole étant émis tous les 1/2B, la quantité d’information maximale que le canal bruité peut transmettre par
seconde, qui correspond à la capacité Ct par seconde, est obtenue en multipliant par la fréquence d’échantillonnage 2B.
La capacité par seconde d’un canal continu est donnée finalement par Formule de Hartley-Tuller-Shannon :
(Notons que Cx2B est un maximum de la capacité par seconde, obtenu en supposant indépendance entre les
échantillons successifs, ce qui est vrai en limite du théorème d’échantillonnage et si le signal est blanc sur [-B ; B]) .
Commentaires et interprétations :
Ct représente la quantité d’information maximale transmissible par seconde en présence de BBAG : tout système
de communication, aussi bien analogique que numérique, avec ou sans codage, pourra donc être confronté à Ct …
Relation durée-spectre : à RSB fixée, la même quantité d’information est fournie par un signal court à large-bande
ou un signal long à bande-étroite (pour un même nombre d’échantillons indépendants D = T2B, où T = durée).
Exemple : musiques ou images peuvent être transmises sur des supports bande-étroite au moyen d’enregistrements
magnétiques déroulés plus lentement que lors de l’enregistrement.
Il existe deux moyens (non symétriques) d’augmenter la capacité d’une voie bruitée:
- A Bande Passante donnée, le Débit binaire maximal permis sera d’autant plus élevé que le RSB est élevé =>
36
modulations à grand nombre d’états.
Exemple modulation « Discrete-Multi-Tone » utilisée dans les modem haut-débit VDSL sur les lignes
téléphoniques : de nombreuses sous-porteuses orthogonales sont modulées individuellement, avec un nombre
d’états de la modulation alloué (entre 4 et 2048 par exemple) pour chaque sous-porteuse, en fonction de son
RSB local.
- A RSB donné, le Débit binaire maximal est proportionnel à la Bande Passante. Notons qu’une transmission
fiable est tout à fait possible avec un signal quasiment indiscernable, noyé dans le bruit (RSB << 1) : il suffit
pour cela d’utiliser une bande B suffisamment importante => principe des modulations par étalement de
spectre (utilisation militaire depuis les années 50, systèmes GPS, UMTS, …).
Mais attention à puissance P de signal fixée, la puissance du bruit étant proportionnelle à la bande, le RSB chute
lorsque la bande augmente : la capacité maximale est alors limitée à P/(N0 . ln2) même si B croit à l’infini (Cf fiche
n°3).
Les conséquences de la formule de Shannon en terme d’efficacité spectrale (bit/sec /Hz) possible pour les modulations
numériques, à énergie par bit dépensée donnée, en fonction de la largeur de bande, est évoquée en annexe 2 .
Illustration du théorème fondamental à l’aide d’une représentation géométrique à plusieurs dimensions : Cf Annexe 1
=> Commentaire de conclusion: Le théorème fondamental (cas continu ou discret) de la Théorie de l’Information
nous montre que, contrairement à ce que l’on a pu souvent croire, la meilleure protection contre le bruit est obtenue
lorsque le nombre d’hypothèses entre lesquelles il faut choisir tend vers l’infini. Le choix d’hypothèses binaires n’est
donc absolument pas le meilleur, à moins que l’on ne dispose que d’une seule dimension, c’est à dire que l’on veuille
une transmission instantanée !
En résumé, deux résultats fondamentaux de la théorie de l’information appliquée aux transmissions numériques :
- Il est possible de « comprimer » sans perte d’information une source discrète (redondante) à l’aide d’un
code dont la longueur moyenne peut être rendue aussi proche que l’on veut de la limite minimale
théorique.
- Si le canal a une capacité suffisante pour acheminer cette quantité d’information, la transmission peut se
faire avec une probabilité d’erreur aussi petite que l’on veut, au prix d’une complexité accrue de
l’algorithme de codage/décodage et d’un retard accrue dans la restitution des messages.
37
ANNEXE 1 : Représentation géométrique des signaux et illustration du théorème
fondamental
Représentation du signal utile : Afin de travailler avec un nombre de dimension fini, on suppose dorénavant que le
signal réel x(t) , toujours de puissance moyenne finie, P, de largeur de bande B, est à durée limitée T (on a
nécessairement T >> 1/B pour qu’une telle description soit approximativement correcte) .
On peut alors définir un espace de signaux de dimension D = 2BT dans lequel tout signal x(t) pourra alors se
représenter comme les coordonnées d’un vecteur, x , regroupant les D composantes de x(t), exprimés dans une base
orthonormée { 0(t) , … , D-1(t) } de l’espace des signaux :
x0
1 D 1
x ... avec x (t ) . xi . i (t ) , D = 2BT : Nb de dimensions
2 B i 0
x D 1
T T
où xi x(t ). i (t ) dt , i (t ). j (t ) dt 2B. ij avec ij 1 si i j , 0 sinon ,
0 0
Cet espace de signaux est un sous-espace de l’espace de Hilbert des fonctions de carré sommable sur [0, T], muni du
D -1 2 D 1
produit scalaire : x . y T x i . y i , d’où l’on déduit la norme d’un élément : x x . x x i2 .
T
i 0 i 0
A puissance et bande donnée, l’augmentation du nombre de dimensions, D, passe par une augmentation de la durée des
signaux ,T.
NB : Avec les conventions de normalisation adoptées, xi a même dimension que le signal x(t) (ex : Volt), i(t) est
homogène à la R.I. d’un filtre, de dimension l’inverse d’un temps.
Représentation du bruit :
Si le signal x(t) est perturbé additivement par un bruit n(t), on montre que seules les composantes ni du bruit exprimées
dans l’espace des signaux perturbent de manière irrémédiable le signal x(t) :
T
n0
n i n(t ). i (t ).dt , pour i 0 ...D - 1 et n ...
0
n D 1
n(t) représente une réalisation du bruit, les ni sont des variables aléatoires.
38
On vérifie que si n(t) est un bruit blanc stationnaire centré de dsp bilatérale N0/2, les composantes ni ont une variance
égale à 2 = N0.B, et leur corrélation est nulle : E ni . n j 2 . ij
N 0
TF i (t ) df avec TF i (t ) df i (t ) dt 2B
2 2
En effet, 2 2
2 - -
Il est intéressant de noter que quelque soit la base orthogonale de représentation choisie, le bruit blanc stationnaire
affecte (en terme de puissance) de la même manière les composantes des signaux. On pourra ainsi traiter de la
protection contre le bruit de manière géométrique , indépendamment de la base choisie.
N.B : dans l’exemple de la représentation de Shannon, les composantes ni sont obtenues à partir de n(t) par filtrage
passe-bas idéal de limitation en fréquence à [-B ; +B] (soit une R.I. de filtre du type 2 B. sin c( 2 Bt ) ), suivi d’un
échantillonnage tous les 1/2B.
Le signal bruité reçu se représente donc comme un « point » (ou extrémité de vecteur) à D dimensions de l’espace
Euclidien : r x n
Les « points bruités » reçus sont donc distribués autour des « points – signal » représentatifs des signaux sans bruit,
avec une symétrie sphérique et une distribution Gaussienne de variance 2 par coordonnée, en raison du bruit blanc
additif Gaussien. Afin de caractériser géométriquement r , on va s’intéresser d’abord à x puis à n .
En particulier, aucune coordonnée xj ne peut dépasser D.P , étant donné que la norme du « point » est
D-1
x DP (on a x j D.P ssi les D-1 autres coordonnées xi sont nulles pour i j).
2 2
x i
i 0
1 R2 D 1
pn ( n ) . exp n 2 où R n2 n i2 est la norme du vecteur bruit.
2
2
D i 0
2 2
Le rayon du vecteur « bruit-seul » , Rn , est une variable aléatoire dont on peut calculer l’espérance et la variance.
On considérera ici plutôt les caractéristiques du carré (ou norme) du rayon, Rn2 , plus faciles à obtenir.
En effet, les ni étant des v.a. gaussiennes indépendantes de même variance 2 , on en déduit que Rn2 suit une
distribution du 2 (non normalisée) à D degrés de liberté, de moyenne E R n2 D. 2 et de variance
Var Rn2 2 D. 4 .
L’ interprétation de ces résultats va être faite après une normalisation des distances.
39
Introduction d’une normalisation des « points » : 1 . r 1 . x 1 ..n
D D D
On considère une normalisation des distances par rapport à la racine carrée du nombre de dimensions, de telle sorte
que les normes du « point - signal » et du « vecteur bruit-seul » normalisés deviennent indépendantes du nombre
de dimension D (au lieu d’être proportionnels à D).
On peut en conclure que lorsque le nombre de dimensions D augmente et tend vers l’infini, le rayon du « vecteur
bruit-seul » normalisé Rn' Rn / D tend vers une valeur presque certaine, Rn' égale à l’écart type du bruit, .
En effet, la norme de Rn' a une variance qui tend vers zéro lorsque D tend vers l’infini, pour une valeur moyenne
indépendante de D. Ce résultat peut être aussi formalisé à partir de la loi des grands nombres.
L’extrémité du « vecteur bruit-seul » , 1 . n , est donc localisée « à la surface » d’une sphère à D dimensions
D
de rayon R Rn / D , centrée à l’origine , lorsque D devient important.
'
n
3) En conclusion lorsque D devient important, on a une localisation presque certaine du « point » représentatif d’un
signal reçu bruité, 1 . r , conditionnellement à la donnée du signal émis, 1 . x , « à la surface » d’une « sphère
D D
de bruit » à D dimensions de rayon R Rn / D , centrée sur le « point-signal » représentatif du signal
'
n
sans bruit. On parle de phénomène de « durcissement des sphères ».
1
Par ailleurs, la norme moyenne de . r étant P 2 , on en déduit que pour D grand, le signal reçu
D
1
normalisé, . r , se trouve presque sûrement à la « surface » d’une grande sphère à D dimensions de rayon
D
R r' R r / D P 2 autour de l’origine.
Le Théorème fondamental annonce que si le débit d’information à l’entrée du canal, Ht(X) , est inférieur à la capacité
du canal, Ct , exprimés en Sh/sec (donnée par la formule de Hartley-Tuller-Shannon), il existe un procédé de
transmission (modulation / codage) permettant de transmettre avec une fiabilité aussi bonne que l’on veut.
Nous avons donné en IV.1 une démonstration de la formule de la capacité, sans toutefois montrer l’existence d’un
procédé de transmission fiable pour un débit Ht aussi proche que l’on veut de Ct . La représentation géométrique
associée à la notion de codage aléatoire, peut permettre à la fois de retrouver l’expression de la capacité et d’obtenir
une démonstration du théorème fondamental, comme présenté dans [Bat97] ou ([Rou70], [Mac03]…). Nous ne
donnons pas ici cette démonstration qui fait intervenir les relations fines entre le « point bruité reçu » et les « points-
signal » les plus proches. Nous allons nous contenter de présenter une déduction géométrique d’ensemble plus
grossière qui montre que la transmission peut être garanti pour un débit d’information inférieur à une valeur Htmax
Ct – B (comme présenté par exemple dans la référence classique : J.H. CONWAY, N.J.A SLOANE, « Sphere
Packings, Lattice and groups », 3rd edition, Springer, 1999).
Soit à transmettre un débit d’information Ht Sh/sec, à partir d’une puissance moyenne inférieure ou égale
à P, et une bande limitée B.
40
A cette fin, on peut définir un dictionnaire de M signaux possibles (puissance P, bande B) de durée T, notés x[m] (t) ,
avec un indice m = 1 à M. On pourra alors transmettre un signal x(t) parmi M possibles toutes les T secondes.
On a donc une quantité d’information de T. Ht Sh (ou bit) par signal x[m] (t), ce qui nécessite l’emploi de :
Ht T
M 2 signaux distincts de durée T, soit M « points - signal » x[m] possibles.
Une manière de garantir une probabilité d’erreur de transmission arbitrairement petite, est de choisir les M « points
signal » tels que en présence de bruit (et pour un nombre de dimensions D important), les M « sphères de bruit »
associées soient disjointes. Le volume total de ces M « sphères de bruit » de rayon R n doit être nécessairement
inférieur au volume de la « grande sphère » qui les contient toutes. Le volume d’une sphère à D dimensions étant
proportionnel à la puissance D du rayon, on en déduit que : M . R n D
R
r
D
Dans une telle démarche d’empilement de sphères (« sphere packing ») disjointes à très grand nombre de dimensions,
le débit d’information sera d’autant plus grand que l’arrangement des sphères est dense, puisque :
D BT
Rr
. P
2
M .
R 2
n
où désigne la densité de l’empilement des sphères, égale à la proportion de l’espace disponible qui est occupé par les
sphères.
De la relation M 2 t , on déduit : H t B . lb P 2B . lb ()
2
H T
2
D
Si il existait un empilement de sphères complètement dense tel que on aurait une transmission fiable avec un
débit Ht max correspondant à la formule de la capacité Ct (expression en IV.1, formule de Hartley-Tuller-Shannon,).
En réalité, on peut montrer que (pour un arrangement des points en réseau) la densité maximale possible est telle que :
lb ( max )
1 -0.599 , pour D >> 1
D
(pour D = 1 ; 2 ; 3 on a respectivement max = 1 ; / 12 = 0.9069 ; / 18 = 0.74048)
D’où, au mieux, à partir d’un empilement disjoint de sphères, on obtiendrait une transmission fiable pour un débit
d’information maximal :
H tmax B . [ lb( 1 RSB ) - 1,2 ] < Ct.
Htmax se rapproche tout de même de l’expression de la capacité pour les très forts RSB tels que lb(RSB) >> 1.
La démonstration exacte du théorème fondamental utilisant une description géométrique plus fine [Bat97] (sphères
non entièrement disjointes et nombre de dimensions finie), montrerait que du moment que Ht < Ct, il existe un
procédé de transmission dont la probabilité d’erreur décroît exponentiellement avec le nombre de dimensions D.
Commentaire de conclusion: Le théorème fondamental (cas continu ou discret) de la Théorie de l’Information nous
montre que, contrairement à ce que l’on a pu souvent croire, la meilleure protection contre le bruit est obtenu lorsque le
nombre d’hypothèses entre lesquelles il faut choisir tend vers l’infini. Le choix d’hypothèses binaires n’est donc
absolument pas le meilleur, à moins que l’on ne dispose que d’une seule dimension, c’est à dire que l’on veuille une
transmission instantanée !
41
ANNEXE 2 : Confrontation des performances de diverses modulations numériques
vis à vis des limites énoncées par la Théorie de l’Information pour un canal BBAG
La théorie de l’information (formule HTS) nous indique, pour une puissance utile reçue donnée, le débit d’information
maximum en Sh/sec (ou également en bit/sec en supposant les bits délivrés par la source au rythme Db = 1/Tb
indépendants et équiprobables, c’est à dire une source sans redondance), que l’on peut théoriquement acheminer avec
une Probabilité d’erreur Pe arbitrairement faible.
On peut en déduire, pour un rapport Eb/N0 donné (Energie par bit Eb normalisée par la Densité Spectrale de Puissance
mono-latérale du Bruit Blanc Additif Gaussien N0), la courbe qui donne l’efficacité spectrale (bit/sec)/Hz maximale
possible (toujours avec Pe arbitrairement faible).
Par ailleurs, pour différentes modulations (étudiées dans les cours de Transmissions Numériques), on peut calculer
l’efficacité spectrale (en considérant la bande minimum sans IES, roll-off nul), et comparer le Eb/N0 requis (pour avoir
Pe égale à 10-5) pour cette modulation au Eb/N0 minimum issu de la théorie de l’information (Cf figure ci-dessous).
Par exemple, en BPSK, on utilise un Eb/N0 de l’ordre de 9.5 dB pour Pe = 10-5 avec une efficacité spectrale de 1
(bit/sec)/Hz, alors que la théorie de l’information nous indique que le (Eb/N0)min est de 0 dB pour cette efficacité
spectrale ! Grâce à l’opération de codage / décodage canal, on pourra se rapprocher de (Eb/N0)min.
Limite fondamentale (Théorie de l’information) pour le canal à BBAG
Pour signal x(t) de puissance moyenne finie Px (= Eb .Db) et bande limitée B, perturbé
par Bruit Blanc Additif Gaussien centré de puissance 2 (= N0 .B) dans bande B :
• formule de la capacité : Px
C t B . log 2 ( 1 ) Sh / sec
2
• Efficacité spectrale maximale : Eb bits/sec
pour qu’il existe un procédé de transmission fiable max log2 (1 .max )
à volonté (débit d’information Ht (= Db) Ct ) N0 Hz
Db bit/sec : débit binaire après codage de source supposé
idéal (et avant codage canal éventuel) Mod. Num (sans codage) pour Pe = 10‐5
Bits / sec
Hz 10
16‐QAM
3 QPSK 8‐PSK
2
BPSK Région à bande limitée: Ht / B >1
Db/B 1
Région à Puissance limitée: Ht / B < 1
MOD (16‐FSK)
MOD (64‐FSK)
0,1
‐1,6 dB (Eb /N0) dB
Figure 10: Efficacité spectrale maximale permettant l’existence d’une transmission fiable (d’après la Théorie de
l’Information) pour un rapport Eb/N0 donné. Comparaison avec l’efficacité spectrale obtenue pour des techniques
de Modulations classiques sans codage (avec Pe = 10-5).
N.B. : pour les modulations numériques sur fréquence porteuse, la formule de la capacité de Shannon (HTS) établie
pour des signaux réels passe-bas de bande [-B ;+B] reste applicable pour un signal x(t) réel bande étroite, avec une
largeur B (c’est à dire B/2) autour de la fréquence porteuse f0.
En effet, la quantité d’information de ce signal correspond à celle de son enveloppe complexe (signal complexe passe-
bas de bande [-B/2 ; +B/2]) ou encore à celle d’un signal réel passe-bas de bande [-B ; +B].
42
Fiche n°3 Théorie de l’information : V.A. continues et Canal BBAG.
1) loi p(x) uniforme : pour x bornée entre –M et +M et uniformément distribuée entre ces valeurs, exprimer
l’entropie HU(x) en fonction de x2.
2) Comparer la valeur trouvée à l’entropie maximale Hmax(x) possible avec cette variance x2 en rappelant
la loi p(x) permettant de l’obtenir (sans contrainte sur la plage des amplitudes).
1) Exprimer le RSB à l’entrée du récepteur (dont la bande est limitée à celle du signal utile), ainsi que
l’expression de la capacité du canal Ct en Sh/sec, en fonction de la bande B.
2) Tracer (quelques points) Ct = f(B) et commenter. Préciser l’expression et la valeur maximale possible
Ctmax en précisant la condition sur la bande B et sur le RSB pour s’en approcher.
NB : la fonction x .ln(1+ 1/x) est croissante depuis 0 pour x 0, et -> 1 pour x -> + .
3) On suppose qu’une photo est constituée de 500000 pixels codés sur 16 bits, que le taux de redondance
est de 90%, et qu’il y a 22 photos à transmettre. Calculer la quantité d’information Q (en Sh) à
transmettre et le temps minimal pour qu’une transmission fiable soit possible (existence d’un dispositif).
4) Annexe : On suppose que le dispositif de transmission imposé se décompose (après suppression de la redondance)
en un codage de canal et une modulation polaire à 2 états, avec une bande B0 = 1kHz. La réception réalise la
démodulation avec décision (dure) sur les bits avant décodage canal. Préciser alors la nouvelle capacité du canal
avec ce schéma de modulation imposé. Commentez.
NB : on admet (ou voir cours de « Transmissions et Communication Numérique ») que la modulation polaire à 2
états dans une bande [-B0 ; +B0] permet d’acheminer un débit de Dc = 2B0 bit/s, avec la probabilité d’erreur Pe =
Q{ (RSB)1/2 } dans le canal discret équivalent (MOD – canal BBAG - DMOD) symétrique. En particulier Q{ (1)1/2 }
= 0,1587.
43