Il 0% ha trovato utile questo documento (0 voti)
12 visualizzazioni58 pagine

Le Origini Del Calcolo Delle Probabilità: Dalle Sale Da Gioco Alla Formalizzazione Assiomatica

Il calcolo delle probabilità ha origini legate ai giochi d'azzardo del XVII secolo, evolvendosi da intuizioni empiriche a una rigorosa formalizzazione grazie a matematici come Pascal e Fermat. Il documento esplora le radici storiche della teoria, evidenziando il contributo di figure come Cardano e il Cavaliere di Méré, fino all'importante corrispondenza tra Pascal e Fermat che ha segnato la nascita della disciplina. Attraverso problemi pratici, come la divisione delle poste, vengono introdotti concetti fondamentali della probabilità che hanno rivoluzionato il modo di pensare l'incertezza.

Caricato da

silvano salvador
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Il 0% ha trovato utile questo documento (0 voti)
12 visualizzazioni58 pagine

Le Origini Del Calcolo Delle Probabilità: Dalle Sale Da Gioco Alla Formalizzazione Assiomatica

Il calcolo delle probabilità ha origini legate ai giochi d'azzardo del XVII secolo, evolvendosi da intuizioni empiriche a una rigorosa formalizzazione grazie a matematici come Pascal e Fermat. Il documento esplora le radici storiche della teoria, evidenziando il contributo di figure come Cardano e il Cavaliere di Méré, fino all'importante corrispondenza tra Pascal e Fermat che ha segnato la nascita della disciplina. Attraverso problemi pratici, come la divisione delle poste, vengono introdotti concetti fondamentali della probabilità che hanno rivoluzionato il modo di pensare l'incertezza.

Caricato da

silvano salvador
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Sei sulla pagina 1/ 58

1

Le origini del Calcolo delle Probabilità: dalle sale da gioco alla formalizzazione
assiomatica

La teoria delle probabilità rappresenta uno dei pilastri fondamentali della matematica
moderna, eppure le sue origini sono curiosamente legate a questioni
apparentemente frivole: i giochi d'azzardo, le scommesse e i problemi di equa
divisione delle poste. Questa disciplina, che oggi permea ogni aspetto della scienza
moderna dalla fisica quantistica all'intelligenza artificiale, ha iniziato il suo cammino
nelle sale da gioco del XVII secolo, quando alcuni dei più grandi matematici dell'epoca
si confrontarono con domande apparentemente semplici ma profondamente ricche
di implicazioni teoriche.
Il percorso che ci ha portato dalla nozione intuitiva di "caso" alla rigorosa
formalizzazione assiomatica di Andrej Kolmogorov è stato lungo e tortuoso, costellato
di intuizioni brillanti, dibattiti filosofici e progressivi raffinamenti concettuali. Nel
presente contributo esploreremo questa evoluzione in dettaglio, analizzando non
solo i risultati matematici ma anche il contesto storico e culturale che li ha generati.

Capitolo I: Le Radici Antiche - Prima di una Teoria Formale

Sebbene si tenda a identificare la nascita del calcolo delle probabilità con la


corrispondenza tra Pascal e Fermat nel 1654, sarebbe errato pensare che prima di
quella data non esistesse alcuna riflessione sul caso e sull'incertezza. Gli esseri umani
hanno sempre dovuto confrontarsi con l'incertezza, e tracce di ragionamenti
probabilistici si trovano già nell'antichità.

I Romani utilizzavano gli astragali, piccoli ossi del tarso di alcuni animali, come dadi, e
certamente avevano una comprensione empirica delle diverse probabilità associate
ai loro lanci. Tuttavia mancava completamente una teoria matematica che potesse
quantificare queste intuizioni. Aristotele stesso aveva riflettuto sulla natura del caso
e della contingenza nella sua Fisica, distinguendo tra eventi necessari, impossibili e
possibili, ma sempre in un contesto filosofico piuttosto che matematico.

Durante il Medioevo, alcuni studiosi arabi svilupparono importanti contributi nel


campo della combinatoria, che sarebbe poi diventata uno strumento essenziale per il
calcolo delle probabilità. Al-Khalil ibn Ahmad al-Farahidi (718-786) studiò
sistematicamente le permutazioni delle parole arabe, mentre nel XIII secolo il
matematico cinese Yang Hui esplorò il triangolo aritmetico che in Occidente sarebbe
stato poi associato a Pascal.

Un passaggio cruciale si ebbe con Gerolamo Cardano (1501-1576), medico,


matematico e giocatore accanito. Nel suo Liber de Ludo Aleae (Libro sui giochi
d'azzardo), scritto intorno al 1564 ma pubblicato postumo solo nel 1663, Cardano

Silvano Salvador
2

presentò alcuni dei primi tentativi di analisi matematica dei giochi di fortuna. Egli
comprese che con un dado equo ciascuna delle sei facce ha uguale probabilità di
apparire, e che quindi la probabilità di ottenere un particolare numero è 1/6. Più
significativamente, Cardano intuì che per eventi indipendenti le probabilità si
moltiplicano: la probabilità di ottenere due sei consecutivi lanciando due dadi è (1/6)
× (1/6) = 1/36.

Tuttavia l'approccio di Cardano rimase largamente empirico e non si sviluppò in una


teoria generale. Mancava ancora un linguaggio matematico adeguato e, soprattutto,
mancava l'interesse della comunità matematica dell'epoca per questi problemi,
considerati troppo legati al gioco e quindi poco rispettabili dal punto di vista
intellettuale.

Capitolo II: Il 1654 - L'Annus Mirabilis della Probabilità

Il Problema del Cavaliere di Méré

La vera svolta nella storia del calcolo delle probabilità avvenne grazie a un
aristocratico francese appassionato di gioco, Antoine Gombaud, Cavaliere di Méré.
Nel 1654 il Cavaliere di Méré pose a Blaise Pascal due quesiti che si sarebbero rivelati
di importanza fondamentale per lo sviluppo della teoria.

Il primo problema riguardava una questione che aveva tormentato de Méré nelle sue
esperienze di gioco. Egli aveva notato empiricamente che scommettere di ottenere
almeno un sei in quattro lanci di un dado sembrava essere vantaggioso, mentre
scommettere di ottenere almeno un doppio sei in 24 lanci di due dadi sembrava
essere svantaggioso. Questo lo lasciava profondamente perplesso, dato che il
rapporto 24:4 = 6:1 corrispondeva esattamente al rapporto tra le possibilità di
ottenere un doppio sei (1 su 36) e quelle di ottenere un sei (1 su 6). La sua intuizione
suggeriva che i due giochi dovessero essere equivalenti, ma l'esperienza al tavolo da
gioco lo contraddiceva.

Pascal analizzò il problema con il rigore che sarebbe diventato caratteristico del nuovo
calcolo. Per il primo caso, la probabilità di non ottenere un sei in un singolo lancio è
5/6. Poiché i lanci sono indipendenti, la probabilità di non ottenere alcun sei in quattro
lanci consecutivi è quindi (5/6)^4 = 625/1296 ≈ 0,4823. Di conseguenza, la probabilità
complementare di ottenere almeno un sei è 1 − (5/6)^4 = 671/1296 ≈ 0,5177, che è
leggermente maggiore di 1/2, rendendo effettivamente la scommessa favorevole al
giocatore.

Per il secondo caso, la probabilità di non ottenere un doppio sei in un singolo lancio
di due dadi è 35/36. La probabilità di non ottenere alcun doppio sei in 24 lanci è quindi

Silvano Salvador
3

(35/36)^24 ≈ 0,5086. Conseguentemente, la probabilità di ottenere almeno un doppio


sei è 1 − (35/36)^24 ≈ 0,4914, che è leggermente minore di 1/2, rendendo la
scommessa sfavorevole al giocatore.

Questa analisi dimostrò che l'intuizione del Cavaliere di Méré era corretta nel
riconoscere una differenza tra i due giochi, ma per ragioni più sottili e
matematicamente profonde di quanto egli avesse immaginato. Il rapporto semplice
6:1 non catturava la complessità del problema, che richiedeva invece la comprensione
delle probabilità composte e del concetto di evento complementare. Questo esempio
illustra magnificamente come l'intuizione pratica, pur potendo guidare verso la verità,
necessiti del rigore matematico per essere pienamente compresa e giustificata.

Il Problema della Divisione delle Poste

Il secondo problema posto da de Méré a Pascal era ancora più profondo dal punto di
vista teorico e aveva già una lunga storia di tentativi di soluzione. Si tratta del
cosiddetto "problema della divisione delle poste" (problème des partis): supponiamo
che due giocatori di uguale abilità stiano giocando una serie di partite, e che il primo
a vincere n partite si aggiudichi l'intera posta. Se il gioco viene interrotto
prematuramente quando un giocatore ha vinto a partite e l'altro b partite (con a, b <
n), come dovrebbe essere divisa equamente la posta tra i due giocatori?

Questo problema era stato considerato già nel Medioevo da diversi matematici. Fra'
Luca Pacioli, nel suo monumentale Summa de Arithmetica, Geometria, Proportioni et
Proportionalita (1494), aveva proposto una soluzione basata sul semplice rapporto
tra le partite già vinte: se un giocatore ha vinto a partite e l'altro b, la posta dovrebbe
essere divisa nel rapporto a:b. Tuttavia questa soluzione è manifestamente
insoddisfacente: non tiene minimamente conto del numero totale di partite
necessarie per vincere il gioco. Per esempio, se il primo giocatore ha vinto 3 partite e
il secondo 2, ma sono necessarie 100 vittorie per aggiudicarsi la posta, la divisione 3:2
ignora completamente il fatto che entrambi i giocatori sono ancora molto lontani
dalla vittoria finale.

Cardano aveva proposto una soluzione leggermente migliore, considerando anche le


partite che restano da giocare, ma anche la sua analisi era matematicamente
incompleta e non forniva il metodo generale di soluzione. Il problema richiedeva un
approccio completamente nuovo, che considerasse non solo la situazione attuale ma
tutti i possibili sviluppi futuri del gioco.

Pascal iniziò una corrispondenza matematica con Pierre de Fermat nell'estate del
1654, e insieme i due matematici svilupparono due metodi diversi ma
matematicamente equivalenti per risolvere il problema. La loro corrispondenza,

Silvano Salvador
4

fortunatamente conservata e pubblicata postuma, rappresenta l'atto di nascita


formale del calcolo delle probabilità come disciplina matematica.

L'Approccio di Pascal: Il Triangolo Aritmetico

Pascal affrontò il problema utilizzando quello che oggi chiamiamo "triangolo di


Pascal", anche se la struttura combinatoria era già nota a matematici precedenti come
Tartaglia e lo stesso Yang Hui. L'idea geniale di Pascal fu quella di considerare
sistematicamente tutti i possibili esiti delle partite rimanenti e di contarli utilizzando
le proprietà del suo triangolo aritmetico.

Supponiamo che manchino r = n − a partite al primo giocatore e s = n − b partite al


secondo per raggiungere le n vittorie necessarie e aggiudicarsi la posta. Il numero
totale di partite che dovrebbero essere giocate al massimo è r + s − 1, perché una
volta che uno dei due giocatori raggiunge n vittorie totali, il gioco termina
immediatamente. Tuttavia, per semplicità di calcolo, Pascal considerò tutte le r + s −
1 partite anche se nella realtà il gioco potrebbe terminare prima, osservando che
questo non cambia il risultato finale poiché stiamo solo determinando quale giocatore
raggiungerà per primo il traguardo.

In r + s − 1 partite future il numero totale di possibili sequenze di vittorie e sconfitte è


2^(r+s−1), assumendo che ogni partita sia equiprobabile. Di queste sequenze possibili,
il primo giocatore vince il gioco complessivo se ottiene almeno r vittorie nelle r + s −
1 partite considerate. Dobbiamo quindi contare in quanti modi può ottenere
esattamente k vittorie per ogni valore k = r, r+1, ..., r+s−1.

Il numero di modi in cui possono verificarsi esattamente k vittorie in r+s−1 partite è


dato dal coefficiente binomiale:

C(r+s−1, k) = (r+s−1)! / [k!(r+s−1−k)!]

La probabilità che il primo giocatore vinca il gioco complessivo è quindi:

P₁ = [Σ(k=r fino a r+s−1) C(r+s−1, k)] / 2^(r+s−1)

Pascal sviluppò metodi eleganti per calcolare queste somme utilizzando le proprietà
ricorsive del suo triangolo aritmetico, in particolare l'identità C(n,k) = C(n−1,k−1) +
C(n−1,k). La posta dovrebbe quindi essere divisa in modo che il primo giocatore riceva
una frazione P₁ dell'ammontare totale, e il secondo giocatore riceva la frazione
complementare P₂ = 1 − P₁.

L'Approccio di Fermat: L'Analisi Combinatoria

Silvano Salvador
5

Fermat preferì un approccio leggermente diverso, basato sull'enumerazione esplicita


e diretta di tutti i casi possibili. Per esempio, se al primo giocatore mancano 2 vittorie
e al secondo ne mancano 3, Fermat considerò tutte le possibili sequenze di
esattamente 2 + 3 − 1 = 4 partite future.

Rappresentando con A una vittoria del primo giocatore e con B una vittoria del
secondo, le 2^4 = 16 sequenze possibili sono:

AAAA, AAAB, AABA, AABB, ABAA, ABAB, ABBA, ABBB,


BAAA, BAAB, BABA, BABB, BBAA, BBAB, BBBA, BBBB

Il primo giocatore vince il gioco complessivo se nella sequenza compaiono almeno 2


occorrenze della lettera A prima che compaiano 3 occorrenze della lettera B.
Contando esplicitamente caso per caso, troviamo che il primo giocatore vince in 11
casi su 16, quindi la posta dovrebbe essere divisa equamente nel rapporto 11:5.

Sebbene questo metodo possa sembrare più elementare e meno sofisticato dal punto
di vista matematico, ha il considerevole merito di essere estremamente chiaro,
diretto e trasparente dal punto di vista concettuale. Fermat riconosceva
esplicitamente che per casi più complessi questo approccio enumerativo diventa
computazionalmente oneroso e praticamente irrealizzabile, ma lo considerava
concettualmente più trasparente e quindi pedagogicamente superiore per
comprendere la natura del problema.

Il Significato Profondo della Soluzione

Ciò che rende la soluzione di Pascal e Fermat così importante nella storia della
matematica non è solo la correttezza matematica del risultato finale, ma il fatto che
essa introduce implicitamente diversi concetti fondamentali che sarebbero diventati
i pilastri della teoria delle probabilità:

1. Lo spazio degli eventi elementari: L'idea di considerare sistematicamente tutti gli


esiti possibili di un esperimento aleatorio, rappresentati come le sequenze di vittorie
e sconfitte.

2. Gli eventi equiprobabili: L'assunzione fondamentale che, in assenza di informazioni


contrarie o di asimmetrie nel gioco, tutti gli esiti elementari hanno uguale probabilità
di verificarsi.

Silvano Salvador
6

3. La probabilità come rapporto: La definizione operativa di probabilità come rapporto


tra il numero di casi favorevoli (quelli in cui si verifica l'evento di interesse) e il numero
totale di casi possibili (assumendo equiprobabilità).

4. Il valore atteso: Implicitamente, la divisione della posta secondo le probabilità di


vittoria introduce il concetto di valore atteso o speranza matematica, ossia la quantità
che ci si aspetta di vincere "in media".

Questi concetti, che oggi ci sembrano ovvi e quasi banali, rappresentavano all'epoca
una vera rivoluzione concettuale nel modo di pensare l'incertezza e di quantificarla
matematicamente. Prima di Pascal e Fermat, si pensava all'incertezza in termini vaghi
e qualitativi; dopo di loro, divenne possibile trattarla con il rigore e la precisione del
calcolo matematico.

Capitolo III: Christiaan Huygens e il Primo Trattato Sistematico

La corrispondenza tra Pascal e Fermat circolò rapidamente negli ambienti matematici


europei, suscitando grande interesse e curiosità. Nel 1657 il matematico e fisico
olandese Christiaan Huygens venne a conoscenza dei problemi discussi dai due
matematici francesi durante un viaggio a Parigi. Profondamente affascinato dalle
questioni sollevate e dalla loro eleganza matematica, Huygens decise di svilupparle in
modo sistematico e rigoroso, creando la prima esposizione organica della nascente
teoria.

Nel 1657 pubblicò De Ratiociniis in Ludo Aleae (Sul Ragionamento nel Gioco dei Dadi),
il primo trattato stampato interamente dedicato al calcolo delle probabilità. È
importante notare che Huygens non aveva letto direttamente la corrispondenza
Pascal-Fermat, ma aveva ricevuto solo una descrizione orale e sommaria dei problemi
e delle loro soluzioni. Risolse quindi i problemi in modo completamente indipendente,
un fatto notevole che testimonia sia la sua straordinaria abilità matematica sia la
naturalità delle idee sottostanti una volta che il problema è stato formulato
correttamente. Inoltre, Huygens aggiunse numerose considerazioni originali e nuovi
problemi che estendevano significativamente la portata della teoria.
Il Concetto di Aspettativa

Il contributo più importante e duraturo di Huygens fu l'introduzione esplicita e


formale del concetto di "aspettativa" (expectatio), che oggi chiamiamo valore atteso
o speranza matematica. Huygens formulò il seguente principio fondamentale, che
pose alla base di tutta la sua trattazione:

Silvano Salvador
7

"Se io ho p possibilità di ottenere a unità monetarie e q possibilità di ottenere b unità


monetarie, e tutte le possibilità sono ugualmente probabili, allora la mia aspettativa
è (pa + qb)/(p + q)."

In notazione moderna, se un evento aleatorio può produrre un guadagno x₁ con


probabilità p₁ e un guadagno x₂ con probabilità p₂, allora il valore atteso del guadagno
è:

E[X] = p₁x₁ + p₂x₂

Più generalmente, per una variabile aleatoria discreta che può assumere i valori x₁,
x₂, ..., xₙ con le probabilità rispettive p₁, p₂, ..., pₙ, il valore atteso è definito come:

E[X] = Σ(i=1 fino a n) pᵢxᵢ

dove necessariamente Σ(i=1 fino a n) pᵢ = 1, essendo le pᵢ probabilità che esauriscono


tutti i casi possibili.

Questo concetto è fondamentale perché fornisce una misura numerica unica per
confrontare diverse opportunità aleatorie. Se devo scegliere tra due giochi d'azzardo
diversi, posso calcolare il valore atteso di ciascuno e scegliere quello con il valore
atteso maggiore. Ovviamente questa è una semplificazione, come si capirà meglio
quando discuteremo il paradosso di San Pietroburgo, ma rappresenta comunque un
primo passo cruciale verso una teoria razionale della decisione in condizioni di
incertezza.

I Problemi di Huygens e le Equazioni Ricorsive

Il trattato di Huygens è strutturato secondo lo stile classico euclideo, come una serie
ordinata di proposizioni accompagnate da dimostrazioni rigorose. Egli presentò
quattordici problemi di difficoltà crescente, alcuni dei quali estremamente sofisticati
e che richiedono tecniche matematiche avanzate per l'epoca.

Un problema particolarmente interessante e istruttivo è il seguente: supponiamo che


tre giocatori A, B e C giochino con due dadi. Il giocatore A vince se ottiene un totale
di sei prima degli altri due, il giocatore B vince se ottiene un totale di sette prima degli
altri due, e il giocatore C vince se ottiene un totale di otto prima degli altri due. Come
dovrebbero essere calcolate le loro aspettative, ossia quanto ciascuno dovrebbe
essere disposto a pagare per entrare nel gioco se la posta totale è di 1 unità
monetaria?

Silvano Salvador
8

Per risolvere questo problema, Huygens utilizzò un ragionamento ricorsivo di


notevole eleganza. In ogni lancio dei due dadi, le probabilità di ottenere i totali 6, 7 o
8 sono rispettivamente:

P(6) = 5/36 (le coppie 1+5, 2+4, 3+3, 4+2, 5+1)


P(7) = 6/36 = 1/6 (le coppie 1+6, 2+5, 3+4, 4+3, 5+2, 6+1)
P(8) = 5/36 (le coppie 2+6, 3+5, 4+4, 5+3, 6+2)

La probabilità di non ottenere nessuno di questi tre risultati critici è:

P(altro) = 1 − 5/36 − 6/36 − 5/36 = 20/36 = 5/9

Se denotiamo con a, b, c le aspettative rispettive dei giocatori A, B, C (supponendo


che la posta totale sia 1 unità monetaria), possiamo scrivere le seguenti equazioni
ricorsive che esprimono il fatto che l'aspettativa di un giocatore è data dalla somma
pesata dei possibili esiti del prossimo lancio:

a = (5/36) × 1 + (5/9) × a
b = (6/36) × 1 + (5/9) × b
c = (5/36) × 1 + (5/9) × c

La prima equazione esprime il fatto che il giocatore A vince immediatamente l'intera


posta con probabilità 5/36 (ottenendo un sei), oppure con probabilità 5/9 non
succede nulla di rilevante e la sua aspettativa rimane invariata al valore a. Le altre
equazioni hanno un'interpretazione analoga.

Risolvendo la prima equazione per a:

a = 5/36 + (5/9)a
a − (5/9)a = 5/36
(4/9)a = 5/36
a = (5/36) × (9/4) = 45/144 = 5/16

Analogamente per b:

b = 6/36 + (5/9)b
b = 1/6 + (5/9)b
(4/9)b = 1/6
b = (1/6) × (9/4) = 9/24 = 3/8

E per simmetria con il giocatore A (stessa probabilità di vincita in ogni lancio), c = 5/16.

Silvano Salvador
9

Possiamo verificare la correttezza del risultato osservando che le tre aspettative


devono sommare a 1 (la posta totale deve essere distribuita completamente):

a + b + c = 5/16 + 3/8 + 5/16 = 5/16 + 6/16 + 5/16 = 16/16 = 1 ✓

Questo tipo di analisi, che utilizza le equazioni ricorsive e considera le aspettative


come incognite da determinare, fu estremamente innovativo per l'epoca e prefigurò
molti sviluppi futuri nella teoria delle decisioni, nella teoria dei giochi, e nello studio
dei processi stocastici.

Capitolo IV: Jakob Bernoulli e la Legge dei Grandi Numeri

Dopo i lavori pionieristici di Pascal, Fermat e Huygens nella seconda metà del XVII
secolo, il calcolo delle probabilità continuò a svilupparsi principalmente attraverso lo
studio di problemi di gioco sempre più complessi e sofisticati. Tuttavia mancava
ancora una comprensione profonda e teoricamente fondata di come i risultati teorici
del calcolo delle probabilità si collegassero effettivamente alle frequenze osservate
nella realtà empirica. Questa lacuna era particolarmente problematica per le
applicazioni pratiche: come possiamo usare la teoria per fare inferenze sul mondo
reale?

Jakob Bernoulli (1654-1705), matematico svizzero della celebre famiglia Bernoulli che
produsse generazioni di matematici eccellenti, dedicò gli ultimi decenni della sua vita
a una trattazione sistematica e rigorosa del calcolo delle probabilità. La sua opera
magna, Ars Conjectandi (Arte di Congetturare), fu pubblicata postuma nel 1713 dal
nipote Nikolaus Bernoulli e contiene uno dei risultati più importanti e influenti di tutta
la teoria delle probabilità: la legge dei grandi numeri.

La Distribuzione Binomiale

Prima di giungere al suo risultato principale sulla legge dei grandi numeri, Bernoulli
dovette sviluppare sistematicamente la teoria delle prove ripetute e delle loro
distribuzioni di probabilità. Consideriamo un esperimento che può avere due soli esiti
possibili: successo (con probabilità p) o fallimento (con probabilità q = 1 − p). Questo
tipo di esperimento è quello che oggi chiamiamo una prova di Bernoulli, in onore
proprio di Jakob Bernoulli.

Se eseguiamo n prove indipendenti di questo tipo, qual è la probabilità di ottenere


esattamente k successi? Bernoulli dimostrò in modo rigoroso che questa probabilità
è data dalla formula:

P(X = k) = C(n,k) × p^k × q^(n−k) = [n!/(k!(n−k)!)] × p^k × (1−p)^(n−k)

Silvano Salvador
10

Questa è la famosa distribuzione binomiale, che oggi denotiamo con la notazione X ~


Bin(n,p). Il ragionamento alla base di questa formula è il seguente: ci sono C(n,k) modi
diversi di scegliere quali k prove tra le n totali saranno successi (e le rimanenti n−k
saranno fallimenti). Per ciascuna di queste configurazioni specifiche, la probabilità di
ottenere esattamente quella particolare sequenza di successi e fallimenti è p^k ×
q^(n−k), poiché le prove sono indipendenti e quindi le probabilità si moltiplicano.
Sommando su tutte le C(n,k) configurazioni possibili otteniamo la formula finale.

Il valore atteso del numero totale di successi X è:

E[X] = Σ(k=0 fino a n) k × C(n,k) × p^k × q^(n−k) = np

Questo risultato fondamentale può essere dimostrato in vari modi. Il metodo più
elegante e concettualmente chiaro è il seguente: se definiamo X₁, X₂, ..., Xₙ come le
variabili indicatrici (dove Xᵢ = 1 se l'i-esima prova è un successo, e Xᵢ = 0 altrimenti),
allora il numero totale di successi è semplicemente X = X₁ + X₂ + ... + Xₙ. Per la proprietà
di linearità del valore atteso, che vale anche per variabili dipendenti:

E[X] = E[X₁] + E[X₂] + ... + E[Xₙ] = p + p + ... + p = np

La varianza di X, che misura la dispersione della distribuzione attorno alla media, è:

Var(X) = npq = np(1−p)

Questa formula si dimostra usando l'indipendenza delle prove, che implica che la
varianza della somma è la somma delle varianze.

Il Teorema di Bernoulli: La Legge dei Grandi Numeri

Il risultato più importante e rivoluzionario dell'Ars Conjectandi è quello che oggi


chiamiamo "legge debole dei grandi numeri". Bernoulli dimostrò che se eseguiamo
un numero molto grande di prove indipendenti di Bernoulli, allora la frequenza
relativa dei successi converge in probabilità alla probabilità teorica di successo.
Questo risultato fornisce il ponte cruciale tra la teoria astratta delle probabilità e
l'osservazione empirica delle frequenze.

Formalmente, sia X il numero totale di successi in n prove di Bernoulli con probabilità


di successo p. Allora, per ogni ε > 0 (arbitrariamente piccolo quanto si vuole):

lim(n→∞) P(|X/n − p| < ε) = 1

Silvano Salvador
11

In altre parole, la probabilità che la frequenza relativa X/n differisca dalla probabilità
teorica p per più di ε tende a zero quando il numero di prove n cresce indefinitamente.
Possiamo essere sempre più certi che la frequenza osservata sarà vicina alla
probabilità teorica se aumentiamo sufficientemente il numero di osservazioni.

La dimostrazione di Bernoulli, sebbene non rigorosa secondo gli standard moderni di


analisi matematica, conteneva sostanzialmente l'essenza dell'argomento corretto.
Egli stimò la probabilità che X/n cada in un intervallo centrato in p usando la
distribuzione binomiale e mostrò che questa probabilità può essere resa
arbitrariamente vicina a 1 scegliendo n sufficientemente grande.

Più precisamente, possiamo riscrivere l'evento di interesse come:

P(|X/n − p| ≥ ε) = P(|X − np| ≥ nε)

Usando la disuguaglianza di Chebyshev, che non era ancora disponibile ai tempi di


Bernoulli ma che rende la dimostrazione molto più semplice e diretta, possiamo
scrivere:

P(|X − np| ≥ nε) ≤ Var(X)/(nε)² = np(1−p)/(nε)² = p(1−p)/(nε²)

Poiché il prodotto p(1−p) assume il suo valore massimo quando p = 1/2, e in quel caso
vale 1/4, abbiamo per ogni p ∈ [0,1]:

P(|X/n − p| ≥ ε) ≤ 1/(4nε²)

Questa quantità tende manifestamente a zero quando n → ∞, dimostrando il


teorema.

Il Significato Epistemologico del Risultato

Il teorema di Bernoulli ebbe un'importanza che andava ben oltre il suo contenuto
matematico specifico, avendo profonde implicazioni epistemologiche e filosofiche.
Esso forniva per la prima volta una giustificazione teorica rigorosa per l'uso del
metodo empirico nelle scienze: osservando un fenomeno aleatorio un numero
sufficientemente grande di volte, possiamo inferire con crescente affidabilità la sua
probabilità "vera" o teorica. Questo collegamento fondamentale tra la probabilità
teorica (una quantità matematica astratta) e la frequenza osservata (una quantità
empiricamente accessibile) fu cruciale per l'applicazione del calcolo delle probabilità
alle scienze naturali, alle scienze sociali, e in generale a qualunque dominio in cui si
debba ragionare sull'incertezza basandosi su dati empirici.

Silvano Salvador
12

Bernoulli stesso era profondamente consapevole della portata filosofica del suo
risultato. Nell'Ars Conjectandi scrisse con eloquenza: "Perfino l'uomo più stupido sa,
per un certo istinto naturale e senza alcuna istruzione preventiva (il che è notevole),
che più osservazioni si fanno di un fenomeno, meno è il pericolo di errare nel giudicare
la sua natura." Il teorema di Bernoulli trasformava questa intuizione vaga e qualitativa
in un risultato matematico preciso e quantitativo, mostrando esattamente quanto
rapidamente la certezza aumenta con il numero di osservazioni.

Capitolo V: Abraham de Moivre e la Scoperta della Curva Normale

Abraham de Moivre (1667-1754) fu un matematico francese ugonotto che, dopo la


revoca dell'Editto di Nantes nel 1685 che pose fine alla tolleranza religiosa in Francia,
fu costretto a rifugiarsi in Inghilterra per sfuggire alle persecuzioni religiose. Lì visse
una vita economicamente precaria, guadagnandosi da vivere principalmente come
consulente matematico per giocatori, speculatori e uomini d'affari, risolvendo
problemi complessi di probabilità, annuità e calcoli attuariali.

Nel 1718 pubblicò The Doctrine of Chances (La Dottrina delle Probabilità), un'opera
monumentale che ampliava e perfezionava sistematicamente i risultati di Huygens e
Bernoulli. Ma il suo contributo più significativo e duraturo venne nella seconda
edizione del 1738 e in un supplemento del 1733 intitolato Approximatio ad Summam
Terminorum Binomii (a+b)^n in Seriem expansi.

Il Problema delle Approssimazioni

Un problema pratico fondamentale con la distribuzione binomiale è che per valori


grandi di n i calcoli diventano estremamente onerosi e praticamente impossibili da
eseguire con i mezzi di calcolo disponibili all'epoca. Calcolare il coefficiente binomiale
C(n,k) = n!/(k!(n−k)!) per n = 1000 richiedeva operazioni con numeri
astronomicamente grandi e era sostanzialmente impossibile nell'epoca di de Moivre,
quando tutti i calcoli dovevano essere eseguiti manualmente.

De Moivre cercò quindi un'approssimazione utilizzabile per n grande che permettesse


di stimare le probabilità binomiali senza dover eseguire calcoli impossibili.
Consideriamo la distribuzione binomiale X ~ Bin(n,p). Abbiamo visto che E[X] = np e
Var(X) = np(1−p). Consideriamo la variabile standardizzata, ossia la variabile
trasformata in modo da avere media 0 e varianza 1:

Z = (X − np)/√[np(1−p)]

De Moivre scoprì che per n grande la distribuzione di probabilità di questa variabile Z


si avvicina a una particolare curva continua, sempre la stessa indipendentemente dai

Silvano Salvador
13

valori specifici di n e p. Questa curva universale è quella che oggi chiamiamo la


distribuzione normale o gaussiana.

La Scoperta della Curva Normale

Nel caso speciale p = 1/2 (come nel lancio di una moneta perfettamente equilibrata),
de Moivre dimostrò con calcoli laboriosi che per n grande:

P(X = k) ≈ (1/√(πn/2)) × exp[−2(k−n/2)²/n]

In termini della variabile standardizzata Z = (X − n/2)/√(n/4) = 2(X − n/2)/√n, questo


diventa:

P(a ≤ Z ≤ b) ≈ (1/√(2π)) ∫[da a a b] exp(−z²/2) dz

Questa è la distribuzione normale standard, che oggi denotiamo con la notazione


N(0,1). La funzione densità di probabilità è:

φ(z) = (1/√(2π)) × exp(−z²/2)

De Moivre trovò questa formula notevole usando l'approssimazione di Stirling per i


fattoriali, scoperta quasi contemporaneamente da James Stirling:

n! ≈ √(2πn) × n^n × exp(−n)

Applicando questa approssimazione alla formula del coefficiente binomiale C(n,k) e


facendo diversi passaggi algebrici sofisticati, che richiedono una certa abilità
manipolativa e che qui omettiamo per brevità, de Moivre giunse alla formula della
curva normale. Il fatto notevole è che questa curva "a campana" emerge
naturalmente come approssimazione della distribuzione binomiale,
indipendentemente dal valore specifico di n purché sia grande.

L'Estensione al Caso Generale

Nella seconda edizione del 1738 del suo trattato, de Moivre estese il risultato al caso
generale di probabilità p ≠ 1/2 qualsiasi. Il teorema generale, che rappresenta una
versione primitiva del teorema del limite centrale, afferma che per X ~ Bin(n,p):

P[(X − np)/√(np(1−p)) ≤ x] → Φ(x) quando n → ∞

dove Φ(x) = (1/√(2π)) ∫[da −∞ a x] exp(−t²/2) dt è la funzione di distribuzione


cumulativa normale standard.

Silvano Salvador
14

Questo risultato è profondo: ci dice che indipendentemente dal valore della


probabilità p di successo nelle singole prove, la distribuzione standardizzata del
numero totale di successi si avvicina sempre alla stessa curva normale quando n
cresce. De Moivre non dimostrò il risultato con il rigore che sarebbe stato richiesto
dagli standard moderni dell'analisi matematica, ma la sua intuizione era
sostanzialmente corretta e i suoi calcoli erano accurati.

Le Applicazioni Pratiche

De Moivre utilizzò questi risultati per risolvere numerosi problemi pratici che
richiedevano il calcolo di probabilità binomiali con n molto grande. Per esempio, nel
calcolo delle annuità vitalizie, che era un problema di grande importanza economica
e sociale, bisogna stimare la probabilità che una persona di una certa età sopravviva
per un dato numero di anni. Usando i dati di mortalità, raccolti per la prima volta in
modo sistematico da John Graunt e Edmund Halley, si può modellare la sopravvivenza
anno per anno come una sequenza di prove di Bernoulli, e quindi applicare
l'approssimazione normale per calcolare le probabilità rilevanti.

Un altro problema affrontato da de Moivre riguardava il gioco della "Pharaon",


estremamente popolare nelle sale da gioco dell'epoca. Il problema era tecnicamente
molto complesso e richiedeva il calcolo di probabilità binomiali con n molto grande,
dell'ordine di centinaia o migliaia. Usando la sua approssimazione normale, de Moivre
poteva fornire le risposte accurate in pochi minuti di lavoro, mentre un calcolo diretto
usando la formula binomiale esatta avrebbe richiesto ore o addirittura giorni di lavoro
manuale estenuante.

Capitolo VI: Pierre-Simon Laplace - La Sintesi Monumentale

Pierre-Simon Laplace (1749-1827) fu uno dei più grandi scienziati dell'epoca


napoleonica, paragonabile per statura intellettuale a Newton. Il suo contributo alla
teoria delle probabilità fu così vasto e profondo che per molti decenni dopo di lui la
disciplina fu essenzialmente "laplaciana". La sua Théorie Analytique des Probabilités
(1812), un'opera monumentale di oltre 400 pagine, rimase il testo di riferimento
fondamentale per tutto il XIX secolo e consolidò la teoria delle probabilità come una
branca matura della matematica.

Il Teorema del Limite Centrale nella sua Generalità

Laplace dimostrò una versione molto più generale del risultato di de Moivre, che oggi
chiamiamo il teorema del limite centrale. Non solo considerò le somme di variabili di

Silvano Salvador
15

Bernoulli, ma le somme di variabili aleatorie arbitrarie con opportune condizioni di


regolarità.

Sia X₁, X₂, ..., Xₙ una sequenza di variabili aleatorie indipendenti con la stessa
distribuzione di probabilità, aventi media μ e varianza σ² (entrambe finite).
Consideriamo la somma Sₙ = X₁ + X₂ + ... + Xₙ. Allora per la linearità del valore atteso:

E[Sₙ] = nμ

e per l'indipendenza delle variabili:

Var(Sₙ) = nσ²

La variabile standardizzata:

Zₙ = (Sₙ − nμ)/(σ√n) = (X̄ − μ)/(σ/√n)

dove X̄ = Sₙ/n è la media campionaria, ha per costruzione media 0 e varianza 1. Il


teorema del limite centrale di Laplace afferma che:

lim(n→∞) P(Zₙ ≤ x) = Φ(x)

per ogni x reale, dove Φ(x) è la funzione di distribuzione normale standard. Cioè, per
n sufficientemente grande la distribuzione di Zₙ si avvicina arbitrariamente alla
normale standard, indipendentemente dalla distribuzione originale delle variabili Xᵢ
(purché abbiano varianza finita).

Questo risultato è straordinariamente potente e generale. Spiega perché la


distribuzione normale appare così frequentemente in natura: ogni fenomeno che è il
risultato della somma di molti piccoli effetti indipendenti tenderà naturalmente a
seguire una distribuzione approssimativamente normale. Questo è il motivo per cui
gli errori di misura, le altezze umane, i punteggi dei test, e innumerevoli altri fenomeni
naturali e sociali seguono distribuzioni approssimativamente normali.

La dimostrazione di Laplace utilizzava le funzioni generatrici dei momenti e richiedeva


tecniche di analisi matematica molto sofisticate per l'epoca. Sebbene non rigorosa
secondo gli standard moderni (in particolare, mancava una giustificazione rigorosa
per lo scambio di limite e integrale), la dimostrazione conteneva tutte le idee
essenziali che sarebbero state formalizzate rigorosamente nel XX secolo da
matematici come Lindeberg e Lévy.

La Formula di Bayes e l'Inferenza Inversa

Silvano Salvador
16

Uno dei contributi più influenti e controversi di Laplace riguarda quello che oggi
chiamiamo "inferenza bayesiana". Il problema fondamentale può essere formulato
così: supponiamo di osservare un certo evento o dato E. Questo evento può essere
causato o spiegato da diverse ipotesi possibili H₁, H₂, ..., Hₙ. Come possiamo
determinare quale ipotesi è più probabile alla luce dei dati osservati?

Thomas Bayes (1702-1761), un pastore presbiteriano inglese, aveva affrontato questo


problema in un manoscritto pubblicato postumo nel 1763 da Richard Price. Tuttavia
fu Laplace che sviluppò la teoria in modo sistematico, generale e matematicamente
rigoroso, applicandola a innumerevoli problemi pratici di grande importanza.

Il teorema di Bayes nella sua forma più generale afferma:

P(Hᵢ|E) = [P(E|Hᵢ) × P(Hᵢ)] / P(E)

dove la probabilità totale dell'evento E è data dalla formula:

P(E) = Σⱼ P(E|Hⱼ) × P(Hⱼ)

sommando su tutte le ipotesi possibili. In questa formula fondamentale:

- P(Hᵢ) è la probabilità a priori dell'ipotesi Hᵢ, ossia la nostra credenza iniziale prima di
osservare i dati E
- P(E|Hᵢ) è la verosimiglianza (likelihood) di osservare E dato che l'ipotesi Hᵢ è vera
- P(Hᵢ|E) è la probabilità a posteriori di Hᵢ, ossia la nostra credenza aggiornata dopo
aver osservato E

La dimostrazione del teorema è estremamente semplice e segue direttamente dalla


definizione di probabilità condizionata. Dalla definizione:

P(Hᵢ|E) = P(Hᵢ ∩ E) / P(E)


P(E|Hᵢ) = P(E ∩ Hᵢ) / P(Hᵢ)

Poiché per commutatività P(Hᵢ ∩ E) = P(E ∩ Hᵢ), dalla seconda equazione ricaviamo:

P(E ∩ Hᵢ) = P(E|Hᵢ) × P(Hᵢ)

Sostituendo nella prima equazione otteniamo immediatamente il teorema di Bayes.

Il Principio della Ragione Insufficiente

Silvano Salvador
17

Un aspetto filosoficamente controverso dell'approccio di Laplace riguarda la scelta


delle probabilità a priori quando non abbiamo informazioni specifiche. Laplace
sosteneva il "principio della ragione insufficiente" o "principio di indifferenza": in
assenza di informazioni che favoriscano un'ipotesi rispetto a un'altra, tutte le ipotesi
devono essere considerate a priori equiprobabili.

Per esempio, nel famoso problema della stima della probabilità di nascita dei maschi,
Laplace considerò la probabilità p che nasca un maschio come una variabile incognita
da stimare. In assenza di informazioni preliminari, egli assunse una distribuzione
uniforme a priori su p, cioè π(p) = 1 per p ∈ [0,1], che significa che tutti i valori di p tra
0 e 1 sono considerati inizialmente ugualmente plausibili.

Se poi osserviamo che in n nascite ci sono state k maschi, la verosimiglianza secondo


il modello binomiale è:

L(p|k,n) = C(n,k) × p^k × (1−p)^(n−k)

Applicando il teorema di Bayes, la distribuzione a posteriori di p è proporzionale al


prodotto del prior per la verosimiglianza:

π(p|k,n) ∝ π(p) × L(p|k,n) = 1 × p^k × (1−p)^(n−k) = p^k × (1−p)^(n−k)

Per ottenere una vera densità di probabilità dobbiamo normalizzare dividendo per la
costante di integrazione:

π(p|k,n) = [p^k × (1−p)^(n−k)] / [∫₀¹ t^k × (1−t)^(n−k) dt]

L'integrale al denominatore è la funzione Beta di Eulero:

B(k+1, n−k+1) = [k!(n−k)!] / [(n+1)!]

Quindi la distribuzione a posteriori è:

π(p|k,n) = [(n+1)! / (k!(n−k)!)] × p^k × (1−p)^(n−k)

Questa è una distribuzione Beta con parametri α = k+1 e β = n−k+1, che scriviamo
Beta(k+1, n−k+1). Il valore atteso di questa distribuzione a posteriori è:

E[p|k,n] = (k+1)/(n+2)

Questo è il famoso stimatore di Laplace o "regola di successione". È interessante


notare che differisce leggermente dallo stimatore di massima verosimiglianza p̂ = k/n,

Silvano Salvador
18

essendo più "conservativo" nel senso che si sposta sempre verso il valore centrale
1/2. Questo riflette l'influenza del prior uniforme.

La Regola di Successione di Laplace

Un caso particolare interessante e storicamente famoso si ha quando k = n, cioè tutti


gli n eventi osservati sono stati successi. Lo stimatore di massima verosimiglianza
darebbe semplicemente p̂ = 1, suggerendo certezza assoluta che l'evento si
verificherà sempre. Ma lo stimatore bayesiano di Laplace dà invece:

E[p|n,n] = (n+1)/(n+2)

che è sempre strettamente minore di 1, per quanto grande sia n. Laplace usò questo
risultato per rispondere al problema filosofico: "Il sole è sorto per n giorni consecutivi.
Qual è la probabilità che sorga domani?" La sua risposta fu (n+1)/(n+2), che per n
grande è molto vicino a 1 ma mai esattamente uguale a 1.

Questo esempio, sebbene apparentemente frivolo e quasi ironico, illustra un punto


filosoficamente profondo: anche dopo moltissime osservazioni conformi a un pattern,
non possiamo mai essere assolutamente certi matematicamente che il fenomeno
continuerà. C'è sempre una piccola probabilità residua di sorpresa, di eccezione, di
rottura del pattern osservato. Questa è l'essenza dell'atteggiamento scientifico:
apertura permanente alla possibilità di revisione delle nostre credenze alla luce di
nuove evidenze.

Le Applicazioni alla Giustizia e alla Scienza

Laplace applicò i suoi metodi probabilistici a problemi di grande rilevanza pratica e


sociale. Uno dei più famosi e controversi riguarda l'analisi matematica dei verdetti
delle giurie nei tribunali. In Francia all'epoca una giuria di 12 persone decideva sulla
colpevolezza o innocenza di un accusato con la regola della maggioranza semplice (7
voti su 12). Laplace analizzò matematicamente la probabilità di errore giudiziario in
funzione della "competenza" media dei giurati, definita come la probabilità che un
singolo giurato individualmente giudichi correttamente.

Sia p la probabilità che un giurato individualmente giudichi correttamente la


colpevolezza o innocenza, e supponiamo che i giurati decidano indipendentemente
gli uni dagli altri (un'assunzione chiaramente problematica nella realtà, ma necessaria
per l'analisi matematica). La probabilità che almeno 7 su 12 giudichino correttamente
è data dalla distribuzione binomiale:

P(verdetto corretto) = Σ(k=7 fino a 12) C(12,k) × p^k × (1−p)^(12−k)

Silvano Salvador
19

Laplace calcolò questa probabilità per diversi valori di p e concluse che se p > 0,5 (i
giurati sono in media migliori di una scelta casuale), allora la probabilità di un verdetto
corretto aumenta significativamente con una giuria di 12 persone rispetto a un
singolo giudice. Tuttavia, e questo è il punto critico, se p < 0,5 (i giurati sono in media
peggiori di una scelta casuale), allora il sistema della giuria può effettivamente
peggiorare le cose rispetto a un singolo giudice.

In ambito astronomico, Laplace utilizzò i metodi probabilistici per trattare


sistematicamente gli errori di osservazione. Introdusse il metodo dei minimi quadrati
(indipendentemente da Gauss, con cui ci fu una famosa disputa di priorità scientifica)
per stimare i parametri da dati affetti da errori. Il criterio dei minimi quadrati può
essere giustificato probabilisticamente assumendo che gli errori seguano una
distribuzione normale: lo stimatore che minimizza la somma dei quadrati degli errori
è anche lo stimatore di massima verosimiglianza sotto questa assunzione.

Capitolo VII: Carl Friedrich Gauss e la Teoria degli Errori

Carl Friedrich Gauss (1777-1855), spesso considerato il più grande matematico di tutti
i tempi insieme a Archimede e Newton, giunse alla distribuzione normale da una
prospettiva completamente diversa rispetto a de Moivre e Laplace. Mentre questi
ultimi l'avevano derivata come approssimazione limite della distribuzione binomiale,
Gauss la ottenne studiando la teoria degli errori di misura in astronomia e geodesia.

La Teoria degli Errori di Misura

Gauss era profondamente interessato al problema pratico di come combinare


ottimalmente le molteplici misurazioni della stessa quantità fisica. Quando misuriamo
la posizione di una stella o la lunghezza di un arco di meridiano terrestre dieci volte e
otteniamo dieci valori leggermente diversi, qual è la migliore stima della quantità
vera? Come dovremmo pesare le diverse misurazioni? Questa domanda aveva
enorme importanza pratica per l'astronomia e la geodesia dell'epoca.

Gauss fece le seguenti assunzioni ragionevoli sulla distribuzione degli errori di misura
ε:

1. Gli errori positivi e negativi della stessa magnitudine sono ugualmente probabili: la
densità è simmetrica rispetto a zero
2. Gli errori piccoli sono più probabili degli errori grandi
3. Gli errori estremi sono molto improbabili
4. Gli errori nelle diverse misurazioni sono statisticamente indipendenti

Silvano Salvador
20

Gauss cercò poi di determinare quale distribuzione di probabilità per gli errori,
combinata con il principio della massima verosimiglianza, portasse naturalmente al
metodo dei minimi quadrati che egli aveva già sviluppato empiricamente nel 1795,
all'età straordinariamente giovane di 18 anni.

Supponiamo che il valore vero della quantità misurata sia θ, e che le misurazioni siano
x₁, x₂, ..., xₙ. Gli errori sono quindi εᵢ = xᵢ − θ. Se la funzione densità di probabilità
dell'errore è f(ε), allora la verosimiglianza complessiva delle osservazioni, assumendo
indipendenza, è:

L(θ) = ∏(i=1 fino a n) f(xᵢ − θ)

Prendendo il logaritmo naturale per semplicità di calcolo:

log L(θ) = Σ(i=1 fino a n) log f(xᵢ − θ)

Per massimizzare questa verosimiglianza rispetto al parametro θ, deriviamo e


uguagliamo a zero:

d/dθ [log L(θ)] = −Σ(i=1 fino a n) [f'(xᵢ − θ)/f(xᵢ − θ)] = 0

Gauss pose la domanda fondamentale: per quale scelta della funzione f questa
equazione di massima verosimiglianza è equivalente alla condizione che minimizza la
somma dei quadrati degli errori, Σ(i=1 fino a n) (xᵢ − θ)²?

La derivata della somma dei quadrati rispetto a θ è −2Σ(i=1 fino a n) (xᵢ − θ), che si
annulla quando θ è uguale alla media aritmetica θ = x̄ = (1/n)Σxᵢ.

Affinché le due condizioni coincidano per ogni insieme di osservazioni, dobbiamo


necessariamente avere:

f'(ε)/f(ε) = cε

per qualche costante c da determinare. Questa è un'equazione differenziale ordinaria


del primo ordine:

f'(ε) = c × ε × f(ε)

La soluzione generale è:

log f(ε) = (c/2)ε² + costante

Silvano Salvador
21

Quindi:

f(ε) = A × exp(cε²/2)

dove A è una costante di normalizzazione. Per avere una funzione densità di


probabilità che decresce per gli errori grandi (in accordo con l'assunzione che gli errori
grandi sono improbabili), dobbiamo necessariamente avere c < 0. Ponendo c = −2/σ²
dove σ > 0 è un parametro di scala da determinare dai dati:

f(ε) = A × exp[−ε²/(2σ²)]

La costante di normalizzazione A si trova imponendo che l'integrale della densità su


tutta la retta reale sia 1:

∫₋∞^∞ f(ε)dε = A ∫₋∞^∞ exp[−ε²/(2σ²)]dε = 1

Usando la formula dell'integrale gaussiano:

∫₋∞^∞ exp(−x²)dx = √π

con il cambio di variabile appropriato, otteniamo:

A = 1/(σ√(2π))

La densità finale è quindi:

f(ε) = [1/(σ√(2π))] × exp[−ε²/(2σ²)]

Questa è la distribuzione normale N(0, σ²). Se X = θ + ε è la misurazione (il valore vero


più l'errore), allora X ~ N(θ, σ²) con la densità:

f(x) = [1/(σ√(2π))] × exp[−(x−θ)²/(2σ²)]

Gauss aveva quindi derivato la distribuzione normale da principi completamente


diversi, mostrando che essa emerge naturalmente quando si cerca la distribuzione
degli errori che rende il metodo dei minimi quadrati equivalente alla massima
verosimiglianza.

Le Proprietà della Distribuzione Normale

La distribuzione normale ha proprietà matematiche notevoli che la rendono centrale


nella teoria probabilistica e nelle sue applicazioni:

Silvano Salvador
22

1. Stabilità per somme: Se X ~ N(μ₁, σ₁²) e Y ~ N(μ₂, σ₂²) sono indipendenti, allora la
loro somma è ancora normale: X + Y ~ N(μ₁ + μ₂, σ₁² + σ₂²). Più generalmente, se X₁, ...,
Xₙ sono variabili normali indipendenti con Xᵢ ~ N(μᵢ, σᵢ²), allora ogni combinazione
lineare Σaᵢ × Xᵢ ~ N(Σaᵢμᵢ, Σaᵢ²σᵢ²).

2. Le trasformazioni affini: Se X ~ N(μ, σ²) e Y = a + bX è una trasformazione lineare,


allora Y ~ N(a + bμ, b²σ²).

3. La standardizzazione: Se X ~ N(μ, σ²), allora la variabile standardizzata Z = (X − μ)/σ


~ N(0,1) segue la normale standard.

4. La massima entropia: Tra tutte le distribuzioni di probabilità con media μ e varianza


σ² fissate, la normale è quella con la maggiore entropia informazionale, quindi in un
certo senso la più "diffusa" o "meno informativa" compatibilmente con i vincoli dati.

5. La rilevanza del teorema del limite centrale: La normale appare come distribuzione
limite delle somme di variabili aleatorie indipendenti, spiegando la sua ubiquità in
natura.

Il Lavoro di Gauss sulle Orbite Celesti

La scoperta del primo asteroide Cerere da parte dell'astronomo italiano Giuseppe


Piazzi il 1° gennaio 1801 fornì a Gauss l'occasione per dimostrare drammaticamente
l'efficacia dei suoi metodi probabilistici. Cerere fu osservata per soli 41 giorni prima di
perdersi nel bagliore del sole durante la congiunzione. Con così pochi dati
osservazionali, sparsi su un periodo così breve, il calcolo della sua orbita ellittica era
estremamente difficile e richiedeva metodi matematici molto sofisticati.

Gauss applicò il metodo dei minimi quadrati combinato con la teoria degli errori
normali per calcolare l'orbita completa di Cerere. Le sue previsioni furono
straordinariamente accurate: quando Cerere riemerse dalla sua congiunzione solare
un anno dopo, nel dicembre 1801, fu ritrovata dall'astronomo Franz Xaver von Zach
quasi esattamente nella posizione che Gauss aveva predetto, a meno di mezzo grado
di errore angolare.

Questo successo spettacolare portò grande fama internazionale al giovane Gauss,


allora solo ventiquattrenne, e consolidò definitivamente il metodo dei minimi
quadrati come lo strumento standard per l'analisi statistica dei dati astronomici e
geodetici. Il metodo rimane fondamentale ancora oggi in tutte le scienze quantitative.

Capitolo VIII: Siméon-Denis Poisson e i Processi Rari

Silvano Salvador
23

Siméon-Denis Poisson (1781-1840) fu uno dei più prolifici matematici francesi del XIX
secolo, contribuendo a numerosi campi dalla meccanica celeste
all'elettromagnetismo. In teoria delle probabilità, estese i risultati dei suoi
predecessori in diverse direzioni importanti. Il suo contributo più duraturo e famoso
è la distribuzione che porta il suo nome, derivata come caso limite della distribuzione
binomiale per eventi rari.

La Distribuzione di Poisson

Consideriamo una situazione in cui abbiamo un numero molto grande di prove n (n


grande) ma la probabilità di successo in ciascuna singola prova è molto piccola (p
piccolo), in modo tale che il prodotto np = λ rimanga costante e finito quando n tende
all'infinito. Questa è la situazione tipica degli "eventi rari": molte opportunità per
l'evento, ma bassa probabilità in ogni singola opportunità.

Partiamo dalla distribuzione binomiale standard:

P(X = k) = C(n,k) × p^k × (1−p)^(n−k)

Ponendo p = λ/n dove λ è una costante positiva:

P(X = k) = [n!/(k!(n−k)!)] × (λ/n)^k × (1−λ/n)^(n−k)

Possiamo riscrivere questa espressione separando i vari fattori:

P(X = k) = (λ^k/k!) × [n(n−1)...(n−k+1)/n^k] × (1−λ/n)^n × (1−λ/n)^(−k)

Ora esaminiamo il comportamento di ciascun fattore nel limite n → ∞:

- Il primo fattore λ^k/k! è costante rispetto a n


- Il secondo fattore: n(n−1)...(n−k+1)/n^k = [n/n]×[(n−1)/n]×...×[(n−k+1)/n] → 1
quando n → ∞ (prodotto di k termini, ognuno dei quali tende a 1)
- Il terzo fattore: (1−λ/n)^n → exp(−λ) quando n → ∞ (per la definizione classica del
numero e)
- Il quarto fattore: (1−λ/n)^(−k) → 1 quando n → ∞

Quindi nel limite otteniamo:

lim(n→∞) P(X = k) = (λ^k/k!) × exp(−λ) = [e^(−λ) × λ^k]/k!

Questa è la distribuzione di Poisson con parametro λ, che si denota X ~ Pois(λ).

Silvano Salvador
24

Le proprietà fondamentali della distribuzione di Poisson sono:

- E[X] = λ (il valore atteso è uguale al parametro)


- Var(X) = λ (la varianza è anch'essa uguale al parametro)
- P(X = k) = [e^(−λ) × λ^k]/k! per k = 0, 1, 2, ...

Una caratteristica notevole è che media e varianza coincidono, il che permette di


testare empiricamente se un fenomeno segue effettivamente una distribuzione di
Poisson.

Le Applicazioni della Distribuzione di Poisson

La distribuzione di Poisson è appropriata per modellare il numero di eventi rari che si


verificano in un intervallo di tempo o spazio fissato, quando questi eventi avvengono
indipendentemente e con un tasso medio costante. Gli esempi classici includono:

1. I decadimenti radioattivi: Il numero di particelle emesse da un materiale radioattivo


in un intervallo di tempo fissato segue una distribuzione di Poisson. Questo fu uno dei
primi fenomeni fisici fondamentali in cui la distribuzione di Poisson fu verificata
sperimentalmente.

2. Le chiamate telefoniche: Il numero di chiamate che arrivano a un centralino


telefonico in un'ora, quando il numero di potenziali chiamanti è grande ma la
probabilità che ciascuno chiami in quel preciso momento è piccola.

3. I difetti di produzione: Il numero di difetti in un rotolo di tessuto di lunghezza


fissata, o il numero di errori di stampa in una pagina di un libro.

4. Gli incidenti: Il numero di incidenti stradali in una città in un giorno, o il numero di


terremoti in una regione in un anno.

Poisson stesso applicò la distribuzione allo studio statistico dei verdetti giudiziari nelle
corti francesi, esaminando il numero di condanne errate, che può essere considerato
un evento raro.

Il Processo di Poisson

La distribuzione di Poisson è intimamente connessa con i processi di Poisson, che


modellano eventi che si verificano casualmente nel tempo (o nello spazio). Un
processo di Poisson con tasso λ (numero medio di eventi per unità di tempo) è
caratterizzato dalle seguenti proprietà:

Silvano Salvador
25

1. Il numero di eventi in intervalli temporali disgiunti sono variabili aleatorie


indipendenti
2. Il numero di eventi in un intervallo di lunghezza t segue una distribuzione Pois(λt)
3. La probabilità che due o più eventi si verifichino in un intervallo infinitesimo dt è
trascurabile (formalmente, è o(dt) nella notazione di Landau)

Se N(t) denota il numero totale di eventi che si sono verificati fino al tempo t, allora
N(t) ~ Pois(λt), e quindi:

P(N(t) = k) = [e^(−λt) × (λt)^k]/k!

Un risultato importante è che gli intervalli di tempo tra eventi consecutivi in un


processo di Poisson seguono una distribuzione esponenziale con parametro λ. Se T è
il tempo di attesa fino al prossimo evento, allora:

P(T > t) = e^(−λt) per t ≥ 0

e la densità è:

f(t) = λe^(−λt) per t ≥ 0

La distribuzione esponenziale ha la notevole proprietà di "assenza di memoria": dato


che abbiamo già aspettato un tempo s senza che l'evento si verifichi, la distribuzione
del tempo di attesa aggiuntivo è ancora esponenziale con lo stesso parametro,
indipendentemente da quanto abbiamo già aspettato.

Capitolo IX: L'Emergere della Statistica Matematica

Nella seconda metà del XIX secolo, il calcolo delle probabilità iniziò a trasformarsi
gradualmente in statistica matematica. Questa transizione fu guidata dai problemi
pratici emergenti in biologia, medicina, scienze sociali ed economia, che richiedevano
non solo modelli probabilistici per descrivere fenomeni aleatori, ma anche metodi
sistematici per inferire parametri dai dati osservati e testare ipotesi scientifiche. La
probabilità, nata come teoria astratta per i giochi d'azzardo, diventava uno strumento
concreto per l'indagine scientifica empirica.

Francis Galton e la Correlazione

Francis Galton (1822-1911), cugino di Charles Darwin e poliedrico scienziato


vittoriano, fu profondamente affascinato dai fenomeni ereditari e dalla trasmissione
dei caratteri da genitori a figli. Studiando sistematicamente le altezze di genitori e figli

Silvano Salvador
26

in un vasto campione di famiglie inglesi, notò un fenomeno curioso e apparentemente


paradossale: i figli di genitori molto alti tendevano ad essere più bassi dei genitori (pur
restando comunque sopra la media della popolazione), mentre i figli di genitori molto
bassi tendevano ad essere più alti dei genitori (pur restando sotto la media).

Galton chiamò questo fenomeno "regressione verso la mediocrità" (regression


toward mediocrity), o più semplicemente "regressione verso la media". Il termine
"regressione" è rimasto nella terminologia statistica moderna, anche se oggi non si
porta più la connotazione negativa di "mediocrità". Per studiare quantitativamente
questo fenomeno, Galton introdusse il concetto fondamentale di coefficiente di
correlazione.

Date due variabili aleatorie X e Y (per esempio, l'altezza del padre e l'altezza del figlio),
definiamo:

- La media: μₓ = E[X], μᵧ = E[Y]


- La deviazione standard: σₓ = √Var(X), σᵧ = √Var(Y)
- La covarianza: Cov(X,Y) = E[(X − μₓ)(Y − μᵧ)]

Il coefficiente di correlazione di Pearson (dal nome di Karl Pearson che lo formalizzerà


rigorosamente) è definito come:

ρ = Cov(X,Y)/(σₓ × σᵧ)

Questo coefficiente ha le seguenti proprietà fondamentali:

- −1 ≤ ρ ≤ 1 sempre (per la disuguaglianza di Cauchy-Schwarz)


- ρ = 1 se e solo se esiste una relazione lineare perfetta positiva: Y = a + bX con b > 0
- ρ = −1 se e solo se esiste una relazione lineare perfetta negativa: Y = a + bX con b <
0
- ρ = 0 implica l'assenza di correlazione lineare (ma attenzione: non implica
necessariamente l'indipendenza statistica)

Galton stimò empiricamente ρ ≈ 0,5 tra le altezze di genitori e figli. Questo significava
matematicamente che se un padre è 10 cm sopra la media della popolazione, ci si
aspetta statisticamente che il figlio sia circa 5 cm sopra la media (la regressione
parziale verso la media). Questo fenomeno non implica che la popolazione stia
diventando più uniforme nel tempo, ma è semplicemente una conseguenza
matematica della natura stocastica dell'ereditarietà.

Karl Pearson e il Chi-quadrato

Silvano Salvador
27

Karl Pearson (1857-1936), allievo e poi collaboratore di Galton, sviluppò la statistica


matematica in modo sistematico e rigoroso, trasformandola in una disciplina
scientifica autonoma. Fu il fondatore del primo dipartimento universitario di statistica
al mondo, presso l'University College London. Nel 1900 introdusse il test chi-
quadrato, uno degli strumenti più importanti e utilizzati dell'inferenza statistica
classica.

Il problema fondamentale è il seguente: supponiamo di avere n osservazioni suddivise


in k categorie distinte. Osserviamo le frequenze empiriche O₁, O₂, ..., Oₖ nelle varie
categorie (con Σ Oᵢ = n). Una certa teoria scientifica prevede che le frequenze attese
siano E₁, E₂, ..., Eₖ. Come possiamo testare statisticamente se i dati osservati sono
compatibili con la teoria, o se invece le discrepanze sono troppo grandi per essere
attribuibili al caso?

Pearson propose la statistica:

χ² = Σ(i=1 fino a k) [(Oᵢ − Eᵢ)²/Eᵢ]

Questa statistica misura la discrepanza totale tra frequenze osservate e attese, pesata
inversamente per le frequenze attese (in modo che le discrepanze nelle categorie con
poche osservazioni attese contino di più). Pearson dimostrò, con un argomento che
non era completamente rigoroso secondo gli standard moderni ma era
sostanzialmente corretto, che per n grande questa statistica segue
approssimativamente una distribuzione chi-quadrato con k−1 gradi di libertà.

La funzione densità della distribuzione χ²(ν) con ν gradi di libertà è:

f(x) = [1/(2^(ν/2) × Γ(ν/2))] × x^(ν/2−1) × exp(−x/2) per x > 0

dove Γ è la funzione Gamma di Eulero definita da Γ(α) = ∫₀^∞ t^(α−1) × e^(−t) dt.

Le proprietà fondamentali della distribuzione chi-quadrato sono:

- E[χ²(ν)] = ν (il valore atteso è uguale ai gradi di libertà)


- Var(χ²(ν)) = 2ν (la varianza è doppia dei gradi di libertà)
- Se Z₁, ..., Zₙ ~ N(0,1) sono variabili normali standard indipendenti, allora Z₁² + ... + Zₙ²
~ χ²(n)

Il test chi-quadrato di Pearson è ancora oggi uno degli strumenti più utilizzati per
testare l'adattamento di un modello teorico ai dati osservati.

William Sealy Gosset (Student) e la Distribuzione t

Silvano Salvador
28

All'inizio del XX secolo, William Sealy Gosset (1876-1937), che lavorava come statistico
per la famosa fabbrica di birra Guinness a Dublino, affrontò un problema pratico di
grande importanza industriale: come confrontare la qualità di diversi lotti di orzo
quando si hanno a disposizione solo pochi campioni per ciascun lotto?

Con campioni piccoli, l'approssimazione normale non è sufficientemente accurata per


fare inferenze affidabili. Gosset, che pubblicava sotto lo pseudonimo "Student"
perché la Guinness non permetteva ai dipendenti di pubblicare ricerche (temendo che
i concorrenti potessero ottenere informazioni proprietarie), derivò la distribuzione
esatta della statistica:

t = (X̄ − μ)/(S/√n)

dove X̄ è la media campionaria, μ è la vera media della popolazione (supposta


normale), S è la deviazione standard campionaria definita da:

S² = [1/(n−1)] × Σ(i=1 fino a n) (Xᵢ − X̄)²

e n è la dimensione del campione.

La funzione densità della distribuzione t di Student con ν gradi di libertà è:

f(t) = [Γ((ν+1)/2)/(√(νπ) × Γ(ν/2))] × (1 + t²/ν)^(−(ν+1)/2)

Questa distribuzione ha le seguenti proprietà importanti:

- È simmetrica attorno a zero come la normale standard


- Ha code più pesanti della normale (valori estremi sono più probabili)
- Per ν grande converge alla normale standard N(0,1)
- Per ν piccolo differisce significativamente dalla normale

Il lavoro di Student fu fondamentale per lo sviluppo dei metodi statistici applicabili ai


piccoli campioni, essenziali in moltissimi contesti pratici dove è impossibile o troppo
costoso raccogliere grandi quantità di dati.

Ronald Fisher e l'Inferenza Statistica Moderna

Ronald Aylmer Fisher (1890-1962) è universalmente considerato il padre della


statistica moderna. I suoi contributi furono così vasti, profondi e influenti che è
difficile esagerarne l'importanza. Trasformò la statistica da una collezione di tecniche

Silvano Salvador
29

ad hoc in una disciplina scientifica coerente e rigorosa. Menzioneremo solo alcuni dei
suoi contributi più importanti.

La massima verosimiglianza: Fisher formalizzò il metodo della massima


verosimiglianza come principio generale e ottimale di stima statistica. Data una
famiglia di distribuzioni parametrizzata da θ e le osservazioni x₁, ..., xₙ, la funzione di
verosimiglianza è:

L(θ) = ∏(i=1 fino a n) f(xᵢ; θ)

Lo stimatore di massima verosimiglianza è il valore del parametro che massimizza


questa funzione:

θ̂ₘₗ = argmax L(θ)

Fisher dimostrò che sotto opportune condizioni di regolarità, per n grande lo


stimatore θ̂ₘₗ è approssimativamente normale con media θ (il valore vero) e varianza
1/(n × I(θ)), dove I(θ) è l'informazione di Fisher:

I(θ) = E[−(d²/dθ²) log f(X; θ)]

Questo risultato fondamentale fornisce non solo uno stimatore, ma anche una misura
della sua precisione.

L'analisi della varianza (ANOVA): Fisher sviluppò metodi sistematici per analizzare
esperimenti complessi con molteplici fattori. L'idea chiave è decomporre la variabilità
totale osservata nei dati nelle componenti attribuibili ai diversi effetti e fattori.

Se abbiamo k gruppi con nⱼ osservazioni ciascuno, la variabilità totale può essere


scritta come:

SS(totale) = Σⱼ Σᵢ (Xᵢⱼ − X̄)²

dove X̄ è la media globale di tutte le osservazioni. Questa si decompone


matematicamente in:

SS(totale) = SS(tra gruppi) + SS(entro gruppi)

dove:

SS(tra gruppi) = Σⱼ nⱼ(X̄ⱼ − X̄)² (variabilità delle medie dei gruppi)


SS(entro gruppi) = Σⱼ Σᵢ (Xᵢⱼ − X̄ⱼ)² (variabilità dentro ciascun gruppo)

Silvano Salvador
30

Il test F di Fisher per testare l'ipotesi che tutti i gruppi abbiano la stessa media
confronta il rapporto:

F = [SS(tra gruppi)/(k−1)] / [SS(entro gruppi)/(N−k)]

dove N = Σnⱼ è il numero totale di osservazioni. Sotto l'ipotesi nulla (tutti i gruppi
hanno la stessa media e la stessa varianza), questa statistica segue una distribuzione
F con (k−1, N−k) gradi di libertà.

Il disegno degli esperimenti: Fisher rivoluzionò la sperimentazione scientifica


introducendo i concetti fondamentali di randomizzazione, replicazione e blocco. Il suo
libro The Design of Experiments (1935) stabilì i principi che sono ancora la base della
ricerca sperimentale moderna in tutte le scienze. Fisher comprese che un
esperimento ben progettato può estrarre molto più informazione dai dati di un
esperimento mal progettato con la stessa quantità di osservazioni.

Capitolo X: Verso la Formalizzazione Assiomatica

Nonostante tutti questi progressi straordinari nella teoria e nelle applicazioni, alla fine
del XIX secolo mancava ancora una fondazione matematica rigorosa del calcolo delle
probabilità. Esistevano diverse interpretazioni filosofiche della probabilità
(frequentista, soggettivista, classica laplaciana), e la struttura matematica sottostante
non era chiaramente definita in modo univoco e rigoroso.

Il problema era particolarmente acuto per gli spazi infiniti e continui. Per un dado a
sei facce possiamo definire la probabilità di ogni faccia come 1/6 e la probabilità di un
qualsiasi insieme di facce come la somma delle probabilità individuali. Ma come
definiamo rigorosamente la probabilità sugli insiemi continui come l'intervallo [0,1] o
la retta reale completa?

Se assegnassimo probabilità positiva a ogni singolo punto, la somma (integrale)


sarebbe infinita. Se assegnassimo probabilità zero a ogni punto, la somma sarebbe
zero. Chiaramente serve un concetto matematico diverso: la probabilità deve essere
definita per insiemi di punti, non per singoli punti. Ma quali insiemi? E quali proprietà
deve soddisfare questa funzione?

Émile Borel e la Teoria della Misura

Émile Borel (1871-1956), matematico francese e figura politica, fece i primi passi
decisivi verso una trattazione rigorosa introducendo la teoria della misura. Nel 1898

Silvano Salvador
31

definì cosa significa matematicamente che un insieme di numeri reali abbia "misura"
(lunghezza, area, volume) zero o positiva.

Un insieme A ⊆ ℝ ha misura di Lebesgue m(A) che soddisfa le seguenti proprietà:

1. m([a,b]) = b − a per ogni intervallo (la misura di un intervallo è la sua lunghezza)


2. m(A) ≥ 0 per ogni insieme A misurabile (non-negatività)
3. Se A₁, A₂, ... sono insiemi disgiunti a coppie, allora m(∪ₙAₙ) = Σₙ m(Aₙ) (σ-additività)

Borel dimostrò che esistono insiemi "non misurabili", la cui esistenza richiede
l'assioma della scelta, ma che la collezione degli insiemi misurabili (chiamata σ-
algebra di Borel) è sufficientemente ricca per tutti gli scopi pratici e teorici.

Henri Lebesgue (1875-1941) estese queste idee sviluppando la teoria


dell'integrazione di Lebesgue, che permette di integrare funzioni molto più generali e
patologiche rispetto all'integrale di Riemann classico. L'integrale di Lebesgue divenne
lo strumento matematico essenziale per una teoria rigorosa della probabilità su spazi
continui.

La Ricerca di una Struttura Assiomatica

All'inizio del XX secolo il movimento formalista in matematica, guidato da David


Hilbert, cercava di fondare tutte le branche della matematica su basi assiomatiche
rigorose e logicamente coerenti. La teoria degli insiemi di Zermelo-Fraenkel, la
geometria assiomatica, l'algebra astratta erano tutte state formalizzate
rigorosamente. La probabilità necessitava dello stesso trattamento.

Diversi matematici proposero assiomatizzazioni parziali. Richard von Mises propose


un approccio basato sulle frequenze limite e sui "collettivi". Bruno de Finetti sviluppò
una teoria soggettivista basata sulla coerenza delle scommesse. Sergei Bernstein
contribuì con importanti risultati sulla convergenza. Ma fu Andrej Kolmogorov che
fornì l'assiomatizzazione definitiva che è ancora lo standard oggi.

Capitolo XI: La Fondazione Assiomatica di Kolmogorov

Nel 1933 Andrej Nikolaevich Kolmogorov (1903-1987), allora appena trentenne,


pubblicò Grundbegriffe der Wahrscheinlichkeitsrechnung (Fondamenti della Teoria
della Probabilità), una breve ma densa monografia di circa 60 pagine che trasformò
radicalmente e permanentemente la disciplina. In questo lavoro Kolmogorov mostrò
come il calcolo delle probabilità potesse essere fondato rigorosamente sulla teoria
della misura di Borel-Lebesgue, fornendo così una base matematica unificante che
risolse le ambiguità e le controversie precedenti.

Silvano Salvador
32

Gli Assiomi di Kolmogorov

La formalizzazione di Kolmogorov si basa su tre concetti primitivi fondamentali:

1. Lo spazio campionario Ω: l'insieme di tutti i possibili esiti di un esperimento


aleatorio. Gli elementi ω ∈ Ω sono chiamati esiti elementari o punti campionari. Per
esempio, nel lancio di un dado Ω = {1, 2, 3, 4, 5, 6}; nel lancio di una moneta
infinitamente Ω = {H, T}^∞ (sequenze infinite di teste e croci).

2. La σ-algebra ℱ: una famiglia di sottoinsiemi di Ω (chiamati eventi misurabili) che


soddisfa:
- Ω ∈ ℱ (l'evento certo è misurabile)
- Se A ∈ ℱ, allora A^c = Ω \ A ∈ ℱ (chiusura per complementazione)
- Se A₁, A₂, ... ∈ ℱ, allora ∪ₙAₙ ∈ ℱ (chiusura per unioni numerabili)

3. La misura di probabilità P: una funzione P: ℱ → [0,1] che soddisfa i tre assiomi


fondamentali:

Assioma 1 (Non-negatività): P(A) ≥ 0 per ogni A ∈ ℱ

Assioma 2 (Normalizzazione): P(Ω) = 1

Assioma 3 (σ-additività): Se A₁, A₂, ... ∈ ℱ sono eventi a coppie disgiunti (cioè Aᵢ ∩ Aⱼ =
∅ per i ≠ j), allora:

P(∪ₙ₌₁^∞ Aₙ) = Σₙ₌₁^∞ P(Aₙ)

La terna (Ω, ℱ, P) è chiamata spazio di probabilità ed è la struttura fondamentale su


cui si basa tutta la teoria moderna delle probabilità.

Le Conseguenze Immediate degli Assiomi

Dagli assiomi seguono immediatamente per via puramente logico-deduttiva diverse


proprietà fondamentali che utilizziamo costantemente:

La probabilità dell'evento impossibile: P(∅) = 0

Dimostrazione: Consideriamo la sequenza infinita A₁ = ∅, A₂ = ∅, A₃ = ∅, ... Questi


eventi sono disgiunti e la loro unione è ancora l'insieme vuoto: ∪ₙ₌₁^∞ ∅ = ∅. Per la
σ-additività:

Silvano Salvador
33

P(∅) = P(∪ₙ₌₁^∞ ∅) = Σₙ₌₁^∞ P(∅)

Questa uguaglianza può essere vera solo se P(∅) = 0 (una serie infinita di termini tutti
uguali a un numero positivo divergerebbe).

L'additività finita: Se A₁, ..., Aₙ sono eventi disgiunti a coppie, allora:

P(∪ᵢ₌₁ⁿ Aᵢ) = Σᵢ₌₁ⁿ P(Aᵢ)

Dimostrazione: Definiamo Aₙ₊₁ = Aₙ₊₂ = ... = ∅ e applichiamo la σ-additività. L'unione


non cambia e i termini aggiunti contribuiscono zero alla somma.

La probabilità del complemento: P(A^c) = 1 − P(A)

Dimostrazione: Gli eventi A e A^c sono disgiunti e la loro unione è lo spazio intero: A
∪ A^c = Ω. Quindi per additività:

1 = P(Ω) = P(A ∪ A^c) = P(A) + P(A^c)

Da cui segue immediatamente P(A^c) = 1 − P(A).

La monotonia: Se A ⊆ B, allora P(A) ≤ P(B)

Dimostrazione: Possiamo scrivere B come unione disgiunta B = A ∪ (B \ A). Quindi:

P(B) = P(A) + P(B \ A) ≥ P(A)

poiché P(B \ A) ≥ 0 per l'Assioma 1.

La formula di inclusione-esclusione: Per due eventi qualsiasi A e B:

P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

Dimostrazione: Possiamo scrivere A ∪ B come unione disgiunta:

A ∪ B = A ∪ (B \ A)

Quindi P(A ∪ B) = P(A) + P(B \ A). Ma possiamo anche scrivere B come unione disgiunta
B = (A ∩ B) ∪ (B \ A), quindi:

P(B) = P(A ∩ B) + P(B \ A)

Silvano Salvador
34

Da cui P(B \ A) = P(B) − P(A ∩ B). Sostituendo otteniamo:

P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

Questa formula si generalizza a n eventi arbitrari nella formula di inclusione-


esclusione generale:

P(∪ᵢ₌₁ⁿ Aᵢ) = Σᵢ P(Aᵢ) − Σᵢ<ⱼ P(Aᵢ ∩ Aⱼ) + Σᵢ<ⱼ<ₖ P(Aᵢ ∩ Aⱼ ∩ Aₖ) − ... + (−1)ⁿ⁺¹P(A₁ ∩ ... ∩ Aₙ)

La continuità dal basso: Se A₁ ⊆ A₂ ⊆ A₃ ⊆ ... è una sequenza crescente di eventi,


allora:

P(∪ₙ₌₁^∞ Aₙ) = lim(n→∞) P(Aₙ)

Dimostrazione: Definiamo B₁ = A₁, e per n ≥ 2, Bₙ = Aₙ \ Aₙ₋₁ (la parte "nuova" di Aₙ).


Allora i Bₙ sono disgiunti a coppie e ∪ₙBₙ = ∪ₙAₙ. Inoltre ∪ₖ₌₁ⁿ Bₖ = Aₙ. Per la σ-
additività:

P(∪ₙ₌₁^∞ Aₙ) = P(∪ₙ₌₁^∞ Bₙ) = Σₙ₌₁^∞ P(Bₙ) = lim(n→∞) Σₖ₌₁ⁿ P(Bₖ) = lim(n→∞) P(Aₙ)

La continuità dall'alto: Se A₁ ⊇ A₂ ⊇ A₃ ⊇ ... è una sequenza decrescente di eventi,


allora:

P(∩ₙ₌₁^∞ Aₙ) = lim(n→∞) P(Aₙ)

Dimostrazione: Applicare la continuità dal basso alla sequenza crescente di


complementi Aₙ^c.

Queste proprietà di continuità sono essenziali e distinguono la σ-additività dalla


semplice additività finita.

La Probabilità Condizionata e l'Indipendenza

La probabilità condizionata formalizza rigorosamente il concetto intuitivo di


"aggiornamento" delle probabilità alla luce di nuova informazione.

Definizione: Se P(B) > 0, allora la probabilità condizionata di A dato B è:

P(A|B) = P(A ∩ B)/P(B)

Questa definizione cattura matematicamente l'idea che quando sappiamo che


l'evento B si è verificato, lo spazio campionario effettivo si restringe a B, e dobbiamo

Silvano Salvador
35

rinormalizzare le probabilità di conseguenza. La funzione P(·|B) è essa stessa una


misura di probabilità sullo spazio (B, ℱ ∩ B, P(·|B)): soddisfa tutti e tre gli assiomi di
Kolmogorov con Ω sostituito da B.

La formula delle probabilità totali: Se B₁, B₂, ..., Bₙ formano una partizione di Ω (cioè
sono disgiunti a coppie e ∪ᵢBᵢ = Ω) con P(Bᵢ) > 0 per ogni i, allora per ogni evento A:

P(A) = Σᵢ₌₁ⁿ P(A|Bᵢ) × P(Bᵢ)

Dimostrazione: Poiché i Bᵢ formano una partizione, possiamo scrivere A = A ∩ Ω = A ∩


(∪ᵢBᵢ) = ∪ᵢ(A ∩ Bᵢ), e gli eventi A ∩ Bᵢ sono disgiunti. Quindi:

P(A) = Σᵢ P(A ∩ Bᵢ) = Σᵢ P(A|Bᵢ) × P(Bᵢ)

Il teorema di Bayes: Se P(B) > 0 e P(A) > 0, allora:

P(A|B) = [P(B|A) × P(A)]/P(B)

Questo segue immediatamente dalla simmetria di P(A ∩ B) = P(B ∩ A) e dalla


definizione di probabilità condizionata.

L'indipendenza: Due eventi A e B sono indipendenti se:

P(A ∩ B) = P(A) × P(B)

Se P(B) > 0, questa condizione è equivalente a P(A|B) = P(A): sapere che B si è


verificato non cambia la probabilità di A. L'indipendenza è quindi la formalizzazione
matematica dell'idea che gli eventi non si influenzano reciprocamente.

Più eventi A₁, ..., Aₙ sono mutualmente indipendenti se per ogni sottoinsieme non
vuoto I ⊆ {1, ..., n}:

P(∩ᵢ∈I Aᵢ) = ∏ᵢ∈I P(Aᵢ)

È importante notare che l'indipendenza a coppie (P(Aᵢ ∩ Aⱼ) = P(Aᵢ)P(Aⱼ) per tutti i ≠ j)
non implica l'indipendenza mutua. Serve che la condizione valga per tutti i
sottoinsiemi possibili.

Le Variabili Aleatorie: La Definizione Rigorosa

Silvano Salvador
36

Una delle innovazioni chiave di Kolmogorov fu la definizione matematicamente


rigorosa di variabile aleatoria come funzione misurabile, che prima era un concetto
vago e intuitivo.

Definizione: Una variabile aleatoria è una funzione X: Ω → ℝ tale che per ogni insieme
boreliano B ⊆ ℝ (cioè ogni insieme nella σ-algebra di Borel), l'insieme X⁻¹(B) = {ω ∈ Ω :
X(ω) ∈ B} appartiene alla σ-algebra ℱ.

Questa condizione tecnica di "ℱ-misurabilità" assicura che possiamo calcolare la


probabilità di eventi del tipo {X ∈ B}, che è essenziale per tutta la teoria. In particolare,
per ogni x ∈ ℝ l'insieme:

{X ≤ x} = {ω ∈ Ω : X(ω) ≤ x} ∈ ℱ

quindi possiamo definire senza ambiguità P(X ≤ x).

La funzione di distribuzione: La funzione di distribuzione (o funzione di ripartizione) di


una variabile aleatoria X è definita come:

Fₓ(x) = P(X ≤ x) = P({ω : X(ω) ≤ x})

Le proprietà matematiche di Fₓ sono:

1. Fₓ è non decrescente: se x₁ ≤ x₂, allora Fₓ(x₁) ≤ Fₓ(x₂)


2. Fₓ è continua a destra: lim(h→0⁺) Fₓ(x+h) = Fₓ(x)
3. lim(x→−∞) Fₓ(x) = 0
4. lim(x→+∞) Fₓ(x) = 1

Teorema fondamentale: Conversamente, ogni funzione F: ℝ → [0,1] con queste


quattro proprietà è la funzione di distribuzione di qualche variabile aleatoria definita
su uno spazio di probabilità opportuno.

Le variabili aleatorie discrete: X è discreta se assume al più numerabilmente molti


valori x₁, x₂, x₃, ... La funzione di massa di probabilità è definita come:

pₓ(xᵢ) = P(X = xᵢ) = P({ω : X(ω) = xᵢ})

con la condizione necessaria Σᵢ pₓ(xᵢ) = 1.

Le variabili aleatorie continue: X è (assolutamente) continua se esiste una funzione


non negativa fₓ: ℝ → [0,∞) (chiamata densità di probabilità) tale che:

Silvano Salvador
37

Fₓ(x) = ∫₋∞ˣ fₓ(t)dt

La densità soddisfa le proprietà:

- fₓ(x) ≥ 0 per ogni x


- ∫₋∞^∞ fₓ(x)dx = 1

Per un intervallo [a,b] qualsiasi:

P(a ≤ X ≤ b) = Fₓ(b) − Fₓ(a) = ∫ₐᵇ fₓ(x)dx

Nei punti dove Fₓ è derivabile, fₓ(x) = F'ₓ(x).

Osservazione cruciale: Per una variabile aleatoria assolutamente continua P(X = x) = 0


per ogni x specifico. Infatti:

P(X = x) = lim(h→0⁺) P(x ≤ X ≤ x+h) = lim(h→0⁺) [Fₓ(x+h) − Fₓ(x)] = 0

per la continuità di Fₓ. Questo non significa che l'evento {X = x} sia impossibile nel
senso logico! Significa solo che ha probabilità nulla. La distinzione tra "impossibile" e
"probabilità zero" è sottile ma fondamentale nella teoria moderna.

Il Valore Atteso: Dall'Intuizione all'Integrale di Lebesgue

Il valore atteso (o speranza matematica) formalizza rigorosamente il concetto


intuitivo di "valore medio" usando la teoria dell'integrazione di Lebesgue.

Per variabili discrete con valori x₁, x₂, ...:

E[X] = Σᵢ xᵢ × P(X = xᵢ) = Σᵢ xᵢ × pₓ(xᵢ)

quando la serie converge assolutamente, cioè quando Σᵢ |xᵢ| × pₓ(xᵢ) < ∞.

Per variabili continue con densità fₓ:

E[X] = ∫₋∞^∞ x × fₓ(x)dx

quando l'integrale converge assolutamente: ∫₋∞^∞ |x| × fₓ(x)dx < ∞.

La definizione generale (via l'integrale di Lebesgue): Per una variabile aleatoria X su


(Ω, ℱ, P):

Silvano Salvador
38

E[X] = ∫_Ω X(ω)dP(ω)

Questa definizione unifica tutti i casi precedenti (discreto, continuo, e anche casi
misti) e si estende a variabili aleatorie che non sono né discrete né continue.

Le proprietà fondamentali del valore atteso:

1. La linearità: Per ogni a, b ∈ ℝ e variabili X, Y con valore atteso finito:

E[aX + bY] = aE[X] + bE[Y]

Questa proprietà vale anche se X e Y sono dipendenti! La linearità è una proprietà


fondamentale e potentissima che semplifica moltissimi calcoli.

2. La monotonia: Se X ≤ Y quasi certamente (cioè P(X ≤ Y) = 1), allora:

E[X] ≤ E[Y]

3. Il valore atteso delle costanti: Se c è una costante, allora E[c] = c.

4. Il prodotto di variabili indipendenti: Se X e Y sono indipendenti:

E[XY] = E[X] × E[Y]

Attenzione: il viceversa non vale! E[XY] = E[X]E[Y] non implica necessariamente


l'indipendenza.

Il teorema del cambio di variabile (o teorema del trasporto): Se X ha densità fₓ e g: ℝ


→ ℝ è una funzione misurabile, allora:

E[g(X)] = ∫₋∞^∞ g(x) × fₓ(x)dx

Per il caso discreto:

E[g(X)] = Σᵢ g(xᵢ) × pₓ(xᵢ)

Questo teorema è estremamente utile perché permette di calcolare il valore atteso


di funzioni di X senza dover prima determinare la distribuzione di g(X).

La Varianza e i Momenti

La varianza: La varianza misura la dispersione di X attorno alla sua media:

Silvano Salvador
39

Var(X) = E[(X − E[X])²]

La formula alternativa, spesso più comoda per i calcoli:

Var(X) = E[X²] − (E[X])²

Dimostrazione: Ponendo μ = E[X],

Var(X) = E[(X − μ)²] = E[X² − 2μX + μ²]


= E[X²] − 2μE[X] + μ²
= E[X²] − 2μ² + μ²
= E[X²] − μ²

Le proprietà della varianza:

1. Var(X) ≥ 0 sempre
2. Var(X) = 0 se e solo se X è costante quasi certamente
3. Var(aX + b) = a²Var(X) (la traslazione non cambia la varianza, ma il riscalamento la
moltiplica per il quadrato del fattore)
4. Se X e Y sono indipendenti:

Var(X + Y) = Var(X) + Var(Y)

Più generalmente, per X₁, ..., Xₙ indipendenti:

Var(X₁ + ... + Xₙ) = Var(X₁) + ... + Var(Xₙ)

La deviazione standard: σₓ = √Var(X), ha le stesse unità di misura di X ed è quindi


spesso più interpretabile.

La covarianza: Per due variabili X e Y:

Cov(X,Y) = E[(X − E[X])(Y − E[Y])] = E[XY] − E[X]E[Y]

Proprietà:

- Cov(X,X) = Var(X)
- Cov(X,Y) = Cov(Y,X) (simmetria)
- Cov(aX + b, Y) = aCov(X,Y)
- Se X e Y sono indipendenti, allora Cov(X,Y) = 0 (ma il viceversa non vale!)

Silvano Salvador
40

Il coefficiente di correlazione:

ρ(X,Y) = Cov(X,Y)/(σₓσᵧ)

dove σₓ = √Var(X), σᵧ = √Var(Y).

Proprietà: −1 ≤ ρ ≤ 1, con:

- ρ = 1 se e solo se Y = aX + b con a > 0 quasi certamente


- ρ = −1 se e solo se Y = aX + b con a < 0 quasi certamente
- ρ = 0 implica incorrelazione (ma non necessariamente indipendenza)

I momenti: Il k-esimo momento di X è:

μₖ = E[Xᵏ]

Il k-esimo momento centrato è:

μ'ₖ = E[(X − E[X])ᵏ]

Quindi μ'₁ = 0, μ'₂ = Var(X).

Le Disuguaglianze Fondamentali

La disuguaglianza di Markov: Se X ≥ 0 è una variabile aleatoria non negativa e a > 0:

P(X ≥ a) ≤ E[X]/a

Dimostrazione: Definiamo la variabile indicatrice I = 1_{X≥a} che vale 1 se X ≥ a e 0


altrimenti. Allora X ≥ aI (perché se X ≥ a allora X ≥ a × 1, altrimenti X ≥ 0 = a × 0). Quindi:

E[X] ≥ E[aI] = aE[I] = aP(X ≥ a)

Dividendo entrambi i membri per a otteniamo il risultato.

La disuguaglianza di Chebyshev: Per ogni variabile X con varianza finita e ogni ε > 0:

P(|X − E[X]| ≥ ε) ≤ Var(X)/ε²

Dimostrazione: Applichiamo Markov alla variabile non negativa Y = (X − E[X])² con a =


ε²:

Silvano Salvador
41

P(|X − E[X]| ≥ ε) = P((X − E[X])² ≥ ε²) ≤ E[(X − E[X])²]/ε² = Var(X)/ε²

Forma alternativa: Ponendo ε = kσ dove σ = √Var(X):

P(|X − E[X]| ≥ kσ) ≤ 1/k²

Questa forma dice che la probabilità di deviare dalla media per più di k deviazioni
standard è al massimo 1/k². Per k = 2, almeno il 75% della distribuzione sta entro 2
deviazioni standard dalla media; per k = 3, almeno l'89%.

La disuguaglianza di Cauchy-Schwarz: Per variabili X, Y con momenti secondi finiti:

|E[XY]| ≤ √(E[X²]) × √(E[Y²])

con uguaglianza se e solo se Y = cX quasi certamente per qualche costante c.

Conseguenza immediata: |Cov(X,Y)| ≤ σₓσᵧ, quindi |ρ(X,Y)| ≤ 1.

La Convergenza di Variabili Aleatorie

Kolmogorov chiarificò rigorosamente i diversi modi in cui una sequenza di variabili


aleatorie può convergere, distinguendo tra concetti che erano stati precedentemente
confusi.

1. La convergenza quasi certa (q.c.): Xₙ → X quasi certamente se:

P({ω ∈ Ω : lim(n→∞) Xₙ(ω) = X(ω)}) = 1

Cioè, per quasi ogni esito ω (eccetto un insieme di probabilità zero), la sequenza
numerica Xₙ(ω) converge a X(ω) nel senso classico dell'analisi.

2. La convergenza in probabilità: Xₙ → X in probabilità se per ogni ε > 0:

lim(n→∞) P(|Xₙ − X| > ε) = 0

3. La convergenza in Lᵖ (o in media p-esima): Xₙ → X in Lᵖ se:

lim(n→∞) E[|Xₙ − X|ᵖ] = 0

Il caso p = 2 è particolarmente importante e si chiama convergenza in media


quadratica.

Silvano Salvador
42

4. La convergenza in distribuzione (o in legge): Xₙ → X in distribuzione se:

lim(n→∞) Fₓₙ(x) = Fₓ(x)

per ogni x in cui Fₓ è continua.

Le relazioni tra i tipi di convergenza:

1. Convergenza q.c. ⇒ convergenza in probabilità


2. Convergenza in Lᵖ ⇒ convergenza in probabilità
3. Convergenza in probabilità ⇒ convergenza in distribuzione
4. Se Xₙ → c (costante) in distribuzione, allora Xₙ → c in probabilità

Nessuna delle frecce inverse è vera in generale. Queste distinzioni sono fondamentali
per comprendere i teoremi limite della teoria delle probabilità.

Le Leggi dei Grandi Numeri

La legge debole dei grandi numeri (WLLN): Sia X₁, X₂, ... una sequenza di variabili
aleatorie indipendenti e identicamente distribuite (i.i.d.) con E[Xᵢ] = μ e Var(Xᵢ) = σ² <
∞. Allora:

X̄ₙ = (X₁ + ... + Xₙ)/n → μ in probabilità

Dimostrazione: Per linearità del valore atteso, E[X̄ₙ] = μ. Per indipendenza, Var(X̄ₙ) =
σ²/n. Applicando Chebyshev:

P(|X̄ₙ − μ| ≥ ε) ≤ σ²/(nε²) → 0 quando n → ∞

La legge forte dei grandi numeri (SLLN): Sotto le stesse ipotesi:

X̄ₙ → μ quasi certamente

cioè P(lim(n→∞) X̄ₙ = μ) = 1

La dimostrazione della legge forte è molto più difficile e richiede tecniche sofisticate.
Kolmogorov fornì la prima dimostrazione completamente rigorosa nel 1933.

Il Teorema del Limite Centrale

Il teorema del limite centrale di Lindeberg-Lévy: Sia X₁, X₂, ... una sequenza i.i.d. con
E[Xᵢ] = μ e Var(Xᵢ) = σ² dove 0 < σ² < ∞. Definiamo:

Silvano Salvador
43

Zₙ = (X̄ₙ − μ)/(σ/√n) = (X₁ + ... + Xₙ − nμ)/(σ√n)

Allora Zₙ → N(0,1) in distribuzione, cioè per ogni x ∈ ℝ:

lim(n→∞) P(Zₙ ≤ x) = Φ(x) = (1/√(2π)) ∫₋∞ˣ e^(−t²/2)dt

Questo teorema spiega l'ubiquità della distribuzione normale in natura: ogni


fenomeno che è la somma di molti piccoli effetti indipendenti tenderà a seguire una
distribuzione approssimativamente normale.

I Processi Stocastici

Definizione: Un processo stocastico è una famiglia {X(t) : t ∈ T} di variabili aleatorie


definite sullo stesso spazio di probabilità (Ω, ℱ, P). Qui T è l'insieme dei tempi (che
può essere discreto come ℕ o continuo come [0,∞)).

Il moto browniano: Il moto browniano (o processo di Wiener) W = {W(t) : t ≥ 0} è


caratterizzato da:

1. W(0) = 0 quasi certamente


2. W ha incrementi indipendenti: per ogni 0 ≤ t₁ < t₂ < t₃ < t₄, gli incrementi W(t₂) −
W(t₁) e W(t₄) − W(t₃) sono indipendenti
3. W(t) − W(s) ~ N(0, t−s) per t > s
4. I cammini t ↦ W(t,ω) sono continui con probabilità 1

Il moto browniano è fondamentale in fisica (moto delle particelle), finanza (modelli di


prezzo), e in molti altri campi.

Le martingale: Una sequenza {Xₙ, ℱₙ} è una martingala se:

1. Xₙ è ℱₙ-misurabile (l'informazione al tempo n)


2. E[|Xₙ|] < ∞
3. E[Xₙ₊₁|ℱₙ] = Xₙ quasi certamente

Le martingale formalizzano l'idea di "gioco equo": il valore atteso futuro dato il


passato è uguale al valore presente. Sono uno strumento fondamentale della teoria
moderna.

Capitolo XII: L'Eredità di Kolmogorov e gli Sviluppi Moderni

L'Impatto della Formalizzazione

Silvano Salvador
44

L'assiomatizzazione di Kolmogorov ebbe un impatto trasformativo e permanente sul


calcolo delle probabilità. Prima del 1933 la disciplina era un misto eterogeneo di
intuizione, calcolo esplicito, e applicazioni pratiche, senza una chiara struttura
matematica unificante. C'erano ambiguità concettuali, controversie filosofiche
sull'interpretazione della probabilità, e mancanza di rigore nei fondamenti. Dopo
Kolmogorov, la teoria delle probabilità divenne un ramo pienamente rigoroso della
matematica, con teoremi precisi e dimostrazioni formali basate sulla teoria della
misura.

Gli aspetti chiave del contributo di Kolmogorov furono:

L'unificazione concettuale: Tutti i diversi approcci alla probabilità (classico laplaciano,


frequentista, geometrico) diventarono casi speciali della stessa struttura astratta di
spazio di probabilità.

La generalità matematica: La formalizzazione permise di trattare spazi infiniti e


continui con lo stesso rigore degli spazi finiti, risolvendo problemi che erano stati
fonte di confusione.

Il rigore analitico: Le dimostrazioni divennero rigorose secondo gli standard moderni


dell'analisi matematica, usando gli strumenti della teoria della misura e
dell'integrazione di Lebesgue.

La separazione tra matematica e interpretazione: Kolmogorov separò nettamente la


struttura matematica formale dalle questioni interpretative sulla "natura" della
probabilità. La matematica è la stessa indipendentemente da come si interpreta
filosoficamente P(A).

La connessione con l'analisi moderna: La probabilità divenne strettamente connessa


con l'analisi funzionale, la teoria della misura, e la topologia, permettendo l'uso di
potenti strumenti matematici moderni.

La base per sviluppi futuri: La formalizzazione fornì la base solida per tutti gli sviluppi
successivi: teoria dei processi stocastici, calcolo stocastico, teoria ergodica,
probabilità quantistica, e molto altro.

Gli Sviluppi del XX Secolo

Dopo Kolmogorov, la teoria delle probabilità esplose in una miriade di direzioni,


diventando uno dei campi più attivi e produttivi della matematica moderna:

Silvano Salvador
45

Il calcolo stocastico: Kiyosi Itō sviluppò negli anni '40 il calcolo differenziale e integrale
per i processi stocastici, con applicazioni fondamentali in fisica e finanza. L'integrale
di Itō e il lemma di Itō sono strumenti essenziali nella moderna finanza matematica.

La teoria ergodica: Lo studio dei sistemi dinamici con proprietà statistiche,


connettendo probabilità, teoria della misura, e sistemi dinamici.

La teoria delle code: Lo studio matematico dei sistemi di attesa, fondamentale per le
telecomunicazioni e la ricerca operativa.

La teoria dell'informazione: Claude Shannon fondò nel 1948 la teoria matematica


dell'informazione, usando concetti probabilistici per quantificare l'informazione e la
comunicazione.

La probabilità quantistica: Lo sviluppo di versioni non commutative della teoria delle


probabilità per la meccanica quantistica.

I metodi computazionali: Gli algoritmi Monte Carlo e i metodi MCMC (Markov Chain
Monte Carlo) per approssimazioni numeriche basate sulla simulazione.

Conclusione: Un Viaggio dal Caso al Rigore

Il percorso che abbiamo tracciato, dalle domande di un aristocratico giocatore nel XVII
secolo alla formalizzazione assiomatica di Kolmogorov nel XX secolo, illustra
magnificamente un pattern ricorrente nella storia della matematica: dai problemi
concreti e specifici si sviluppa gradualmente una teoria generale e astratta, che poi si
rivela applicabile a domini completamente imprevisti e inimmaginabili al momento
della sua nascita.

Il calcolo delle probabilità, nato modestamente per risolvere problemi di giochi


d'azzardo e divisione di poste, è diventato il linguaggio fondamentale e insostituibile
per descrivere l'incertezza in ogni campo del sapere umano. La formalizzazione di
Kolmogorov, lungi dall'essere un esercizio puramente astratto e autoreferenziale, ha
permesso lo sviluppo di applicazioni che i pionieri del XVII secolo non avrebbero mai
potuto immaginare nei loro sogni più arditi: dalla meccanica quantistica che governa
il mondo subatomico alla finanza quantitativa che muove i mercati globali,
dall'apprendimento automatico che alimenta l'intelligenza artificiale alla genomica
computazionale che decifra il codice della vita.

Eppure, nonostante tutto questo straordinario progresso formale e applicativo,


alcune delle questioni filosofiche fondamentali sulla natura ultima della probabilità
rimangono aperte, dibattute e affascinanti. Cosa "significa" realmente la probabilità?

Silvano Salvador
46

È una proprietà oggettiva del mondo fisico, qualcosa che esiste "là fuori"
indipendentemente da noi, o è piuttosto una misura soggettiva della nostra
ignoranza, uno strumento epistemologico per ragionare in condizioni di incertezza?
Come si collega esattamente la probabilità matematica, definita assiomaticamente
nello spazio astratto (Ω, ℱ, P), alle frequenze concretamente osservate nel mondo
reale empirico? Il teorema di Bernoulli fornisce una risposta parziale, ma non risolve
completamente il problema filosofico.

La storia del calcolo delle probabilità ci insegna lezioni profonde sulla natura del
progresso matematico e scientifico. Ci mostra che la matematica avanza attraverso
un continuo e fecondo dialogo tra l'intuizione e il rigore, tra i problemi concreti che
emergono dalla pratica e la teoria astratta che li trascende e li unifica, tra le
applicazioni pratiche che guidano la ricerca e la riflessione concettuale che chiarisce i
fondamenti. È una storia di progressivo e paziente raffinamento: dalle nozioni vaghe
e intuitive del senso comune alle definizioni precise e inequivocabili, dai calcoli ad hoc
e specifici ai teoremi generali e potenti che coprono intere classi di situazioni.

La teoria delle probabilità continua a evolversi, sorprendere, e ispirare. Nuove


applicazioni emergono continuamente in campi che si aprono alla frontiera della
ricerca: il machine learning moderno si basa pesantemente sui metodi probabilistici
bayesiani e sulle reti neurali stocastiche; la crittografia quantistica sfrutta l'intrinseca
casualità fondamentale della meccanica quantistica per garantire comunicazioni
assolutamente sicure; l'epidemiologia matematica usa processi stocastici sofisticati
per modellare la diffusione delle malattie e guidare le politiche di salute pubblica; la
teoria dell'informazione algoritmica studia i collegamenti profondi tra casualità,
compressione, e complessità.

Dalla sala da gioco del Cavaliere di Méré agli algoritmi che alimentano l'intelligenza
artificiale moderna, il calcolo delle probabilità ha percorso una strada lunga, tortuosa,
e affascinante. La sua storia è una testimonianza del potere straordinario del pensiero
matematico rigoroso, della sua capacità di trasformare intuizioni vaghe in conoscenza
precisa, e della sua perenne rilevanza per comprendere il mondo in cui viviamo. In un
universo permeato di incertezza, la teoria delle probabilità rimane la nostra bussola
più affidabile per navigare attraverso il caso e trovare ordine nel caos.

Appendice

Questa appendice contiene una serie di esempi matematici approfonditi che


illustrano i concetti fondamentali della teoria delle probabilità attraverso problemi
concreti, dimostrazioni dettagliate e applicazioni pratiche. Ogni esempio è stato
scelto per la sua importanza storica o per il suo valore pedagogico nel comprendere
aspetti sottili della teoria.

Silvano Salvador
47

Esempio 1: Il Paradosso di Monty Hall e l'Applicazione di Bayes

Un'applicazione interessante del teorema di Bayes è il famoso paradosso di Monty


Hall, che ha causato accesi dibattiti anche tra i matematici professionisti quando fu
proposto per la prima volta negli anni '90. Il problema è il seguente:
Sei in un gioco a premi televisivo. Ci sono tre porte: dietro una c'è un'automobile,
dietro le altre due ci sono delle capre. Scegli una porta, diciamo la porta 1. Il
conduttore del gioco, che sa cosa c'è dietro ogni porta, apre un'altra porta, diciamo la
porta 3, rivelando una capra. Ti viene poi data la possibilità di cambiare la tua scelta
iniziale. Conviene cambiare?
La risposta intuitiva di molti è che sia indifferente: rimangono due porte, quindi la
probabilità è 1/2 per ciascuna. Questa intuizione è profondamente errata!
Analizziamo con il teorema di Bayes. Sia A₁ l'evento "l'auto è dietro la porta 1", A₂
"l'auto è dietro la porta 2", A₃ "l'auto è dietro la porta 3". Inizialmente:

P(A₁) = P(A₂) = P(A₃) = 1/3

Sia M₃ l'evento "il conduttore apre la porta 3". Calcoliamo le verosimiglianze:

- P(M₃|A₁) = 1/2 (se l'auto è dietro la porta 1, il conduttore può aprire la porta 2 o 3
con uguale probabilità)
- P(M₃|A₂) = 1 (se l'auto è dietro la porta 2, il conduttore deve aprire la porta 3)
- P(M₃|A₃) = 0 (se l'auto è dietro la porta 3, il conduttore non può aprirla)

La probabilità totale di M₃ è:

P(M₃) = P(M₃|A₁)P(A₁) + P(M₃|A₂)P(A₂) + P(M₃|A₃)P(A₃)


= (1/2)(1/3) + (1)(1/3) + (0)(1/3) = 1/6 + 1/3 = 1/2

Applicando Bayes:

P(A₁|M₃) = [P(M₃|A₁)P(A₁)]/P(M₃) = [(1/2)(1/3)]/(1/2) = 1/3

P(A₂|M₃) = [P(M₃|A₂)P(A₂)]/P(M₃) = [(1)(1/3)]/(1/2) = 2/3

Quindi conviene decisamente cambiare! La probabilità di vincere cambiando è 2/3,


mentre restando sulla scelta iniziale è solo 1/3.
L'intuizione chiave è che l'azione del conduttore fornisce informazione: aprendo la
porta 3, ci sta essenzialmente dicendo "l'auto non è qui, e ho dovuto scegliere tra
questa e la porta 2". Se avevamo scelto inizialmente male (probabilità 2/3),
cambiando vinceremo sicuramente.

Silvano Salvador
48

Esempio 2: Il Problema del Compleanno e le Probabilità Controintuitive

Un classico problema controintuitivo nella teoria delle probabilità: quante persone


devono esserci in una stanza affinché la probabilità che almeno due abbiano lo stesso
compleanno superi 1/2?
Assumiamo che i compleanni siano distribuiti uniformemente sui 365 giorni dell'anno
(ignorando gli anni bisestili) e che siano indipendenti tra loro.
È più facile calcolare la probabilità complementare: che tutti abbiano compleanni
diversi.

Con n persone:
- La prima persona può avere il compleanno in uno qualsiasi dei 365 giorni
- La seconda deve avere un compleanno diverso: probabilità 364/365
- La terza deve differire dalle prime due: probabilità 363/365
- ...
- L'n-esima deve differire dalle precedenti n−1: probabilità (365−n+1)/365

La probabilità che tutti abbiano compleanni diversi è:

P(tutti diversi) = 1 × (364/365) × (363/365) × ... × [(365−n+1)/365]


= [365 × 364 × ... × (365−n+1)]/365ⁿ
= 365!/(365ⁿ × (365−n)!)

La probabilità che almeno due abbiano lo stesso compleanno è:

P(almeno una coincidenza) = 1 − P(tutti diversi)


Calcoliamo per alcuni valori di n:

Per n = 20:
P(tutti diversi) ≈ 0,5886
P(coincidenza) ≈ 0,4114

Per n = 23:
P(tutti diversi) ≈ 0,4927
P(coincidenza) ≈ 0,5073

Per n = 30:
P(tutti diversi) ≈ 0,2937
P(coincidenza) ≈ 0,7063

Silvano Salvador
49

Sorprendentemente, bastano solo 23 persone per avere una probabilità maggiore di


1/2 di trovare una coincidenza! Con 30 persone la probabilità sale oltre il 70%.
Questo risultato appare controintuitivo perché non stiamo cercando una persona
specifica con lo stesso compleanno di un'altra persona specifica (in quel caso
servirebbero molte più persone), ma semplicemente una qualsiasi coppia con lo
stesso compleanno tra tutte le C(n,2) = n(n−1)/2 possibili coppie. Con 23 persone ci
sono 253 coppie diverse da confrontare!

Esempio 3: Il Problema della Rovina del Giocatore

Un giocatore inizia con un capitale a e gioca contro un avversario con un capitale b. A


ogni partita il giocatore vince 1 con probabilità p e perde 1 con probabilità q = 1−p. Il
gioco termina quando uno dei due è in rovina. Qual è la probabilità che il giocatore
vinca (cioè arrivi a un capitale totale a+b)?

Sia Pᵢ la probabilità di vittoria finale partendo da un capitale i. Chiaramente P₀ = 0 (se


siamo in rovina, abbiamo perso) e P_{a+b} = 1.

Per 0 < i < a+b, possiamo scrivere un'equazione ricorsiva. Dopo la prima partita ci
troviamo nella posizione i+1 con probabilità p o nella posizione i−1 con probabilità q:

Pᵢ = p × Pᵢ₊₁ + q × Pᵢ₋₁

Riarrangiando:
p(Pᵢ₊₁ − Pᵢ) = q(Pᵢ − Pᵢ₋₁)

Ponendo Dᵢ = Pᵢ₊₁ − Pᵢ (la "differenza prima"), otteniamo:


Dᵢ = (q/p)Dᵢ₋₁

Quindi:
Dᵢ = (q/p)ⁱD₀

Sommando da i = 0 a i = k−1:
Pₖ − P₀ = D₀ + D₁ + ... + Dₖ₋₁ = D₀[1 + (q/p) + (q/p)² + ... + (q/p)^{k−1}]

Caso 1: Il gioco equo (p = q = 1/2)

In questo caso q/p = 1, quindi:


Pₖ − P₀ = D₀ × k
Pₖ = k × D₀

Usando P₀ = 0 e P_{a+b} = 1:

Silvano Salvador
50

1 = (a+b) × D₀
D₀ = 1/(a+b)

Quindi:
Pₐ = a/(a+b)
La probabilità di vittoria è semplicemente proporzionale al capitale iniziale relativo.
Se inizio con a = 30 e l'avversario ha b = 70, la mia probabilità di vincere è 30/100 =
0,30.

Caso 2: Il gioco non equo (p ≠ 1/2)


Sia r = q/p. La somma geometrica dà:
Pₖ − P₀ = D₀[(1 − rᵏ)/(1 − r)]
Da P₀ = 0 e P_{a+b} = 1:
1 = D₀[(1 − r^{a+b})/(1 − r)]
D₀ = (1 − r)/(1 − r^{a+b})
Quindi:
Pₐ = [(1 − rᵃ)/(1 − r^{a+b})]
Se r < 1 (cioè p > 1/2, il gioco è favorevole):
- Per a, b finiti, Pₐ > a/(a+b)
- Se b → ∞, Pₐ → 1 − rᵃ (la probabilità di non rovinarsi mai)
Se r > 1 (cioè p < 1/2, il gioco è sfavorevole):
- Pₐ < a/(a+b)
- Se b → ∞, Pₐ → 0 (la rovina è quasi certa)

Questo modello illustra perché i casinò vincono sempre a lungo termine: anche un
piccolo vantaggio matematico (p leggermente minore di 1/2 per il giocatore) porta
quasi certamente alla rovina del giocatore se continua a giocare indefinitamente.

Esempio 4: La Stima Bayesiana con il Prior Coniugato

Consideriamo un esempio concreto di inferenza bayesiana. Supponiamo di lanciare


una moneta n volte e osservare k teste. Vogliamo stimare la probabilità θ che la
moneta dia testa.

L'approccio classico (massima verosimiglianza):


θ̂_{ML} = k/n

L'approccio bayesiano:
Scegliamo un prior Beta(α, β) per θ:

π(θ) = [Γ(α+β)/(Γ(α)Γ(β))] × θ^{α−1}(1−θ)^{β−1}

Silvano Salvador
51

Questo prior ha la media E[θ] = α/(α+β) e rappresenta la nostra credenza iniziale. La


scelta di α e β permette di codificare diverse credenze:
- α = β = 1: il prior uniforme (totale ignoranza)
- α = β = 1/2: il prior di Jeffreys (invariante per riparametrizzazioni)
- α = β grande: una forte credenza che θ ≈ 1/2

La verosimiglianza per k teste in n lanci è:


L(θ|k,n) = C(n,k) × θᵏ(1−θ)^{n−k}
Il posteriore è proporzionale al prodotto prior × verosimiglianza:

π(θ|k,n) ∝ θ^{α−1}(1−θ)^{β−1} × θᵏ(1−θ)^{n−k}


= θ^{α+k−1}(1−θ)^{β+n−k−1}

Questa è ancora una distribuzione Beta, ora con i parametri (α+k, β+n−k). Diciamo
che Beta è una famiglia coniugata per la verosimiglianza binomiale.

Il posteriore ha:
- La media: E[θ|k,n] = (α+k)/(α+β+n)
- La moda: (α+k−1)/(α+β+n−2) per α,β > 1

Possiamo riscrivere la media posteriore come:

E[θ|k,n] = [(α+β)/(α+β+n)] × [α/(α+β)] + [n/(α+β+n)] × (k/n)


Questa è una media ponderata tra il prior E[θ] = α/(α+β) e la stima MLE k/n. Il peso
relativo dipende dalla "forza" del prior (α+β) rispetto alla quantità di dati (n).

Un esempio numerico:
- Il prior: α = β = 2 (una credenza moderata che θ ≈ 1/2)
- I dati: n = 10 lanci, k = 7 teste
- MLE: θ̂_{ML} = 7/10 = 0,70
- Il posteriore: Beta(9, 5)
- La media posteriore: E[θ|k,n] = 9/14 ≈ 0,643

Con pochi dati il prior ha un'influenza significativa. Se avessimo n = 100, k = 70:


- La media posteriore: (2+70)/(2+2+100) = 72/104 ≈ 0,692

Il prior ha ora meno influenza. Nel limite n → ∞ la stima bayesiana converge alla MLE.

Esempio 5: Il Test di Ipotesi e gli Errori di Tipo I e II

Consideriamo il problema di testare se una moneta è equa basandoci su n lanci. Le


ipotesi sono:

Silvano Salvador
52

- H₀: θ = 0,5 (la moneta equa)


- H₁: θ ≠ 0,5 (la moneta non equa)

Sia X il numero di teste osservate. Sotto H₀, X ~ Bin(n, 0,5).

Definiamo la regione di rigetto: rifiutiamo H₀ se |X − n/2| è "troppo grande". Più


precisamente, fissiamo un livello di significatività α (tipicamente α = 0,05) e rifiutiamo
H₀ se:

|X − n/2| > c

dove c è scelto in modo che P(|X − n/2| > c | H₀) = α.

L'errore di Tipo I: Rifiutare H₀ quando è vera.


P(Errore Tipo I) = P(|X − n/2| > c | H₀) = α

L'errore di Tipo II: Non rifiutare H₀ quando è falsa.


P(Errore Tipo II) = P(|X − n/2| ≤ c | H₁) = β

La potenza del test è 1 − β = P(rifiutare H₀ | H₁).

Un esempio numerico con n = 100:

Sotto H₀: E[X] = 50, Var(X) = 25, σ = 5

Usando l'approssimazione normale, per α = 0,05:


Z = (X − 50)/5 ~ N(0,1) approssimativamente

Per un test a due code rifiutiamo se |Z| > 1,96, cioè se:
|X − 50| > 1,96 × 5 = 9,8

Quindi rifiutiamo se X < 40,2 o X > 59,8, cioè (con X intero) se X ≤ 40 o X ≥ 60.

Supponiamo ora che la vera probabilità sia θ = 0,6 (H₁ vera). Sotto H₁:
E[X] = 60, Var(X) = 24, σ ≈ 4,90

La probabilità di non rifiutare (l'errore di Tipo II) è:


β = P(41 ≤ X ≤ 59 | θ = 0,6)
≈ P((41 − 60)/4,90 ≤ Z ≤ (59 − 60)/4,90)
= P(−3,88 ≤ Z ≤ −0,20)
≈ Φ(−0,20) − Φ(−3,88)
≈ 0,4207 − 0,0001

Silvano Salvador
53

≈ 0,42

Quindi la potenza è 1 − β ≈ 0,58. Con n = 100 e θ = 0,6 abbiamo solo il 58% di


probabilità di rilevare che la moneta non è equa.
Questo illustra il trade-off fondamentale nell'inferenza statistica tra gli errori di Tipo I
e Tipo II.

Esempio 6: Le Catene di Markov e la Distribuzione Stazionaria

Una catena di Markov discreta è un processo stocastico {Xₙ} che soddisfa la proprietà
markoviana:

P(Xₙ₊₁ = j | Xₙ = i, Xₙ₋₁ = iₙ₋₁, ..., X₀ = i₀) = P(Xₙ₊₁ = j | Xₙ = i)

La catena è caratterizzata dalla matrice di transizione P = (pᵢⱼ) dove pᵢⱼ = P(Xₙ₊₁ = j | Xₙ


= i).

Un esempio: Il modello di clima semplificato

Supponiamo che il tempo possa essere Sole (S) o Pioggia (P), con le transizioni:
- Se oggi c'è sole, domani: sole con probabilità 0,8, pioggia con probabilità 0,2
- Se oggi piove, domani: sole con probabilità 0,4, pioggia con probabilità 0,6

La matrice di transizione è:

S P
P = S [0,8 0,2]
P [0,4 0,6]

Se oggi c'è sole, qual è la probabilità che piova tra due giorni?

P²(S,P) = P(S,S) × P(S,P) + P(S,P) × P(P,P)


= 0,8 × 0,2 + 0,2 × 0,6
= 0,16 + 0,12 = 0,28

Calcoliamo P²:

P² = [0,8 0,2] × [0,8 0,2] = [0,72 0,28]


[0,4 0,6] [0,4 0,6] [0,56 0,44]

La distribuzione stazionaria:

Silvano Salvador
54

Una distribuzione π = (πₛ, πₚ) è stazionaria se πP = π, cioè:

πₛ × 0,8 + πₚ × 0,4 = πₛ
πₛ × 0,2 + πₚ × 0,6 = πₚ

Dalla prima equazione:


πₛ(1 − 0,8) = πₚ × 0,4
0,2πₛ = 0,4πₚ
πₛ = 2πₚ

Con il vincolo πₛ + πₚ = 1:
2πₚ + πₚ = 1
πₚ = 1/3
πₛ = 2/3

A lungo termine, indipendentemente dal tempo di oggi, ci sarà sole 2/3 dei giorni e
pioggia 1/3 dei giorni.

Verifichiamo calcolando Pⁿ per n grande:

P⁴ = [0,688 0,312]
[0,624 0,376]

P⁸ = [0,6672 0,3328]
[0,6656 0,3344]

P¹⁶ ≈ [0,6667 0,3333]


[0,6667 0,3333]

Le righe convergono a (2/3, 1/3), confermando la distribuzione stazionaria.

Il tempo medio di ritorno:

Se siamo in uno stato i, il tempo medio di ritorno a i è τᵢ = 1/πᵢ.

Per lo stato S: τₛ = 1/(2/3) = 1,5 giorni


Per lo stato P: τₚ = 1/(1/3) = 3 giorni

Esempio 7: Il Processo di Poisson e i Tempi di Attesa

Consideriamo un centralino telefonico che riceve le chiamate secondo un processo di


Poisson con il tasso λ = 3 chiamate per minuto.

Silvano Salvador
55

Domanda 1: Qual è la probabilità di ricevere esattamente k chiamate in un intervallo


di t minuti?

Sappiamo che N(t) ~ Pois(λt), quindi:

P(N(t) = k) = [e^(−λt) × (λt)^k]/k!

Per t = 5 minuti e k = 10 chiamate:

P(N(5) = 10) = [e^(−15) × 15^10]/10!


≈ 0,0486

Domanda 2: Qual è il tempo medio di attesa fino alla prossima chiamata?

Il tempo T tra le chiamate consecutive segue una distribuzione esponenziale con il


parametro λ:

f_T(t) = λe^(−λt) per t ≥ 0

Il tempo medio di attesa è E[T] = 1/λ = 1/3 minuto = 20 secondi.

Domanda 3: Dato che sono passati già 30 secondi senza chiamate, qual è la probabilità
di aspettare altri 30 secondi?

Questa è la famosa proprietà di assenza di memoria dell'esponenziale:

P(T > s + t | T > s) = P(T > t)

Il fatto di aver già aspettato non cambia la distribuzione del tempo di attesa futuro!

Esempio 8: La Disuguaglianza di Chernoff e la Concentrazione

Le disuguaglianze di concentrazione sono strumenti potentissimi nella probabilità


moderna. Mentre la disuguaglianza di Chebyshev dà:

P(|X − E[X]| ≥ t) ≤ Var(X)/t²

la disuguaglianza di Chernoff fornisce i limiti esponenzialmente migliori per le somme


di variabili indipendenti.

Silvano Salvador
56

Il teorema (Chernoff): Siano X₁, ..., Xₙ le variabili aleatorie indipendenti di Bernoulli


con P(Xᵢ = 1) = pᵢ. Sia X = X₁ + ... + Xₙ e μ = E[X] = Σpᵢ. Allora per ogni δ > 0:

P(X ≥ (1+δ)μ) ≤ [e^δ/(1+δ)^(1+δ)]^μ

Per δ ≤ 1 questo si semplifica in:

P(X ≥ (1+δ)μ) ≤ e^(−δ²μ/3)

La dimostrazione (sketch): Usiamo la tecnica della funzione generatrice dei momenti.


Per ogni s > 0:

P(X ≥ (1+δ)μ) = P(e^(sX) ≥ e^(s(1+δ)μ))

Per la disuguaglianza di Markov:

P(e^(sX) ≥ e^(s(1+δ)μ)) ≤ E[e^(sX)]/e^(s(1+δ)μ)

Per l'indipendenza:

E[e^(sX)] = ∏ᵢ₌₁ⁿ E[e^(sXᵢ)]

Per una Bernoulli con la probabilità p:

E[e^(sX)] = (1−p) + pe^s ≤ e^(p(e^s−1))

Quindi E[e^(sX)] ≤ e^(μ(e^s−1))

Ottimizzando su s (scegliendo s = log(1+δ)):

P(X ≥ (1+δ)μ) ≤ [e^δ/(1+δ)^(1+δ)]^μ

Un esempio numerico: Lanciamo una moneta equa 1000 volte. Qual è la probabilità
di ottenere almeno 600 teste?

Qui n = 1000, p = 0,5, μ = 500, e vogliamo P(X ≥ 600) = P(X ≥ 1,2μ), quindi δ = 0,2.

Con Chebyshev: Var(X) = 250, quindi P(X ≥ 600) ≤ 250/10000 = 0,025

Con Chernoff: P(X ≥ 600) ≤ e^(−0,04 × 500/3) ≈ 0,0013

Il limite di Chernoff è circa 19 volte migliore!

Silvano Salvador
57

Esempio 9: Il Problema del Segretario e l'Arresto Ottimale

Questo è un classico problema di decisione sequenziale. Dobbiamo assumere un


segretario tra n candidati che si presentano in ordine casuale. Possiamo intervistare i
candidati uno alla volta, e dopo ogni intervista dobbiamo decidere immediatamente
se assumere (e il processo termina) o rifiutare (e non possiamo tornare indietro).
L'obiettivo è massimizzare la probabilità di assumere il migliore.

La strategia ottimale: Rifiutare i primi r candidati (la fase di osservazione), poi


assumere il primo candidato successivo che è migliore di tutti quelli visti finora.

Sia P(r) la probabilità di successo con questa strategia. Il candidato i è il migliore e


viene assunto se:
1. Il migliore tra i primi i−1 è tra i primi r
2. Il candidato i è il migliore complessivo

P(r) = (1/n) × Σ(i=r+1 fino a n) [r/(i−1)]


= (r/n) × Σ(j=r fino a n−1) (1/j)

Per n grande: P(r) ≈ (r/n) × log((n−1)/r)

Per massimizzare, deriviamo rispetto a r. Ponendo x = r/n, otteniamo x ≈ 1/e.


La strategia ottimale è quindi: rifiutare i primi n/e ≈ 0,368n candidati, poi assumere il
primo che è migliore di tutti quelli visti.

La probabilità di successo è P(n/e) ≈ 1/e ≈ 0,368

Esempio 10: Le Funzioni Generatrici e il Problema delle Coincidenze

Le funzioni generatrici sono strumenti potenti per risolvere i problemi combinatori


probabilistici. Consideriamo il problema delle coincidenze (rencontres): in una
permutazione casuale di n oggetti, quanti oggetti si trovano nella loro posizione
originale?

Sia X il numero di punti fissi. Per k = 0 (derangement):

P(X = 0) = Σ(i=0 fino a n) [(−1)^i/i!] ≈ e^(−1) ≈ 0,368

Per k generale:

P(X = k) ≈ e^(−1)/k!

Silvano Salvador
58

Questa è la distribuzione di Poisson con il parametro λ = 1!

Verifica: Usando gli indicatori I_i:


X = I₁ + I₂ + ... + I_n

E[X] = Σ E[Iᵢ] = n × (1/n) = 1

Var(X) = 1

Quindi X ha la media 1 e la varianza 1 per ogni n, esattamente come Pois(1)!

Silvano Salvador

Potrebbero piacerti anche