Fundamentos de Probabilidad
Fundamentos de Probabilidad
1. Variables aleatorias 4
1.1. Concepto y definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. La distribución de una variable aleatoria . . . . . . . . . . . . . . . . . 7
1.2.1. La función de distribución y sus propiedades . . . . . . . . . . . 8
1.3. Clasificación de variables aleatorias . . . . . . . . . . . . . . . . . . . . 10
1.4. Esperanza matemática, varianza y momentos de la distribución . . . . 11
1.5. Algunas distribuciones usuales . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.1. Algunas familias de distribuciones continuas . . . . . . . . . . . 17
1.5.2. Algunas familias de distribuciones discretas . . . . . . . . . . . 20
1.6. Consideraciones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2. Transformadas de la distribución 25
2.1. Función generadora de momentos . . . . . . . . . . . . . . . . . . . . . 25
2.2. Función generadora de probabilidad . . . . . . . . . . . . . . . . . . . . 30
2.3. Otras funciones generadoras usuales . . . . . . . . . . . . . . . . . . . . 34
2.3.1. Función característica . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.2. Cumulantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3. Vectores aleatorios 37
3.1. Distribución conjunta de variables aleatorias . . . . . . . . . . . . . . . 37
3.1.1. Función de distribución conjunta . . . . . . . . . . . . . . . . . 38
3.1.2. Clasificación de vectores aleatorios y cálculo de probabilidades . 40
1
ÍNDICE GENERAL 2
4. Teoría asintótica 55
4.1. Distribución asintótica de una sucesión de variables aleatorias . . . . . 55
4.1.1. Convergencia en distribución . . . . . . . . . . . . . . . . . . . . 57
4.1.2. Convergencia de la función generadora de momentos . . . . . . 62
4.2. Teorema central del límite . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3. Convergencia en probabilidad y Ley de los grandes números. . . . . . . 67
4.3.1. Convergencia en probabilidad . . . . . . . . . . . . . . . . . . . 67
4.3.2. La ley de los grandes números . . . . . . . . . . . . . . . . . . . 70
6. Estimadores puntuales 97
6.1. Introducción a la inferencia estadística . . . . . . . . . . . . . . . . . . 97
6.1.1. Población: concepto. Muestra aleatoria (muestreo aleatorio simple). 98
6.1.2. Modelos estadísticos paramétricos y no paramétricos. . . . . . . 100
6.2. Estimadores puntuales. Propiedades deseables. . . . . . . . . . . . . . . 101
6.2.1. Distribución de un estimador. Características relevantes y pro-
piedades deseables . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.3. Propiedades deseables de estadísticos muestrales . . . . . . . . . . . . . 110
6.3.1. Estadísticos y estimadores. . . . . . . . . . . . . . . . . . . . . . 110
6.3.2. Estadísticos suficientes . . . . . . . . . . . . . . . . . . . . . . . 111
6.4. Información de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.4.1. Interpretación de la definición . . . . . . . . . . . . . . . . . . . 115
6.4.2. Información y eficiencia. Cota de Cramér-Rao. . . . . . . . . . . 118
6.4.3. Otras propiedades de la información de Fisher . . . . . . . . . . 120
6.5. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.5.1. Métodos de momentos . . . . . . . . . . . . . . . . . . . . . . . 121
6.5.2. Método de máxima verosimilitud . . . . . . . . . . . . . . . . . 124
6.5.3. Otros métodos de estimación . . . . . . . . . . . . . . . . . . . . 134
Capítulo 1
Variables aleatorias
4
CAPÍTULO 1. VARIABLES ALEATORIAS 5
(en general, este será el conjunto R de los números reales o algún subconjunto del
mismo). Dicha asignación de un (y solo un) valor de R a cada posible resultado ω ∈ Ω
es en última instancia una función de Ω a R. Dichas funciones suelen representarse con
letras mayúsculas (X, Y , Z, etc.), y bajo ciertas condiciones bastante generales se de-
nominan variables aleatorias. Estas pueden interpretarse como variables numéricas que
tomarán valores al azar dependiendo de cuál sea el resultado del experimento aleatorio
representado en el espacio de probabilidad.
Existe, sin embargo, un detalle «técnico» importante: como se verá luego, dada una
variable aleatoria X resultará fundamental para la teoría de la probabilidad considerar
eventos de la forma
{ω ∈ Ω : X(ω) ≤ a}
para cada a ∈ R y sus respectivas probabilidades. Pero dada una función cualquiera
X : Ω −→ R,
nada garantiza que para cada a ∈ R tales subconjuntos del espacio muestral sean,
efectivamente, eventos (elementos de la σ-álgebra E).
Luego, esta es una condición que debe exigirse en la definición de variable aleatoria,
y que presentamos a continuación.1
X : Ω −→ R
{ω ∈ Ω : X(ω) ≤ a} ∈ E.
{ω ∈ Ω : X(ω) ≤ a}
como
{X ≤ a},
1
La definición de variable aleatoria (real) es por este motivo un tanto técnica, pero los detalles solo
son relevantes cuando existen subconjuntos de Ω que no son eventos. En lo subsiguiente este tecnicismo
no tendrá mayor relevancia en los razonamientos, aunque haremos uso permanentemente del hecho
de que {X ≤ a} es un evento, y por tanto tiene sentido referirse a su probabilidad, P(X ≤ a). En
cualquier caso, lo central es recordar que una variable aleatoria es una función que asigna un valor
numérico a cada posible resultado del experimento aleatorio.
CAPÍTULO 1. VARIABLES ALEATORIAS 6
sin hacer referencia explícita al espacio muestral, aun cuando se trata de un subconjunto
de este. Como se dijo, si X es una variable aleatoria, tal conjunto es un evento, y al
representar su probabilidad suelen omitirse las llaves, es decir, escribimos
P(X ≤ a).
{X = a},
y su probabilidad como
P(X = a).
De igual modo se interpretan las expresiones {X < a}, {a ≤ X ≤ b}, etc. Y en general,
si B es un boreliano de R, se escribe
{ω ∈ Ω : X(ω) ∈ B}
como
{X ∈ B}.
{X ∈ B},
si B es un boreliano de R.3
Una noción que será de utilidad en los próximos capítulos es la de variables aleato-
rias independientes. Si bien la interpretación de esta noción resulta intuitiva, conviene
precisar la definición, que se basa en la noción previa de eventos independientes.
Definición 2. Dadas dos variables aleatorias X e Y , decimos que estas son variables
aleatorias independientes, sii para cualquier par de borelianos B1 y B2 se tiene que los
eventos
{X ∈ B1 } e {Y ∈ B2 }
son independientes.
P(X ∈ B),
P(X ≥ a) = 1 − FX (a− )
FX (t0 ) = FX (t+
0 ), ∀t0 ∈ R;
3. lı́m FX (t) = 0;
t→−∞
4. lı́m FX (t) = 1.
t→+∞
Más aún, puede probarse que si F es una función con esas cuatro propiedades, entonces
es una distribución (es decir, existe una variable aleatoria X tal que F = FX ).
En particular:
Entre las VA continuas se destacan aquellas para las cuales existe una función fX
integrable en R con la propiedad
Z t
FX (t) = f (x) dx
−∞
∀t ∈ R.
Cuando existe una función fX con dicha propiedad, X se dice absolutamente con-
tinua y decimos que fX es una (función de) densidad para X. Si X es discreta, la
herramienta análoga es la función de probabilidad (o de probabilidad puntual, o de
masa de probabilidad, según la fuente), que definimos como
pX : RX → [0; 1] / pX (x) = P (X = x) .
(También es usual pensar a pX con dominio en R, en cuyo caso se anula en todos los
x∈/ RX ).
8
Esta suma está bien definida, ya que RX , por ser el conjunto de discontinuidades de una función
monótona, es necesariamente finito o infinito numerable. Informalmente, esto significa que puede
hacerse una lista —finita o infinita— que enumere todos los elementos de RX (cosa que no es posible
—por ejemplo— con todos los elementos de R); luego, si RX = {x1 , x2 , ...}, la suma en cuestión es la
serie
P(X = x1 ) + P(X = x2 ) + · · · ,
que puede probarse fácilmente que converge y su suma no depende del orden de los términos (i.e.,
converge absolutamente).
CAPÍTULO 1. VARIABLES ALEATORIAS 11
También cabe agregar que existen VA continuas que no son absolutamente continuas
(i.e., continuas pero sin densidad), pero los ejemplos de estas y de sus correspondientes
distribuciones son bastante complejos y su análisis requiere conocimientos de teoría
de la medida (en particular, de la medida de Lebesgue en R); además, dichos casos
están lejos de ser relevantes para la aplicación de métodos estadísticos en el ámbito
actuarial y económico, salvo tal vez en algunos contextos muy específicos. Por ese
motivo, en pos de la brevedad, en lo subsiguiente a veces usaremos expresiones como
«X es una V.A.continua con densidad fX (x). . . », sin aclarar que se trata de una
variable absolutamente continua; pero esto de todos modos es cierto por existir una
densidad de la distribución.
9
Una definición general —aunque existen otras incluso más convenientes— puede darse en términos
de una integral de Riemann-Stieltjes (una extensión de la integral de Riemann) como
Z +∞
E(X) = x dFX (x).
−∞
CAPÍTULO 1. VARIABLES ALEATORIAS 12
Observación 3. La E(X) puede tomar un valor finito, infinito (positivoR0 o negati-
vo) o no existir. Esto último ocurre, por ejemplo, si de la integrales −∞ xfX (x) dx y
R +∞
0
xfX (x) dx una diverge a −∞ y la otra diverge a +∞, ya que en ese caso la integral
entre −∞ y +∞ se considera no definida.
E(aX + b) = a E(X) + b;
E(a) = a;
E(X + Y ) = E(X) + E(Y );
si X e Y son independientes, se tiene E(XY ) = E(X) E(Y ).
Cabe aclarar que la última propiedad será probada en el capítulo 3, pero la enun-
ciamos aquí ya que será de utilidad en el capítulo 2. Sin la hipótesis de independencia,
la esperanza de un producto puede o no ser igual al producto de las respectivas espe-
ranzas; la caracterización completa de cuándo esto se verifica y cuándo no resultará del
estudio de la covarianza en el capítulo 3.
Si se define una nueva variable en función de X como Y = g(X) (por ejemplo,
Y = X 2 , Y = e2X , etc.), en principio puede calcularse E(Y ) en base a su función de
probabilidad pY (y) o densidad fY (y), según el caso. Sin embargo, es posible también
hacerlo conociendo solo pX (x) o fX (x), según lo establece el siguiente teorema:
Si esa integral fuera entre a y b, existiría por ser g(x) = x una función continua y FX monótona. En
última instancia, la existencia de la esperanza (finita o infinita) dependerá de cómo se comporte la
misma cuando a → −∞ y b → +∞.
CAPÍTULO 1. VARIABLES ALEATORIAS 13
RY = g(RX ),
P(Y = y0 )
está dada por la suma de las probabilidades puntuales de todos los x ∈ RX tales que
g(x) = y0 . Esto es,
X X
pY (y0 ) = P(Y = y0 ) = P(X = x) = pX (x).
x∈RX x∈RX
g(x)=y0 g(x)=y0
es decir,
X X X X X X
E(Y ) = y
p X (x)
= y · p X (x) = g(x) · pX (x) =
y∈RY x∈RX y∈RY x∈RX y∈RY x∈RX
g(x)=y g(x)=y g(x)=y
X
= g(x) · pX (x).
x∈RX
CAPÍTULO 1. VARIABLES ALEATORIAS 14
3
permite calcular en base a la distribución de X, valores como E(X ),
Este teorema
E X(X − 1) , etc., y otras que definimos a continuación y resultan de interés teórico
y práctico.
Definición 6. Dada una variable aleatoria X, se denominan momentos de la distribu-
ción de X a las siguientes cantidades:
En particular,
µ0 = E (X − m1 )0 = 1,
µ1 = E (X − m1 ) = E(X) − E(m1 ) = m1 − m1 = 0
y además se define como varianza de X a
var(X) = µ2 = E (X − m1 )2 .
y
ϕ2 = E X (2) = E X(X − 1) = E(X 2 ) − E(X) = m2 − m1 .
ϕ 1 = m1 y ϕ2 = m2 − m1 .
Como esto es también la varianza, se tiene lo que se conoce como «fórmula de cálculo»
de la varianza:
var(X) = m2 − m21 .
Por lo visto antes, la varianza también puede escribirse en términos de momentos
factoriales, como
var(X) = ϕ2 + ϕ1 − ϕ21 .
y a µ4 como
var(aX + b) = a2 var(X);
CAPÍTULO 1. VARIABLES ALEATORIAS 16
var(a) = 0;
si X e Y son independientes, se tiene var(X + Y ) = var(X) + var(Y ).
Observación 4. Nótese que la propiedad
var(aX) = a2 var(X)
σ(aX) = |a|σ(X).
Cabe aclarar también que aún en el caso de variables independientes, puede no ser
cierto que el desvío estándar de una suma sea la suma de los desvíos.
µk (aX + b) = ak µk (X).
Es decir, los momentos centrados son invariantes ante un cambio de posición, pero no
ante un cambio de escala.
Esto, junto a la propiedad mencionada para el desvío estándar, implica que si a > 0,
entonces
µk (aX + b) ak µk (X) ak µk (X)
αk (aX + b) = k = k = k = αk (X),
σ(aX + b) aσ(X) a σ(X)k
lo que prueba que los momentos estandarizados son invariantes tanto ante cambios de
posición, como de escala (aunque los de orden impar son sensibles a cambios de signo).
Además, si α = 0 se tiene
1 si t > 0
F (t) =
0 si t < 0,
pero F (0) no está bien definida.
Es un buen ejercicio verificar que únicamente cuando α > 0 la función F resultante
está bien definida para todos los valores reales de t y resulta además una función de
distribución (es decir, cumple las cuatro condiciones mencionadas en la propiedad 2).
Por este motivo, podemos decir que F (t) definida como lo hicimos, para α > 0,
constituye una familia de distribuciones (no una única distribución, ya que para cada
valor de α la función de distribución da diferentes valores). Más precisamente, dicha
familia de distribuciones es el conjunto de todas las funciones Fα (t) tales que α > 0 y
α
1 − α+t si t ≥ 0
Fα (t) =
0 si t < 0.
λα α−1 −λx
Γ(α, λ) Γ(α)
x e
α α
Gamma — λ λ2
(α, λ > 0) (x > 0)
1
Beta(α, β) B(α,β)
xα−1 (1 − x)β−1
α αβ
Beta — α+β (α+β)2 (α+β+1)
(α, β > 0) (0 < x < 1)
N (µ, σ 2 )
1 2
Normal √ 1 e− 2σ2 (x−µ) — µ σ2
2πσ 2
(σ 2 > 0)
C(a, b)
1 1 x−a 1
Cauchy πb(1+( x−a )2 ) π
arctan b
+ 2
— —
b
(b > 0)
18
CAPÍTULO 1. VARIABLES ALEATORIAS
Nombre Notación Función de densidad Función de distribución Esperanza Varianza
1 x−a
U(a, b) b−a b−a
a+b (b−a)2
Uniforme 2 12
(a < b) (a < x < b) (a < x < b)
(ln x−µ)2
LogN (µ, σ 2 ) 1√
2xσ 2π
e− 2σ 2
σ2 2 2
Log-normal — eµ+ 2 (eσ − 1)e2µ+σ
(σ > 0) (x > 0)
Weibull
Laplace
Pareto
19
CAPÍTULO 1. VARIABLES ALEATORIAS 20
Be(p)
Bernoulli {0, 1} px (1 − p)1−x p p(1 − p)
(0 < p < 1)
Bin(n, p)
n
x
Binomial {0, 1, . . . , n} x
p (1 − p)n−x np np(1 − p)
(n ∈ N, 0 < p < 1)
P(λ)
e−λ λx
Poisson N0 x!
λ λ
(λ > 0)
G(p)
1 1−p
Geométrica N p(1 − p)x−1 p p2
(0 < p < 1)
Binomial BN (r, p)
x−1 r pr
Negativa {r, r + 1, . . .} r−1
pr (1 − p)x−r 1−p
??? (1−p)2
???
(Pascal) (r ∈ N, 0 < p < 1)
21
CAPÍTULO 1. VARIABLES ALEATORIAS 22
que los valores posibles, con probabilidad positiva (lo que denominaremos el rango
de X) son 0, 1 y 2;
1
y que pX (0) = pX (2) = 4
y pX (1) = 21 .
A su vez, exactamente lo mismo vale para Y , lo que implica que ambas variables tienen
la misma distribución.
Sin embargo, X e Y no son iguales como variables aleatorias, ya que si ω0 = (C, C)
entonces X = 0 e Y = 2, es decir, X(ω0 ) 6= Y (ω0 ) y lo contrario ocurre en ω1 = (X, X).
Y aunque valga que X = Y para los otros elementos, alcanza con que difieran sobre un
elemento del dominio para que sean diferentes funciones, es decir, distintas variables
aleatorias.
Puesto de otro modo:
CAPÍTULO 1. VARIABLES ALEATORIAS 23
y si bien se trata de otra variable con la misma distribución que X e Y , los valores que
toma Z en cada ω ∈ Ω difieren del de X y del de Y (verificarlo). Por lo que el conjunto
de resultados de Ω donde X y Z toman el mismo valor de R es vacío, y por lo tanto
{X = Z} tiene probabilidad cero (al igual que {Y = Z}).
Por otro lado, como se vio en el ejemplo anterior, si la probabilidad del suceso
{X = Y } es menor a uno, entonces necesariamente las variables son distintas. Sin
embargo, no vale la recíproca: existe una diferencia entre variables «iguales» y variables
«iguales con probabilidad uno».
Supongamos que en un cierto espacio muestral están definidas una variable Z ∼
N (0, 1) y otra variable X ∼ Be( 21 ) (ver las definiciones de la distribución nomal y la
distribución de Bernoulli en el apartado 1.5). Definamos entonces
(
0 Z=0
Y =
X Z 6= 0.
Con esta definición es posible que Y ≡ X o que no lo sean (es decir, iguales como
funciones Ω → R). Esto es así porque si Z = 0 entonces por definición Y = 0, pero no
es evidente (ni cierto en general) que también tenga que ocurrir X = 0. Esto así porque
para aquellos resultados ω para los que Z está definida como igual a cero podría ocurrir
CAPÍTULO 1. VARIABLES ALEATORIAS 24
que X también esté definida como cero, pero también podría ser que esté definida como
X = 1 en esos casos; incluso podría ser que a veces tome un valor y otras otro. De
todos modos, solo en el primer caso tendríamos que X(ω) = Y (ω) en todos los ω ∈ Ω,
es decir, que X ≡ Y .
Sin embargo, en este o en cualquiera de los otros casos —incluso si fuera X 6= 0—
tendríamos que la probabilidad de X = Y es uno, puesto que:
P (X = Y ) = P (Z 6= 0) + P (Z = 0 ∧ X = 0) ≥ P (Z 6= 0) = 1 − P (Z = 0) = 1 − 0 = 1,
Transformadas de la distribución
25
CAPÍTULO 2. TRANSFORMADAS DE LA DISTRIBUCIÓN 26
plemente la distribución
de la variable X. En particular, cada una de estas expresiones
tX
de la forma E e (t ∈ R) devuelve un valor numérico (si la esperanza en cuestión
está bien definida y es finita), aunque dicho valor depende del valor t en particular.
Podemos entonces pensar en esta asignación de valores a cada número t como una
función que denominamos provisoriamente h, definida por
h(t) = E etX ,
cuyo dominio será algún subconjunto de R (el de los t para los cuales la esperanza que
se calcula es finita).
Para entender heurísticamente la importancia de esta función, supongamos que
para una expresión de la forma g(t, X) (como etX ), bajo ciertas condiciones vale la
propiedad
d ∂
E g(t, X) = E g(t, X) .
dt ∂t
por lo que no se cumple la condición necesaria de convergencia de la integral impropia (el límite
debería ser cero), y se tiene E(etX ) = +∞.
Por otro lado, si t < 0 sí se cumple
etx
lı́m = 0,
x→+∞ x2
existe y da valores finitos (es decir, la integral converge) si y solamente si t ∈ (−∞, 0].
Dado que no cualquier variable aleatoria X tiene definido el valor E(etX ) para valo-
res de t en un entorno del cero, y teniendo en cuenta que la mayoría de las propiedades
interesantes de esta función solo se cumplen cuando esto sí sucede, damos la siguiente
definición.
Definición 7. Dada una variable aleatoria X, consideremos el conjunto AX de los
t ∈ R tales que E(etX ) existe y es finita. Si existe algún δ > 0 tal que (−δ, δ) ⊂ AX ,
se define la función generadora (o generatriz ) de momentos de X como MX : AX → R
dada por
MX (t) = E(etX ).
(Si no existe un intervalo I con la condición pedida diremos que no existe MX ).2
Observación 5. Si X tiene la distribución del ejemplo 3, entonces como la condición
dada en la definición 7 no se verifica —ya que E(etX ) no es finita para ningún t > 0, es
decir, el dominio no contiene a ningún intervalo abierto que contenga al 0—, para la
variable aleatoria X de ese ejemplo no existe la función generadora de momentos .
m2 2 m3 3
= 1 + m1 · t + ·t + · t + ··· .
2! 3!
Si esta fórmula vale, y MX está definida (es decir, la serie converge) en un entorno de
t = 0, es posible derivar término a término aunque la suma sea infinita (por tratarse
de una serie de potencias —algo así como un «polinomio de grado infinito»—).
Luego, se tiene que
2 3 1
MX0 (t) = 0 + m1 + m2 · t + m3 · t2 + · · · = m1 + m2 · t + m3 · t2 + · · · ,
2! 3! 2!
y de la misma manera
2 3 1
MX00 (t) = 0 + m2 + m3 · t + m4 · t2 + · · · = m2 + m3 · t + m4 · t2 + · · · .
2! 3! 2
En general,
(k) 1
MX (t) = mk + mk+1 · t + mk+2 · t2 + · · · ,
2
y entonces resulta
(k)
MX (0) = mk .
3. Ma (t) = eat
CAPÍTULO 2. TRANSFORMADAS DE LA DISTRIBUCIÓN 30
Finalmente, el siguiente teorema expresa que si una VA tiene FGM, esta permite
identificar unívocamente la distribución de probabilidad.
MX = MY ⇐⇒ FX = FY .
CAPÍTULO 2. TRANSFORMADAS DE LA DISTRIBUCIÓN 31
Observación 7. Puede probarse fácilmente que esa suma converge al menos cuando
t ∈ [−1, 1], por lo que el dominio de una FGP siempre incluye ese intervalo (aunque,
dependiendo de las particularidades de cada pX (x), puede ser un conjunto más amplio).
También se prueba que todas las derivadas de GX existen al menos en (−1, 1), si bien
podrían no existir a partir de cierto orden en los bordes del dominio.
En particular, si el rango RX es finito y n es el máximo valor que contiene (es
decir, suponiendo que pX (n) > 0 pero pX (x) = 0, ∀x > n) —v.g. una variable con
distribución Bi(n, p)—, entonces GX es un polinomio de grado n y por lo tanto la FGP
existe y es continua e infinitamente derivable para todo t ∈ R.
y en general
(n)
GX (0) = n!pX (n),
por lo que conocida la FGP las probabilidades puntuales pueden calcularse fácilmente.
Más precisamente:
GX = GY ⇐⇒ pX = pY ⇐⇒ FX = FY .
CAPÍTULO 2. TRANSFORMADAS DE LA DISTRIBUCIÓN 32
Con esta definición en mente, algunas relaciones entre la FGP, la FGM y los mo-
mentos de la distribución se ven en las siguientes propiedades:
(n)
1. ϕn = GX (1− ),
Otras propiedades de la FGP, que guardan cierta analogía con las propiedades de
la FGM, son:
1. Gα (t) = tα ,
Si bien la FGP es de aplicación bastante más limitada que la FGM —y muchas de sus
propiedades son análogas—, su interés reside en parte en que suele dar lugar a cálculos
más simples y en que posee algunas propiedades adicionales interesantes (que en general
solo tienen sentido en el caso de variables aleatorias discretas en N0 ). Una de las más
notables y útiles —especialmente para estudiar procesos de nacimiento-muerte, teoría
de «colas» (es decir, líneas de espera), etc.— es la que se refiere a la distribución de
una suma de variables aleatorias independientes idénticamente distribuidas (v.a.i.i.d.)
con una cantidad aleatoria de términos.
(si N vale 0 se define S = 0). Si GX es la FGP de todas las Xn (que son ID y por lo
tanto tienen la misma FGP), entonces la FGP de S está dada por
GS (t) = GN GX (t) ,
es decir,
GS = GN ◦ GX .
Además, vale aclarar que hay una probabilidad pN (0) de que N = 0 y en ese caso se
entiende que S = 0, por lo que GS (t) = t0 = 1).
Entonces resulta:4
GS (t) = pN (0) · 1 + pN (1) · GX1 (t) + pN (2) · GX1 (t) · GX2 (t) + · · ·
4
Este es el único paso de la demostración que no es completamente formal y requiere alguna
precisión; para formalizarlo puede hacerse uso del concepto de esperanza condicional, ya que los
valores de GS (t) para cada posibleQvalor n de la variable aleatoria N son esperanzas condicionales,
n
más precisamente: E(tS |N = n) = k=1 GXk (t).
CAPÍTULO 2. TRANSFORMADAS DE LA DISTRIBUCIÓN 34
que tiene interés por sí sola, ya que es aplicable al caso en que se suma una cantidad
aleatoria N de variables X1 , X2 , ..., todas independientes, pero no necesariamente todas
con la misma distribución.
2.3.2. Cumulantes
Cuando existe la FGM, se puede definir al menos en un entorno de t = 0 la función
KX (t) = ln MX (t) ,
Los cumulantes son valores relacionados con los momentos de la distribución, pero
que suelen dar una idea más intuitiva de determinadas características de la misma. Se
obtienen a partir de KX como
(n)
κn = KX (0)
(κn se denomina el n-ésimo cumulante de la distribución).
Por ejemplo, es fácil probar que
κ1 = E(X),
al igual que m1 . Pero a diferencia del momento natural de orden 2, se tiene directamente
κ2 = var(X).
κn (X + Y ) = κn (X) + κn (Y ).
Vectores aleatorios
37
CAPÍTULO 3. VECTORES ALEATORIOS 38
Observación 10. Desde ya, también es posible definir la distribución conjunta de tres,
cuatro, o cualquier cantidad de variables aleatorias. En general, así como la función de
distribución conjunta de X e Y es un campo escalar en R2 , la función de distribución
conjunta de n variables será un campo escalar en Rn . Por ejemplo, la distribución
conjunta de X1 , X2 , . . . , Xn se define como la función FX1 X2 ...Xn : Rn → [0, 1] tal que
FX1 X2 ...Xn (t1 , t2 , . . . , tn ) = P(X1 ≤ t1 ∧ X2 ≤ t2 ∧ . . . ∧ Xn ≤ tn ).
Así como en el caso unidimensional conocer FX permitía mucho más que simplemente
calcular probabilidades de la forma P(X ≤ t), conocer FXY también permite calcular
otras probabilidades, si bien las expresiones resultan menos evidentes. Resulta util para
simplificarlas la notación de diferencias parciales1 ∆i,h , con i indicando respecto de qué
variable se hace la diferencia (i = 1 indica la primera, por ejemplo) y h indicando el
incremento. Es decir:
∆1,h g(x, y) = g(x + h, y) − g(x, y)
y
∆2,h g(x, y) = g(x, y + h) − g(x, y).
1.
P(a < X ≤ a + h ∧ b < Y ≤ b + k) =
= FXY (a + h, b + k) − FXY (a, b + k) − FXY (a + h, b) + FXY (a, b),
es decir
2.
P(X = a ∧ Y = b) =
= FXY (a, b) − FXY (a− , b) − FXY (a, b− ) + FXY (a− , b− ),
o sea
P(X = a ∧ Y = b) = lı́m− ∆1,h ∆2,h FXY (a, b).
h→0
Propiedad 12. Toda función de distribución conjunta tiene las siguientes propieda-
des2 :
2
Cabe aclarar que, a diferencia del caso univariado, estas propiedades no caracterizan a las funciones
de distribución conjunta (es decir, no garantizan que una F (s, t) que cumpla estas propiedades sea
una función de distribución conjunta de algún par (X, Y ) de variables aleatorias). Podría pasar, por
ejemplo, que aun cumpliendo todo esto el cálculo de ∆1,h ∆2,k FXY (a, b) pudiera dar valores negativos
en ciertos casos, lo cual es absurdo por la propiedad 11. De hecho, puede probarse que si se cambia la
monotonía en cada variable por la condición más fuerte de que
Cabe observar que para que FXY tienda a 1 se tomaron ambas variables tendiendo a
infinito y no solo una. Por cierto, tomarlas individualmente no daría 1 como resultado,
sino que devuelve las funciones de distribución individuales (o «marginales») de las
variables en cuestión. Es decir:
y
lı́m FXY (s, t) = FX (s).
t→+∞
etc.
es decir, si tiene toda su probabilidad distribuida entre una cantidad finita o numerable
de puntos del plano.
CAPÍTULO 3. VECTORES ALEATORIOS 41
Observación 11. Según la conveniencia, pXY puede pensarse como definida solo en el
rango RXY del vector aleatorio (X, Y ) —como en nuestra definición— o en todo R2 ,
ya que en cualquier otro punto valdrá 0. Incluso puede ser útil pensarla definida en
RX × RY —expresión que tiene sentido porque X e Y también son variables discretas
(ver más adelante)—, teniendo en cuenta que en general RXY ⊂ RX × RY pero no
necesariamente vale la igualdad, como muestra un ejemplo sencillo.
En general, cuando la distribución conjunta sea discreta el dato «natural» será preci-
samente pXY y también será el más útil a la hora de realizar cálculos, como veremos.
Sin embargo, como en el caso univariado, la función de distribución puede recuperarse
fácilmente sumando probabilidades puntuales.
3
Recordar que el producto cartesiano de A y B, donde A y B son conjuntos, es el conjunto
A × B formado por todos los pares ordenados posibles con su primera componente en A y su segunda
componente en B.
CAPÍTULO 3. VECTORES ALEATORIOS 42
Cuando el vector aleatorio no es discreto (es decir que no acumula toda la probabilidad
en un conjunto finito o numerable de puntos), existen muchas situaciones posibles, lo
que dificulta una clasificación completa aún más que en el caso unidimensional. Para
los efectos prácticos, la otra situación de interés es la análoga al caso de variables
absolutamente continuas.
En ese caso, una tal fXY se denomina una densidad conjunta de X e Y (o una
densidad del vector (X, Y )).
En general, en este caso FXY es derivable dos veces, salvo tal vez en ciertos puntos
o curvas (que tienen área nula), y puede hallarse una densidad derivando en ambas
variables.
∂2
f (x, y) = FXY (x, y)
∂x∂y
es una función de densidad (definiendo f (x, y) de cualquier manera en los puntos donde
no existe dicha derivada).
El interés en estas dos clases de distribuciones surge del hecho de que, como vimos,
calcular probabilidades usando la función de distribución conjunta FXY es en general
bastante engorroso. Por el contrario, a partir de pXY o fXY (según el caso), resulta
relativamente sencillo calcular
P (X, Y ) ∈ B
para conjuntos B ⊂ R2 «razonables», que como dijimos, llamamos borelianos de R2 .
Aunque no los definiremos con total precisión, basta con saber que en esta clase de con-
juntos se incluyen todos los abiertos y cerrados, la unión o intersección de una sucesión
(finita o infinita) de cualesquiera de estos, sus complementos, la unión o intersección
de una sucesión de cualesquiera de los que así se hayan obtenido, y sus complementos,
y así sucesivamente. Es decir, se trata de una clase realmente amplia de subconjuntos
de R2 .
CAPÍTULO 3. VECTORES ALEATORIOS 43
si (X, Y ) es discreto,
X
P (X, Y ) ∈ B = pXY (x, y);
(x,y)∈B∩RXY
y
FY (t) = lı́m FXY (s, t).
s→+∞
Por cierto, la recíproca es válida en el primer caso (si ambas son discretas, el vector
será discreto), pero no en el segundo, aunque pueda resultar poco intuitivo.4
Para encontrar funciones de probabilidad o densidad marginales basta con sumar
o integrar en la variable que queremos hacer «desaparecer», como se explica en las
siguientes propiedades.
Propiedad 18. Si (X, Y ) es un vector aleatorio discreto valen las siguientes relaciones:
X
pX (x) = pXY (x, y)
y∈RY
y X
pY (y) = pXY (x, y).
x∈RX
4
Puede darse, por ejemplo, el caso en que toda la probabilidad, o al menos una parte, se concentre
sobre una recta (o en general sobre una curva), por cumplirse determinadas relaciones funcionales
exactas entre X e Y . En tal caso, no puede haber una densidad ya que las integrales dobles sobre
curvas o, en general, sobre conjuntos de área nula, valen cero. Por ejemplo, si X ∼ U(0, 1) y se define
Y = 1 − X, toda la probabilidad se concentrará en el segmento de recta que une el (1, 0) y el (0, 1). Se
suele hablar en estos casos de distribuciones «degeneradas», ya que en realidad con transformaciones
apropiadas se podrían tratar como vectores de menor dimensión (en este caso, dimensión 1).
Un ejemplo menos trivial podría ser el siguiente. Si X ∼ N (0, 1), Z ∼N(0,1) y U ∼ Be( 12 ) son
independientes dos a dos, y se define Y = U · X 2 + (1 − U ) · Z, se tiene que P(Y = X 2 ) = 21 , (que es la
probabilidad de U = 1). En ese caso, la mitad de la probabilidad conjunta de X e Y «se concentra»
sobre la parábola y = x2 , mientras que la otra mitad (cuando U = 0) se distribuye sobre el resto del
plano. En este caso, una densidad solo alcanzaría a representar la distribución de esta última mitad.
Vale aclarar que tampoco se acumula probabilidad en ningún punto, por lo que no existe una «parte
discreta» de la distribución, que si bien es continua —es decir, FXY es una función continua en R2 —
no es absolutamente continua.
Cabe mencionar que estas situaciones no son del todo infrecuentes en determinadas áreas de apli-
cación o en el desarrollo de modelos estadísticos de cierta complejidad.
CAPÍTULO 3. VECTORES ALEATORIOS 45
Conociendo todas estas relaciones, en general suele haber más de un camino posible
para resolver problemas como, por ejemplo, hallar la densidad marginal fX conocida
la distribución conjunta FXY .
por un lado, se podría derivar FXY en sus dos variables para obtener fXY , y luego
integrar en y para obtener la densidad marginal fX ;
Z = XY ∼ Be( 13 ),
y por lo tanto
E(XY ) = 13 .
Sin embargo, no es necesario conocer la distribución de la nueva variable, ya que por
la propiedad anterior
X
E(XY ) = xy · pXY (x, y) = 1 · 0 · 31 + 0 · 1 · 31 + 1 · 1 · 13 = 13 ,
(x,y)∈RXY
Así resulta:
Esto muestra que FXY no agrega en este caso nada de información a lo que ya aportan
FX y FY en conjunto.
También es inmediato probar que:
CAPÍTULO 3. VECTORES ALEATORIOS 47
salvo tal vez en un conjunto de área nula. En cualquier caso, dadas densidades
cualesquiera de dos variables independientes X e Y —fX y fY —, si se define
f (x, y) = fX (x) · fY (y) esto siempre resulta una densidad para (X, Y ).
Por otro lado, las proposiciones recíprocas son ciertas, lo cual a veces resulta una
herramienta útil para probar que dos variables aleatorias son independientes.
Propiedad 23. Si X e Y son variables aleatorias tales que ∀(s, t) ∈ R2
si (X, Y ) es discreto y
pXY (x, y) = pX (x) · pY (y);
entonces X e Y son independientes;
salvo —tal vez— sobre un conjunto de área nula, entonces X e Y son indepen-
dientes.
CAPÍTULO 3. VECTORES ALEATORIOS 49
x pX (x)
0 1/3
1 2/3
e Y tiene la misma distribución marginal (ambas tienen distribución Be(2/3)).
Recalculemos la función de probabilidad si se sabe que Y = 1: es decir, calculamos
la función de probabilidad de X condicional a Y = 1, o visto de otra manera, la función
CAPÍTULO 3. VECTORES ALEATORIOS 50
En resumen
x pX|Y =1 (x)
0 1/2
1 1/2
que claramente es una función de probabilidad (una Be(1/2), de hecho).
Si, en cambio, quisiéramos condicionar al suceso Y = 0, vemos que
pXY (0, 0) 0
pX|Y =0 (0) = = = 0,
pY (0) 1/3
ya que (0, 0) no está en el rango del vector (X, Y ). Por otro lado,
3.3.1. Covarianza
Con la covarianza se busca analizar si existe alguna relación probabilística entre los
valores «altos» y «bajos» de una variable y los valores «altos» y «bajos» de la otra.
Para precisar esa idea, se toman como puntos de referencia para definir qué es un valor
alto y un valor bajo las respectivas esperanzas (si existen) de las variables en cuestión.
Así, valores «altos» de X, por ejemplo, serán los que hagan positiva la diferencia
X − E(X), y valores «bajos» los que la hagan negativa. Además, el valor absoluto de
esta cantidad indicará si son valores «apenas», «moderadamente» o «extremadamente»
bajos o altos, etc.
Si consideramos ahora la variable aleatoria
U = X − E(X) · Y − E(Y ) ,
o como
fXY (x, y) = fX|Y =y (x) · fY (y) = fY |X=x (y) · fX (x)
(en este caso, salvo tal vez para un conjunto de área nula), etc.
CAPÍTULO 3. VECTORES ALEATORIOS 52
lo mismo suele ocurrir para Y , y viceversa, y que cuando una da valores por debajo de
su media, frecuentemente o con alta probabilidad lo mismo le ocurrirá a la otra.
Por el contrario, una elevada probabilidad (o frecuencia, si se lo piensa ex post) de
valores negativos de U implicaría que valores «altos» de X tienden a ir de la mano de
valores «bajos» de Y y viceversa. Esto no significa que no pueda ocurrir otra situación,
pero sí que la distribución de probabilidad conjunta de X e Y se concentra sobre todo
en los puntos o regiones donde X está por encima de su media e Y por debajo y
viceversa. Para tener una idea gráfica: si las esperanzas de X e Y fueran ambas nulas
(o si los ejes se corrieran para coincidir con las esperanzas), esto equivaldría a que la
mayor parte de la probabilidad se concentre en el segundo y el cuarto cuadrante del
plano xy, mienras que el caso anterior mostraría una concentración de la probabilidad
en el primer y el tercer cuadrante.
Claramente, si con alta probabilidad U diera valores cercanos a cero o si la proba-
bilidad concentrada en el primer y tercer cuadrante estuviera compensada aproxima-
damente por la que se distribuye por el segundo y el cuarto cuadrante, se entendería
que no predomina ninguna de las dos situaciones.
Sin embargo, como los diferentes posibles valores de U tienen diferentes probabili-
dades y en última instancia la distribución de U sigue sin ser una medida sencilla de la
relación que se analiza, se suele tomar su esperanza para analizar qué tipo de valores
predominan. Este valor se denomina covarianza de X e Y .
Definición 13. Se denomina covarianza de X e Y , cuando exista y sea finito, al valor
cov(X, Y ) = E X − E(X) · Y − E(Y ) .
piedad 27). Pero antes destacamos algunas otras relaciones y propiedades importantes
de la covarianza, incluyendo una fórmula que simplifica bastante su cálculo.
cov(aX + b, cY + d) = ab cov(X, Y );
en particular, cov(X, k) = 0;
cov(X, X) = var(X);
la última fórmula —además de ser útil para el cálculo— prueba algo que intuitivamente
era esperable:
Sin embargo, no vale la recíproca, y existen muchos ejemplos triviales (como el que se
2
mencionó de Y = X − E(X) , al menos para ciertas distribuciones) y no triviales
de este hecho. Por eso cuando la covarianza es nula se suele decir que las variables
están «incorrelacionadas» (linealmente), pero no se puede afirmar su independencia.
Por cierto, esta expresión permite caracterizar casi tautológicamente los casos en que
vale separar la esperanza de un producto como el producto de las esperanzas: la relación
es válida si y solo si X e Y están incorrelacionadas.
Por este motivo, la covarianza en realidad no es una medida útil en sí misma para
medir la magnitud de la correlación (así como, por ejemplo, la varianza o el desvío
estándar no dan una noción absoluta del grado de dispersión de una distribución).
Puede probarse, sin embargo, que una cota para la covarianza está dada por
| cov(X, Y )| ≤ σX · σY ,
cov(X, Y )
ρXY = .
σX · σY
De esta manera se obtiene una medida que siempre está entre −1 y 1. Y usando las
propiedades de la covarianza puede probarse que estas cotas se alcanzan (es decir que
esas cotas no se pueden mejorar).
|ρXY | ≤ 1.
Esto último, por un lado, permite tener una noción «absoluta» del grado de correlación
(más allá de los valores que se suelen dar en los textos introductorios como referencia,
es claro que valores como 0,002 o −0,032 indican una correlación prácticamente nula
mientras que otros como −0,992 o 0,986 marcan una fuerte correlación, tal vez casi
«exacta») a la vez que refuerza la idea de que la correlación que se mide es la de tipo
lineal.
Desde ya, como el signo de ρXY es el mismo que el de cov(X, Y ), valen las mismas
interpretaciones sobre el tipo de correlación, a la vez que si X e Y son independientes,
necesariamente se tendrá ρXY = 0 (pero no al revés).
Capítulo 4
Teoría asintótica
55
CAPÍTULO 4. TEORÍA ASINTÓTICA 56
tantas veces como queramos). Por simplicidad, pensemos en una moneda equilibrada
que arrojamos sucesivamente una y otra vez, y en la sucesión infinita de variables
aleatorias X1 , X2 , . . . , Xn , . . ., que representa el resultado de cada tirada, digamos con
un 1 si sale cara y un 0 si sale ceca.
Es claro que en este caso, para cada n se tiene Xn ∼ Be( 12 ). Es decir que las
funciones de distribución FX1 (t), FX2 (t), FX3 (t), etc., son todas iguales1 , por lo que es
razonable decir que la distribución asintótica es también Be( 21 ).
Sin embargo, una vez realizado el experimento (si es que pudieran realizarse las
infinitas repeticiones), el resultado es una sucesión de —digamos— caras (c) y cecas
(×). Más precisamente, el espacio muestral (el conjunto de posibles resultados del
experimento) en este caso podemos definirlo como
Ω = (m1 , m2 , . . . , mn , . . .) : mn ∈ {c, ×}, ∀n ∈ N .
(×, c, ×, ×, ×, . . . , ×, . . .)
(×, c, ×, c, ×, c, . . . , ×, c, . . .)
(×, c, ×, ×, c, ×, ×, ×, c, . . .)
y desde ya, también cualquier otra sucesión de c y ×, siga o no un patrón que podamos
describir. Además, es llamativo ponerse a pensar que necesariamente (de manera similar
a lo que ocurre con los posibles valores de una variable aleatoria continua) cada una
de las sucesiones tiene probabilidad nula, ya que la independencia entre las sucesivas
tiradas y la equiprobabilidad entre {m1 = c} y {m1 = ×} (y entre {m2 = c} y
{m2 = ×}, etc.) implica que ninguna sucesión de × y c tendrá más probabilidad que
otra.
Si definimos entonces para cada n ∈ N
(
0 mn = ×
Xn =
1 mn = c,
1
A saber, para cada n ∈ N se tiene
0
t<0
1
FXn (t) = 0≤t<1
2
1 t ≥ 1.
CAPÍTULO 4. TEORÍA ASINTÓTICA 57
(0, 1, 0, 0, 0, . . . , 0, . . .)
(0, 1, 0, 1, 0, 1, . . . , 0, 1, . . .)
(0, 1, 0, 0, 1, 0, 0, 0, 1, . . .)
Si este fuera el caso, aún podría ocurrir que dicha función F (t) no tenga las propie-
dades necesarias para ser una función de distribución. Si lo fuera, sería natural decir
que la «distribución límite» o «asintótica» es F (t), pero si no, la situación no es tan
inmediata. Veamos unos ejemplos.
CAPÍTULO 4. TEORÍA ASINTÓTICA 58
n
Ejemplo 9. Supongamos que cada Xn tiene una distribución U[0, n+1 ]. En ese caso la
función de distribución de Xn es
0
t<0
(n+1) n
FXn (t) = n
t 0 ≤ t < n+1
n
1 t ≥ n+1
(ver figura 4.1) que es una función de distribución y es de hecho la distribución U[0, 1].
Ejemplo 10. Supongamos ahora que para cada n, Xn ∼ E(1/n). La función de distri-
bución de Xn es (
0 t<0
FXn (t) = −
t
1 − e n t ≥ 0.
Obviamente para los t < 0 el límite es 0. Pero para cada t ≥ 0 (fijo), cuando n → ∞
se ve que nt → 0, por lo que FXn (t) → 1 − e−0 = 0 también. Es decir,
pero la función constante igual a 0 no es una función de distribución (de hecho, falla
la propiedad lı́mt→+∞ F (t) = 1). En este caso no hay una distribución «límite».3
2
Este cálculo tiene algunas sutilezas ya que, por ejemplo, FXn (0,85) se calcula mirando la tercera
5
línea para n ≤ 5 (porque 5+1 = 56 = 0,83 ≤ 0,85, es decir que t ≥ n+1 n
), pero cuando n ≥ 6
6 6 n
corresponde ver la segunda línea (notar que 6+1 = 7 ≈ 0,8571 > 0,85, o sea que t < n+1 ). Es decir
que los primeros valores de la sucesión FXn (0,85) son
6+1 7+1 8+1
1, 1, 1, 1, 1, · 0,85 = 0,9916, · 0,85 ≈ 0,9714, · 0,85 = 0,95625, . . . ,
6 7 8
y esta sucesión sigue decreciendo y su límite es lı́mn→∞ n+1
n · 0,85 = 0,85. Se deja como ejercicio
dar un argumento general de que cuando n → ∞ se tiene para cualquier t ∈ (0, 1) que FXn (t) → t.
3
Esto es razonable. Si tenemos en cuenta que por propiedades de la distribución exponencial en
este caso tenemos E(Xn ) = n y var(Xn ) = n2 , vemos que el centro de la distribución se corre hacia
más infinito a la vez que la dispersión se hace infinita; intuitivamente no sería esperable en este caso
que ese proceso dé lugar a una distribución que actúe como «límite».
CAPÍTULO 4. TEORÍA ASINTÓTICA 59
1.0
0.8
0.6 n=1
n=2
F(t)
n=4
0.4
n=10
U[0,1]
0.2
0.0
Figura 4.1: Gráfico de F y FXn para algunos valores de n. Observar que para valores de
t ∈ [0,5, 1), se tiene FXn (t) = 1 para los primeros valores y a partir de un momento este
valor empieza a decrecer hasta el límite F (t) = t (en el gráfico la línea gris punteada
corresponde a t = 0,7; se tiene FX1 (0,7) = FX2 (0,7) = 1. Sin embargo, FXn (0,7) < 1
para n > 2, como se ve en el gráfico para n = 4 y n = 10).
Ejemplo 11. Supongamos que cada Xn tiene una distribución dada por
0 t<0
1 − 1 (1 − 2t)n
0 ≤ t < 12
FXn (t) = 21 12 1
2
+ 2 (2t − 1)n 2
≤t<1
t ≥ 1.
1
En este, como en todos los ejemplos anteriores, la alternancia entre desigualdades
estrictas y no estrictas busca asegurar sin necesidad de mayor análisis que las funciones
dadas sean continuas a derecha en todos los puntos. Este cuidado no es necesario ya que
en todos los casos —se sugiere chequearlo en este último— se trataba de distribuciones
continuas.
Aún así, en todos los casos se debe analizar con cuidado el comportamiento del
límite de FXn (t) en los puntos donde cambia la definición. Por ejemplo, para este caso,
se ve que FXn (0) = 21 − 21 (1 − 2 · 0)n = 0 para cada n, por lo que FXn (0) → 0. De igual
modo se ve que FXn ( 12 ) = 21 → 12 y FXn (1) = 1 → 1. En realidad, lo mismo que ocurre
en t = 0 ocurre cuando t < 0 y la situación en t = 1 se repite para cada t > 1.
Finalmente, si 0 < t < 21 , como 0 < 1 − 2t < 1, se tiene (1 − 2t)n → 0, y luego
FXn (t) = 1
2
− 21 (1 − 2t)n → 12 .
CAPÍTULO 4. TEORÍA ASINTÓTICA 60
Distribución de Xn
1.0
0.8
0.6
F
0.4
n=1
n=2
0.2
n=3
n=6
n=15
0.0
Figura 4.2: Se puede observar cómo las sucesivas FXn se «pegan» a una recta horizontal
de ordenada 12 , aunque siempre quedan «atadas» a los puntos (0, 0) y (1, 1).
1
Y del mismo modo, si 2
< t < 1, vale 0 < 2t − 1 < 1 y luego
FXn (t) = 1
2
+ 12 (2t − 1)n → 12 .
Teniendo especial cuidado en dar los valores correctos en los bordes de los intervalos
de definición, podemos resumir todo esto como
0 t ≤ 0
FXn (t) → F (t) = 12 0 < t < 1
1 t ≥ 1.
Pero aquí tampoco el límite resulta una función de distribución, ya que F (t) es
discontinua a derecha en t = 0 (no así en t = 1, su otro punto de discontinuidad). En la
figura 4.2 (pág. 60) y figura 4.3 (pág. 61) pueden verse los gráficos de FXn para varios
valores de n y el gráfico de F (t), respectivamente.
F(t)
1.0
0.8
0.6
F
0.4
0.2
0.0
límite es discontinua, por lo que si el límite de las FXn (t) cumple todas las demás
condiciones para ser una función de distribución pero eventualmente es discontinua a
derecha en ciertos puntos, es fácil identificarla con una distribución (definiendo F en
esos puntos para que coincida con el límite por derecha) y además esto no da lugar a
ambigüedad.
Teniendo estas cuestiones en mente, definimos a continuación la noción de límite
en distribución.
Definición 15. Dada una función de distribución F (t), se dice que una sucesión de
variables aleatorias X1 , X2 , . . . , Xn , . . . converge en distribución a F y notamos
D
Xn −→ F
4
Es de destacar también que en este ejemplo una sucesión de variables continuas tiene como límite
una distribución discreta. La situación contraria también es posible: por ejemplo, es conocido que el
límite de una distribución binomial —adecuadamente estandarizada— cuando n tiende a infinito es
la distribución normal estándar.
CAPÍTULO 4. TEORÍA ASINTÓTICA 62
Observación 12. Si Y es una variable aleatoria cualquiera, suele también decirse que
la sucesión X1 , X2 , . . . converge en distribución a Y , y se nota
D
Xn −→ Y,
cuando
D
Xn −→ FY .
Sin embargo, esta notación parece sugerir que los valores de Xn tienden a ser similares a
los de Y con alta probabilidad, cosa que no surge en absoluto de la definición; incluso Y
podría ser independiente de todas las Xn . Por ese motivo, evitaremos este enfoque y esta
notación, a menos que sea inevitable o cuando sea útil y no se preste a confusión.
en un entorno de t = 0 si y solo si
D
Xn −→ FY .
CAPÍTULO 4. TEORÍA ASINTÓTICA 63
Luego, para t 6= 0
nt
e n+1 − 1 et − 1
FXn (t) = nt −−−→
n+1
n→∞ t
(y claramente FXn (0) → 1).
Es decir que el límite de FXn (t) es
(
et −1
t
t 6= 0
F (t) = ,
1 t=0
que es igual a la FGM de una variable U[0, 1]. Por lo tanto, el teorema 5 implica que
D
Xn −→ U[0, 1],
Pero como las Yk tienen la misma distribución, podemos llamar simplemente MY (t) a
cada una de las FGM, y de la expresión anterior se obtiene
n " 2 #n
t 1 t t
MZn (t) = MY √ = 1+ · √ +R √ ,
n 2 n n
Si se prueba que
2nR √t −−−→ 0
n n→∞
la expresión entre llaves presentaría una indeterminación del tipo «1∞ », pero por ser
1
de la forma (1 + an ) an con an → 0 su límite sería e. También se habría probado que el
2
último exponente tiende a t2 .
Ahora bien,
R √t
n
2nR √t
n
= 2t2 · 2
√t
n
R(u)
−−→ 0
u2 u→0
por el teorema de Taylor, como se dijo.
Volviendo a lo anterior, esto prueba que la expresión entre llaves tiene como límite
e, y que el exponente al que se eleva toda esa expresión —el de más a la derecha—
2
tiende a t2 . Luego,
t2
MZn (t) → e 2
y por lo tanto
D
Zn −→ N (0, 1).
CAPÍTULO 4. TEORÍA ASINTÓTICA 67
X̄n − µ D
−→ N (0, 1)
√σ
n
o —equivalentemente— que
Pn
Xk − nµ D
k=1
√ −→ N (0, 1),
nσ
D D
pero en ningún caso se dice que X̄ −→ N (0, 1) ni que nk=1 Xk −→ N (0, 1).
P
etc.
Existen relaciones entre las dos formas de convergencia vistas, de las cuales la más
notable es la que muestra el siguiente teorema, que enunciamos sin demostrar.
Teorema 7. Dada la sucesión X1 , X2 , . . . de variables aleatorias, supongamos que se
tiene otra variable X tal que
P
Xn −→ X;
entonces
D
Xn −→ FX .
Es inmediato preguntarse si valdrá la recíproca: pero es fácil ver que esto no tiene
sentido.
Supongamos que se tiene una sucesión X1 , X2 , . . . tal que
D
Xn −→ N (0, 1).
(Vale la pena insistir: esto es así por mera definición, o incluso convención.)
Supongamos por un momenton que fuera cierto que la convergencia en distribución
implica convergencia en probabilidad; necesariamente podríamos afirmar ahora que
P
Xn −→ Z
(no perdamos de vista que esto significaría que los valores de Xn van a ser cada vez más
parecidos y con más alta probabilidad a los de Z, si aumentamos n). Pero si tenemos
otra variable Z̃ independiente de Z y también con Z̃ ∼ N (0, 1), también podríamos
escribir
D
Xn −→ Z̃
y concluir equivocadamente que
P
Xn −→ Z̃.
Pero esto implica que los valores que toman las Xn para cada posible resultado del
espacio muestral son cada vez más parecidos —con muy alta probabilidad— tanto a
los valores de Z como a los de Z̃, que no tienen por qué tomar valores similares entre
sí ya que de hecho son independientes. Luego la recíproca del teorema 7 no puede valer
en general.
¿Habrá alguna situación particular en la que sí sea posible afirmar que la conver-
gencia en distribución también implica convergencia en probabilidad? ¿Qué pasa si
para cierta distribución no existen Z y Z̃ independientes y que puedan dar valores
diferentes? Analicemos el siguiente ejemplo.
Ejemplo 13. Supongamos ahora que tenemos una sucesión con las distribuciones
(
enx x < 0
FXn =
1 x ≥ 0.
Como para x < 0 se tiene nx → −∞ si n → +∞, es inmediato ver que para cada
t∈R (
0 t<0
FXn (t) → F (t) =
1 t ≥ 0,
que es la distribución degenerada en la constante 0, lo que podemos notar como
D
Xn −→ 0.
D
Entonces, como por hipótesis Xn −→ Fc ,
es decir que
P
Xn −→ c.
X̄n −−−→ µ
n→∞
(donde µ representa los valores E(X1 ), E(X2 ), etc., que son por hipótesis todos iguales)
es poco precisa en cuanto a la noción de convergencia involucrada.
Por supuesto, una posibilidad sería afirmar que
P
X̄n −→ µ.
Pero, ¿por qué debería ser cierto esto más allá de la intuición?
Recordemos que los únicos axiomas que damos por sentados son los axiomas de Kol-
mogorov que hablan de las propiedades básicas de la probabilidad (aunque sabemos
que otras muchas propiedades son consecuencia inmediata de estos axiomas). Por otro
lado, la definición de variable aleatoria, y posteriormente la definición de esperanza (pa-
ra variables discretas o continuas), resulten o no intuitivas, no encierran directamente
esta idea de convergencia de promedios muestrales. Más aún, la noción de convergencia
en probabilidad, lejos de ser una extensión inmediata del límite de sucesiones de nú-
meros, es un concepto complejo que involucra la evolución de la distribución conjunta
de probabilidad de las variables X1 , . . . , Xn para cada n ∈ N y, en última instancia, la
P
expresión X̄n −→ µ significa (entre otras expresiones posibles —ver observación 13—)
que dado un número positivo cualquiera ε, existe un número N ∈ N para el cual puede
afirmarse que
X 1 + · · · + XN
P − µ ≤ ε ≥ 1 − ε,
N
CAPÍTULO 4. TEORÍA ASINTÓTICA 72
Demostración. Tenemos que probar que, dado un ε > 0 arbitrario, vale que
Si llamamos Kn = √ ε
, podemos aplicar la desigualdad de Tchebycheff y obtener
var(X̄n )
1 var(X̄n )
q
P |X̄n − µ̄n | ≤ ε = P |(X̄n − µ̄n ) − 0| ≤ Kn var(X̄n ) ≥ 1 − 2 = 1 − .
Kn ε2
Pero como ε está fijo y por hipótesis var(X̄n ) → 0, el último miembro tiende a 1 y por
lo tanto
lı́m P |X̄n − µ̄n | ≤ ε = 1,
n→∞
como queríamos.
5
Existe otro teorema, conocido como Ley fuerte de los grandes números, que afirma lo mismo para
un tipo de convergencia más «fuerte», denominado convergencia casi segura.
CAPÍTULO 4. TEORÍA ASINTÓTICA 73
Observación 15. Es fácil ver que podemos aplicar esta ley a cualquier transformación
de las variables Xk que siga verificando las hipótesis. Por ejemplo, llamemos Yk = Xk2
y supongamos que la sucesión de las Yk verifica las hipótesis del teorema6 . Podemos
afirmar entonces que
n
1X P
Ȳn = Yi −→ E(Y1 )
n i=1
(por supuesto, E(Y1 ) podría reemplazarse por la esperanza de Y2 , Y3 , etc.). Pero esto
significa en realidad,
n
1X 2 P
X2 = X −→ E(X12 ) = m2 .
n n i=1 i
El valor n1 ni=1 Xik se suele denominar momento muestral de orden k, y en ese contexto
P
mk suele llamarse momento poblacional, para evitar confusión. Así, la expresión anterior
puede resumirse diciendo que «cuando n tiende a infinito, el momento muestral de orden
k converge (en probabilidad) al momento poblacional de orden k». Esta propiedad es
la base del método de estimación por momentos, que veremos más adelante.
y por lo tanto no es posible decir que X̄n tienda en probabilidad a constante alguna. En
particular, no tiende a 0, que es la moda, mediana y centro de simetría, como podría
haberse esperado; esto ocurre porque la esperanza no está bien definida.9
8
La demostración puede hacerse mediante funciones generadoras de momentos (suponiendo que
estén bien definidas), o más en general mediante funciones características. Siguiendo la idea de
la demostración del teorema 6, si se desarrolla MX por Taylor hasta orden 1 es fácil probar que
D
MX̄n (t) −−−−→ eµt , y esto implica (teorema 5) que X̄n −−→ µ. Pero como µ es una constante, también
n→∞
P
resulta (teorema 8) que X̄n −−→ µ.
9
Esto sucede porque una densidad de la distribución es
1
fX (x) = .
π(1 + x2 )
Luego se tiene Z 0
x · fX (x) dx = −∞
−∞
y Z +∞
x · fX (x) dx = +∞,
0
por lo que la integral impropia Z +∞
x · fX (x) dx
−∞
En este capítulo estudiamos algunas expresiones frecuentes que involucran las variables
de una muestra aleatoria, es decir, X1 , . . . , Xn v.a.i.i.d., y las distribuciones que siguen
bajo ciertas condiciones, con especial énfasis en al caso en que la distribución de las
Xk es N (µ, σ 2 ).
Cabe aclarar que dada una muestra aleatoria X1 , . . . , Xn , es usual denominar es-
tadístico a cualquier función g(X1 , . . . , Xn ) (que de por sí es también una variable
aleatoria, digamos T = g(X1 , . . . , Xn )). Incluso un par, una terna o en general una
k-upla de estadísticos, puede pensarse como un estadístico multidimensional ya que
se trata de una función de Rn en Rk . Sin embargo, en esta sección consideramos solo
estadísticos unidimensionales, es decir, funciones «sueltas».
Dicho esto, ejemplos de estadísticos muestrales usuales son
n n
1X 1X nS 2 X̄ − µ
Xk = X̄, (Xk − X̄)2 = S 2 , , ,
n k=1 n k=1 σ2 √S
n−1
etc.
Estudiamos a continuación algunas distribuciones de probabilidad que aparecen
naturalmente al estudiar este tipo de estadísticos.
75
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 76
si X ∼ χ21 , entonces
1
MX (t) = (1 − 2t)− 2 .
Demostración. Hay varios caminos posibles para esta demostración. Una vez más, una
herramienta útil son las funciones generadoras de momentos. Si se prueba que, cuando
Z ∼ N (0, 1), la FGM de Z 2 es
1 12
1
MZ 2 (t) = 1
2
= (1 − 2t)− 2
2
−t
eso completaría la demostración. Para eso es importante notar que
2 Z +∞ 2
MZ 2 (t) = E etZ = etz fZ (z) dz,
−∞
z2
y como FZ0 es la densidad fZ (z) = √1 e− 2 , que es simétrica respecto de z = 0,
2π
√ 1
1 √ 1 1 ( x)2 (1/2) 2 1 −1 − 1 x
fX (x) = 2 · √ · fZ ( x) = x− 2 √ e− 2 = x2 e 2 ,
2 x 2π Γ 12
cuando x > 0. Claramente la densidad da 0 para x < 0, por lo visto al principio. Esta
es, efectivamente, una densidad para la distribución Γ 21 , 12 .
Observación 16. Es inmediato probar que la suma de variables χ2n y χ2m independien-
tes tiene una distribución χ2n+m .
Sin embargo, no vale lo mismo para la resta, aunque bajo ciertas condiciones puede
darse una propiedad que guarda cierta analogía.
Propiedad 30. Sean W ∼ χ2n , V ∼ χ2m (m < n), y sea U una variable aleatoria
independiente de V tal que W = U + V . Entonces,
U = W − V ∼ χ2n−m .
es decir n 2
nσ̂n2 X
Xi − µ
= .
σ2 i=1
σ
Como la expresión entre paréntesis tiene distribución N (0, 1), su cuadrado tiene
distribución χ21 . Y al ser cada término independiente de los demás, la suma es una χ2n .
Resumiendo:
nσ̂n2
2
∼ χ2n . 1
σ
Sin embargo, la mayoría de las veces que no se conoce σ 2 tampoco se conoce µ; entonces
un estadístico mucho más útil es la varianza muestral
n
1X 2
Sn2 = Xi − X̄ .
n i=1
y las variables Xiσ−X̄ si bien son normales (y su esperanza es 0), ni tienen varianza 1 ni,
menos aún son independientes entre sí (o al menos no tendrían por qué serlo, ya que,
por ejemplo, tanto X1σ−X̄ como X2σ−X̄ dependen de las n variables X1 , . . . Xn (porque
X̄ depende de todas ellas).
2
Por lo tanto, no puede afirmarse que nS
σ2
n
tenga distribución χ2n , y en principio no
habría siquiera motivos para suponer que su distribución sea de la familia χ2 . Pero sin
1
En este capítulo recuadramos para mayor claridad todas las fórmulas sobre distribuciones exactas
y asintóticas que serán de utilidad para desarrollar intervalos de confianza y pruebas de hipótesis (ver
?? y ??).
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 80
embargo, el caso es que dicho estadístico sí sigue una distribución χ2 , aunque no con
n grados de libertad.
Para este punto, resultará fundamental el siguiente teorema —conocido como Lema
de Fisher —, que es útil en sí mismo y volveremos a usar en varias ocasiones. Lo
enunciamos sin demostración.
Teorema 10 (Lema de Fisher). Si X1 , . . . , Xn son v.a.i.i.d., con Xi ∼ N (µ, σ 2 ), en-
tonces las variables aleatorias
n n
X X 2
Xi y Xi − X̄
i=1 i=1
nSn2
∼ χ2n−1 .
σ2
y en el segundo término son constantes (para cada i) los factores 2 y (X̄ − µ), que
pueden sacarse de la suma como factor común, es decir
n
X n
X
2(Xi − X̄)(X̄ − µ) = 2(X̄ − µ) (Xi − X̄).
i=1 i=1
Pero
n
X n
X n
X n
X n
X n
X
(Xi − X̄) = Xi − X̄ = Xi − nX̄ = Xi − Xi = 0,
i=1 i=1 i=1 i=1 i=1 i=1
Sobre el miembro izquierdo sabemos que tiene, bajo las hipótesis del teorema, dis-
2
tribución χ2n , mientras que el último término de la derecha es la variable X̄ ∼ N (µ, σn )
menos su esperanza y dividida por su desvío (es decir, estandarizada) elevada al cua-
drado: por lo tanto, su distribución es χ21 .
2
El primer término de la derecha es, precisamente, nSσ2
n
, cuya distribución queremos
calcular. Lo esperable es que «por diferencia», se trate de una distribución del mismo
tipo, pero restando los grados de libertad de las otras dos, es decir, con distribución
χ2n−1 .
La propiedad 30 afirma que ese análisis es posible, siempre que sean independientes
las variables «que se suman» (en este caso, las del miembro derecho).
La variable de la izquierda depende de todas las Xi y la de la derecha también 2
(porque X̄ depende de todas). Sin embargo, la primera depende de ni=1 Xi − X̄ y
P
nada más (o de Sn2 , como se prefiera) y la segunda depende de X̄ y nada más. Como
por el Lema de Fisher esas dos variables son independientes, cualquier transformación
de una es independiente de cualquier transformación de la otra y por lo tanto vale
aplicar la propiedad 30 para concluir que la distribución es χ2n−1 , como se quería.
5.2.2. El «estadístico t»
Son varios los estadísticos con distribución t que surgen «naturalmente» en este con-
texto, y casi por regla general involucran algún cociente entre medias y varianzas
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 82
muestrales. Si bien más comúnmente se usa ese nombre para el estadístico de prueba
de un cierto test de comparación de medias poblacionales, en el contexto de una sola
muestra «el» estadístico t refiere a
X̄ − µ
t= .
√S
n−1
El nombre surge de la siguiente propiedad, que muestra una vez más la utilidad del
Lema de Fisher:
X̄ − µ
∼ tn−1 .
√S
n−1
2
Demostración. Dado que X̄ ∼ N (µ, σn ), tenemos que
X̄ − µ
∼ N (0, 1).
√σ
n
por construcción.
Pero cancelando factores repetidos (hacer la cuenta), esta expresión es exactamente
X̄ − µ
,
√S
n−1
y
Y1 , Y2 , . . . , YnY ∼ N (µY , σY2 );
es decir una muestra de tamaño nX de variables con distribución normal y otra muestra
también normal pero con tamaño nY (posiblemente con nX 6= nY ) y con una media y
una varianza no necesariamente iguales a las de la primera muestra. Excede el objeto de
este capítulo discutir en qué contexto o a través de qué procedimiento surgen muestras
independientes, pero caben dos observaciones:
El hecho de que X1 , . . . , XnX sea una muestra aleatoria implica que las variables
2
Xi —además de tener todas la misma distribución (v.g., N (µX , σX ))— son inde-
pendientes entre sí, y lo mismo sucede con las variables Yj ; pero la independencia
entre muestras implica además que las variables Xi son independientes de las
variables Yj para cada i y cada j, o más generalmente, que las variables
X1 , X2 , . . . , XnX , Y1 , Y2 , . . . , YnY
Esto implica que se trata de una situación esencialmente distinta al caso deno-
minado de muestras apareadas, en el que la primera observación de una muestra
«se corresponde» (en algún sentido probabilístico) con la primera observación de
la segunda muestra —es decir, X1 e Y1 —, y lo mismo ocurre con X2 e Y2 , con X3
e Y3 , etc., en cuyo caso —por cierto— se tiene necesariamente nX = nY .
Diferencia de medias
por lo que
(X̄ − Ȳ ) − (µX − µY )
q 2 2
∼ N (0, 1).
σX σY
nX
+ nY
Sin embargo, es usual querer realizar el mismo análisis sin necesidad de conocer los
2
valores σX y σY2 . Y si bien para el caso general no se tiene una solución completamente
2
satisfactoria de este problema, es usual estudiar el caso en que se supone que σX = σY2 ,
2
aun cuando este valor común —digamos σ — sea desconocido.
X1 , X2 , . . . , XnX ∼ N (µX , σ 2 )
e
Y1 , Y2 , . . . , YnY ∼ N (µY , σ 2 ),
se tiene
(X̄ − Ȳ ) − (µX − µY )
q ∼ tnX +nY −2 ,
Sp n1X + n1Y
donde
2
nX SX + nY SY2
Sp2 = .
nX + nY − 2
Pero reordenando la expresión puede verse que esta variable es exactamente la del
enunciado del teorema.
Cociente de varianzas
2
Puede obtenerse una expresión más sencilla si se utilizan en lugar de SX y SY2 las
denominadas cuasivarianzas. En ese caso se tiene
∗2
SX σY2
· 2 ∼ FnX −1,nY −1 .
SY∗2 σX
Chi-cuadrado
t-Student
F-Snedecor
86
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 87
X1 ≤ X 2 ≤ . . . ≤ Xn .
(X1 , X2 , X3 , X4 ) = (4, 2, 6, 2)
tenemos
(X(1) , X(2) , X(3) , X(4) ) = (2, 2, 4, 6).
Y podríamos pensar que existe ambigüedad en el hecho de que no sabemos si en este
caso es
X(1) = X2 y X(2) = X4
o
X(1) = X4 y X(2) = X2 ,
pero es un error pensarlo de este modo, ya que en este caso todas son ciertas porque
de hecho, como resulta obvio, ocurrió que
X(1) = X(2) = X2 = X4 .
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 88
Es decir, a los estadísticos de orden se les asignan los valores de las observaciones, pero
no es necesariamente cierto que a cada uno le asignemos una de las variables de la
muestra en forma biunívoca.2
Es claro que estos estadísticos tendrán una distribución de probabilidad (son va-
riables aleatorias, ya que sus valores solo se determinan una vez conocido el resultado
[aleatorio] de la extracción de la muestra). De hecho, esta distribución dependerá de la
distribución de las Xi . Empecemos por un ejemplo.
M = máx{X1 , X2 , . . . , Xn }.
Podríamos pensar que M tiene la misma distribución F que las Xi , ya que resulta
siempre igual a una de ellas. Pero en realidad este modo de razonar no tiene sentido
(como se dijo, M no es una de las variables de la muestra, sino otra variable que toma
el mismo valor que una de ellas al menos —la que resulte mayor—).
Por ejemplo si se tuviera Xi ∼ U[0, 1] y n = 1000, es razonable pensar que la
probabilidad de que M > 0,95 es relativamente alta, ya que entre mil repeticiones, casi
con certeza habrá al menos una (probablemente varias) que superen el valor 0,95, y en
ese caso el máximo M de todas las observaciones también lo superará. Sin embargo, si
M tuviera también distribución U[0, 1], se tendría apenas P(M > 0,95) = 0,05, lo cual
es claramente absurdo.
Para convencernos, calculemos dicha probabilidad exactamente. Como dijimos, bas-
ta con que una de las variables X1 , . . . , X1000 supere el valor 0,95 para que M también
lo haga. Puesto de otro modo podríamos también decir que
Esto es cierto, puesto que si el máximo valor es menor o igual que 0,95, también
lo serán todos los de la muestra dado que son menores o iguales que el máximo. Y
recíprocamente, si todos los valores en la muestra son menores o iguales a 0,95, el
máximo de todos —que es uno de ellos— también lo será. Esto prueba la equivalencia.
Pero los mil sucesos aleatorios {Xi ≤ 0,95} son independientes entre sí, porque las
variables Xi lo son, por lo que tenemos
P(M ≤ 0,95) = P(X1 ≤ 0,95∧. . .∧X1000 ≤ 0,95) = P(X1 ≤ 0,95)·. . .·P(X1000 ≤ 0,95).
Ahora bien, como todas las Xi tienen distribución U[0, 1], resulta P(Xi ≤ 0,95) = 0,95,
por lo que
P(M ≤ 0,95) = 0,951000 = 5,3 × 10−23 ,
y entonces
P(M > 0,95) = 1 − 0,951000 ' 1.
Más en general, el mismo razonamiento dice que si las Xi tienen función de distri-
bución F , entonces
es decir
FM (t) = [F (t)]n .
Y por lo tanto,
FX(1) (t) = 1 − P(X(1) > t) = 1 − [1 − F (t)]n .
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 90
suceda {Y ≥ 1}.
De igual modo, {X(2) ≤ t} tiene la misma probabilidad que {Y ≥ 2} y, en general,
y
FX(n) (t) = [F (t)]n .
X̄n − µ D
−→ N (0, 1).
√σ
n
D
Observación 18. Es importante recordar que la expresión Xn −→ X es una notación
D
alternativa a Xn −→ FX , que usamos en este caso por simplicidad, pero que no implica
que haya una alta probabilidad de que los valores de Xn tiendan al valor de X, ni nada
similar; solo estamos afirmando que las sucesivas funciones de distribución FXn tienden
a los valores de la función FX para todos los valores de t donde esta última es continua.
D
Alternativamente, podríamos enunciar el teorema diciendo que si Xn −→ F y F̃
es la distribución de una variable que resulta de multiplicar c por una variable con
distribución F , es decir,
F̃ (t) = F ct ,
3
Como regla práctica es usual en contextos pedagógicos aceptar dicha aproximación cuando n ≥ 30,
si bien esta idea es obviamente una sobresimplificación.
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 92
P
entonces si además Yn −→ c, se tiene
D
Xn · Yn −→ F̃ .
al igual que Xn .
X̄n − µ σ D
· −→ N (0, 1),
√σ S
n
4
Para esto, reexpresamos S 2 como
1X 2
Xn − (X̄)2 ,
n
y bajo condiciones que garanticen la LGN (como las Xn2 son v.a.i.i.d., al igual que las Xn , alcanza con
suponer que m1 y m2 son finitos) esto implica que
P
S 2 −−→ m2 − m21 = σ 2 .
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 93
es decir
X̄n − µ D
−→ N (0, 1).
√S
n
Esta conclusión vale si las Xi son v.a.i.i.d. con momentos finitos al menos de segundo
orden, y resultará útil para hacer inferencia en contextos en que de la distribución
subyacente no se conozca siquiera la varianza (aunque sí se tenga certeza de que esta
existe y es finita).
Proporción muestral
Un caso frecuente de inferencia con una distribución no normal que satisface las
condiciones mencionadas es aquel en que las Xi ∼ Be(p). En este caso —en el que
X̄ suele notarse por p̄ y representa la proporción de éxitos entre las n observaciones
realizadas—, como E(Xi ) = p y var(Xi ) = p(1 − p), resulta del TCL que
p̄ − p D
qn −→ N (0, 1).
p(1−p)
n
Es decir,
p̄ − p D
qn −→ N (0, 1).
p̄n (1−p̄n )
n
se tiene
nX
→ λ > 0, 5
nY
entonces
(X̄ − Ȳ ) − (µX − µY ) D
q 2 2
−→ N (0, 1) .
σX σY
nX
+ nY
5
Esto garantiza que ni nX crece «mucho más rápido» que nY (en cuyo caso el cociente tendería
a ∞, ni nY crece mucho más rápido que nX , en cuyo caso el cociente tendería a 0; en realidad
ambos tamaños muestrales tienden a crecer en una cierta proporción. Por ejemplo, imaginemos que
tomáramos un par de muestras de tamaño (nX , nY ) = (1, 1), luego de tamaño (2, 4), luego (3, 9),
después (4, 16), y que en general el n-ésimo par de muestras fuera de tamaño (n, n2 ). En ese caso no
tendríamos garantizada la conclusión, ya que
nX n 1
= 2 = −−−−→ 0.
nY n n n→∞
Es decir que a medida que tomamos las sucesivas muestras, podría ocurrir que la distribución del
estadístico en cuestión no converja a una distribución normal, o incluso que no converja a ninguna
distribución (notar que en la muestra número 100 se tendrá nX = 100, pero nY = 10 000 será cien
veces mayor).
6
Este resultado es menos obvio de lo que parece, ya que en realidad el límite en cuestión involucra
una indeterminación del tipo «cero sobre cero»; en cualquier caso, puede probarse que es válido
haciendo uso de la condición nnX
Y
→ λ > 0.
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 95
es decir
(X̄ − Ȳ ) − (µX − µY ) D
q 2 −→ N (0, 1).
SX SY2
nX
+ nY
Comparación de proporciones
aunque esta expresión no es muy útil para estudiar pX − pY ya que depende también
de los valores individuales de cada parámetro.
Resulta útil, nuevamente, aplicar el teorema de Slutsky, para concluir que
También es de interés una expresión que surge en el caso particular en que se supone
que la diferencia entre ambos parámetros es nula, es decir, que pX = pY . Si llamamos p
a ese valor común, tenemos que tanto Xk como Yk siguen una distribución Be(p), por
lo que
E(p̄X − p̄Y ) = p − p = 0
y
p(1 − p) p(1 − p) p(1 − p)
var(p̄X − p̄Y ) = + = .
nX nY nX + nY
Luego,
p̄ − p̄Y D
qX −→ N (0, 1).
p(1−p)
nX +nY
y
nX p(1 − p) + nY p(1 − p) p(1 − p)
var(p̂) = 2
= ;
(nX + nY ) nX + nY
y por la LGN vale que
P
p̂ −→ p
cuando nX + nY → +∞.
Luego, el teorema de Slutzky garantiza que si nX , nY → +∞ (en cuyo caso también
nX + nY → +∞), con la condición nnXY → λ > 0, entonces también
q
p(1−p)
p̄ − p̄Y nX +nY D
qX ·q −→ N (0, 1).
p(1−p) p̂(1−p̂)
nX +nY nX +nY
O simplificando la expresión,
p̄ − p̄Y D
qX −→ N (0, 1).
p̂(1−p̂)
nX +nY
Capítulo 6
Estimadores puntuales
97
CAPÍTULO 6. ESTIMADORES PUNTUALES 98
Puede ser que exista efectivamente una población, es decir, un conjunto (finito)
de unidades sobre las cuales se puede medir la variable o característica de interés
(por ejemplo, las personas que viven en una ciudad —sobre las que podemos
considerar variables como la estatura, la edad, el tiempo que llevan viviendo
allí, etc.—), en cuyo caso la variable en cuestión tiene una cierta distribución
de frecuencias a la que teóricamente se podría acceder si se realizara un censo
completo sin errores ni omisiones.
Puede ser que en cambio la característica que se quiere medir surja como repe-
tición de un experimento que idealmente puede reiterarse una infinidad de veces
en forma controlada (por lo que suele hablarse de «experimento de laboratorio»)
a tal extremo que se logre mantener la independencia entre una y otra realización
del mismo y que las condiciones al comienzo de y durante cada repetición sean
idénticas al punto de que pueda asignarse a la característica de interés una misma
distribución de probabilidad antes de cada realización del experimento aleatorio.
vez considerado este detalle, si hubiese entre las cien unidades de la población
exactamente tres de ellas con una estatura de 1,72 m (con precisión a cm) —es
decir, una frecuencia relativa fr = 0,03—, entonces al elegir una persona/unidad
1
al azar (cada una con probabilidad 100 ), la probabilidad de que el resultado de
3
medir la estatura de la persona seleccionada al azar sea 1,72 m es claramente 100 ,
igual a la frecuencia relativa. Pero para que al elegir n unidades la distribución
aleatoria sea cada vez la misma que al principio debe ocurrir o bien
— que la extracción sea con reposición, por lo que cada unidad puede salir
ninguna, una, dos o hasta n veces entre las n extracciones; o bien
— que por más que la extracción sea sin reposición, el tamaño muestral sea
muy inferior al poblacional (n << N ), de modo que si bien cada unidad que
se extrae y no se repone modifica la distribución de frecuencias sobre la que
se muestrea, tal efecto sea prácticamente inapreciable y resulte despreciable
en la práctica.
Medidas de tendencia central : indican en torno a qué valores caerán las realiza-
ciones de θ̂ si se usa varias veces ese estimador para diferentes muestras, ya sea
que pensemos en los valores de mayor probabilidad o densidad (valores modales
o modas), los que separan cantidades iguales de observaciones (por ejemplo las
mayores y las menores, como la mediana), el valor que aparece como promedio
de muchas repeticiones (la media o esperanza), etc.
Medidas de dispersión: indican si las reiteradas estimaciones realizadas con θ̂
presentarán valores similares o cercanos a los valores centrales, o si por el contrario
habrá gran variabilidad.
Medidas directas del error de estimación: son cuantificaciones basadas en la di-
ferencia θ − θ̂, que indica el error cometido si se toma la estimación θ̂ como valor
aproximado del parámetro desconocido θ. En general existen varias maneras de
obtener un valor que represente la situación genérica, entre las cuales se desta-
can especialmente el error cuadrático medio o ECM (ver más adelante), el error
absoluto medio, el error mediano absoluto, etc.
Es claro que el error debería ser pequeño, que las estimaciones deberían distribuirse
en torno al valor verdadero y que sería interesante que lo hicieran con poca dispersión.
El inconveniente es que en la mayoría de los casos relevantes algunas de estas propie-
dades suelen ir en detrimento de las otras. Por ello, llamaremos propiedades deseables a
las «buenas» propiedades de un estimador, aun cuando no se las pueda considerar esen-
ciales. Es decir que no serán en general propiedades irrenunciables, a veces ni siquiera
serán alcanzables: pero basta con pensar que entre la posibilidad de que se verifiquen o
no se verifiquen, si eso no obliga a cambiar nada más, sin dudas elegiríamos que dichas
propiedades estén presentes.
En los próximos apartados estudiamos algunas de ellas, muchas de las cuales están
claramente motivadas en la discusión que antecede.
Mencionamos a continuación algunas propiedades que pueden definirse para valores fijos
de n. En general si se hace un análisis para n ∈ N genérico, usualmente la propiedad se
verifica para cada valor posible de n o para ninguno, aunque si solo fuera cierta para
algunos valores bastaría con dicha aclaración.
Empezamos con una definición que no se refiere en sí a la distribución de probabi-
lidad de θ̂, sino a su forma funcional.
Definición 21 (Linealidad). Un estimador basado en la muestra X1 , . . . , Xn se deno-
~ ni del parámetro
mina lineal si existen constantes α0 , α1 , . . . , αn no dependientes de X
CAPÍTULO 6. ESTIMADORES PUNTUALES 103
Eθ (θ̂) = θ, ∀θ ∈ Θ.
Observación 19. Cuando se quiere indicar en la notación que los cálculos son válidos
bajo cierto valor del parámetro θ, es usual agregarlo como subíndice del operador de
esperanza, varianza, etc.
Definición 23 (Eficiencia relativa y absoluta). Dados θ̂0 y θ̂1 , ambos estimadores insesgados
de θ:
5
No obstante, pueden —y suelen— depender de n y eventualmente de otros parámetros que sean
conocidos.
CAPÍTULO 6. ESTIMADORES PUNTUALES 104
Determinar que un estimador insesgado es eficiente6 (es decir el mejor entre todos
los insesgados), no es sencillo ni inmediato en general. La principal dificultad radica
en que no es posible usualmente dar una expresión general de todos los estimadores
insesgados de θ que a su vez sea útil para el cálculo de la varianza. Por ese motivo,
para probar que un estimador es eficiente se suele recurrir a determinados resultados
teóricos de los cuales el más conocido es el Teorema de Cramér-Rao (ver apartado 6.4).
Sin embargo, sí es sencillo representar a todos los estimadores insesgados y calcular
su varianza si nos restringimos a la clase de los operadores lineales. En ese caso, se
tiene la siguiente definición:
Definición 24 (Mejor estimador lineal insesgado). Sea θ̂0 un estimador lineal e inses-
gado de θ. Si para todo otro estimador θ̂ lineal e insesgado para θ vale
Dicho todo esto, cabe hacer notar que estamos comparando siempre las varianzas de
estimadores insesgados. Si se desea comparar la performance de un estimador insesgado
con uno que no lo es o si se trata de dos sesgados, la situación es menos obvia, como
muestra la figura 6.1 (pág. 105). Por caso:
6
También son usuales las expresiones MEI (Mejor Estimador Insesgado) y estimador IMVU (In-
sesgado de Mínima Varianza Uniformemente).
7
Abreviatura de Mejor Estimador Lineal Insesgado. También es usual la sigla ELIO (Estimador
Lineal Insesgado Óptimo) y en inglés BLUE (Best Linear Unbiased Estimate).
CAPÍTULO 6. ESTIMADORES PUNTUALES 105
p(1)=0.89 p(2)=0.16
m(1) m(2)
2.0 2.5 3.0 3.5 4.0
theta=3
p(2)=0.4
p(1)=0.21
m(1) m(2)
0 1 2 3 3.5 4 5 6
theta=3
Figura 6.1: Para θ = 3 se presentan en cada imagen las distribuciones de dos esti-
madores: en ambos ejemplos uno es insesgado y el otro tiene un sesgo igual a −0,5.
La diferencia en las varianzas afecta la performance relativa de ambos, en este caso
representada por el valor de P(|θ̂ − θ| ≤ 0,4), equivalente al área sombreada. (Aclara-
ción: las escalas verticales difieren entre ambas imágenes —y también las horizontales,
desde ya—, por lo cual solo son comparables las áreas dentro de un mismo gráfico; para
referencia es útil recordar que el área bajo cada curva es igual a uno).
Entre un estimador insesgado con varianza «grande», y otro sesgado con varianza
muy «chica» —eventualmente nula— es posible que resulte mejor el primero
(imagen superior): el segundo tiene su densidad muy concentrada alrededor de su
media, que no es el valor que se busca estimar. El primero, en cambio, apunta en
la dirección correcta, y si bien tiene bastante dispersión, al menos puede a veces
caer más cerca de θ que el que casi sistemáticamente toma valores lejanos.
Sin embargo, esto tampoco implica que el insesgamiento sea una condición sine
qua non: un estimador insesgado pero con demasiada dispersión tal vez falla por
mucho y mucho más frecuentemente que uno que tiene un pequeño sesgo y una
varianza relativamente baja (imagen inferior).
Definición 25 (Error cuadrático medio). Se define el error cuadrático medio del esti-
mador θ̂ para el parámetro θ como
CAPÍTULO 6. ESTIMADORES PUNTUALES 106
Esta fórmula no solo es útil en el cálculo, sino que conceptualmente reafirma las ideas
que comentamos sobre cómo un sesgo y una varianza pequeños colaboran a mejorar la
estimación y tanto esta como aquel deben ser tenidos en cuenta.
Propiedades asintóticas
donde cada uno se aplica a un tamaño de muestra distinto. Este es el concepto que
analizaremos en este apartado.
La primera propiedad asintótica que mencionamos es un «second best» para la
propiedad de insesgamiento. Si el sesgo no es nulo, pero tiende a cero con n → ∞ ,
entonces para n suficientemente grande dicho sesgo resultará despreciable.
Eθ (θ̂n ) −−−−→ θ, ∀θ ∈ Θ.
n→∞
es decir, si
CAPÍTULO 6. ESTIMADORES PUNTUALES 108
y además
Varθ (θ̂n ) −−−−→ 0;
n→∞
(que en realidad es una sucesión de estimadores, uno para cada tamaño muestral).
Es inmediato ver que
n2 n3
Eλ (λ̂n ) = λ y Varλ (λ̂n ) = λ.
n2 + 1 (n2 + 1)2
En particular vemos que —para cada n— λ̂n es un estimador sesgado, con sesgo
λ
n2 +1
pero como el sesgo tiende a 0 o —equivalentemente— Eλ (λ̂n ) −−−−→ λ, se trata
;
n→∞
de un estimador asintóticamente insesgado.
Además, comparando los grados del numerador y el denominador, vemos que
y esto prueba que el estimador λ̂n (es decir, la sucesión de estimadores) es consistente
para λ.
CAPÍTULO 6. ESTIMADORES PUNTUALES 109
Figura 6.2: Área sombreada: P(θ − ε ≤ θ̂n ≤ θ + ε); de arriba a abajo ε = 0,5 y ε = 0,1;
de izquierda a derecha n = 10, n = 100 y n = 500. (Las escalas no son comparables
entre gráficos, por lo que la probabilidad representada por el área sombreada debe
interpretarse en relación al área total bajo la curva correspondiente).
h : R n → Rm
si la muestra es de tamaño n y las variables toman valores reales; m puede ser un número natural
cualquiera, mayor, igual o menor que n. Esto permite pensar a varios estadísticos como uno solo (es
decir, un vector de estadísticos) cuando es conveniente.
CAPÍTULO 6. ESTIMADORES PUNTUALES 111
Como metáfora muy pero muy simplista, si pensamos en una casa y en los ladri-
llos usados para su construcción, encontramos que ciertas propiedades corresponden a
la casa como un todo, como producto final (y tales propiedades resultan de factores
tan variados como los materiales, las técnicas y prácticas de construcción utilizadas,
decoraciones, oportunidad... ¡un poco de buena suerte, por cierto!); y algunas otras
son propiedades específicas de los materiales de construcción, como los ladrillos. Unos
ladrillos débiles o mal formados darán lugar a una construcción débil e inestable casi
con seguridad. En cambio, unos ladrillos resistentes bien usados daran una estructura
resistente a la casa; aunque mal usados, en cambio, podrían ser inútiles.
fX|T
~ =τ (~
x)
no depende de θ (es decir, es constante como función de θ). Esta definición aplica al
caso en que X~ es un vector absolutamente continuo; la definición es en términos de
pX|T ~
~ =τ si el vector X es discreto.
es decir, un producto de dos factores: el primero, uno que no depende de θ y tal vez sí
de la muestra; el segundo puede depender de θ pero si depende de la muestra esto solo
ocurre por medio de t(~x).
Ahora bien,
fXT
~ (~ x, τ ; θ) f ~ (~x, τ ; θ)
fX|T
~ =τ (~
x; θ) = = R XT
fT (τ ; θ) f ~ (~x, τ ; θ) d~x
Rn XT
En estas condiciones, si suponemos t(~x) = τ , resulta fXT ~ (~x, τ ; θ) = h(~x) · g(τ, θ), por
lo que
h(~x) · g(τ, θ) h(~x)
fX|T
~ =τ (~x; θ) = R =R .
Rn
h(~x) · g(τ, θ) d~x Rn
h(~x) d~x
Por otro lado, si t(~x) 6= τ , entonces fXT
~ (~
x, τ ; θ) = 0 y también se anula fX|T
~ =τ (~
x).
En cualquier caso se tiene que
fX|T
~ =τ (~
x; θ)
Puede probarse que esto es equivalente (si también existe la derivada segunda) a
2
∂
IX~ (θ) = − E ln fX~ (X1 , ..., Xn ; θ) (6.3)
∂θ2
que en muchos casos conlleva cálculos más simples.
10
Si el vector es discreto valen las mismas expresiones usando la función de probabilidad puntual
en lugar de la función de densidad.
CAPÍTULO 6. ESTIMADORES PUNTUALES 114
∂2
IX~ (θ) = −n · E ln fX (X; θ) . (6.5)
∂θ2
por lo que cuando se desea calcular IX~ (θ) así como hallar el estimador de máxima vero-
similitud θ̂M V , parte del procedimiento es redundante y pueden abreviarse los cálculos.
fX (x; θ),
podemos concluir que el valor de X que se obtuvo tiene más sentido al suponer valores
de θ que dan una densidad o probabilidad puntual alta; en cambio, debemos pensar que
ocurrió un suceso muy extraño o inesperado si suponemos otros valores de θ (aquellos
que impliquen que el suceso {X = x} tenía muy baja probabilidad o densidad).
Sin embargo, aun cuando el análisis de pX (10) para diferentes valores de λ puede ser
útil para obtener una estimación λ̂, esto no da una idea inmediata de qué tan precisa
es esa estimación.
CAPÍTULO 6. ESTIMADORES PUNTUALES 116
∂
ln pX (10; λ),
∂λ
obtendríamos una cierta medida de la sensibilidad de pX (10; λ) a cambios en λ para el
valor observado.
Para entender esto, recordemos en primer lugar que la derivada del logaritmo de
una función da un valor aproximado de la variación relativa (o porcentual, si se la
piensa multiplicada por 100 %) por cada unidad que aumenta la variable respecto de
la que se deriva. Es decir, en nuestro ejemplo, si pasamos de evaluar la probabilidad de
nuestra observaciónsuponiendo λ0 a calcularla para λ1 = λ0 + ∆λ, la variación relativa
∆pX (10;λ0 )
de la probabilidad pX (10;λ0 ) se puede aproximar mediante la fórmula
Sin embargo, al analizar qué tanto nos puede llegar a decir sobre λ el hecho de obser-
var la variable X, en lugar de cuantificar la información que nos da un caso particular
ya observado (en nuestro ejemplo, x = 10), se debería analizar una situación genérica
13
A fines comparativos, cabe mencionar que en este ejemplo la variación relativa de pX (10) al pasar
de λ = 7, 5 a λ = 8 es de un nada despreciable 15, 6 %; el score evaluado en λ = 7, 5 es 13 , que
multiplicado por ∆λ = 0, 5 da un valor razonablemente aproximado de 16 , es decir, un 16, 7 %.
Desde ya, cuanto menor sea ∆λ, más precisa tiende a ser la aproximación. Por ejemplo, la variación
relativa de λ = 7,5 a λ = 7,6 es 3,298 %, y la aproximación daría 13 · 0,1 ' 3,33 %.
CAPÍTULO 6. ESTIMADORES PUNTUALES 117
Podría suponerse, por ejemplo, que una buena medida de resumen sería tomar sim-
plemente la esperanza de los scores; sin embargo, como las variaciones relativas de fX o
pX pueden ser tanto positivas como negativas, al tomar la esperanza habrá cierta cance-
lación. De hecho, puede probarse que, en condiciones muy generales, dicha cancelación
es exacta y la esperanza de los scores es igual a 0. Es por esto que interesa transformar
los scores de manera que sean siempre positivos antes de tomar su esperanza: la opción
elegida para la definición de IX (θ), como es frecuente, es elevar al cuadrado los scores
antes de calcular su esperanza, es decir, calcular su momento de orden 2 (de hecho, su
varianza, ya que tienen esperanza nula). A saber:
2
∂
E ln pX (X; λ) .
∂λ
Ejemplo 19. Para entender mejor el cálculo y las aclaraciones hechas, podemos ver
que en nuestro ejemplo anterior de una observación X a partir de una distribución de
Poisson daría
2 2
e−λ λX
∂ ∂
IX (λ) = E ln pX (X; λ) = E ln =
∂λ ∂λ X!
2 2
∂ X
=E (−λ + X ln λ − ln X!) = E −1 =
∂λ λ
E(X 2 ) E(X) λ + λ2 λ 1
= 2
− 2 + 1 = 2
−2 +1= .
λ λ λ λ λ
CAPÍTULO 6. ESTIMADORES PUNTUALES 118
una varianza pequeña, es decir, muy precisos (aunque no siempre habrá estimadores
que alcancen dicha cota); por el contrario, si la muestra brinda poca información, eso
conlleva que la varianza de los estimadores insesgados necesariamente será grande, lo
que coincide con la idea intuitiva de que con poca información la estimación será muy
imprecisa.
La utilidad del teorema 14 es notable cuando se conoce un estimador θ̂ insesgado y
cuya varianza coincide con la cota de Cramèr-Rao, esto es:
1
E(θ̂) = θ y var(θ̂) = ~ (θ)
IX
.
En ese caso, como cualquier otro estimador insesgado tendrá varianza mayor o igual a
la cota, en particular tendrá varianza mayor o igual que la de θ̂. Esto coincide con la
definición de estimador eficiente (en el sentido de eficiencia absoluta).
Ejemplo 20. Para el caso del ejemplo 19 un estimador usual para el parámetro des-
conocido es n
1X
λ̂ = Xi = X̄n
n i=1
(ver apartado siguiente), que es insesgado para λ, ya que
n
! n
! n n
1 X 1 X 1X 1X 1
E λ̂ = E Xi = E Xi = E (Xi ) = λ = · nλ = λ.
n i=1 n i=1
n i=1 n i=1 n
Pero además, tenemos que
n
! n
! n n
1X 1 X 1 X 1 X 1 λ
var λ̂ = var Xi = 2 var Xi = 2 var(Xi ) = 2 λ = 2 ·nλ = ,
n i=1 n i=1
n i=1 n i=1 n n
donde se tuvo en cuenta que las Xi son independientes, por lo que la varianza de la
suma es la suma de las varianzas, y que var(Xi ) = λ en la distribución de Poisson.
Como se vio también en el ejemplo 19, si se toma una muestra aleatoria de tamaño
n de una distribución P(λ), la información de Fisher es
n
IX~ (λ) = ,
λ
y esto implica que la cota de Cramér-Rao es
1 λ
CCR = = = var λ̂ .
IX~ (λ) n
Luego, como λ̂ es insesgado y su varianza coincide con la CCR, no puede existir otro
estimador insesgado de menor varianza: por lo tanto, λ es eficiente.
CAPÍTULO 6. ESTIMADORES PUNTUALES 120
~ no depende de θ.14
IX~ (θ) ≥ 0, y solo vale 0 si la distribución de X
~ es un estadístico suficiente para θ, entonces I ~ (θ) = I ~ (θ).15
Si t(X) X t(X)
Esto sugiere que X̄n es un estimador razonable de λ, ya que al menos resulta consistente:
para tamaños de muestra grandes, el sesgo será pequeño al igual que su varianza, por
lo que se tendrá un bajo ECMλ (X̄). Por cierto, vimos en el apartado anterior que este
estimador de λ es en particular insesgado y eficiente.
También podríamos haber tenido en cuenta que E(Xi2 ) = var(Xi )+E(Xi )2 = λ+λ2 ,
por lo que, como también se vio en su momento
n
1X 2 P
X −→ λ + λ2 .
n i=1 i
CAPÍTULO 6. ESTIMADORES PUNTUALES 122
a saber,
n 2
1X 2 1 1
X = + λ̂ −
n i=1 i 2 4
es decir —teniendo en cuenta que la estimación debe tomar valores positivos—,
v
u n
u1 1 X 1
λ̂ = t + Xi2 − .
4 n i=1 2
n
1X
X̄ = Xi = E(Xi )|(α,λ)=(α̂,λ̂)
n i=1
y
n
1X 2
(X 2 ) = X = E(Xi2 )|(α,λ)=(α̂,λ̂) .
n i=1 i
CAPÍTULO 6. ESTIMADORES PUNTUALES 123
Esto puede resultar adecuado ya que entre estos dos momentos aparecen ambos pará-
metros al menos una vez (de hecho ambos figuran en las dos igualdades). Entonces:
α̂
X̄ =
λ̂
α̂(α̂ + 1)
(X 2 ) = .
λ̂
Y despejando se obtiene
(X 2 ) − X̄ (X 2 ) − X̄
α̂M = λ̂M = .
X̄ (X̄)2
Ejemplo 22. No siempre es posible utilizar el primer momento cuando solo se busca
estimar un parámetro: si un momento no depende del parámetro que se busca estimar,
no será de utilidad. Consideremos por ejemplo la distribución N (0, σ 2 ); es decir, una
distribución normal en la que µ es conocido y se sabe que vale 0, pero se desconoce σ 2 .
En ese caso, podríamos intentar buscar σ̂ 2 tal que
pero como en este ejemplo E(Xi ) = 0, esto da un absurdo (X̄ = 0) y no define ningún
2
estimador de momentos σ̂M .
Lo usual en estos casos es pasar a un momento de orden superior, segundo orden
por ejemplo, y plantear
(X 2 ) = E(Xi2 )|σ2 =σ̂2 ,
es decir
(X 2 ) = E(Xi )2 + var(Xi ) = 02 + σ̂ 2 ,
2
= n1
P 2
de donde se obtiene el estimador σ̂M Xi .
CAPÍTULO 6. ESTIMADORES PUNTUALES 124
0.0008
likelihood
0.0000
0 5 10 15
0
log−likelihood
−5
−15
0 5 10 15
Ahora bien, teniendo en cuenta que efectivamente obtuvimos la muestra (8, 11, 6)
—es decir, que este es un suceso aleatorio que ocurrió en la realidad y por lo tanto
tendría sentido suponer que no se trata de un suceso demasiado improbable—, si por
algún motivo teórico o práctico tuviéramos la certeza de que los dos únicos posibles
valores de λ en este problema son 8 y 5, ¿cuál elegiríamos como estimación?
Desde ya es mucho más razonable suponer que si la muestra (8, 11, 6) ocurrió, es
porque λ debe ser 8, y no 5, ya que en el segundo caso resultaba mucho menos probable
(o menos «esperable») que ocurriera lo que finalmente ocurrió16 .
Ahora bien, como en nuestro caso no estamos restringidos a los valores 5 y 8, sino
que podemos elegir como estimación cualquier valor λ > 0, parece razonable elegir como
estimación aquel valor que haga más probable la muestra que efectivamente obtuvimos:
el punto λ̂ donde se maximiza la función L(λ). Esta será la estimación por máxima
verosimilitud de λ para esta muestra.
La función L parece tener un solo máximo según el gráfico. Más allá de esto, sabe-
mos que L está definida sobre el intervalo (0, +∞), que es un conjunto abierto, y es
evidente (viendo su definición) que es una función C ∞ . Luego, donde haya un máximo,
necesariamente su derivada primera será igual a cero. Veamos:
1 e−3λ λ24
L0 (λ) = −3e−3λ λ25 + 25e−3λ λ24 = · (−3λ + 25)
A A
Igualando a cero, dado que e−3λ 6= 0 y que λ 6= 0, se obtiene que necesariamente
−3λ + 25 = 0,
que se cumple para λ = 25 3
. Como este es el único punto crítico y además es claro que
a la izquierda de este valor la función crece y a la derecha decrece17 , en ese punto hay
un máximo absoluto.
Sin embargo, aún en este caso sencillo los cálculos no fueron tan simples ni inme-
diatos. Pero consideremos la función que se obtiene al aplicar un logaritmo (digamos
16
Por poner una analogía más cualitativa y menos numérica. Sabemos que en verano, en la Ciudad
de Buenos Aires, es común que la temperatura máxima del día supere los 30◦ C, mientras que en
invierno esto resulta más bien excepcional, aunque no es completamente imposible. Si entonces un día
nos despertamos completamente desorientados/as al mediodía y no tenemos en ese momento noción
siquiera de en qué estación del año estamos, pero al salir comprobamos que la temperatura es superior
a los 30◦ C (en un termómetro, o simplemente lo sentimos en el cuerpo), sin dudas ante la disyuntiva
de si estamos en verano o en invierno (no habiendo más información), nos inclinaremos por la primera
opción. De todos modos, suponer que estamos en invierno (en un día excepcionalmente caluroso) no
sería totalmente incorrecto en términos lógicos: pero sí sería una hipótesis inverosímil.
17
Como L0 es una función continua y solo se anula en 25
λ = 3 , el teorema de Bolzano implica que el
25 25
signo se mantiene en el intervalo 0, 3 y en 3 , +∞ . En particular, en el primero el signo es el de,
por ejemplo, L0 (1) > 0 y en el segundo el de L0 (10) < 0, y esto implica que L es creciente en 0, 25
3
y decreciente en 25 3 , +∞ .
CAPÍTULO 6. ESTIMADORES PUNTUALES 127
Ejemplo 24. Si ahora quisiéramos estimar λ con tres observaciones para el mismo
modelo, pero obtuviéramos una muestra diferente —digamos x1 = 7, x2 = 7 y x3 =
13— en principio deberíamos repetir todo el procedimiento hasta obtener la función
de verosimilitud
e−3λ λ27
L(λ) = ,
A
donde A es un número distinto al del ejemplo anterior pero que no influirá en el
resultado, y de allí se puede obtener λ̂M V = 27
3
= 9.
Sin embargo, para evitar repetir el procedimiento cada vez, podemos pensar en una
muestra genérica (x1 , x2 , x3 ), donde los xi ∈ N0 , y obtener la expresión del cálculo que
debemos hacer en cada caso. Esto, además, permitirá estudiar las propiedades de la
estimación por máxima verosimilitud para este modelo en particular.
Veamos:
e−λ λx1 e−λ λx2 e−λ λx3
l(λ; x1 , x2 , x3 ) = ln L(λ; x1 , x2 , x3 ) = ln · · =
x1 ! x2 ! x3 !
= −3λ + (x1 + x2 + x3 ) ln λ − ln(x1 !x2 !x3 !).
Aquí hemos escrito a l como función de λ, x1 , x2 y x3 , mientras que en el primer ejemplo
solo habíamos escrito λ: ocurre que en el primer ejemplo cada xi se reemplazaba por
un valor numérico, por lo que «desaparecía» de la expresión de L y de l. Lo cierto
es que tanto el valor del parámetro como los de las xi influyen en el valor de l, pero
mientras que cuando pensamos en un valor fijo, predeterminado, del parámetro λ y en
los valores (x1 , x2 , x3 ) como variables, la expresión anterior corresponde a la función
de probabilidad conjunta pX1 X2 X3 (x1 , x2 , x3 ), cuando hacemos lo contrario (las xi se
piensan como valores ya dados —(8, 11, 6) en el ejemplo que vimos al comienzo de esta
sección, o (7, 7, 13) en el más reciente—), la expresión queda solo en función de λ y
corresponde a la función de verosimilitud L(λ). Es decir que si tenemos en cuenta todas
las variables que influyen, en realidad
L(λ; x1 , x2 , x3 ) = pX1 X2 X3 (x1 , x2 , x3 ; λ), ∀λ > 0, ∀x1 , x2 , x3 ∈ N0 .
Observación 22. Cabe aclarar que en la definición anterior, como a lo largo de todo
este capítulo, θ puede ser un vector y por lo tanto la función de verosimilitud puede
ser función de uno o más parámetros desconocidos.
Definición 30. Dada una muestra X1 , . . . , Xn de una distribución (de v.a. discreta o
absolutamente continua) de la que se desconoce un parámetro θ, se denomina estimador
de máxima verosimilitud (EMV) de θ —y lo notamos θ̂M V — al valor de θ donde
la función de verosimilitud L(θ) alcanza su máximo global (si es que dicho valor es
único).
Cabe destacar que la observación 22 recuerda el hecho de que θ podría ser un vector,
algo que a veces podemos remarcar usando la notación θ. ~ Para ser más explícitos,
digamos que si se desconocen los parámetros θ1 , . . . , θp (p es la cantidad de parámetros
desconocidos), los estimadores de máxima verosimilitud de θ1 , . . . , θp (o también «el»
estimador de máxima verosimilitud del vector de parámetros θ~ = (θ1 , . . . , θp )) son las
respectivas coordenadas del punto del espacio paramétrico Θ ⊂ Rp donde se maximiza
la función de verosimilitud L(θ1 , . . . , θp ) (o bien podemos decir que el punto en sí mismo
ˆ
es el estimador θ~ —como vector— del parámetro θ~ —también como vector—)18 .
Ejemplo 25. Si deseamos volver al ejemplo anterior, pero suponiendo que tomaremos
una muestra de tamaño n arbitrario, podemos buscar una expresión del estimador de
máxima de verosimilitud para este caso general, en lugar de hacerlo específicamente
para muestras de tamaño n = 3, como lo hicimos hasta ahora. Es en estos casos en los
que se ve aún más claro las ventajas que genera trabajar con la log-verosimilitud l en
lugar de la verosimilitud L.
Por definición n
Y
L(λ) = pXi (xi )
i=1
y
n n n
Y X X e−λ λxi
l(λ) = ln L(λ) = ln pXi (xi ) = ln pXi (xi ) = ln ,
i=1 i=1 i=1
xi !
que por propiedades del logaritmo es
n
X n
−λ xi
X
l(λ) = ln e + ln λ − ln(xi !) = (−λ + xi · ln λ − ln(xi !)) .
i=1 i=1
ˆ
En este caso podemos usar tanto la notación θˆ1M V , . . . , θˆp M V como θ~M V , o incluso θ̂M V según la
18
claridad y la conveniencia.
CAPÍTULO 6. ESTIMADORES PUNTUALES 131
Por otro lado, las propiedades de la sumatoria (donde todo lo que no depende del índice
i es una «constante», i.e. algo que se repite en cada término de la suma) implican que
n
X n
X n
X n
X
l(λ) = (−λ) + xi · ln λ − ln(xi !) = −nλ + ln λ · xi + A(~x),
i=1 i=1 i=1 i=1
de donde surge Pn
i=1 xi
λ̂M V = = x̄n ,
n
o escrito como variable aleatoria,
Pn
i=1 Xi
λ̂M V = = X̄n .
n
Ejemplo 26. Consideremos la distribución N (µ, σ 2 ), y calculemos la log-verosimilitud
del parámetro (µ, σ 2 ).
n
! n
Y X
2 2
l(µ, σ ) = ln L(µ, σ ) = ln f (xi ) = ln f (xi ) ,
i=1 i=1
n
X 1 1 2 1 2
= − ln(2π) − ln(σ ) − 2 (xi − µ) =
i=1
2 2 2σ
19
Por confusa que pueda parecer la expresión de l, para entender sus propiedades conviene recordar
que solo es una verdadera función P λ, para lo que incluso se le pueden dar valores a n
Pen la «variable»
y las xi . Por ejemplo, si n = 10, xi = 109 y ln(xi !) = 154, se tiene l(λ) = −10λ + 109 ln λ − 154.
Se ve entonces claramente que l es la suma de una función logarítmica y un polinomio de grado uno.
CAPÍTULO 6. ESTIMADORES PUNTUALES 132
n
n n 2 1 X
= − ln(2π) − ln(σ ) − 2 (xi − µ)2 .
2 2 2σ i=1
se tiene n Pn
X
i=1 xi
xi − nµ = 0 ⇐⇒ µ= ,
i=1
n
es decir que
µ̂M V = x̄,
lo cual resulta sumamente intuitivo.
Supongamos, por el contrario, que el valor de µ es conocido, y es en realidad σ 2 el
parámetro a estimar. En lo sucesivo, para evitar la dificultad de derivar respecto de σ 2
como un todo, hacemos la sustitución α = σ 2 y buscamos el EMV de α. Es decir:
n
n n 1 X
l(α) = − ln(2π) − ln(α) − (xi − µ)2 ,
2 2 2α i=1
y como esto es una función derivable buscamos el máximo igualando a cero la derivada
n
n 1 X
l0 (α) = − + 2 (xi − µ)2
2α 2α i=1
Ejemplo 27. Si se tuviera Xi ∼ Γ(θ, 2), se tendría m1 (θ) = 2θ , por lo que la condición
de insesgamiento sería
θ
α0 + (α1 + · · · + αn ) = θ, ∀θ > 0.
2
Como las constantes αk no dependen de θ, es fácil ver que necesariamente debe ser
α0 = 0, 22 y luego
θ
(α1 + · · · + αn ) = θ, ∀θ > 0,
2
que implica
α1 + · · · + αn = 2.
22
Existen varias maneras de ver esto. Las más simples son dar dos valores particulares a θ > 0, por
ejemplo 1 y 2 y de ahí llegar a la conclusión buscada, o bien observar que tanto el miembro izquierdo
como el miembro derecho de la igualdad pueden pensarse como polinomios de grado uno en la variable
θ y que por lo tanto su término independiente y su coeficiente principal —es decir, la pendiente—
deben coincidir. Esto implica que α0 = 0 y que 12 (α1 + · + α2 ) = 1. Una tercera forma es decir que
como la igualdad vale para todo θ > 0, también es cierto que
θ
lı́m α0 + (α1 + · · · + αn ) · = lı́m+ θ
θ→0+ 2 θ→0
y esto equivale a α0 = 0.
CAPÍTULO 6. ESTIMADORES PUNTUALES 136
Mínimos cuadrados
Ejemplo 28. Supongamos que se estudia una variable aleatoria con distribución N (µ, σ 2 )
para la que se desea estimar µ. En tal caso, siendo µ la media de la distribución, po-
dríamos decir que el valor más razonable que deberían tomar las observaciones xi de
las variables Xi sería en cada caso xi = µ. Por ese motivo, tendría sentido definir para
cada observación el residuo
ûi = xi − µ.
Otra manera de interpretar esto es que si Xi ∼ N (µ, σ 2 ), también podemos escribir
X i = µ + εi ,
ûi = xi − µ,
Como resulta razonable desear que esta cantidad sea pequeña, el estimador de mínimos
cuadrados de µ se define como el valor µ̂M C que minimiza SCR(µ).
23
Como en tantas otras instancias, considerar la suma de los cuadrados es solo una alternativa,
que resulta conveniente por determinados motivos teóricos y prácticos,
P 4 Ppero existen infinidad de otras
posibilidades que también resultarían razonables, como tomar ûi , |ûi |, máx{|ûi |}1≤i≤n , etc.
CAPÍTULO 6. ESTIMADORES PUNTUALES 137
µ̂M C = X̄.
Un reparo que puede plantearse sobre este método es que, como se ve en el ejemplo
anterior, la distribución de las variables Xi no juega ningún rol en la deducción del
estimador en tanto valor que minimiza la SCR. Es cierto, sin embargo, que sí se tu-
vo en cuenta la distribución informalmente a la hora de elegir una definición para los
residuos ûi . Es claro entonces que los estimadores así obtenidos serán razonables siem-
pre y cuando la definición de los residuos sea adecuada en términos de la distribución
subyacente y de cómo la misma se ve afectada por variaciones en el parámetro que se
busca estimar.
24
Vale la pena notar que la única complicación en los cálculos surge de la notación de sumato-
ria, que en cualquier caso nos permite obtener un resultado genérico para cualquier n y justificarlo
adecuadamente. Alternativamente, se puede recurrir a una notación con puntos suspensivos
o incluso realizar los cálculos cada vez a partir de los valores observados. Por ejemplo, si n = 3,
x1 = 1,3, x2 = 2,4 y x3 = 1,5, se tiene