0% encontró este documento útil (0 votos)
500 vistas138 páginas

Fundamentos de Probabilidad

Este documento presenta los fundamentos de la teoría de la probabilidad y la estadística. Introduce el concepto de variable aleatoria y describe su distribución, clasificación, esperanza matemática y varianzas. También cubre vectores aleatorios, transformaciones de distribuciones, teoría asintótica, distribuciones de estadísticos muestrales y estimadores puntuales. El objetivo general es desarrollar los conceptos y herramientas básicas de la teoría de la probabilidad necesarias para el análisis estad

Cargado por

Axel Do Campo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
500 vistas138 páginas

Fundamentos de Probabilidad

Este documento presenta los fundamentos de la teoría de la probabilidad y la estadística. Introduce el concepto de variable aleatoria y describe su distribución, clasificación, esperanza matemática y varianzas. También cubre vectores aleatorios, transformaciones de distribuciones, teoría asintótica, distribuciones de estadísticos muestrales y estimadores puntuales. El objetivo general es desarrollar los conceptos y herramientas básicas de la teoría de la probabilidad necesarias para el análisis estad

Cargado por

Axel Do Campo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 138

Fundamentos de probabilidad y estadística

Prof. Alejandro Nasif Salum


Índice general

1. Variables aleatorias 4
1.1. Concepto y definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. La distribución de una variable aleatoria . . . . . . . . . . . . . . . . . 7
1.2.1. La función de distribución y sus propiedades . . . . . . . . . . . 8
1.3. Clasificación de variables aleatorias . . . . . . . . . . . . . . . . . . . . 10
1.4. Esperanza matemática, varianza y momentos de la distribución . . . . 11
1.5. Algunas distribuciones usuales . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.1. Algunas familias de distribuciones continuas . . . . . . . . . . . 17
1.5.2. Algunas familias de distribuciones discretas . . . . . . . . . . . 20
1.6. Consideraciones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2. Transformadas de la distribución 25
2.1. Función generadora de momentos . . . . . . . . . . . . . . . . . . . . . 25
2.2. Función generadora de probabilidad . . . . . . . . . . . . . . . . . . . . 30
2.3. Otras funciones generadoras usuales . . . . . . . . . . . . . . . . . . . . 34
2.3.1. Función característica . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.2. Cumulantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3. Vectores aleatorios 37
3.1. Distribución conjunta de variables aleatorias . . . . . . . . . . . . . . . 37
3.1.1. Función de distribución conjunta . . . . . . . . . . . . . . . . . 38
3.1.2. Clasificación de vectores aleatorios y cálculo de probabilidades . 40

1
ÍNDICE GENERAL 2

3.1.3. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . 43


3.1.4. Esperanza de una función de varias variables . . . . . . . . . . . 45
3.1.5. Distribución conjunta de variables independientes . . . . . . . . 46
3.2. Distribución condicional . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3. Covarianza y correlación . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.1. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.3.2. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . 53

4. Teoría asintótica 55
4.1. Distribución asintótica de una sucesión de variables aleatorias . . . . . 55
4.1.1. Convergencia en distribución . . . . . . . . . . . . . . . . . . . . 57
4.1.2. Convergencia de la función generadora de momentos . . . . . . 62
4.2. Teorema central del límite . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3. Convergencia en probabilidad y Ley de los grandes números. . . . . . . 67
4.3.1. Convergencia en probabilidad . . . . . . . . . . . . . . . . . . . 67
4.3.2. La ley de los grandes números . . . . . . . . . . . . . . . . . . . 70

5. Distribución de estadísticos muestrales 75


5.1. Distribuciones usuales en el muestreo . . . . . . . . . . . . . . . . . . . 75
5.1.1. La distribución «chi-cuadrado» . . . . . . . . . . . . . . . . . . 76
5.1.2. Las distribuciones «t-Student» y «F-Snedecor» . . . . . . . . . 78
5.2. Distribución de algunos estadísticos . . . . . . . . . . . . . . . . . . . . 78
2
5.2.1. El Lema de Fisher y la distribución de S . . . . . . . . . . . . 78
5.2.2. El «estadístico t» . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.2.3. Estadísticos basados en dos muestras normales . . . . . . . . . . 83
5.3. Distribución de estadísticos de orden . . . . . . . . . . . . . . . . . . . 87
5.4. Algunas distribuciones asintóticas relevantes . . . . . . . . . . . . . . . 91
5.4.1. Distribución asintótica de medias muestrales . . . . . . . . . . . 92
5.4.2. Comparación de medias de muestras independientes . . . . . . . 93
ÍNDICE GENERAL 3

6. Estimadores puntuales 97
6.1. Introducción a la inferencia estadística . . . . . . . . . . . . . . . . . . 97
6.1.1. Población: concepto. Muestra aleatoria (muestreo aleatorio simple). 98
6.1.2. Modelos estadísticos paramétricos y no paramétricos. . . . . . . 100
6.2. Estimadores puntuales. Propiedades deseables. . . . . . . . . . . . . . . 101
6.2.1. Distribución de un estimador. Características relevantes y pro-
piedades deseables . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.3. Propiedades deseables de estadísticos muestrales . . . . . . . . . . . . . 110
6.3.1. Estadísticos y estimadores. . . . . . . . . . . . . . . . . . . . . . 110
6.3.2. Estadísticos suficientes . . . . . . . . . . . . . . . . . . . . . . . 111
6.4. Información de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.4.1. Interpretación de la definición . . . . . . . . . . . . . . . . . . . 115
6.4.2. Información y eficiencia. Cota de Cramér-Rao. . . . . . . . . . . 118
6.4.3. Otras propiedades de la información de Fisher . . . . . . . . . . 120
6.5. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.5.1. Métodos de momentos . . . . . . . . . . . . . . . . . . . . . . . 121
6.5.2. Método de máxima verosimilitud . . . . . . . . . . . . . . . . . 124
6.5.3. Otros métodos de estimación . . . . . . . . . . . . . . . . . . . . 134
Capítulo 1

Variables aleatorias

Estudiaremos en este capítulo uno de los conceptos centrales de la teoría de la


probabilidad: el de variable aleatoria. Desarrollamos esta noción y precisamos su de-
finición en el apartado 1.1, y en el apartado 1.2 explicamos la idea de distribución
de una variable (y el de función de distribución en el apartado 1.2.1). Luego clasifi-
caremos las variables aleatorias según ciertas características de su distribución en el
apartado 1.3 y para los casos de variables discretas y continuas desarrollamos la noción
de esperanza matemática, varianza y momentos de una distribución en el apartado 1.4.
Finalmente, presentamos algunos ejemplos clásicos de distribuciones de probabilidad
continuas y discretas en el apartado 1.5 y agregamos ciertas consideraciones teóricas
para profundizar la comprensión de los conceptos de este capítulo en el apartado 1.6.

1.1. Concepto y definición


Cuando se define un espacio de probabilidad, la definición del espacio muestral
puede hacer referencia a los resultados posibles entendidos como hechos de cualquier
naturaleza. Sin embargo, son particularmente útiles —especialmente en las ciencias
económicas— los resultados que pueden representarse (con algún sentido) en forma
numérica. Esto es así porque con resultados numéricos se pueden realizar las operaciones
matemáticas usuales, se pueden comparar según el orden en la recta numérica, etc.
Pero los resultados ω del espacio muestral Ω en principio no tienen por qué repre-
sentar valores numéricos; de hecho, se supone que representan ciertos aspectos —no
necesariamente cuantitativos— de los posibles estados de la realidad una vez concluido
el experimento aleatorio.
Sin embargo, es posible asignar un valor numérico a cada uno de los posibles re-
sultados, lo que equivale a redefinir el espacio muestral como un conjunto numérico

4
CAPÍTULO 1. VARIABLES ALEATORIAS 5

(en general, este será el conjunto R de los números reales o algún subconjunto del
mismo). Dicha asignación de un (y solo un) valor de R a cada posible resultado ω ∈ Ω
es en última instancia una función de Ω a R. Dichas funciones suelen representarse con
letras mayúsculas (X, Y , Z, etc.), y bajo ciertas condiciones bastante generales se de-
nominan variables aleatorias. Estas pueden interpretarse como variables numéricas que
tomarán valores al azar dependiendo de cuál sea el resultado del experimento aleatorio
representado en el espacio de probabilidad.
Existe, sin embargo, un detalle «técnico» importante: como se verá luego, dada una
variable aleatoria X resultará fundamental para la teoría de la probabilidad considerar
eventos de la forma
{ω ∈ Ω : X(ω) ≤ a}
para cada a ∈ R y sus respectivas probabilidades. Pero dada una función cualquiera

X : Ω −→ R,

nada garantiza que para cada a ∈ R tales subconjuntos del espacio muestral sean,
efectivamente, eventos (elementos de la σ-álgebra E).
Luego, esta es una condición que debe exigirse en la definición de variable aleatoria,
y que presentamos a continuación.1

Definición 1. Dado un espacio de probabilidad (Ω, E, P ), se dice que una función

X : Ω −→ R

es una variable aleatoria sii ∀a ∈ R

{ω ∈ Ω : X(ω) ≤ a} ∈ E.

En general, abreviaremos el conjunto

{ω ∈ Ω : X(ω) ≤ a}

como
{X ≤ a},
1
La definición de variable aleatoria (real) es por este motivo un tanto técnica, pero los detalles solo
son relevantes cuando existen subconjuntos de Ω que no son eventos. En lo subsiguiente este tecnicismo
no tendrá mayor relevancia en los razonamientos, aunque haremos uso permanentemente del hecho
de que {X ≤ a} es un evento, y por tanto tiene sentido referirse a su probabilidad, P(X ≤ a). En
cualquier caso, lo central es recordar que una variable aleatoria es una función que asigna un valor
numérico a cada posible resultado del experimento aleatorio.
CAPÍTULO 1. VARIABLES ALEATORIAS 6

sin hacer referencia explícita al espacio muestral, aun cuando se trata de un subconjunto
de este. Como se dijo, si X es una variable aleatoria, tal conjunto es un evento, y al
representar su probabilidad suelen omitirse las llaves, es decir, escribimos

P(X ≤ a).

El hecho de omitir las referencias al espacio muestral Ω y sus posibles resultados ω es


razonable, precisamente porque una de las ventajas de trabajar con variables aleatorias
es que permiten trabajar sin tener en mente el espacio muestral subyacente, que even-
tualmente puede ser muy complicado de representar y de manipular. Desde ya, esto
tiene sentido siempre que seamos capaces de captar todos los aspectos relevantes del
experimento aleatorio mediante los valores que toman una o más variables aleatorias.2
La notación abreviada que se mencionó, se aplica en otros casos similares: así, el
subconjunto de Ω
{ω ∈ Ω : X(ω) = a}
suele representarse simplemente como

{X = a},

y su probabilidad como
P(X = a).
De igual modo se interpretan las expresiones {X < a}, {a ≤ X ≤ b}, etc. Y en general,
si B es un boreliano de R, se escribe

{ω ∈ Ω : X(ω) ∈ B}

como
{X ∈ B}.

A su vez, la probabilidad de estos conjuntos se suele escribir omitiendo las llaves,


pero tal expresión solo tendrá sentido si dichos conjuntos fueran efectivamente eventos
(elementos de E). Aunque no es totalmente evidente, puede probarse que si X es una
variable aleatoria, esto es así. Es decir:
2
De hecho, esta idea de «dejar oculto» el espacio muestral puede formalizarse como explicamos a
continuación.
Dado un espacio de probabilidad (Ω, E, P) y dada una variable X, se puede definir un nuevo espacio
de probabilidad tomando como espacio muestral R (interpretamos como resultados del experimento
directamente los valores que toma X), el conjunto de eventos está formado por los borelianos de R y la
función de probabilidad PX de cada evento/boreliano se define en función de la probabilidad original
P como
PX (B) = P(X ∈ B);

puede probarse que con esta definición R, B(R), PX es un espacio de probabilidad.
CAPÍTULO 1. VARIABLES ALEATORIAS 7

Propiedad 1. Si X es una variable aleatoria, es decir, si los subconjuntos de Ω de la


forma {X ≤ a} (a ∈ R) son eventos, entonces también son eventos los conjuntos

{X < a}, {X > a}, {X ≥ a}, {X = a},

etc., y en general es un evento todo conjunto de la forma

{X ∈ B},

si B es un boreliano de R.3

Una noción que será de utilidad en los próximos capítulos es la de variables aleato-
rias independientes. Si bien la interpretación de esta noción resulta intuitiva, conviene
precisar la definición, que se basa en la noción previa de eventos independientes.

Definición 2. Dadas dos variables aleatorias X e Y , decimos que estas son variables
aleatorias independientes, sii para cualquier par de borelianos B1 y B2 se tiene que los
eventos
{X ∈ B1 } e {Y ∈ B2 }
son independientes. 

1.2. La distribución de una variable aleatoria


Como se dijo, al definir una variable aleatoria en un espacio de probabilidad se
puede realizar el cálculo de diversas probabilidades sin hacer referencia explícita al
espacio muestral subyacente Ω. Puede pensarse simplemente que se redefine el espacio
muestral como el conjunto de los números reales, o algún subconjunto del mismo. Esto
tiene sentido siempre que se busque calcular probabilidades del tipo

P(X ∈ B),

donde B es un conjunto boreliano. Al conocimiento de tales probabilidades para cada


B boreliano se lo denomina genéricamente distribución de probabilidad de X.
3
Desde ya, esto último incluye a los mencionados más arriba, ya que —por ejemplo—

{X < a} = {X ∈ (−∞, a)},

y todos los intervalos reales son borelianos.


CAPÍTULO 1. VARIABLES ALEATORIAS 8

Más específicamente, podemos decir que la distribución de X es la función4 que a


cada B boreliano de R le asigna la probabilidad
P(X ∈ B).5

1.2.1. La función de distribución y sus propiedades


Aún cuando el concepto de distribución de probabilidad puede parecer amplio y
difícil de representar, es posible probar que alcanza con conocer las probabilidades de
la forma
P(X ≤ a)
para poder calcular cualquier otra probabilidad del tipo
P(X ∈ B),
siendo B un boreliano de R (en lo que sigue veremos algunos resultados que apuntan
en este sentido).
Es por esto que la herramienta fundamental para conocer la distribución de una
variable aleatoria cualquiera se basa en los valores P(X ≤ a), que dan lugar a la
siguiente definición.
Definición 3. Dada una variable aleatoria X, se define su función de distribución
como
FX : R → [0; 1]
dada por
FX (t) = P(X ≤ t).

Observación 1. Vista de otro modo, la definición 3 muestra que, conocida FX (t), las
probabilidades de la forma P(X ≤ a) pueden calcularse como
P(X ≤ a) = FX (a).
Sin embargo, como se adelantó, hay más información en FX que la aparente:6 tam-
bién permite calcular —entre otras— las probabilidades que aparecen en las siguientes
fórmulas:
4
No se debe confundir la distribución de X con la función de distribución de X, que definiremos a
continuación, y que cuando sea necesario enfatizar esta distinción mencionaremos como «función de
distribución (o probabilidad) acumulada».
5
En términos de la nota 2, la distribución de X sería simplemente la probabilidad PX .
6
De hecho, el nombre«función de distribución» hace referencia a que contiene toda la información
relevante sobre la distribución de probabilidad de X, es decir, los valores de P(X ∈ B) para cualquier
B ⊂ R «razonable» (es decir un conjunto boreliano).
CAPÍTULO 1. VARIABLES ALEATORIAS 9

P(X < a) = FX (a− ) 7

P(X ≥ a) = 1 − FX (a− )

P(X > a) = 1 − FX (a)

P(X = a) = FX (a) − FX (a− )

P(a < X ≤ b) = P(X ≤ b) − P(X ≤ a) = FX (b) − FX (a)

P(a ≤ X ≤ b) = P(X ≤ b) − P(X < a) = FX (b) − FX (a− ), etc.

Propiedad 2. Si FX es la función de distribución de una variable aleatoria X, enton-


ces:

1. FX (t) es no decreciente en R, es decir:

t0 < t1 =⇒ FX (t0 ) ≤ FX (t1 ), ∀t0 , t1 ∈ R;

2. FX (t) es continua a derecha (aunque no necesariamente a izquierda), es decir:

FX (t0 ) = FX (t+
0 ), ∀t0 ∈ R;

3. lı́m FX (t) = 0;
t→−∞

4. lı́m FX (t) = 1.
t→+∞

Más aún, puede probarse que si F es una función con esas cuatro propiedades, entonces
es una distribución (es decir, existe una variable aleatoria X tal que F = FX ).

De la observación 1 surge, en particular, que P(X = a) > 0 si y solo si FX es


discontinua (por izquierda) en t = a y que P(X = a) = 0 para todos los puntos t = a
donde la función de distribución es continua.
7
En general, para los límites laterales en un punto usaremos por simplicidad la notación f (x+
0) =
lı́m+ f (x) y f (x−
0 ) = lı́m− f (x).
x→x0 x→x0
CAPÍTULO 1. VARIABLES ALEATORIAS 10

1.3. Clasificación de variables aleatorias


El análisis de las discontinuidades de FX es de interés para clasificar las variables
aleatorias y sus distribuciones. Las dos clases más importantes de variables aleatorias
surgen de las siguientes definiciones:

Definición 4. Dada una variable aleatoria X, llamamos RX al conjunto de puntos de


discontinuidad de FX , es decir,

RX = {t ∈ R : P(X = t) > 0}.

En particular:

si RX = ∅ (o sea, FX es continua), se dice que X es una VA continua;


P
si P(X = x) = 1, se dice que X es una VA discreta y RX se denomina rango
x∈RX
8
de X.

Entre las VA continuas se destacan aquellas para las cuales existe una función fX
integrable en R con la propiedad
Z t
FX (t) = f (x) dx
−∞

∀t ∈ R.
Cuando existe una función fX con dicha propiedad, X se dice absolutamente con-
tinua y decimos que fX es una (función de) densidad para X. Si X es discreta, la
herramienta análoga es la función de probabilidad (o de probabilidad puntual, o de
masa de probabilidad, según la fuente), que definimos como

pX : RX → [0; 1] / pX (x) = P (X = x) .

(También es usual pensar a pX con dominio en R, en cuyo caso se anula en todos los
x∈/ RX ). 
8
Esta suma está bien definida, ya que RX , por ser el conjunto de discontinuidades de una función
monótona, es necesariamente finito o infinito numerable. Informalmente, esto significa que puede
hacerse una lista —finita o infinita— que enumere todos los elementos de RX (cosa que no es posible
—por ejemplo— con todos los elementos de R); luego, si RX = {x1 , x2 , ...}, la suma en cuestión es la
serie
P(X = x1 ) + P(X = x2 ) + · · · ,
que puede probarse fácilmente que converge y su suma no depende del orden de los términos (i.e.,
converge absolutamente).
CAPÍTULO 1. VARIABLES ALEATORIAS 11

Observación 2. Existen otras clases de variables aleatorias: en particular, existen VA


que no son discretas ni continuas, sino una combinación de ambas (por lo que se las
suele denominar mixtas). Por ejemplo, la distribución
(
0 t<0
FX (t) = t
1 − e /2 t ≥ 0
es discontinua en t = 0 (y continua en cualquier otro lado). Entonces obviamente no
corresponde a una VA continua, pero tampoco a una VA discreta, ya que viendo el
único punto de probabilidad positiva (en este caso RX = {0}) vale
X 1
P(X = x) = P (X = 0) = F (0) − F (0− ) = ,
x∈R
2
X

que es estrictamente menor que 1.

También cabe agregar que existen VA continuas que no son absolutamente continuas
(i.e., continuas pero sin densidad), pero los ejemplos de estas y de sus correspondientes
distribuciones son bastante complejos y su análisis requiere conocimientos de teoría
de la medida (en particular, de la medida de Lebesgue en R); además, dichos casos
están lejos de ser relevantes para la aplicación de métodos estadísticos en el ámbito
actuarial y económico, salvo tal vez en algunos contextos muy específicos. Por ese
motivo, en pos de la brevedad, en lo subsiguiente a veces usaremos expresiones como
«X es una V.A.continua con densidad fX (x). . . », sin aclarar que se trata de una
variable absolutamente continua; pero esto de todos modos es cierto por existir una
densidad de la distribución. 

1.4. Esperanza matemática, varianza y momentos de


la distribución
Si bien existe una definición de la esperanza matemática E(X) para cualquier va-
riable aleatoria en términos de su función de distribución FX , la misma está fuera del
alcance de este curso.9 Sin embargo, para las variables aleatorias discretas y para las con-
tinuas con una densidad (es decir, absolutamente continuas), se pueden dar definiciones
alternativas en términos de sus funciones de probabilidad y densidad, respectivamente.

9
Una definición general —aunque existen otras incluso más convenientes— puede darse en términos
de una integral de Riemann-Stieltjes (una extensión de la integral de Riemann) como
Z +∞
E(X) = x dFX (x).
−∞
CAPÍTULO 1. VARIABLES ALEATORIAS 12

Definición 5. Se define la esperanza matemática de X de la siguiente manera:

si X es discreta con función de probabilidad pX (x) y rango RX , como


X
E(X) = x · pX (x);
x∈RX

si X es continua con función de densidad fX (x), como


Z +∞
E(X) = x · fX (x) dx.
−∞


Observación 3. La E(X) puede tomar un valor finito, infinito (positivoR0 o negati-
vo) o no existir. Esto último ocurre, por ejemplo, si de la integrales −∞ xfX (x) dx y
R +∞
0
xfX (x) dx una diverge a −∞ y la otra diverge a +∞, ya que en ese caso la integral
entre −∞ y +∞ se considera no definida. 

De la definición de la esperanza surgen las siguientes propiedades, que enunciamos


sin demostración:
Propiedad 3 (Propiedades de la esperanza). Si X e Y son variables aleatorias y
a, b ∈ R, valen las siguientes propiedades:

E(aX + b) = a E(X) + b;
E(a) = a;
E(X + Y ) = E(X) + E(Y );
si X e Y son independientes, se tiene E(XY ) = E(X) E(Y ).

Cabe aclarar que la última propiedad será probada en el capítulo 3, pero la enun-
ciamos aquí ya que será de utilidad en el capítulo 2. Sin la hipótesis de independencia,
la esperanza de un producto puede o no ser igual al producto de las respectivas espe-
ranzas; la caracterización completa de cuándo esto se verifica y cuándo no resultará del
estudio de la covarianza en el capítulo 3.
Si se define una nueva variable en función de X como Y = g(X) (por ejemplo,
Y = X 2 , Y = e2X , etc.), en principio puede calcularse E(Y ) en base a su función de
probabilidad pY (y) o densidad fY (y), según el caso. Sin embargo, es posible también
hacerlo conociendo solo pX (x) o fX (x), según lo establece el siguiente teorema:
Si esa integral fuera entre a y b, existiría por ser g(x) = x una función continua y FX monótona. En
última instancia, la existencia de la esperanza (finita o infinita) dependerá de cómo se comporte la
misma cuando a → −∞ y b → +∞.
CAPÍTULO 1. VARIABLES ALEATORIAS 13

Teorema 1 (Esperanza de una función de una variable aleatoria). Si


Y = g(X), vale que:

si X es discreta con función de probabilidad pX (x) y rango RX , entonces


X
E(Y ) = E(g(X)) = g(x) · pX (x);
x∈RX

si X es continua con función de densidad fX (x), entonces


Z +∞
E(Y ) = E(g(X)) = g(x) · fX (x) dx.
−∞

Demostración. Veamos la prueba para el caso discreto.


Si Y = g(X) es fácil ver que Y es también discreta, y su rango es

RY = g(RX ),

es decir la imagen de g para los valores del rango. Además, si y ∈ RY , la probabilidad

P(Y = y0 )

está dada por la suma de las probabilidades puntuales de todos los x ∈ RX tales que
g(x) = y0 . Esto es,
X X
pY (y0 ) = P(Y = y0 ) = P(X = x) = pX (x).
x∈RX x∈RX
g(x)=y0 g(x)=y0

Ahora bien, la esperanza de Y , por definición es


X
E(Y ) = y · pY (y),
y∈RY

es decir,
 
X X  X X X X
E(Y ) = y
 p X (x) 
 = y · p X (x) = g(x) · pX (x) =
y∈RY x∈RX y∈RY x∈RX y∈RY x∈RX
g(x)=y g(x)=y g(x)=y

X
= g(x) · pX (x).
x∈RX
CAPÍTULO 1. VARIABLES ALEATORIAS 14

3
 permite calcular en base a la distribución de X, valores como E(X ),
Este teorema
E X(X − 1) , etc., y otras que definimos a continuación y resultan de interés teórico
y práctico.
Definición 6. Dada una variable aleatoria X, se denominan momentos de la distribu-
ción de X a las siguientes cantidades:

El k-ésimo momento natural de X (o momento a secas) se define, si existe, como


mk = E(X k ).
En particular, m1 es simplemente la esperanza de X. Además, es claro que como
X 0 = 1, resulta m0 = 1.
El k-ésimo momento centrado de X se define, si existe, como
µk = E (X − m1 )k .


En particular,
µ0 = E (X − m1 )0 = 1,


µ1 = E (X − m1 ) = E(X) − E(m1 ) = m1 − m1 = 0
y además se define como varianza de X a
var(X) = µ2 = E (X − m1 )2 .


La varianza se nota a veces también como σ 2 , ya que su raíz cuadrada suele


notarse como σ y se denomina desvío estándar de X.
El k-ésimo momento estandarizado de X se define, si existe, como
µk
αk = k .
σ
En particular, es fácil ver que α0 = α2 = 1 y que α1 = 0. Los momentos α3 y α4
se denominan coeficiente de asimetría de X (notado como A(X)) y coeficiente
de curtosis de X (notado como C(X)), respectivamente.
El k-ésimo momento factorial de X se define, si existe, como
 
(k)
 X! 
ϕk = E X =E = E X(X − 1)(X − 2) . . . (X − k + 1) .
(X − k)!
En particular,
ϕ1 = E X (1) = E(X) = m1


y
ϕ2 = E X (2) = E X(X − 1) = E(X 2 ) − E(X) = m2 − m1 .
 

Además, es claro que X (0) = 1, por lo que el momento factorial de orden 0 es


ϕ0 = 1.
CAPÍTULO 1. VARIABLES ALEATORIAS 15

En general, es posible establecer diversas relaciones, entre los distintos tipos de


momentos de una distribución. Como se mencionó, se tiene que

ϕ 1 = m1 y ϕ2 = m2 − m1 .

Esto también implica que m2 = ϕ2 + ϕ1 .


También es posible relacionar momentos centrados y naturales, desarrollando las
potencias de binomios que definen a aquellos. Por ejemplo:

µ2 = E (X − m1 )2 = E(X 2 − 2m1 X + m21 ).




Pero como m1 es una constante, esto implica que

µ2 = E(X 2 ) − 2m1 E(X) + m21 = m2 − 2m1 · m1 + m21 = m2 − m21 .

Como esto es también la varianza, se tiene lo que se conoce como «fórmula de cálculo»
de la varianza:
var(X) = m2 − m21 .
Por lo visto antes, la varianza también puede escribirse en términos de momentos
factoriales, como
var(X) = ϕ2 + ϕ1 − ϕ21 .

De la misma manera, podemos expresar a µ3 como

µ3 = E (X − m1 )3 = E(X 3 − 3m1 X 2 + 3m21 X − m31 ) = m3 − 3m1 m2 + 2m31 ;




y a µ4 como

µ4 = E (X − m1 )4 = E(X 4 − 4m1 X 3 + +6m21 X 2 − 4m31 X + m41 ) =




= m4 − 4m1 m3 + 6m21 m2 − 3m41 ,


etc.
Al igual que la esperanza matemática, la varianza también presenta algunas pro-
piedades de gran interés teórico y práctico.

Propiedad 4 (Propiedades de la varianza). Si X e Y son variables aleatorias y a, b ∈


R, valen las siguientes propiedades:

var(aX + b) = a2 var(X);
CAPÍTULO 1. VARIABLES ALEATORIAS 16

var(a) = 0;
si X e Y son independientes, se tiene var(X + Y ) = var(X) + var(Y ).
Observación 4. Nótese que la propiedad

var(aX) = a2 var(X)

se traduce en la siguiente propiedad para el desvío estándar:

σ(aX) = |a|σ(X).

Cabe aclarar también que aún en el caso de variables independientes, puede no ser
cierto que el desvío estándar de una suma sea la suma de los desvíos. 

También es fácil generalizar la propiedad var(aX + b) = a2 var(X) a todos los


momentos centrados, como:

µk (aX + b) = ak µk (X).

Es decir, los momentos centrados son invariantes ante un cambio de posición, pero no
ante un cambio de escala.
Esto, junto a la propiedad mencionada para el desvío estándar, implica que si a > 0,
entonces
µk (aX + b) ak µk (X) ak µk (X)
αk (aX + b) = k = k = k = αk (X),
σ(aX + b) aσ(X) a σ(X)k

lo que prueba que los momentos estandarizados son invariantes tanto ante cambios de
posición, como de escala (aunque los de orden impar son sensibles a cambios de signo).

1.5. Algunas distribuciones usuales


Por diferentes motivos, existen ciertas distribuciones de probabilidad de uso fre-
cuente en diferentes situaciones teóricas y prácticas. Es decir que es usual suponer la
existencia de variables aleatorias cuya distribución está más o menos bien identificada
en la literatura a través de un nombre o una notación determinada.
Más aún, cuando se da nombre a una cierta distribución en general se hace referencia
no a una, sino a toda una familia de distribuciones que difieren entre sí en el valor de
uno o más valores denominados parámetros (sobre esto hablaremos en más detalle al
abordar el problema de la estimación puntual en modelos paramétricos). Veamos un
ejemplo.
CAPÍTULO 1. VARIABLES ALEATORIAS 17

Ejemplo 1. Consideremos la función


α

1 − α+t si t ≥ 0
F (t) =
0 si t < 0.

Es intencional el hecho de haber notado a la función F como función solo de la


variable t, aun cuando en la expresión anterior figura también el símbolo α; esto es así
porque se pretende pensar en las diferentes funciones de una variable que se obtienen
cuando α toma un valor determinado. Por ejemplo, si α = 1 se tiene la función
1

1 − 1+t si t ≥ 0
F (t) =
0 si t < 0
y si α = −2 resulta
2

1 + t−2 si t ≥ 0
F (t) =
0 si t < 0.

Además, si α = 0 se tiene

1 si t > 0
F (t) =
0 si t < 0,
pero F (0) no está bien definida.
Es un buen ejercicio verificar que únicamente cuando α > 0 la función F resultante
está bien definida para todos los valores reales de t y resulta además una función de
distribución (es decir, cumple las cuatro condiciones mencionadas en la propiedad 2).
Por este motivo, podemos decir que F (t) definida como lo hicimos, para α > 0,
constituye una familia de distribuciones (no una única distribución, ya que para cada
valor de α la función de distribución da diferentes valores). Más precisamente, dicha
familia de distribuciones es el conjunto de todas las funciones Fα (t) tales que α > 0 y
α

1 − α+t si t ≥ 0
Fα (t) =
0 si t < 0.

Presentamos a continuación algunas de las familias de distribuciones de mayor im-


portancia teórica y práctica.


1.5.1. Algunas familias de distribuciones continuas


Presentamos en las siguientes tablas algunos ejemplos de familias de distribuciones
(absolutamente) continuas.
CAPÍTULO 1. VARIABLES ALEATORIAS
Nombre Notación Función de densidad Función de distribución Esperanza Varianza

E(λ) λe−λx 1 − e−λx


1 1
Exponencial λ λ2
(λ > 0) (x > 0) (x > 0)

λα α−1 −λx
Γ(α, λ) Γ(α)
x e
α α
Gamma — λ λ2
(α, λ > 0) (x > 0)

1
Beta(α, β) B(α,β)
xα−1 (1 − x)β−1
α αβ
Beta — α+β (α+β)2 (α+β+1)
(α, β > 0) (0 < x < 1)

N (µ, σ 2 )
1 2
Normal √ 1 e− 2σ2 (x−µ) — µ σ2
2πσ 2

(σ 2 > 0)

C(a, b)
1 1 x−a 1

Cauchy πb(1+( x−a )2 ) π
arctan b
+ 2
— —
b
(b > 0)

18
CAPÍTULO 1. VARIABLES ALEATORIAS
Nombre Notación Función de densidad Función de distribución Esperanza Varianza

1 x−a
U(a, b) b−a b−a
a+b (b−a)2
Uniforme 2 12
(a < b) (a < x < b) (a < x < b)

(ln x−µ)2
LogN (µ, σ 2 ) 1√
2xσ 2π
e− 2σ 2

σ2 2 2
Log-normal — eµ+ 2 (eσ − 1)e2µ+σ
(σ > 0) (x > 0)

Weibull

Laplace

Pareto

19
CAPÍTULO 1. VARIABLES ALEATORIAS 20

1.5.2. Algunas familias de distribuciones discretas


CAPÍTULO 1. VARIABLES ALEATORIAS
Nombre Notación Rango Función de probabilidad Esperanza Varianza

Be(p)
Bernoulli {0, 1} px (1 − p)1−x p p(1 − p)
(0 < p < 1)

Bin(n, p)
n
 x
Binomial {0, 1, . . . , n} x
p (1 − p)n−x np np(1 − p)
(n ∈ N, 0 < p < 1)

P(λ)
e−λ λx
Poisson N0 x!
λ λ
(λ > 0)

G(p)
1 1−p
Geométrica N p(1 − p)x−1 p p2
(0 < p < 1)

Binomial BN (r, p)
x−1 r pr

Negativa {r, r + 1, . . .} r−1
pr (1 − p)x−r 1−p
??? (1−p)2
???
(Pascal) (r ∈ N, 0 < p < 1)

21
CAPÍTULO 1. VARIABLES ALEATORIAS 22

1.6. Consideraciones finales


Es importante entender que la igualdad de distribución de dos variables aleatorias
X e Y es muy distinta a la igualdad de las variables: dado que X e Y son funciones
de Ω a R, serán iguales únicamente si asignan a cada elemento del espacio muestral el
mismo valor en R. Para precisar esta idea veamos el siguiente ejemplo:

Ejemplo 2. Consideremos el experimento de arrojar una moneda equilibrada dos veces


y anotar el resultado (C o X), que se puede representar con el espacio de probabilidad
(Ω, E, P ), donde
Ω = {(C; C), (C; X), (X; C), (X; X)},
E = P(Ω),
P (ω) = 41 , ∀ω ∈ Ω.

En este espacio definimos las variables aleatorias X e Y , dadas por


 

 0 ω = (C, C) 0 ω = (X, X)

X(ω) = 2 ω = (X, X) , Y (ω) = 2 ω = (C, C)
 
1 otro caso, 1 otro caso.
 

Podríamos decir que X: cantidad de cecas e Y: cantidad de caras.


Es fácil ver

que X es una variable aleatoria,

que los valores posibles, con probabilidad positiva (lo que denominaremos el rango
de X) son 0, 1 y 2;
1
y que pX (0) = pX (2) = 4
y pX (1) = 21 .

A su vez, exactamente lo mismo vale para Y , lo que implica que ambas variables tienen
la misma distribución.
Sin embargo, X e Y no son iguales como variables aleatorias, ya que si ω0 = (C, C)
entonces X = 0 e Y = 2, es decir, X(ω0 ) 6= Y (ω0 ) y lo contrario ocurre en ω1 = (X, X).
Y aunque valga que X = Y para los otros elementos, alcanza con que difieran sobre un
elemento del dominio para que sean diferentes funciones, es decir, distintas variables
aleatorias.
Puesto de otro modo:
CAPÍTULO 1. VARIABLES ALEATORIAS 23

— Antes de realizar el experimento aleatorio, la probabilidad de obtener un valor


0 es 41 tanto para X como para Y y lo mismo ocurre para cada una con la
posibilidad de tomar el valor 2. También coinciden en la probabilidad de valer 1,
que asciende a 12 . Es decir, antes de realizar el experimento X e Y son iguales en
cuanto a los valores que pueden tomar y las probabilidades de cada uno de estos
casos: tienen la misma distribución de probabilidad.

— Sin embargo, una vez realizado el experimento, X e Y podrían ser «iguales»


(si interpretamos esto como «tomar el mismo valor»), si es que se obtienen una
cara y una ceca en cualquier orden. Pero si salen dos cecas o dos caras X e Y
valdrán una 0 y la otra 2 y por lo tanto «serán» diferentes (en realidad ya «eran»
diferentes... como funciones).

Incluso se ve claro a partir de lo anterior que el suceso {X = Y } solo tiene probabilidad


1
2
, por lo que es claro que no son la misma variable aleatoria. Más todavía: podríamos
definir en el mismo espacio la variable

0 ω = (X, C)

Z(ω) = 2 ω = (C, X)

1 otro caso,

y si bien se trata de otra variable con la misma distribución que X e Y , los valores que
toma Z en cada ω ∈ Ω difieren del de X y del de Y (verificarlo). Por lo que el conjunto
de resultados de Ω donde X y Z toman el mismo valor de R es vacío, y por lo tanto
{X = Z} tiene probabilidad cero (al igual que {Y = Z}). 

Por otro lado, como se vio en el ejemplo anterior, si la probabilidad del suceso
{X = Y } es menor a uno, entonces necesariamente las variables son distintas. Sin
embargo, no vale la recíproca: existe una diferencia entre variables «iguales» y variables
«iguales con probabilidad uno».
Supongamos que en un cierto espacio muestral están definidas una variable Z ∼
N (0, 1) y otra variable X ∼ Be( 21 ) (ver las definiciones de la distribución nomal y la
distribución de Bernoulli en el apartado 1.5). Definamos entonces
(
0 Z=0
Y =
X Z 6= 0.

Con esta definición es posible que Y ≡ X o que no lo sean (es decir, iguales como
funciones Ω → R). Esto es así porque si Z = 0 entonces por definición Y = 0, pero no
es evidente (ni cierto en general) que también tenga que ocurrir X = 0. Esto así porque
para aquellos resultados ω para los que Z está definida como igual a cero podría ocurrir
CAPÍTULO 1. VARIABLES ALEATORIAS 24

que X también esté definida como cero, pero también podría ser que esté definida como
X = 1 en esos casos; incluso podría ser que a veces tome un valor y otras otro. De
todos modos, solo en el primer caso tendríamos que X(ω) = Y (ω) en todos los ω ∈ Ω,
es decir, que X ≡ Y .
Sin embargo, en este o en cualquiera de los otros casos —incluso si fuera X 6= 0—
tendríamos que la probabilidad de X = Y es uno, puesto que:

P (X = Y ) = P (Z 6= 0) + P (Z = 0 ∧ X = 0) ≥ P (Z 6= 0) = 1 − P (Z = 0) = 1 − 0 = 1,

por lo que P (X = Y ) = 1, aún si pudieran ocurrir resultados del experimento que


asignen distintos valores a X y a Y (que de todos modos serán en extremo improbables).
Capítulo 2

Transformadas de la distribución

En este capítulo estudiamos ciertas funciones que caracterizan la distribución de


probabilidad de una variable aleatoria, pero que presentan dicha «información» de
manera distinta a como lo hace la función de distribución (acumulada). Las llamaremos,
en general, funciones transformadas de la distribución.
La utilidad de estas representaciones alternativas se basa en al menos dos cuestiones:

En muchos casos es más simple probar determinadas propiedades de la distribu-


ción de una variable (o de la suma de dos variables, de la distribución asintótica de
una sucesión, etc.) a partir de transformadas de la distribución que de la función
de distribución en sí misma.
Se trata de transformaciones de la función de distribución FX que, en condiciones
más o menos generales, mantienen la información de la distribución original; es
decir, se obtienen a partir del conocimiento de FX , pero a partir de estas puede
recuperarse la función FX original. Dicho más brevemente, son transformaciones
inversibles.

Centraremos nuestra atención en la función generadora de momentos y la función


generadora de probabilidad. Al final del capítulo mencionamos también brevemente la
función generadora de cumulantes y la función característica.

2.1. Función generadora de momentos


de unavariable aleatoria g(X),
El teorema sobre esperanza de una transformación 
3
permite calcular expresiones como E eX , E e2X , E e− 2 X , etc., conociendo sim-
 

25
CAPÍTULO 2. TRANSFORMADAS DE LA DISTRIBUCIÓN 26

plemente la distribución
 de la variable X. En particular, cada una de estas expresiones
tX
de la forma E e (t ∈ R) devuelve un valor numérico (si la esperanza en cuestión
está bien definida y es finita), aunque dicho valor depende del valor t en particular.
Podemos entonces pensar en esta asignación de valores a cada número t como una
función que denominamos provisoriamente h, definida por

h(t) = E etX ,


cuyo dominio será algún subconjunto de R (el de los t para los cuales la esperanza que
se calcula es finita).
Para entender heurísticamente la importancia de esta función, supongamos que
para una expresión de la forma g(t, X) (como etX ), bajo ciertas condiciones vale la
propiedad  
d  ∂
E g(t, X) = E g(t, X) .
dt ∂t

Si asumimos además que h es derivable una cierta cantidad de veces, tendríamos


 
0 d tX ∂ tX
= E(XetX ),

h (t) = E e =E e
dt ∂t
 
00 ∂ tX
h (t) = E Xe = E(X 2 etX ),
∂t
..
.
h(k) (t) = E(X k etX ).

Si en particular, el punto t = 0 está en el dominio (veremos que siempre lo está),


surge que

h(0) = E(e0X ) = E(1) = 1


h0 (0) = E(X · e0X ) = E(X · 1) = E(X)
h00 (0) = E(X 2 · e0X ) = E(X 2 )

y en general valdrá para cualquier k ∈ N0 que

h(k) (0) = E(X k ).

Es decir que las sucesivas derivadas de h en t = 0 devuelven los valores mk = E(X k ),


denominados momentos naturales de la distribución. Esto le da a la función E(etX ) el
CAPÍTULO 2. TRANSFORMADAS DE LA DISTRIBUCIÓN 27

nombre de «función generadora de momentos», aunque la definición formal la damos


más adelante (ver definición 7). Antes, analizamos ciertos detalles técnicos.
Es claro que para que lo anterior tenga validez, es necesario derivar h en t = 0, y
para que esto tenga sentido h(t) no solo debe estar definida en t = 0, sino también «un
poco a la izquierda» y «un poco a la derecha» de ese punto. Más precisamente, h debe
estar definida al menos en un entorno de cero (un conjunto de la forma (−δ, δ) para
algún número real δ > 0).
Claramente E(etX ) siempre existe y es finita para t = 0 ya que
E(e0·X ) = E(1) = 1,
pero la condición mencionada en el párrafo anterior requiere que lo mismo ocurra en
un entorno de t = 0. El siguiente ejemplo muestra que esto no ocurre para cualquier
distribución de probabilidad.
Ejemplo 3. Si X es continua con densidad
(
1
x2
x≥1
fX (x) =
0 x<1

entonces podemos probar1 que


+∞ +∞
etx
Z Z
tX tx
E(e ) = e fX (x) dx = dx
−∞ 1 x2
1
Como se dijo, es claro que E(e0X ) = 1. Por otro lado, para que E(etX ) sea finita, debe converger
la integral Z +∞
1
etx · 2 dx.
1 x
Pero si t > 0, resulta de la regla de L’Hospital que
etx
lı́m = +∞,
x→+∞ x2

por lo que no se cumple la condición necesaria de convergencia de la integral impropia (el límite
debería ser cero), y se tiene E(etX ) = +∞.
Por otro lado, si t < 0 sí se cumple
etx
lı́m = 0,
x→+∞ x2

pero esta condición es necesaria para la convergencia de la integral, no suficiente.


Sin embargo, como para todo x > 1 vale
etx
0< < etx ,
x2
y como la integral
+∞
et
Z
etx dx =
1 −t
CAPÍTULO 2. TRANSFORMADAS DE LA DISTRIBUCIÓN 28

existe y da valores finitos (es decir, la integral converge) si y solamente si t ∈ (−∞, 0].


Dado que no cualquier variable aleatoria X tiene definido el valor E(etX ) para valo-
res de t en un entorno del cero, y teniendo en cuenta que la mayoría de las propiedades
interesantes de esta función solo se cumplen cuando esto sí sucede, damos la siguiente
definición.
Definición 7. Dada una variable aleatoria X, consideremos el conjunto AX de los
t ∈ R tales que E(etX ) existe y es finita. Si existe algún δ > 0 tal que (−δ, δ) ⊂ AX ,
se define la función generadora (o generatriz ) de momentos de X como MX : AX → R
dada por
MX (t) = E(etX ).
(Si no existe un intervalo I con la condición pedida diremos que no existe MX ).2 
Observación 5. Si X tiene la distribución del ejemplo 3, entonces como la condición
dada en la definición 7 no se verifica —ya que E(etX ) no es finita para ningún t > 0, es
decir, el dominio no contiene a ningún intervalo abierto que contenga al 0—, para la
variable aleatoria X de ese ejemplo no existe la función generadora de momentos . 

Veamos cómo deducir la propiedad característica de la función generadora de mo-


mentos siguiendo un razonamiento algo diferente al visto al principio de este capítulo.
A partir del desarrollo en serie de Taylor de la exponencial, es decir
z2 z3
ez = 1 + z + + + ··· ,
2! 3!
puede obtenerse la siguiente expresión3 de la FGM:
E(X 2 ) 2 E(X 3 ) 3
MX (t) = E(etX ) = 1 + E(X) · t + ·t + · t + ··· =
2! 3!
es convergente, por comparación también debe converger
Z +∞ tx
e
dx
1 x2
(si bien no tenemos una expresión simple para el resultado).
En cualquier caso, hemos probado que E(etX ) existe y es finita para t ≤ 0, pero no para t > 0.
2
Algunos/as autores/as consideran que MX está definida sobre AX para cualquier variable alea-
toria, independientemente de que AX incluya o no un entorno del t = 0. La principal consecuencia
en esos casos es que la mayoría de los teoremas importantes sobre la FGM necesitan agregar dicha
condición como una hipótesis adicional.
3
La posibilidad de distribuir la esperanza con la suma infinita requeriría de una justificación formal
(que omitimos), ya que no es una consecuencia inmediata de la correspondiente propiedad para sumas
finitas y puede no valer en algunos casos. Sin embargo, existen resultados «técnicos» que la justifican
en este caso.
CAPÍTULO 2. TRANSFORMADAS DE LA DISTRIBUCIÓN 29

m2 2 m3 3
= 1 + m1 · t + ·t + · t + ··· .
2! 3!
Si esta fórmula vale, y MX está definida (es decir, la serie converge) en un entorno de
t = 0, es posible derivar término a término aunque la suma sea infinita (por tratarse
de una serie de potencias —algo así como un «polinomio de grado infinito»—).
Luego, se tiene que
2 3 1
MX0 (t) = 0 + m1 + m2 · t + m3 · t2 + · · · = m1 + m2 · t + m3 · t2 + · · · ,
2! 3! 2!
y de la misma manera
2 3 1
MX00 (t) = 0 + m2 + m3 · t + m4 · t2 + · · · = m2 + m3 · t + m4 · t2 + · · · .
2! 3! 2
En general,
(k) 1
MX (t) = mk + mk+1 · t + mk+2 · t2 + · · · ,
2
y entonces resulta
(k)
MX (0) = mk .

Más generalmente, podemos enunciar el siguiente teorema, cuya demostración ri-


gurosa omitimos.
Teorema 2. Si MX (t) está bien definida y es al menos n veces derivable en t = 0,
entonces existen y son finitos los momentos naturales m1 , m2 , ..., mn , y valen
(k)
mk = MX (0)
(k)
para k = 1, 2, . . . , n (MX es la derivada de orden k de MX ).
Recíprocamente, si existen y son finitos los momentos naturales de X hasta orden n
al menos y existe MX , entonces esta es derivable hasta orden n al menos, y se verifica
la expresión anterior.

Otras propiedades útiles para el cálculo de la FGM son:


Propiedad 5. Si X e Y son variables aleatorias independientes y sus FGM existen, y
si a ∈ R, vale:

1. MaX (t) = MX (at)

2. MX+a (t) = MX (t) · eat

3. Ma (t) = eat
CAPÍTULO 2. TRANSFORMADAS DE LA DISTRIBUCIÓN 30

4. MX+Y (t) = MX (t) · MY (t).

Finalmente, el siguiente teorema expresa que si una VA tiene FGM, esta permite
identificar unívocamente la distribución de probabilidad.

Teorema 3. Dadas X e Y variables aleatorias con FGM bien definidas, entonces

MX = MY ⇐⇒ FX = FY .

Observación 6. El teorema anterior es fundamental, ya que permite identificar la


distribución si se conoce la F GM . Es decir que, por caso, si sabemos que la FGM de
2
una variable aleatoria U ∼ N (0, 1) es MU (t) = et /2 y encontramos otra variable V de
2
la que solo se sabe que MV (t) = et /2 , no solo podemos afirmar que tiene la misma FGM
que U —es decir, la misma FGM que una VA con distribución normal estándar—, sino
que V necesariamente tiene distribución normal estándar, como U .
Esto puede parecer razonable y hasta natural, pero no es obvio y tampoco lo de-
mostraremos aquí. Pero si no fuera por esto, las FGM serían de poca utilidad ya que
en la mayoría de las aplicaciones se requiere no solo ir de las distribuciones a las FGM
—y esto porque ciertas propiedades resultan mucho más simples en términos de la
FGM que de la función de distribución (por ejemplo, la que se refiere a la suma de
VA independientes)—, sino también poder reconocer las distribuciones de las nuevas
variables que surjan a partir del conocimiento de sus FGM. 

EJEMPLOS DE FGM Y APLICACIONES

2.2. Función generadora de probabilidad


Para ciertas variables discretas también se puede definir la llamada función gene-
radora de probabilidad (FGP), con algunas propiedades análogas a las de la FGM y
otras que le dan un interés especial en ciertas aplicaciones.

Definición 8. Si X es una variable aleatoria discreta con RX ⊂ N0 = {0, 1, 2, . . .}, se


define la función generadora de probabilidad de X como GX (t) = E(tX ), es decir

X
GX (t) = tx · pX (x) = pX (0) + pX (1) · t + pX (2) · t2 + . . . .
x=0


CAPÍTULO 2. TRANSFORMADAS DE LA DISTRIBUCIÓN 31

Observación 7. Puede probarse fácilmente que esa suma converge al menos cuando
t ∈ [−1, 1], por lo que el dominio de una FGP siempre incluye ese intervalo (aunque,
dependiendo de las particularidades de cada pX (x), puede ser un conjunto más amplio).
También se prueba que todas las derivadas de GX existen al menos en (−1, 1), si bien
podrían no existir a partir de cierto orden en los bordes del dominio.
En particular, si el rango RX es finito y n es el máximo valor que contiene (es
decir, suponiendo que pX (n) > 0 pero pX (x) = 0, ∀x > n) —v.g. una variable con
distribución Bi(n, p)—, entonces GX es un polinomio de grado n y por lo tanto la FGP
existe y es continua e infinitamente derivable para todo t ∈ R. 

Es fácil ver que


GX (0) = pX (0),
G0X (0) = pX (1),
G00X (0) = 2pX (2)
G000
X (0) = 6pX (3)

y en general
(n)
GX (0) = n!pX (n),
por lo que conocida la FGP las probabilidades puntuales pueden calcularse fácilmente.

Propiedad 6. Si X es una VA discreta con RX ⊂ N0 y su FGP es GX , entonces:


(n)
G (0)
pX (n) = X .
n!

Observación 8. Esto implica que a iguales FGP corresponden iguales funciones de


probabilidad (y la recíproca es evidente por la definición 8). Sabemos también que
conocer la función de probabilidad es equivalente a conocer la distribución, por lo
que también las FGP (así como las FGM), cuando pueden definirse, identifican la
distribución de probabilidad. 

Más precisamente:

Propiedad 7. Si X e Y son VA discretas, ambas con rango incluido en N0 , vale que

GX = GY ⇐⇒ pX = pY ⇐⇒ FX = FY .
CAPÍTULO 2. TRANSFORMADAS DE LA DISTRIBUCIÓN 32

También se cumplen ciertas relaciones entre la FGP, la FGM y los momentos de


la distribución de X, aunque los momentos que más directamente surgen de la FGP
no son los absolutos sino que se denominan factoriales y vienen dados por la siguiente
definición:

Con esta definición en mente, algunas relaciones entre la FGP, la FGM y los mo-
mentos de la distribución se ven en las siguientes propiedades:

Propiedad 8. Si X es una VA discreta con RX ⊂ N0 , entonces:

(n)
1. ϕn = GX (1− ),

2. GX (et ) = MX (t) (y por lo tanto, GX (t) = MX (ln t) para t > 0).

Otras propiedades de la FGP, que guardan cierta analogía con las propiedades de
la FGM, son:

Propiedad 9. Si X e Y son VA discretas independientes, ambas con rango incluido


en N0 , y si α ∈ N0 , entonces:

1. Gα (t) = tα ,

2. GαX (t) = GX (tα ),

3. GX+α (t) = GX (t) · tα ,

4. GX+Y (t) = GX (t) · GY (t).

Si bien la FGP es de aplicación bastante más limitada que la FGM —y muchas de sus
propiedades son análogas—, su interés reside en parte en que suele dar lugar a cálculos
más simples y en que posee algunas propiedades adicionales interesantes (que en general
solo tienen sentido en el caso de variables aleatorias discretas en N0 ). Una de las más
notables y útiles —especialmente para estudiar procesos de nacimiento-muerte, teoría
de «colas» (es decir, líneas de espera), etc.— es la que se refiere a la distribución de
una suma de variables aleatorias independientes idénticamente distribuidas (v.a.i.i.d.)
con una cantidad aleatoria de términos.

Teorema 4. Supongamos que X1 , X2 , . . . , Xn , . . . es una sucesión de v.a.i.i.d. con una


distribución discreta cuyo rango está incluido en N0 , y que N es otra VA discreta con
CAPÍTULO 2. TRANSFORMADAS DE LA DISTRIBUCIÓN 33

rango también dentro de N0 (aunque no necesariamente el mismo ni con la misma


distribución) e independiente de todas las Xn . Definimos la variable aleatoria:
N
X
S= X n = X1 + X2 + . . . + XN ,
n=1

(si N vale 0 se define S = 0). Si GX es la FGP de todas las Xn (que son ID y por lo
tanto tienen la misma FGP), entonces la FGP de S está dada por

GS (t) = GN GX (t) ,

es decir,
GS = GN ◦ GX .

Demostración. La idea de la demostración es que hay una probabilidad pN (1) de que


N = 1, que es la probabilidad de que la suma —en consecuencia— sea simplemente
S = X1 ; en ese caso se tendrá
GS (t) = GX1 (t).
También habrá una probabilidad pN (2) de que S = X1 + X2 , y en ese caso

GS (t) = GX1 (t) · GX2 (t)

(por ser S suma de VA independientes).


Siguiendo el mismo razonamiento, podemos decir que en general, con probabilidad
pN (n),
n
Y
GS (t) = GX1 (t) · GX2 (t) · . . . · GXn (t) = GXk (t).
k=1

Además, vale aclarar que hay una probabilidad pN (0) de que N = 0 y en ese caso se
entiende que S = 0, por lo que GS (t) = t0 = 1).
Entonces resulta:4

GS (t) = pN (0) · 1 + pN (1) · GX1 (t) + pN (2) · GX1 (t) · GX2 (t) + · · ·

o más suscintamente (aunque no es necesariamente sea más claro):5



X n
Y
GS (t) = pN (n) · GXk (t).
n=0 k=1

4
Este es el único paso de la demostración que no es completamente formal y requiere alguna
precisión; para formalizarlo puede hacerse uso del concepto de esperanza condicional, ya que los
valores de GS (t) para cada posibleQvalor n de la variable aleatoria N son esperanzas condicionales,
n
más precisamente: E(tS |N = n) = k=1 GXk (t).
CAPÍTULO 2. TRANSFORMADAS DE LA DISTRIBUCIÓN 34

Para el caso particular de variables idénticamente distribuidas se tiene que todas


las GXn se pueden representar como una única función GX y esto se simplifica a

2 X x
GS (t) = pN (0) + pN (1) · GX (t) + pN (2) · GX (t) + · · · = pN (x) · GX (t)
x=0

Pero esto equivale a evaluar la FGP de N, que es



X
GN (t) = pN (x) · tx ,
x=0

en GX (t) (porque GX (t) ocupa el lugar de t en la expresión anterior si vemos la fórmula


obtenida para GS ); esto es una composición, es decir,

GS (t) = GN GX (t) ,
como queríamos probar.
Observación 9. En la demostración del teorema anterior surgió la fórmula

X n
Y
GS (t) = pN (n) · GXk (t),
n=0 k=1

que tiene interés por sí sola, ya que es aplicable al caso en que se suma una cantidad
aleatoria N de variables X1 , X2 , ..., todas independientes, pero no necesariamente todas
con la misma distribución. 

2.3. Otras funciones generadoras usuales


Mencionamos brevemente dos tipos adicionales de funciones generadoras en esta sec-
ción.
5
La fórmula es válida sin necesidad de incluir aparte el caso n = 0 que lleva a que la productoria se
realice con k aumentando desde 1 a 0, que en realidad es una abreviatura para la condición imposible
de verificar 1 ≤ k ≤ 0. Al tratarse de una contradicción no se puede considerar ningún valor de k;
pero esta se salva con la convención usual en todas las áreas de la matemática (salvo indicación en
contrario) de que, si en una productoria el índice varía sobre un conjunto vacío, el valor del producto
es 1. La utilidad de esta convención se ve en numerosas situaciones: por ejemplo, se puede definir el
factorial de un número n ∈ N0 como
Yn
n! = k
k=1
sin necesidad de aclarar que 0! = 1. La convención análoga para sumatorias es que una «suma vacía»
es igual a 0.
CAPÍTULO 2. TRANSFORMADAS DE LA DISTRIBUCIÓN 35

2.3.1. Función característica


La función característica de una variable aleatoria X (que suele notarse como φX ) usa
la noción de variable aleatoria compleja y algunas nociones de integración de funciones
con valores en el conjunto de los números complejos (C), por lo que suele omitirse en
cursos y textos de nivel introductorio y algunos de nivel intermedio. Su definición es
muy similar a la de la FGM:
φX (t) = E(eitX ),
donde i es la unidad imaginaria (un número —no real— que cumple i2 = −1).
La similitud con la FGM es clara (el exponente es itX en lugar de tX), al punto
de que cuando ambas existen, la función característica puede obtenerse a partir de la
FGM como MX (it) y la FGM de X puede calcularse a partir de la característica como
φX ti = φX (−it) (que la mayoría de las veces consiste simplemente en «eliminar las
i» donde dice it). Por ejemplo, cuando X ∼ N (µ, σ 2 ) la FGM es
σ2 2
µt+ t
MX (t) = e 2 ,

mientras que la función característica resulta


σ2 σ2 2
(it)2
φX (t) = eµit+ 2 = eµit− t
2 .

La principal ventaja de la función característica es que existe para cualquier variable


aleatoria con cualquier distribución, y queda definida para todo t ∈ R, incluso si la
FGM no está definida. Y aun en esos casos mantiene la propiedad de identificar la
distribución unívocamente, como lo hace —cuando existe— la FGM. Lo mismo ocurre
con la mayoría de las propiedades, que son análogas cuando ambas están bien definidas
(en algunos cálculos, de todos modos, puede ser un poco más simple el uso de la FGM,
aunque las diferencias no son demasiado relevantes). Por eso, en niveles y programas de
estudio en los que no se tienen las herramientas matemáticas necesarias para definir y
manipular funciones características, la FGM resulta un sustituto adecuado que puede
aplicarse en la gran mayoría de las situaciones que se presentan a dicho nivel.

2.3.2. Cumulantes
Cuando existe la FGM, se puede definir al menos en un entorno de t = 0 la función

KX (t) = ln MX (t) ,

que se denomina función (generadora) de cumulantes (notar la diferencia con la expre-


sión GX (t) = MX ln(t) , vista en la propiedad 8).
CAPÍTULO 2. TRANSFORMADAS DE LA DISTRIBUCIÓN 36

Los cumulantes son valores relacionados con los momentos de la distribución, pero
que suelen dar una idea más intuitiva de determinadas características de la misma. Se
obtienen a partir de KX como
(n)
κn = KX (0)
(κn se denomina el n-ésimo cumulante de la distribución).
Por ejemplo, es fácil probar que

κ1 = E(X),

al igual que m1 . Pero a diferencia del momento natural de orden 2, se tiene directamente

κ2 = var(X).

Los cumulantes κ3 y κ4 , una vez estandarizados (divididos por σ 3 y σ 4 , respectivamen-


te), corresponden al coeficiente de asimetría de X y a la curtosis excedente de X, es
decir,
κ3 κ4
A(X) = 3 y CE(X) = 4 .
σ σ
Ambos valores enriquecen la descripción de la forma de la distribución de la variable:
el primero mide la simetría o asimetría de la distribución, y el segundo si las colas de
la distribución son más «pesadas» o «livianas» que las de la distribución normal (entre
otras interpretaciones posibles).
En general, los sucesivos cumulantes a partir de κ5 pueden ser de utilidad en ciertos
contextos, pero una interpretación intuitiva de sus valores en relación a características
«visibles» o «perceptibles» de la distribución resulta cada vez de mayor dificultad.
De todos modos, los cumulantes se consideran útiles e intuitivos dado que verifican
la siguiente propiedad aditiva, que surge enseguida de la definición:

Propiedad 10. Si X e Y son variables aleatorias independientes con cumulantes de


orden n bien definidos κn (X) y κn (Y ), entonces

κn (X + Y ) = κn (X) + κn (Y ).

Demostración. Se deja como ejercicio.


Capítulo 3

Vectores aleatorios

En general, hasta ahora se consideraron problemas donde intervenían dos o más


variables aleatorias solo en el caso en que eran independientes dos a dos, y en tales
casos nunca fue necesaria más información que la distribución de probabilidad de cada
una.
Sin embargo, cuando la hipótesis de independencia no es válida se requiere más
información que el simple hecho de la «no independencia». Es necesario representar
en qué medida y de qué manera lo que ocurra con una variable puede influir en la
distribución de probabilidad de la otra.

3.1. Distribución conjunta de variables aleatorias


Una de las maneras en que puede resumirse la información sobre la distribución de
dos o más variables y de las relaciones de dependencia entre ellas en una forma en
algún sentido «simétrica» (es decir, donde todas son tratadas por igual) es mediante
el concepto de distribución conjunta. Por ejemplo, para un par (X, Y ) de variables
aleatorias (un vector aleatorio bidimensional) la distribución conjunta en sentido amplio
se refiere al valor que toman las probabilidades de la forma

P (X, Y ) ∈ B

para conjuntos B ⊂ R2 «razonables» (los denominados borelianos de R2 ). Sin embargo,


como en el caso univariado, alcanza con mucha menos información para poder calcular
cualquiera de estas probabilidades.

37
CAPÍTULO 3. VECTORES ALEATORIOS 38

3.1.1. Función de distribución conjunta

Definición 9. Dado un par de variables aleatorias X e Y , se denomina función de


distribución conjunta de X e Y a la función FXY : R2 → [0, 1] definida por
FXY (s, t) = P(X ≤ s ∧ Y ≤ t).


Observación 10. Desde ya, también es posible definir la distribución conjunta de tres,
cuatro, o cualquier cantidad de variables aleatorias. En general, así como la función de
distribución conjunta de X e Y es un campo escalar en R2 , la función de distribución
conjunta de n variables será un campo escalar en Rn . Por ejemplo, la distribución
conjunta de X1 , X2 , . . . , Xn se define como la función FX1 X2 ...Xn : Rn → [0, 1] tal que
FX1 X2 ...Xn (t1 , t2 , . . . , tn ) = P(X1 ≤ t1 ∧ X2 ≤ t2 ∧ . . . ∧ Xn ≤ tn ).

En casos como este es más práctico hablar del vector aleatorio


~ = (X1 , X2 , . . . , Xn ), y lo usual es referirse a la función de distribución (a secas)
X
~ usando la notación
de X
FX~ o FX~ ~t


(donde obviamente ~t = (t1 , t2 , . . . , tn )).


En adelante se tratarán las definiciones y propiedades para el caso de dos variables
(es decir, vectores bidimensionales), entendiendo que la generalización de las mismas
al caso n-dimensional es inmediata. 

Así como en el caso unidimensional conocer FX permitía mucho más que simplemente
calcular probabilidades de la forma P(X ≤ t), conocer FXY también permite calcular
otras probabilidades, si bien las expresiones resultan menos evidentes. Resulta util para
simplificarlas la notación de diferencias parciales1 ∆i,h , con i indicando respecto de qué
variable se hace la diferencia (i = 1 indica la primera, por ejemplo) y h indicando el
incremento. Es decir:
∆1,h g(x, y) = g(x + h, y) − g(x, y)
y
∆2,h g(x, y) = g(x, y + h) − g(x, y).

Entre muchas fórmulas posibles, destacamos las siguientes:


1
Es decir, diferencias respecto de una variable, manteniendo constantes las demás variables.
CAPÍTULO 3. VECTORES ALEATORIOS 39

Propiedad 11. Si FXY es la función de distribución conjunta de X e Y , entonces:

1.
P(a < X ≤ a + h ∧ b < Y ≤ b + k) =
= FXY (a + h, b + k) − FXY (a, b + k) − FXY (a + h, b) + FXY (a, b),
es decir

P(a < X ≤ a + h ∧ b < Y ≤ b + k) = ∆1,h ∆2,k FXY (a, b).

2.
P(X = a ∧ Y = b) =
= FXY (a, b) − FXY (a− , b) − FXY (a, b− ) + FXY (a− , b− ),
o sea
P(X = a ∧ Y = b) = lı́m− ∆1,h ∆2,h FXY (a, b).
h→0

Propiedad 12. Toda función de distribución conjunta tiene las siguientes propieda-
des2 :

1. FXY (s, t) es no decreciente en cada variable.

2. FXY (s, t) es continua a derecha en cada variable.

3. lı́ms→−∞ FXY (s, t) = 0 y, del mismo modo, lı́mt→−∞ FXY (s, t) = 0.

4. lı́ms,t→+∞ FXY (s, t) = 1

2
Cabe aclarar que, a diferencia del caso univariado, estas propiedades no caracterizan a las funciones
de distribución conjunta (es decir, no garantizan que una F (s, t) que cumpla estas propiedades sea
una función de distribución conjunta de algún par (X, Y ) de variables aleatorias). Podría pasar, por
ejemplo, que aun cumpliendo todo esto el cálculo de ∆1,h ∆2,k FXY (a, b) pudiera dar valores negativos
en ciertos casos, lo cual es absurdo por la propiedad 11. De hecho, puede probarse que si se cambia la
monotonía en cada variable por la condición más fuerte de que

∀a, b, h, k ∈ R (h, k > 0) : ∆1,h ∆2,k FXY (a, b) ≥ 0,

entonces sí puede afirmarse que se trata de una función de distribución conjunta.


CAPÍTULO 3. VECTORES ALEATORIOS 40

Cabe observar que para que FXY tienda a 1 se tomaron ambas variables tendiendo a
infinito y no solo una. Por cierto, tomarlas individualmente no daría 1 como resultado,
sino que devuelve las funciones de distribución individuales (o «marginales») de las
variables en cuestión. Es decir:

Propiedad 13. Dadas dos variables aleatorias X e Y , vale que

lı́m FXY (s, t) = FY (t)


s→+∞

y
lı́m FXY (s, t) = FX (s).
t→+∞

Es fácil ver que en situaciones más generales se tendrán relaciones como:

lı́m FXY Z (r, s, t) = FY Z (s, t),


r→+∞

lı́m FXY Z (r, s, t) = FXZ (r, t),


s→+∞

lı́m FXY Z (r, s, t) = FZ (t),


r,s→+∞

etc.

3.1.2. Clasificación de vectores aleatorios y cálculo de probabi-


lidades
Una vez más partimos del análisis de los puntos que acumulan probabilidad positiva.
Definimos para ello el conjunto

RXY = {(a, b) ∈ R2 : P(X = a ∧ Y = b) > 0},


que puede probarse que es un conjunto finito, o infinito numerable, lo que le da sentido
a la siguiente definición:

Definición 10. Decimos que (X, Y ) es un vector aleatorio discreto sii


X
P(X = a ∧ Y = b) = 1,
(a,b)∈RXY

es decir, si tiene toda su probabilidad distribuida entre una cantidad finita o numerable
de puntos del plano.
CAPÍTULO 3. VECTORES ALEATORIOS 41

En ese caso se denomina a RXY rango de (X, Y ) y definimos la función de pro-


babilidad conjunta de X e Y (o función de probabilidad del vector (X, Y )) como
pXY : RXY ⊂ R2 → R tal que

pXY (x, y) = P(X = x ∧ Y = y).

Observación 11. Según la conveniencia, pXY puede pensarse como definida solo en el
rango RXY del vector aleatorio (X, Y ) —como en nuestra definición— o en todo R2 ,
ya que en cualquier otro punto valdrá 0. Incluso puede ser útil pensarla definida en
RX × RY —expresión que tiene sentido porque X e Y también son variables discretas
(ver más adelante)—, teniendo en cuenta que en general RXY ⊂ RX × RY pero no
necesariamente vale la igualdad, como muestra un ejemplo sencillo. 

Ejemplo 4. Consideremos un vector (X, Y ) discreto y definamos su rango como RXY =


{(1, 0), (0, 1), (1, 1)} (asignando, por caso, probabilidad 31 en cada punto). Es claro que
X puede valer 0 (con probabilidad 13 ) al igual que Y . Es decir, 0 ∈ RX y 0 ∈ RY , por
lo que (0, 0) ∈ RX × RY .3
Pero (0, 0) ∈/ RXY , por definición (es decir, P(X = 0 ∧ Y = 0) = 0), así que en este
caso la inclusión RXY ⊂ RX × RY es estricta. 

En general, cuando la distribución conjunta sea discreta el dato «natural» será preci-
samente pXY y también será el más útil a la hora de realizar cálculos, como veremos.
Sin embargo, como en el caso univariado, la función de distribución puede recuperarse
fácilmente sumando probabilidades puntuales.

Propiedad 14. Si (X, Y ) es un vector aleatorio discreto, entonces


X X X
FXY (s, t) = pXY (x, y) = pXY (x, y).
x≤s,y≤t x≤s y≤t
(x,y)∈RXY x∈RX y∈RY

3
Recordar que el producto cartesiano de A y B, donde A y B son conjuntos, es el conjunto
A × B formado por todos los pares ordenados posibles con su primera componente en A y su segunda
componente en B.
CAPÍTULO 3. VECTORES ALEATORIOS 42

Cuando el vector aleatorio no es discreto (es decir que no acumula toda la probabilidad
en un conjunto finito o numerable de puntos), existen muchas situaciones posibles, lo
que dificulta una clasificación completa aún más que en el caso unidimensional. Para
los efectos prácticos, la otra situación de interés es la análoga al caso de variables
absolutamente continuas.

Definición 11. Decimos que (X, Y ) es un vector aleatorio absolutamente continuo si


existe fXY : R2 → R tal que para cada (s, t) ∈ R2 vale
Z t Z s
FXY (s, t) = fXY (x, y) dx dy.
−∞ −∞

En ese caso, una tal fXY se denomina una densidad conjunta de X e Y (o una
densidad del vector (X, Y )). 

En general, en este caso FXY es derivable dos veces, salvo tal vez en ciertos puntos
o curvas (que tienen área nula), y puede hallarse una densidad derivando en ambas
variables.

Propiedad 15. Si (X, Y ) es absolutamente continuo, entonces FXY es C 2 , salvo tal


vez en un conjunto de área nula y

∂2
f (x, y) = FXY (x, y)
∂x∂y

es una función de densidad (definiendo f (x, y) de cualquier manera en los puntos donde
no existe dicha derivada).

El interés en estas dos clases de distribuciones surge del hecho de que, como vimos,
calcular probabilidades usando la función de distribución conjunta FXY es en general
bastante engorroso. Por el contrario, a partir de pXY o fXY (según el caso), resulta
relativamente sencillo calcular 
P (X, Y ) ∈ B
para conjuntos B ⊂ R2 «razonables», que como dijimos, llamamos borelianos de R2 .
Aunque no los definiremos con total precisión, basta con saber que en esta clase de con-
juntos se incluyen todos los abiertos y cerrados, la unión o intersección de una sucesión
(finita o infinita) de cualesquiera de estos, sus complementos, la unión o intersección
de una sucesión de cualesquiera de los que así se hayan obtenido, y sus complementos,
y así sucesivamente. Es decir, se trata de una clase realmente amplia de subconjuntos
de R2 .
CAPÍTULO 3. VECTORES ALEATORIOS 43

Propiedad 16. Si (X, Y ) es un vector aleatorio y B ⊂ R2 es un «boreliano», entonces:

si (X, Y ) es discreto,
 X
P (X, Y ) ∈ B = pXY (x, y);
(x,y)∈B∩RXY

si (X, Y ) es absolutamente continuo,


ZZ

P (X, Y ) ∈ B = fXY (x, y) dA.
B

3.1.3. Distribuciones marginales


Dado que X e Y son en sí mismas variables aleatorias, es válido preguntarse qué
relación guardan sus distribuciones con la distribución conjunta. En este contexto, las
distribuciones de X e Y suelen denominarse distribuciones «marginales» para distinguir
de la distribución conjunta, pero en sí se trata lisa y llanamente de las distribuciones
de probabilidad de las variables consideradas individualmente.
En 3.1.1 se vio que las funciones de distribución marginales pueden recuperarse a
partir de la función de distribución conjunta como

FX (s) = lı́m FXY (s, t)


t→+∞

y
FY (t) = lı́m FXY (s, t).
s→+∞

También las densidades o funciones de probabilidad marginales, según el caso, pue-


den obtenerse a partir de las correspondientes densidades o funciones de probabilidad
conjuntas. Pero para esto, vale hacer notar antes una propiedad que si bien es intuitiva
y tal vez se da por sobreentendida, no es necesariamente evidente:

Propiedad 17. Sean X e Y variables aleatorias:

1. si el vector (X, Y ) es discreto, entonces X e Y son variables aleatorias discretas;

2. si el vector (X, Y ) es absolutamente continuo, entonces X e Y son variables


aleatorias absolutamente continuas.
CAPÍTULO 3. VECTORES ALEATORIOS 44

Por cierto, la recíproca es válida en el primer caso (si ambas son discretas, el vector
será discreto), pero no en el segundo, aunque pueda resultar poco intuitivo.4
Para encontrar funciones de probabilidad o densidad marginales basta con sumar
o integrar en la variable que queremos hacer «desaparecer», como se explica en las
siguientes propiedades.
Propiedad 18. Si (X, Y ) es un vector aleatorio discreto valen las siguientes relaciones:
X
pX (x) = pXY (x, y)
y∈RY

y X
pY (y) = pXY (x, y).
x∈RX

Propiedad 19. Si (X, Y ) es un vector aleatorio absolutamente continuo valen las


siguientes relaciones: Z +∞
fX (x) = fXY (x, y) dy
−∞
y Z +∞
fY (y) = fXY (x, y) dx.
−∞

4
Puede darse, por ejemplo, el caso en que toda la probabilidad, o al menos una parte, se concentre
sobre una recta (o en general sobre una curva), por cumplirse determinadas relaciones funcionales
exactas entre X e Y . En tal caso, no puede haber una densidad ya que las integrales dobles sobre
curvas o, en general, sobre conjuntos de área nula, valen cero. Por ejemplo, si X ∼ U(0, 1) y se define
Y = 1 − X, toda la probabilidad se concentrará en el segmento de recta que une el (1, 0) y el (0, 1). Se
suele hablar en estos casos de distribuciones «degeneradas», ya que en realidad con transformaciones
apropiadas se podrían tratar como vectores de menor dimensión (en este caso, dimensión 1).
Un ejemplo menos trivial podría ser el siguiente. Si X ∼ N (0, 1), Z ∼N(0,1) y U ∼ Be( 12 ) son
independientes dos a dos, y se define Y = U · X 2 + (1 − U ) · Z, se tiene que P(Y = X 2 ) = 21 , (que es la
probabilidad de U = 1). En ese caso, la mitad de la probabilidad conjunta de X e Y «se concentra»
sobre la parábola y = x2 , mientras que la otra mitad (cuando U = 0) se distribuye sobre el resto del
plano. En este caso, una densidad solo alcanzaría a representar la distribución de esta última mitad.
Vale aclarar que tampoco se acumula probabilidad en ningún punto, por lo que no existe una «parte
discreta» de la distribución, que si bien es continua —es decir, FXY es una función continua en R2 —
no es absolutamente continua.
Cabe mencionar que estas situaciones no son del todo infrecuentes en determinadas áreas de apli-
cación o en el desarrollo de modelos estadísticos de cierta complejidad.
CAPÍTULO 3. VECTORES ALEATORIOS 45

Conociendo todas estas relaciones, en general suele haber más de un camino posible
para resolver problemas como, por ejemplo, hallar la densidad marginal fX conocida
la distribución conjunta FXY .

por un lado, se podría derivar FXY en sus dos variables para obtener fXY , y luego
integrar en y para obtener la densidad marginal fX ;

pero también se podría tomar límite de la segunda variable de FXY tendiendo


a +∞ para hallar FX y luego derivar (en la única variable restante) para hallar
una densidad fX .

Desde ya (salvo por el margen de indeterminación inherente a cualquier función de


densidad), ambos procedimientos darán resultados consistentes.

3.1.4. Esperanza de una función de varias variables


Así como al definir nuevas variables aleatorias aplicando transformaciones a una va-
riable dada no era necesario obtener las nuevas distribuciones de probabilidad para
el cálculo de las esperanzas matemáticas, tampoco es necesario esto si, por ejemplo, a
partir de dos variables X e Y cuya distribución conjunta es conocida se define una nue-
va variable U = g(X, Y ). De hecho, para los dos casos aquí considerados las fórmulas
de cálculo son muy similares a las ya vistas.
Propiedad 20. Sean X e Y variables aleatorias y g : R2 → R. Entonces:

1. si (X, Y ) es un vector aleatorio discreto,


 X X X
E g(X, Y ) = g(x, y) · pXY (x, y) = g(x, y) · pXY (x, y)
(x,y)∈RXY x∈RX y∈RY

(el orden de la suma puede invertirse);

2. si (X, Y ) es un vector aleatorio absolutamente continuo,


ZZ Z +∞ Z +∞

E g(X, Y ) = g(x, y) · fXY (x, y) dA = g(x, y) · fXY (x, y) dy dx
R2 −∞ −∞

(el orden de integración puede invertirse).


CAPÍTULO 3. VECTORES ALEATORIOS 46

Ejemplo 5. Volviendo a la distribución discreta del ejemplo 4, podemos calcular, por


ejemplo, E(XY ) (esta cantidad es útil, como se verá, en el cálculo de la covarianza).
Si no tuviéramos en cuenta la propiedad anterior deberíamos considerar la distribu-
ción de la variable Z = XY . Esta es de hecho discreta y los únicos valores posibles son
0 —con probabilidad 32 , ya que corresponde a los vectores (1, 0) y (0, 1)— y 1 —con
probabilidad 13 , que es la del vector (1, 1)—. En resumen

Z = XY ∼ Be( 13 ),

y por lo tanto
E(XY ) = 13 .
Sin embargo, no es necesario conocer la distribución de la nueva variable, ya que por
la propiedad anterior
X
E(XY ) = xy · pXY (x, y) = 1 · 0 · 31 + 0 · 1 · 31 + 1 · 1 · 13 = 13 ,
(x,y)∈RXY

que es el mismo valor hallado con el otro procedimiento. 

3.1.5. Distribución conjunta de variables independientes


Al inicio de este artículo mencionamos el hecho de que cuando X e Y eran indepen-
dientes no había sido necesario, al menos por ahora, recurrir a más información que las
distribuciones marginales de cada una. En realidad, esto es así porque en el caso de in-
dependencia las distribuciones marginales de las variables determinan completamente
la distribución conjunta, ya que {X ≤ s} e {Y ≤ t} son sucesos independientes, y por
lo tanto
P(X ≤ s ∧ Y ≤ t) = P(X ≤ s) · P(Y ≤ t).

Así resulta:

Propiedad 21. Si X e Y son independientes, entonces

FXY (s, t) = FX (s) · FY (t).

Esto muestra que FXY no agrega en este caso nada de información a lo que ya aportan
FX y FY en conjunto.
También es inmediato probar que:
CAPÍTULO 3. VECTORES ALEATORIOS 47

Propiedad 22. Si X e Y son independientes, entonces

si (X, Y ) es discreto con función de probabilidad pXY ,

pXY (x, y) = pX (x) · pY (y);

si (X, Y ) es absolutamente continuo y fXY es una densidad,

fXY (x, y) = fX (x) · fY (y),

salvo tal vez en un conjunto de área nula. En cualquier caso, dadas densidades
cualesquiera de dos variables independientes X e Y —fX y fY —, si se define
f (x, y) = fX (x) · fY (y) esto siempre resulta una densidad para (X, Y ).

Por otro lado, las proposiciones recíprocas son ciertas, lo cual a veces resulta una
herramienta útil para probar que dos variables aleatorias son independientes.
Propiedad 23. Si X e Y son variables aleatorias tales que ∀(s, t) ∈ R2

FXY (s, t) = FX (s) · FY (t),

entonces X e Y son independientes. En particular, esto implica que:

si (X, Y ) es discreto y
pXY (x, y) = pX (x) · pY (y);
entonces X e Y son independientes;

si (X, Y ) es absolutamente continuo y

fXY (x, y) = fX (x) · fY (y),

salvo —tal vez— sobre un conjunto de área nula, entonces X e Y son indepen-
dientes.

Usando la propiedad 20 y las fórmulas de la propiedad 22 es sencillo probar para


vectores absolutamente continuos y discretos (aunque vale en general), la siguiente
propiedad útil de la esperanza:
Propiedad 24. Sean X e Y variables aleatorias independientes con esperanza finita.
Entonces U = X · Y también tiene esperanza finita y

E(X · Y ) = E(X) · E(Y ).


CAPÍTULO 3. VECTORES ALEATORIOS 48

Ejemplo 6. Volviendo al ejemplo 5, se probó que E(XY ) = 13 . También se vio con


anterioridad que tanto X como Y podían valer cero con probabilidad 31 y uno con
probabilidad 23 ; es decir que son variables de Bernoulli con parámetro p = 23 , por lo
que E(X) = E(Y ) = 32 . Así, E(XY ) es distinta a E(X) · E(Y ) = 49 , lo que prueba que
X e Y no son independientes. (Pero atención: si hubiesen sido iguales eso no permitía
afirmar nada). 

3.2. Distribución condicional


Otra clase de funciones que dan información sobre la relación de dependencia entre
dos variables aleatorias (aunque no permiten por sí solas conocer las distribuciones
marginales) es la de las funciones de distribución condicional, probabilidad condicional
y densidad condicional.
En sentido amplio, conocer la distribución condicional de X dada Y equivale a co-
nocer la distribución de probabilidad de X (la probabilidad del suceso {X ∈ B} para
diferentes conjuntos borelianos) cuando se cuenta con la información de que efectiva-
mente sucedió Y ∈ B0 para cierto B0 ⊂ R (y esto para cada posible B0 ). Es decir,
equivale a conocer para cada par de conjuntos B y B0 (borelianos) la probabilidad

P X ∈ B Y ∈ B0 .

Aunque, como es usual, alcanza con considerar conjuntos B de la forma (−∞; t]


para resumir toda la información, y así surgen las funciones de distribución condicional.
Por otro lado, los sucesos a los que se condiciona suelen ser de la forma {Y = y} o
{Y ≤ y}, entre algunos otros similares. Así por ejemplo se pueden dar las siguientes
definiciones.

Definición 12. Dadas dos variables aleatorias X e Y se definen:

la función de distribución de X condicional a Y = y (o de X|Y =y ) como

FX|Y =y (t) = P(X ≤ t|Y = y);

la función de distribución de X condicional a Y ≤ y (o de X|Y ≤y ) como

FX|Y ≤y (t) = P(X ≤ t|Y ≤ y).


CAPÍTULO 3. VECTORES ALEATORIOS 49

Desde ya, también pueden definirse las correspondientes distribuciones de Y condicio-


nadas respecto de X.
Una interpretación usual de estas situaciones, que se refleja en el hecho de pensar a
las distribuciones condicionales como funciones de una sola variable (es decir, distribu-
ciones univariadas), es pensar a X|Y =y o X|Y ≤y como variables aleatorias en sí mismas;
serían las nuevas variables que surgen de X cuando se tiene noticia de lo ocurrido con
la variable Y .
Así, por ejemplo, tiene sentido mirar la función de distribución de X|Y =y como
cualquier otra función de distribución univariada y en base a esto verificar si se trata
o no de una variable aleatoria discreta —y si lo es buscar su función de probabilidad
pX|Y =y (x)—, si es o no continua —y si en tal caso tiene una densidad fX|Y =y (x)—,
calcular su esperanza E(X|Y = y) de la manera usual, etc.
Recordando que las probabilidades condicionales se calculan como
P(A ∩ B)
P(A|B) =
P(B)
es inmediato deducir, por ejemplo, que
FXY (t, y)
FX|Y ≤y (t) = .
FY (y)

De la misma manera, si (X, Y ) es discreto —en cuyo caso P(Y = y) = pY (y)—, se


tiene para y ∈ RY
FXY (t, y)
FX|Y =y (t) =
pY (y)
y también
pXY (x, y)
pX|Y =y (x) = .
pY (y)
Ejemplo 7. Como ejemplo, retomemos la distribución bivariada discreta del ejemplo 4:
(X, Y ) tiene la probabilidad distribuida uniformemente entre los tres puntos de su rango
RXY = {(1, 0), (0, 1), (1, 1)}. Como se vio, la distribución marginal de X es

x pX (x)
0 1/3
1 2/3
e Y tiene la misma distribución marginal (ambas tienen distribución Be(2/3)).
Recalculemos la función de probabilidad si se sabe que Y = 1: es decir, calculamos
la función de probabilidad de X condicional a Y = 1, o visto de otra manera, la función
CAPÍTULO 3. VECTORES ALEATORIOS 50

de probabilidad puntual de la variable X|Y =1 . Siguiendo la definición dada, se tiene

pXY (0, 1) 1/3 1


pX|Y =1 (0) = = = ;
pY (1) 2/3 2
y también
pXY (1, 1) 1/3 1
pX|Y =1 (1) = = = .
pY (1) 2/3 2

En resumen
x pX|Y =1 (x)
0 1/2
1 1/2
que claramente es una función de probabilidad (una Be(1/2), de hecho).
Si, en cambio, quisiéramos condicionar al suceso Y = 0, vemos que
pXY (0, 0) 0
pX|Y =0 (0) = = = 0,
pY (0) 1/3

ya que (0, 0) no está en el rango del vector (X, Y ). Por otro lado,

pXY (1, 0) 1/3


pX|Y =0 (1) = = = 1.
pY (0) 1/3
Por lo tanto, toda la probabilidad de X|Y =0 se concentra en x = 1, por lo que X|Y =0
es en realidad una «variable aleatoria» constante (en este caso se dice que tiene una
distribución «degenerada»).


El caso de vectores absolutamente continuos condicionados a un valor puntual es


menos inmediato, pero puede mostrarse que si y está en el soporte de Y una definición
razonable es
fXY (x, y)
fX|Y =y (x) = ,
fY (y)
suponiendo que la densidad fY que se considera sea continua y no nula en dicho valor
de y.
Es fácil verificar que todas las funciones obtenidas en este apartado mediante algún
tipo de condición son en sí mismas funciones de distribución, probabilidad o densidad,
según el caso, y por tanto cumplen todas las propiedades inherentes a las mismas.
Finalmente, surge de todas estas expresiones que alcanza con conocer una distribu-
ción condicional y la distribución marginal de la variable que condiciona para obtener
CAPÍTULO 3. VECTORES ALEATORIOS 51

la distribución conjunta, y por lo tanto se conoce en ese caso la distribución completa


del vector (X, Y ).5

3.3. Covarianza y correlación


En determinadas situaciones es necesario tener una medida de la «intensidad» de la
dependencia entre X e Y que sea simple y rápida de comprender, algo que las distribu-
ciones conjuntas o condicionales difícilmente puedan mostrar sin un mayor análisis y
cálculos adicionales. La intención de esta sección es presentar una medida numérica de
dicha dependencia. Sin embargo, sería poco realista esperar que algo tan complejo co-
mo la naturaleza de la dependencia probabilística entre dos variables aleatorias pueda
ser resumida apropiadamente en un valor numérico, por lo que es importante entender
qué miden en realidad los indicadores que se definen a continuación, su utilidad y sus
limitaciones.

3.3.1. Covarianza
Con la covarianza se busca analizar si existe alguna relación probabilística entre los
valores «altos» y «bajos» de una variable y los valores «altos» y «bajos» de la otra.
Para precisar esa idea, se toman como puntos de referencia para definir qué es un valor
alto y un valor bajo las respectivas esperanzas (si existen) de las variables en cuestión.
Así, valores «altos» de X, por ejemplo, serán los que hagan positiva la diferencia
X − E(X), y valores «bajos» los que la hagan negativa. Además, el valor absoluto de
esta cantidad indicará si son valores «apenas», «moderadamente» o «extremadamente»
bajos o altos, etc.
Si consideramos ahora la variable aleatoria
 
U = X − E(X) · Y − E(Y ) ,

podemos ver que el signo de U depende del signo de cada factor.


Es decir que si hubiese un predominio, o una probabilidad muy alta, de que U tome
valores positivos, esto indicaría que cada vez que X da valores por encima de su media
5
Por ejemplo, valen relaciones como

FXY (s, t) = FX|Y =t (s) · FY (t) = FY |X=s (t) · FX (s)

o como
fXY (x, y) = fX|Y =y (x) · fY (y) = fY |X=x (y) · fX (x)
(en este caso, salvo tal vez para un conjunto de área nula), etc.
CAPÍTULO 3. VECTORES ALEATORIOS 52

lo mismo suele ocurrir para Y , y viceversa, y que cuando una da valores por debajo de
su media, frecuentemente o con alta probabilidad lo mismo le ocurrirá a la otra.
Por el contrario, una elevada probabilidad (o frecuencia, si se lo piensa ex post) de
valores negativos de U implicaría que valores «altos» de X tienden a ir de la mano de
valores «bajos» de Y y viceversa. Esto no significa que no pueda ocurrir otra situación,
pero sí que la distribución de probabilidad conjunta de X e Y se concentra sobre todo
en los puntos o regiones donde X está por encima de su media e Y por debajo y
viceversa. Para tener una idea gráfica: si las esperanzas de X e Y fueran ambas nulas
(o si los ejes se corrieran para coincidir con las esperanzas), esto equivaldría a que la
mayor parte de la probabilidad se concentre en el segundo y el cuarto cuadrante del
plano xy, mienras que el caso anterior mostraría una concentración de la probabilidad
en el primer y el tercer cuadrante.
Claramente, si con alta probabilidad U diera valores cercanos a cero o si la proba-
bilidad concentrada en el primer y tercer cuadrante estuviera compensada aproxima-
damente por la que se distribuye por el segundo y el cuarto cuadrante, se entendería
que no predomina ninguna de las dos situaciones.
Sin embargo, como los diferentes posibles valores de U tienen diferentes probabili-
dades y en última instancia la distribución de U sigue sin ser una medida sencilla de la
relación que se analiza, se suele tomar su esperanza para analizar qué tipo de valores
predominan. Este valor se denomina covarianza de X e Y .
Definición 13. Se denomina covarianza de X e Y , cuando exista y sea finito, al valor
  
cov(X, Y ) = E X − E(X) · Y − E(Y ) .

Es importante entender que la covarianza mide cierta forma de interdependencia (o


mejor dicho «correlación») entre las variables. Si en vez de seguir patrones como los
mencionados antes, se tuviera que a valores de X cercanos a E(X) corresponden valores
de Y por debajo de su media, y a valores de X alejados de E(X), ya sea hacia la derecha
o hacia la izquierda, corresponden valores de Y por encima de su media, la covarianza
detectará poca o nula correlación. Se sugiere pensar, por ejemplo,
2 en el caso en que se
cumpla aproximada o exactamente la relación Y = X − E(X) .
Por este motivo, se suele decir que la covarianza mide «correlación lineal» entre las
variables, si bien es cierto que formas de correlación no lineales pero que conserven la
esencia de la linealidad (que en parte está en la aproximada monotonía de la relación)
también darán covarianzas significativamente no nulas.
De hecho, la idea de que la relación medida por la covarianza es de tipo lineal se
ve reforzada por una propiedad de linealidad que se menciona más adelante (ver pro-
CAPÍTULO 3. VECTORES ALEATORIOS 53

piedad 27). Pero antes destacamos algunas otras relaciones y propiedades importantes
de la covarianza, incluyendo una fórmula que simplifica bastante su cálculo.

Propiedad 25. Sean X, Y y Z variables aleatorias y sean a, b, c, d, k ∈ R. Entonces,

cov(aX + b, cY + d) = ab cov(X, Y );

en particular, cov(X, k) = 0;

cov(X + Y, Z) = cov(X, Z) + cov(Y, Z);

cov(X, X) = var(X);

var(X ± Y ) = var(X) + var(Y ) ± 2 cov(X, Y );

cov(X, Y ) = E(XY ) − E(X) E(Y ).

Si se tiene en cuenta que cuando X e Y son independientes vale la relación

E(XY ) = E(X) · E(Y ),

la última fórmula —además de ser útil para el cálculo— prueba algo que intuitivamente
era esperable:

Propiedad 26. Si X e Y son VA independientes, entonces cov(X, Y ) = 0.

Sin embargo, no vale la recíproca, y existen muchos ejemplos triviales (como el que se
2
mencionó de Y = X − E(X) , al menos para ciertas distribuciones) y no triviales
de este hecho. Por eso cuando la covarianza es nula se suele decir que las variables
están «incorrelacionadas» (linealmente), pero no se puede afirmar su independencia.
Por cierto, esta expresión permite caracterizar casi tautológicamente los casos en que
vale separar la esperanza de un producto como el producto de las esperanzas: la relación
es válida si y solo si X e Y están incorrelacionadas.

3.3.2. Coeficiente de correlación lineal


De las propiedades de la covarianza también surge que si una de las variables se mul-
tiplica por una constante, la covarianza también sufre la misma transformación. Es
decir que, por ejemplo, un cambio de unidades de la variable X de —por ejemplo—
kilómetros a metros hará que la covarianza entre X e Y se multiplique por mil.
CAPÍTULO 3. VECTORES ALEATORIOS 54

Por este motivo, la covarianza en realidad no es una medida útil en sí misma para
medir la magnitud de la correlación (así como, por ejemplo, la varianza o el desvío
estándar no dan una noción absoluta del grado de dispersión de una distribución).
Puede probarse, sin embargo, que una cota para la covarianza está dada por

| cov(X, Y )| ≤ σX · σY ,

lo que sí permite definir una medida «absoluta» de correlación.

Definición 14. El coeficiente de correlación lineal entre X e Y se define como

cov(X, Y )
ρXY = .
σX · σY


De esta manera se obtiene una medida que siempre está entre −1 y 1. Y usando las
propiedades de la covarianza puede probarse que estas cotas se alcanzan (es decir que
esas cotas no se pueden mejorar).

Propiedad 27. Dadas dos VA X e Y con cov(X, Y ) finita, se tiene que

|ρXY | ≤ 1.

Además, si existen a, b ∈ R tales que Y = aX +b o X = aY +b, entonces |ρXY | = 1.

Esto último, por un lado, permite tener una noción «absoluta» del grado de correlación
(más allá de los valores que se suelen dar en los textos introductorios como referencia,
es claro que valores como 0,002 o −0,032 indican una correlación prácticamente nula
mientras que otros como −0,992 o 0,986 marcan una fuerte correlación, tal vez casi
«exacta») a la vez que refuerza la idea de que la correlación que se mide es la de tipo
lineal.
Desde ya, como el signo de ρXY es el mismo que el de cov(X, Y ), valen las mismas
interpretaciones sobre el tipo de correlación, a la vez que si X e Y son independientes,
necesariamente se tendrá ρXY = 0 (pero no al revés).
Capítulo 4

Teoría asintótica

En este capítulo estudiamos el comportamiento límite de una sucesión infinita de va-


riables aleatorias. Es decir, se tiene una sucesión infinita
X1 , X2 , . . . , Xn , . . .
donde cada Xn es una variable aleatoria, y no necesariamente todas tienen la misma
distribución (de hecho, el caso que interesa estudiar es cuando esto no ocurre). Se desea
saber si existe algún comportamiento «límite» o asintótico.
En tal sentido, consideramos en este capítulo dos nociones distintas: la convergencia
en distribución y la convergencia en probabilidad. Es importante aclarar que estudiar
el comportamiento asintótico de la distribución de una sucesión de variables —i.e. la
convergencia en distribución— solo habla de si sus respectivas distribuciones tienden
a tener la misma forma, o no, pero no habla de que los valores que tomen dichas
variables una vez realizado el experimento aleatorio tiendan a ser similares, o con qué
probabilidad ocurre tal cosa. Esto último corresponde a otras nociones, entre las que
se cuentan la convergencia en probabilidad y otras como la convergencia casi segura,
la convergencia puntual, la convergencia en norma cuadrática, etc.

4.1. Distribución asintótica de una sucesión de varia-


bles aleatorias
Para dar una idea de lo que implica la distinción mencionada anteriormente, consi-
deremos un ejemplo sencillo.
Ejemplo 8. Supongamos que realizamos un experimento dicotómico una infinidad de
veces (no podemos hacerlo efectivamente, pero sí podemos imaginar que lo hacemos

55
CAPÍTULO 4. TEORÍA ASINTÓTICA 56

tantas veces como queramos). Por simplicidad, pensemos en una moneda equilibrada
que arrojamos sucesivamente una y otra vez, y en la sucesión infinita de variables
aleatorias X1 , X2 , . . . , Xn , . . ., que representa el resultado de cada tirada, digamos con
un 1 si sale cara y un 0 si sale ceca.
Es claro que en este caso, para cada n se tiene Xn ∼ Be( 12 ). Es decir que las
funciones de distribución FX1 (t), FX2 (t), FX3 (t), etc., son todas iguales1 , por lo que es
razonable decir que la distribución asintótica es también Be( 21 ).
Sin embargo, una vez realizado el experimento (si es que pudieran realizarse las
infinitas repeticiones), el resultado es una sucesión de —digamos— caras (c) y cecas
(×). Más precisamente, el espacio muestral (el conjunto de posibles resultados del
experimento) en este caso podemos definirlo como

Ω = (m1 , m2 , . . . , mn , . . .) : mn ∈ {c, ×}, ∀n ∈ N .

Por lo tanto, posibles resultados del experimento serían:

(×, c, ×, ×, ×, . . . , ×, . . .)

(×, c, ×, c, ×, c, . . . , ×, c, . . .)

(×, c, ×, ×, c, ×, ×, ×, c, . . .)

y desde ya, también cualquier otra sucesión de c y ×, siga o no un patrón que podamos
describir. Además, es llamativo ponerse a pensar que necesariamente (de manera similar
a lo que ocurre con los posibles valores de una variable aleatoria continua) cada una
de las sucesiones tiene probabilidad nula, ya que la independencia entre las sucesivas
tiradas y la equiprobabilidad entre {m1 = c} y {m1 = ×} (y entre {m2 = c} y
{m2 = ×}, etc.) implica que ninguna sucesión de × y c tendrá más probabilidad que
otra.
Si definimos entonces para cada n ∈ N
(
0 mn = ×
Xn =
1 mn = c,
1
A saber, para cada n ∈ N se tiene

0
 t<0
1
FXn (t) = 0≤t<1
2
1 t ≥ 1.

CAPÍTULO 4. TEORÍA ASINTÓTICA 57

las variables aleatorias X1 , X2 , . . . resultan independientes y todas tienen distribución


Be( 21 ). Entonces, a cada posible sucesión de × y c (los posibles resultados del experi-
mento aleatorio) le corresponde por medio de X1 , X2 , . . . una sucesión de ceros y unos,
por ejemplo

(0, 1, 0, 0, 0, . . . , 0, . . .)
(0, 1, 0, 1, 0, 1, . . . , 0, 1, . . .)
(0, 1, 0, 0, 1, 0, 0, 0, 1, . . .)

(que corresponden a las sucesiones de × y c de más arriba), entre otras.


De todas estas infinitas sucesiones, solo son convergentes las que a partir de algún
momento valen siempre 0 o siempre 1 (sería el caso del primer ejemplo, pero no del
segundo ni el tercero). Claramente esto no ocurrirá siempre (en realidad, no ocurre
casi nunca), es decir que la sucesión de valores que efectivamente ocurra no converge a
ningún valor, aunque sí converge la distribución —trivialmente, porque es una sucesión
«constante»: todas las distribuciones son Be( 12 )—.
No parece entonces que en algún sentido razonable vaya a poder decirse que Xn → 1
o que Xn → 0, para este ejemplo; ni siquiera que los valores vayan a parecerse cada vez
más a los de otra variable aleatoria X ∗ , ya que las Xn son todas independientes. Solo
las distribuciones van convergiendo (porque se trata para cada n siempre de la misma
distribución). 

A continuación analizamos el comportamiento de las sucesivas distribuciones mar-


ginales para dar una definición precisa de la noción de distribución asintótica, que entre
otras cosas permite enunciar formalmente el Teorema Central del Límite.

4.1.1. Convergencia en distribución


Puede ocurrir que, dada una sucesión X1 , . . . , Xn , . . . de variables aleatorias, la sucesión
de sus respectivas funciones de distribución converja (o no) en cada punto t ∈ R a una
cierta función F (t), es decir, podría suceder que

FXn (t) → F (t), ∀t ∈ R.

Si este fuera el caso, aún podría ocurrir que dicha función F (t) no tenga las propie-
dades necesarias para ser una función de distribución. Si lo fuera, sería natural decir
que la «distribución límite» o «asintótica» es F (t), pero si no, la situación no es tan
inmediata. Veamos unos ejemplos.
CAPÍTULO 4. TEORÍA ASINTÓTICA 58

n
Ejemplo 9. Supongamos que cada Xn tiene una distribución U[0, n+1 ]. En ese caso la
función de distribución de Xn es

0
 t<0
(n+1) n
FXn (t) = n
t 0 ≤ t < n+1
 n
1 t ≥ n+1

y se ve2 que cuando n → ∞ esas funciones tienden a



0
 t<0
F (t) = t 0≤t<1

1 t ≥ 1,

(ver figura 4.1) que es una función de distribución y es de hecho la distribución U[0, 1].

Ejemplo 10. Supongamos ahora que para cada n, Xn ∼ E(1/n). La función de distri-
bución de Xn es (
0 t<0
FXn (t) = −
t
1 − e n t ≥ 0.
Obviamente para los t < 0 el límite es 0. Pero para cada t ≥ 0 (fijo), cuando n → ∞
se ve que nt → 0, por lo que FXn (t) → 1 − e−0 = 0 también. Es decir,

FXn (t) → F (t) ≡ 0,

pero la función constante igual a 0 no es una función de distribución (de hecho, falla
la propiedad lı́mt→+∞ F (t) = 1). En este caso no hay una distribución «límite».3 
2
Este cálculo tiene algunas sutilezas ya que, por ejemplo, FXn (0,85) se calcula mirando la tercera
5
línea para n ≤ 5 (porque 5+1 = 56 = 0,83 ≤ 0,85, es decir que t ≥ n+1 n
), pero cuando n ≥ 6
6 6 n
corresponde ver la segunda línea (notar que 6+1 = 7 ≈ 0,8571 > 0,85, o sea que t < n+1 ). Es decir
que los primeros valores de la sucesión FXn (0,85) son
6+1 7+1 8+1
1, 1, 1, 1, 1, · 0,85 = 0,9916, · 0,85 ≈ 0,9714, · 0,85 = 0,95625, . . . ,
6 7 8
y esta sucesión sigue decreciendo y su límite es lı́mn→∞ n+1

n · 0,85 = 0,85. Se deja como ejercicio
dar un argumento general de que cuando n → ∞ se tiene para cualquier t ∈ (0, 1) que FXn (t) → t.
3
Esto es razonable. Si tenemos en cuenta que por propiedades de la distribución exponencial en
este caso tenemos E(Xn ) = n y var(Xn ) = n2 , vemos que el centro de la distribución se corre hacia
más infinito a la vez que la dispersión se hace infinita; intuitivamente no sería esperable en este caso
que ese proceso dé lugar a una distribución que actúe como «límite».
CAPÍTULO 4. TEORÍA ASINTÓTICA 59

1.0
0.8
0.6 n=1
n=2
F(t)

n=4
0.4

n=10
U[0,1]
0.2
0.0

−0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2

Figura 4.1: Gráfico de F y FXn para algunos valores de n. Observar que para valores de
t ∈ [0,5, 1), se tiene FXn (t) = 1 para los primeros valores y a partir de un momento este
valor empieza a decrecer hasta el límite F (t) = t (en el gráfico la línea gris punteada
corresponde a t = 0,7; se tiene FX1 (0,7) = FX2 (0,7) = 1. Sin embargo, FXn (0,7) < 1
para n > 2, como se ve en el gráfico para n = 4 y n = 10).

Ejemplo 11. Supongamos que cada Xn tiene una distribución dada por


 0 t<0
 1 − 1 (1 − 2t)n

0 ≤ t < 12
FXn (t) = 21 12 1


 2
+ 2 (2t − 1)n 2
≤t<1
t ≥ 1.

1
En este, como en todos los ejemplos anteriores, la alternancia entre desigualdades
estrictas y no estrictas busca asegurar sin necesidad de mayor análisis que las funciones
dadas sean continuas a derecha en todos los puntos. Este cuidado no es necesario ya que
en todos los casos —se sugiere chequearlo en este último— se trataba de distribuciones
continuas.
Aún así, en todos los casos se debe analizar con cuidado el comportamiento del
límite de FXn (t) en los puntos donde cambia la definición. Por ejemplo, para este caso,
se ve que FXn (0) = 21 − 21 (1 − 2 · 0)n = 0 para cada n, por lo que FXn (0) → 0. De igual
modo se ve que FXn ( 12 ) = 21 → 12 y FXn (1) = 1 → 1. En realidad, lo mismo que ocurre
en t = 0 ocurre cuando t < 0 y la situación en t = 1 se repite para cada t > 1.
Finalmente, si 0 < t < 21 , como 0 < 1 − 2t < 1, se tiene (1 − 2t)n → 0, y luego
FXn (t) = 1
2
− 21 (1 − 2t)n → 12 .
CAPÍTULO 4. TEORÍA ASINTÓTICA 60

Distribución de Xn

1.0
0.8
0.6
F

0.4

n=1
n=2
0.2

n=3
n=6
n=15
0.0

−0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2

Figura 4.2: Se puede observar cómo las sucesivas FXn se «pegan» a una recta horizontal
de ordenada 12 , aunque siempre quedan «atadas» a los puntos (0, 0) y (1, 1).

1
Y del mismo modo, si 2
< t < 1, vale 0 < 2t − 1 < 1 y luego

FXn (t) = 1
2
+ 12 (2t − 1)n → 12 .

Teniendo especial cuidado en dar los valores correctos en los bordes de los intervalos
de definición, podemos resumir todo esto como

0 t ≤ 0

FXn (t) → F (t) = 12 0 < t < 1

1 t ≥ 1.

Pero aquí tampoco el límite resulta una función de distribución, ya que F (t) es
discontinua a derecha en t = 0 (no así en t = 1, su otro punto de discontinuidad). En la
figura 4.2 (pág. 60) y figura 4.3 (pág. 61) pueden verse los gráficos de FXn para varios
valores de n y el gráfico de F (t), respectivamente. 

En realidad, en el último ejemplo F (t) apenas difiere (solo en t = 0) de la que sería


la función de distribución de una variable con distribución Be( 21 ), por lo que parece
razonable querer considerar a esta como la distribución límite de la sucesión4 . De hecho,
situaciones como esta solo pueden ocurrir en puntos donde la pretendida distribución
CAPÍTULO 4. TEORÍA ASINTÓTICA 61

F(t)

1.0
0.8
0.6
F

0.4
0.2
0.0

−0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2

Figura 4.3: La consecuencia de lo anterior es que el gráfico de la función límite F (t)


también contiene los puntos (0, 0) y (1, 1), por lo que en t = 1 la función es continua a
derecha (y no a izquierda), pero en t = 0 es discontinua a derecha (aunque sí continua
a izquierda).

límite es discontinua, por lo que si el límite de las FXn (t) cumple todas las demás
condiciones para ser una función de distribución pero eventualmente es discontinua a
derecha en ciertos puntos, es fácil identificarla con una distribución (definiendo F en
esos puntos para que coincida con el límite por derecha) y además esto no da lugar a
ambigüedad.
Teniendo estas cuestiones en mente, definimos a continuación la noción de límite
en distribución.
Definición 15. Dada una función de distribución F (t), se dice que una sucesión de
variables aleatorias X1 , X2 , . . . , Xn , . . . converge en distribución a F y notamos
D
Xn −→ F

si para cada t ∈ R donde F es continua vale

FXn (t) −−−→ F (t).


n→∞


4
Es de destacar también que en este ejemplo una sucesión de variables continuas tiene como límite
una distribución discreta. La situación contraria también es posible: por ejemplo, es conocido que el
límite de una distribución binomial —adecuadamente estandarizada— cuando n tiende a infinito es
la distribución normal estándar.
CAPÍTULO 4. TEORÍA ASINTÓTICA 62

Observación 12. Si Y es una variable aleatoria cualquiera, suele también decirse que
la sucesión X1 , X2 , . . . converge en distribución a Y , y se nota
D
Xn −→ Y,

cuando
D
Xn −→ FY .
Sin embargo, esta notación parece sugerir que los valores de Xn tienden a ser similares a
los de Y con alta probabilidad, cosa que no surge en absoluto de la definición; incluso Y
podría ser independiente de todas las Xn . Por ese motivo, evitaremos este enfoque y esta
notación, a menos que sea inevitable o cuando sea útil y no se preste a confusión. 

4.1.2. Convergencia de la función generadora de momentos


Como en otras situaciones, la función generadora de momentos resulta una herramienta
útil para deducir distribuciones y otras propiedades: en este caso, para analizar la
distribución asintótica de una sucesión de variables aleatorias. En particular, si la
distribución límite es —por ejemplo— una N (0, 1), la sucesión de FGM de cada Xn
2
(suponiendo que estas existen) convergerá a la FGM de una N (0, 1), es decir, a et /2 .
Pero esto sería de poca utilidad si no valiera la proposición recíproca.
2
Es decir, aun sabiendo que una sucesión MX1 (t), MX2 (t), . . . tiende a et /2 , sin el
teorema que enunciamos a continuación solo podríamos concluir que la sucesión de
FGM de las Xn converge a la FGM de cualquier variable con distribución N (0, 1), pero
no podríamos afirmar que
D
Xn −→ N (0, 1),
que en general sería la conclusión realmente interesante. Afortunadamente esto sí está
garantizado, como lo afirma el siguiente teorema, que enunciamos sin demostración.
Teorema 5 (Teorema de continuidad de Lévy). Sea X1 , X2 , . . . , Xn , . . . una sucesión de
variables aleatorias con FGM definida, e Y otra variable también con FGM. Entonces,

MXn (t) → MY (t)

en un entorno de t = 0 si y solo si
D
Xn −→ FY .
CAPÍTULO 4. TEORÍA ASINTÓTICA 63

Ejemplo 12. En el ejemplo 9 se probó que la sucesión de variables aleatorias Xn ,


n

cada una con distribución U 0, n+1 , respectivamente, converge en distribución a una
distribución U[0, 1]. Para probar por definición este hecho bastante evidente, se vio que
se debía razonar con cierto cuidado al calcular lı́mn→∞ FXn (t) para cada t. En cambio,
el cálculo basado en las FGM es inmediato.
Sabemos que si U ∼ U[a, b], entonces
(
ebt −eat
(b−a)t
t 6= 0
MU (t) = .
1 t=0

Luego, para t 6= 0
nt
e n+1 − 1 et − 1
FXn (t) = nt −−−→
n+1
n→∞ t
(y claramente FXn (0) → 1).
Es decir que el límite de FXn (t) es
(
et −1
t
t 6= 0
F (t) = ,
1 t=0

que es igual a la FGM de una variable U[0, 1]. Por lo tanto, el teorema 5 implica que
D
Xn −→ U[0, 1],

como ya habíamos probado. 

4.2. Teorema central del límite


Uno de los teoremas fundamentales de la teoría de la probabilidad y la estadística es,
precisamente, un teorema sobre convergencia en distribución: el teorema central del
límite (TCL) o teorema del límite central.
En realidad existe un sinnúmero de teoremas conocidos con este nombre, y en
líneas generales todos afirman que bajo ciertas condiciones la sucesión Y1 , . . . , Yn , . . .
de sumas parciales o de promedios parciales de otra sucesión X1 , . . . , Xk , . . . —una vez
ajustadas mediante un cambio de posición y escala adecuados— tiene una determinada
distribución asintótica, usualmente la distribución normal o gaussiana.
El teorema que estudiamos a continuación, y que será suficiente para la mayoría de
los contenidos del curso, es el más clásico: supone independencia entre las variables
CAPÍTULO 4. TEORÍA ASINTÓTICA 64

de la sucesión original, idéntica distribución y, en particular, que dicha distribución


tiene momentos finitos hasta orden dos al menos (es decir, esperanza y varianza),
lo que en la demostración permite desarrollar su FGM mediante un polinomio de Taylor
de segundo orden.
Muchas de estas hipótesis pueden relajarse, a veces a cambio de otras condiciones a
veces simples y otras bastante complicadas, y aún así llegar a la conclusión de norma-
lidad. El interés de esos «otros» teoremas centrales del límite es que existen diversas
situaciones en el análisis estadístico en las que no se podrá suponer independencia (algo
común en el desarrollo de ciertas pruebas no paramétricas), o idéntica distribución, o
momentos finitos, pero tal vez se puedan buscar alternativas que de todos modos lleven
a la misma conclusión. Sin embargo, que existan otras versiones más generales no sig-
nifica que siempre se pueda concluir normalidad, y de hecho existen diversos ejemplos
donde esto no ocurre, ejemplos que —desde ya— no se encuadran en al menos uno de
los supuestos del teorema que presentamos en este apartado.
Para los fines del curso, alcanza con enunciar la versión más simple y clásica del
TCL que, a pesar de dar una conclusión muy fuerte en un contexto muy general (pues
vale para cualquier distribución que tenga momentos finitos hasta orden dos, lo que
incluye la gran mayoría de las que estudiamos en el curso), puede demostrarse con las
herramientas que tenemos y un poco de paciencia para la manipulación algebraica.
Antes de enunciar el teorema, que suele exponerse en términos de la suma de las
variables X1 , . . . , Xn , es decir
n
X
Sn = X1 + · · · + Xn = Xk ,
k=1

o bien en términos de sus promedios


Sn
X̄n = ,
n
veamos que una vez estandarizadas, estas variables coinciden. En efecto, si suponemos
E(Xk ) = µ y var(Xk ) = σ 2 , ∀k ∈ N, tenemos
Pn
Pn Xk −nµ
Sn − E(Sn ) k=1 Xk − nµ k=1
n X̄n − µ X̄n − E(X̄n )
= √ = √ = = p .
√σ
p nσ
var(Sn ) nσ 2 n n var(X̄n )

En última instancia, independientemente de cómo se la interprete, es precisamente


esta sucesión de variables aleatorias (notar que la expresión depende de n) la que según
el TCL tiene distribución asintóticamente N (0, 1).
CAPÍTULO 4. TEORÍA ASINTÓTICA 65

Teorema 6 (Teorema central del límite). Dada una sucesión X1 , X2 , . . . , Xk , . . . de va-


riables aleatorias independientes e idénticamente distribuidas (v.a.i.i.d.) con esperanza
y varianza finitas ( E(Xk ) = µ y var(Xk ) = σ 2 ), se tiene
Pn
k=1 Xk − nµ X̄n − µ D
√ = −→ N (0, 1).
nσ √σ
n

Demostración. En primer lugar, se observa que como


Pn n  
k=1 Xk − nµ 1 X Xk − µ
√ =√ ,
nσ n k=1 σ

usando la sustitución Yk = Xkσ−µ alcanza con probar que si Y1 , Y2 , . . . P


son v.a.i.i.d. con
n
Y
√ k , converge
E(Yk ) = 0 y var(Yk ) = 1, entonces la sucesión Z1 , Z2 , . . ., donde Zn = k=1n
en distribución a N (0, 1).
La idea de la demostración es hallar una expresión conveniente de MZn (t) para
probar que
t2
MZn (t) −−−→ e2,
n→∞

ya que el teorema 5 implicaría que la distribución asintótica de Zn es N (0, 1), como


queremos demostrar.
La dificultad central radica en que todo lo que sabemos de las Yk es que son in-
dependientes y todas tienen la misma distribución, en particular con esperanza 0 y
varianza 1, pero no tenemos una distribución específica para tomar. Por esto acudimos
al desarrollo de Taylor de la FGM que como se vio en su momento, resulta
m2 2 m3 3
MYk (t) = 1 + m1 · t + ·t + · t + ··· .
2! 3!
Llamando R(t) a todo lo que sigue al término de orden 2, y usando que en nuestro caso
m1 = 0 y m2 = 1, tenemos
1 2
MYk (t) = 1 + · t + R(t),
2
y por el teorema de Taylor, R(t) tiene la siguiente propiedad:
R(t)
lı́m = 0.
t→0 t2

Ahora bien, queremos hallar MZn (t).


     
t t t
MZn (t) = M √Yk (t) = M Yk √
P P
= MY1 √ · . . . · MYn √ .
n n n n
CAPÍTULO 4. TEORÍA ASINTÓTICA 66

Pero como las Yk tienen la misma distribución, podemos llamar simplemente MY (t) a
cada una de las FGM, y de la expresión anterior se obtiene
  n "  2  #n
t 1 t t
MZn (t) = MY √ = 1+ · √ +R √ ,
n 2 n n

que reescribimos como


!
t2 +2nR √t
n
   2n !
 2
2 t √t

 t + 2nR √n 2
t +2nR
n 

MZn (t) = 1+  .

 2n 

Si se prueba que  
2nR √t −−−→ 0
n n→∞

la expresión entre llaves presentaría una indeterminación del tipo «1∞ », pero por ser
1
de la forma (1 + an ) an con an → 0 su límite sería e. También se habría probado que el
2
último exponente tiende a t2 .
Ahora bien,  
R √t
n
 
2nR √t
n
= 2t2 ·  2
√t
n

y si llamamos u = √t , tenemos que u −−−→ 0, y entonces el cociente es


n n→∞

R(u)
−−→ 0
u2 u→0
por el teorema de Taylor, como se dijo.
Volviendo a lo anterior, esto prueba que la expresión entre llaves tiene como límite
e, y que el exponente al que se eleva toda esa expresión —el de más a la derecha—
2
tiende a t2 . Luego,
t2
MZn (t) → e 2
y por lo tanto
D
Zn −→ N (0, 1).
CAPÍTULO 4. TEORÍA ASINTÓTICA 67

4.3. Convergencia en probabilidad y Ley de los gran-


des números.
Como se vio, el TCL establece la convergencia en distribución de la sucesión de
medias muestrales, pero esto solo es cierto una vez que estas han sido debidamente
estandarizadas. Es decir, se afirma que bajo ciertas condiciones

X̄n − µ D
−→ N (0, 1)
√σ
n

o —equivalentemente— que
Pn
Xk − nµ D
k=1
√ −→ N (0, 1),

D D
pero en ningún caso se dice que X̄ −→ N (0, 1) ni que nk=1 Xk −→ N (0, 1).
P

Por cierto, en este último caso se tiene


n
!
X
var Xk = nσ 2 −−−→ +∞,
n→∞
k=1
Pn
es decir que las variables Sn = k=1 Xk tienen cada vez una mayor varianza que
la anterior, y en el límite esta es infinita; por lo tanto S1 , S2 , . . . no converge a una
distribución normal (que siempre tiene varianza finita). Por otro lado,
 σ2
var X̄n = −−−→ 0,
n n→∞
lo que intuitivamente indica que la distribución de X̄n tiende a «aplastarse» alrededor
de la media, y a lo sumo podría converger a una distribución «degenerada», es decir,
una constante. Esto de alguna manera sugiere que es posible acumular «mucha proba-
bilidad» en valores «muy cercanos» a µ, si se toma un tamaño de muestra grande. En
el próximo apartado precisamos esto en una nueva noción de convergencia de variables
aleatorias.

4.3.1. Convergencia en probabilidad


Definición 16. Dada una sucesión de variables aleatorias X1 , X2 , . . . y dada otra va-
riable aleatoria X, se dice que la sucesión {Xn } converge en probabilidad a la v.a. X
sii
∀ε > 0, lı́m P (|Xn − X| ≤ ε) = 1.
n→∞
CAPÍTULO 4. TEORÍA ASINTÓTICA 68

En tal caso es usual la notación


P
Xn −→ X,
y también se puede encontrar
plı́m Xn = X,
en cada caso con o sin la aclaración n → ∞. 
Observación 13. Teniendo en cuenta la definición de límite de sucesiones numéricas
y las propiedades básicas de la probabilidad, etc., algunas definiciones equivalentes de
P
Xn −→ X son, entre otras:

∀ε > 0, lı́mn→∞ P (|Xn − X| > ε) = 0;


∀ε > 0, ∀η > 0, ∃n0 ∈ N tal que P (|Xn − X| > ε) < η para cualquier n ≥ n0 ;
∀ε > 0, ∀η > 0, ∃n0 ∈ N tal que P (|Xn − X| ≤ ε) ≥ 1 − η para cualquier
n ≥ n0 ;
∀ε > 0, ∃n0 ∈ N tal que P (|Xn − X| ≤ ε) ≥ 1 − ε para cualquier n ≥ n0 ;

etc. 

Existen relaciones entre las dos formas de convergencia vistas, de las cuales la más
notable es la que muestra el siguiente teorema, que enunciamos sin demostrar.
Teorema 7. Dada la sucesión X1 , X2 , . . . de variables aleatorias, supongamos que se
tiene otra variable X tal que
P
Xn −→ X;
entonces
D
Xn −→ FX .

Es inmediato preguntarse si valdrá la recíproca: pero es fácil ver que esto no tiene
sentido.
Supongamos que se tiene una sucesión X1 , X2 , . . . tal que
D
Xn −→ N (0, 1).

Si Z ∼ N (0, 1) es una variable aleatoria cualquiera, por la observación 12 podemos


también escribir esto como
D
Xn −→ Z.
CAPÍTULO 4. TEORÍA ASINTÓTICA 69

(Vale la pena insistir: esto es así por mera definición, o incluso convención.)
Supongamos por un momenton que fuera cierto que la convergencia en distribución
implica convergencia en probabilidad; necesariamente podríamos afirmar ahora que
P
Xn −→ Z

(no perdamos de vista que esto significaría que los valores de Xn van a ser cada vez más
parecidos y con más alta probabilidad a los de Z, si aumentamos n). Pero si tenemos
otra variable Z̃ independiente de Z y también con Z̃ ∼ N (0, 1), también podríamos
escribir
D
Xn −→ Z̃
y concluir equivocadamente que
P
Xn −→ Z̃.
Pero esto implica que los valores que toman las Xn para cada posible resultado del
espacio muestral son cada vez más parecidos —con muy alta probabilidad— tanto a
los valores de Z como a los de Z̃, que no tienen por qué tomar valores similares entre
sí ya que de hecho son independientes. Luego la recíproca del teorema 7 no puede valer
en general.
¿Habrá alguna situación particular en la que sí sea posible afirmar que la conver-
gencia en distribución también implica convergencia en probabilidad? ¿Qué pasa si
para cierta distribución no existen Z y Z̃ independientes y que puedan dar valores
diferentes? Analicemos el siguiente ejemplo.
Ejemplo 13. Supongamos ahora que tenemos una sucesión con las distribuciones
(
enx x < 0
FXn =
1 x ≥ 0.

Como para x < 0 se tiene nx → −∞ si n → +∞, es inmediato ver que para cada
t∈R (
0 t<0
FXn (t) → F (t) =
1 t ≥ 0,
que es la distribución degenerada en la constante 0, lo que podemos notar como
D
Xn −→ 0.

Por otro lado, podemos calcular fácilmente la probabilidad

P(|Xn − 0| ≤ ε) = P(−ε ≤ Xn ≤ ε) = FXn (ε) − FXn (−ε− ) = 1 − e−nε


CAPÍTULO 4. TEORÍA ASINTÓTICA 70

si ε > 0, y esta probabilidad tiende a 1 cuando n → ∞. Por lo tanto, también tenemos


P
Xn −→ 0.

Ya se dijo que en general la convergencia en distribución de una sucesión de v.a. a


otra variable (a la distribución de otra variable), no implica la convergencia en probabi-
lidad. Sin embargo, el ejemplo anterior no es una casualidad: cuando la convergencia es
a una distribución degenerada (es decir, a una constante), entonces sí puede concluirse
la convergencia en probabilidad. Esto es:

Teorema 8. Sea Fc la función de distribución de la variable aleatoria degenerada en


la constante c ∈ R, es decir, (
0 t<c
Fc (t) =
1 t ≥ c.
Entonces
D P
Xn −→ Fc =⇒ Xn −→ c.

Demostración. Tenemos que para todo ε > 0

P(|Xn − c| ≤ ε) = P(c − ε ≤ Xn ≤ c + ε) = FXn c + ε − FXn (c − ε)− .


 

D
Entonces, como por hipótesis Xn −→ Fc ,

P(|Xn − c| ≤ ε) −−−→ Fc (c + ε) − Fc (c − ε)− = 1 − 0 = 1,



n→∞

es decir que
P
Xn −→ c.

Observación 14. La recíproca vale por el teorema 7. 

4.3.2. La ley de los grandes números


Frecuentemente se dice que, intuitivamente, la esperanza de una variable aleatoria
X representa el valor promedio «esperado» tras varias realizaciones de la variable (es
decir que si tras muchas repeticiones del experimento aleatorio representado por el
espacio muestral Ω calculamos el valor de X para cada resultado ωn ∈ Ω —a saber,
CAPÍTULO 4. TEORÍA ASINTÓTICA 71

X(ωn )— el promedio de estos valores de X se supone que darán un valor cercano a


E(X), al menos si se realizaron muchas repeticiones). Esta noción es en cierto modo
circular, pues se basa en la misma idea de «valor esperado» y además requiere pensar
en la reiteración del experimento aleatorio.
Una interpretación más acorde a la teoría de la probabilidad sería pensar a las
infinitas repeticiones de un experimento como un único experimento en sí mismo, lo
cual obviamente requiere redefinir el espacio de probabilidad. En cualquier caso, la idea
anterior implicaría que ante una sucesión infinita de variables aleatorias independientes
e idénticamente distribuidas (v.a.i.i.d.) X1 , X2 , X3 . . . (correspondientes a las sucesivas
repeticiones del experimento aleatorio original), los sucesivos promedios representados
por las variables aleatorias
X1 +X2 X1 +X2 +X3
X̄1 = X1 , X̄2 = 2
, X̄3 = 3
, ...,

etc.,tienden a aproximarse al valor representado por la esperanza. Aunque, dado que


estamos hablando de valores aleatorios, la afirmación

X̄n −−−→ µ
n→∞

(donde µ representa los valores E(X1 ), E(X2 ), etc., que son por hipótesis todos iguales)
es poco precisa en cuanto a la noción de convergencia involucrada.
Por supuesto, una posibilidad sería afirmar que
P
X̄n −→ µ.

Pero, ¿por qué debería ser cierto esto más allá de la intuición?
Recordemos que los únicos axiomas que damos por sentados son los axiomas de Kol-
mogorov que hablan de las propiedades básicas de la probabilidad (aunque sabemos
que otras muchas propiedades son consecuencia inmediata de estos axiomas). Por otro
lado, la definición de variable aleatoria, y posteriormente la definición de esperanza (pa-
ra variables discretas o continuas), resulten o no intuitivas, no encierran directamente
esta idea de convergencia de promedios muestrales. Más aún, la noción de convergencia
en probabilidad, lejos de ser una extensión inmediata del límite de sucesiones de nú-
meros, es un concepto complejo que involucra la evolución de la distribución conjunta
de probabilidad de las variables X1 , . . . , Xn para cada n ∈ N y, en última instancia, la
P
expresión X̄n −→ µ significa (entre otras expresiones posibles —ver observación 13—)
que dado un número positivo cualquiera ε, existe un número N ∈ N para el cual puede
afirmarse que  
X 1 + · · · + XN
P − µ ≤ ε ≥ 1 − ε,

N
CAPÍTULO 4. TEORÍA ASINTÓTICA 72

y que lo mismo vale si tomamos en lugar de N cualquier valor posterior.


Así las cosas, no habría motivo para suponer que esto sea necesariamente cierto,
o al menos dista de ser una obviedad. No obstante, pareciera ser que los axiomas de
la probabilidad y la definición de esperanza de una variable aleatoria resultan exi-
tosos, puesto que en base a los mismos puede probarse que —bajo condiciones muy
generales— la afirmación anterior es verdadera.
Así, la esperanza matemática resulta ser lo que pretendíamos que fuera. Esto da
lugar a uno de los teoremas más famosos de la teoría de la probabilidad, ampliamente
conocido como Ley de los grandes números.
Teorema 9 (Ley débil de los grandes números). 5 Sea X1 , X2 , . . . , Xk , . . . una sucesión
de VA independientes con esperanza y varianza finitas (E(Xk ) = µk y var(Xk ) = σk2 ).
Si se tiene que
n
1 X 2
var(X̄n ) = 2 σ −−−−→ 0
n k=1 k n→∞
entonces
P
X̄n − µ̄n −→ 0,
1
Pn
(donde µ̄n = E(X̄n ) = n k=1 µk ).
En particular, si la varianza es σ 2 < +∞ para todo k, la condición var(X̄n ) → 0
se verifica. Además, si E(Xk ) = µ para todo k, entonces vale que
P
X̄n −→ µ.

Demostración. Tenemos que probar que, dado un ε > 0 arbitrario, vale que

lı́m P(|X̄n − µ̄n | ≤ ε) = 1.


n→∞

Si llamamos Kn = √ ε
, podemos aplicar la desigualdad de Tchebycheff y obtener
var(X̄n )
 
1 var(X̄n )
 q
P |X̄n − µ̄n | ≤ ε = P |(X̄n − µ̄n ) − 0| ≤ Kn var(X̄n ) ≥ 1 − 2 = 1 − .
Kn ε2
Pero como ε está fijo y por hipótesis var(X̄n ) → 0, el último miembro tiende a 1 y por
lo tanto 
lı́m P |X̄n − µ̄n | ≤ ε = 1,
n→∞
como queríamos.

5
Existe otro teorema, conocido como Ley fuerte de los grandes números, que afirma lo mismo para
un tipo de convergencia más «fuerte», denominado convergencia casi segura.
CAPÍTULO 4. TEORÍA ASINTÓTICA 73

Observación 15. Es fácil ver que podemos aplicar esta ley a cualquier transformación
de las variables Xk que siga verificando las hipótesis. Por ejemplo, llamemos Yk = Xk2
y supongamos que la sucesión de las Yk verifica las hipótesis del teorema6 . Podemos
afirmar entonces que
n
1X P
Ȳn = Yi −→ E(Y1 )
n i=1
(por supuesto, E(Y1 ) podría reemplazarse por la esperanza de Y2 , Y3 , etc.). Pero esto
significa en realidad,
n
  1X 2 P
X2 = X −→ E(X12 ) = m2 .
n n i=1 i

Y en general, si se verifican las hipótesis necesarias,


n
  1X k P
Xk = X −→ E(X1k ) = mk .
n n i=1 i

El valor n1 ni=1 Xik se suele denominar momento muestral de orden k, y en ese contexto
P
mk suele llamarse momento poblacional, para evitar confusión. Así, la expresión anterior
puede resumirse diciendo que «cuando n tiende a infinito, el momento muestral de orden
k converge (en probabilidad) al momento poblacional de orden k». Esta propiedad es
la base del método de estimación por momentos, que veremos más adelante. 

Cabe mencionar que la conclusión de la ley de los grandes números es cierta en


situaciones bastante más generales, aunque la demostración en esos casos tiende a ser
más compleja. La versión que enunciamos más arriba, en cambio, es una consecuencia
inmediata de la desigualdad de Tchebycheff. Por ejemplo, puede probarse que si las Xi
son v.a.i.i.d.7 , entonces la hipótesis de que la esperanza (µ = m1 ) está definida y es
6
Es claro que si las Xk son independientes, también lo serán las Yk = Xk2 . Sin embargo, no alcanza
con que las Xk tengan esperanza y varianza finitas, o —equivalentemente— momentos finitos de
primer y segundo orden: es necesario que las Yk tengan momentos finitos de primer y segundo orden.
Luego, es necesario que E(Yk ) = E(Xk2 ) y que E(Yk2 ) = E(Xk4 ) sean finitos, es decir, los momentos de
segundo y cuarto orden de Xk .
7
Notar que en el teorema 9 se supone independencia, pero no idéntica distribución. El agregado
de este supuesto, por su parte, permite relajar el supuesto de que m2 sea finito a que m1 lo sea,
solamente.
CAPÍTULO 4. TEORÍA ASINTÓTICA 74

finita es suficiente para probar8 que


P
X̄n −→ µ,

incluso si la varianza es infinita.


Sin embargo, la hipótesis de existencia de la esperanza es fundamental, no solo
porque si no no tendríamos adónde decir que converge la sucesión de medias muestrales,
sino porque es posible que en tales casos dicha sucesión no converja a ninguna constante
(es decir, a ninguna variable con distribución degenerada). Por ejemplo, puede probarse
que si las variables X1 , . . . , Xn tienen distribución de Cauchy estándar (Xk ∼ C(0, 1),
también denominada distribución t-student con un grado de libertad, o t1 ), entonces
también n
1X
X̄n = Xi ∼ C(0, 1),
n i=1

y por lo tanto no es posible decir que X̄n tienda en probabilidad a constante alguna. En
particular, no tiende a 0, que es la moda, mediana y centro de simetría, como podría
haberse esperado; esto ocurre porque la esperanza no está bien definida.9

8
La demostración puede hacerse mediante funciones generadoras de momentos (suponiendo que
estén bien definidas), o más en general mediante funciones características. Siguiendo la idea de
la demostración del teorema 6, si se desarrolla MX por Taylor hasta orden 1 es fácil probar que
D
MX̄n (t) −−−−→ eµt , y esto implica (teorema 5) que X̄n −−→ µ. Pero como µ es una constante, también
n→∞
P
resulta (teorema 8) que X̄n −−→ µ.
9
Esto sucede porque una densidad de la distribución es
1
fX (x) = .
π(1 + x2 )

Luego se tiene Z 0
x · fX (x) dx = −∞
−∞
y Z +∞
x · fX (x) dx = +∞,
0
por lo que la integral impropia Z +∞
x · fX (x) dx
−∞

no está bien definida.


Capítulo 5

Distribución de estadísticos muestrales

En este capítulo estudiamos algunas expresiones frecuentes que involucran las variables
de una muestra aleatoria, es decir, X1 , . . . , Xn v.a.i.i.d., y las distribuciones que siguen
bajo ciertas condiciones, con especial énfasis en al caso en que la distribución de las
Xk es N (µ, σ 2 ).
Cabe aclarar que dada una muestra aleatoria X1 , . . . , Xn , es usual denominar es-
tadístico a cualquier función g(X1 , . . . , Xn ) (que de por sí es también una variable
aleatoria, digamos T = g(X1 , . . . , Xn )). Incluso un par, una terna o en general una
k-upla de estadísticos, puede pensarse como un estadístico multidimensional ya que
se trata de una función de Rn en Rk . Sin embargo, en esta sección consideramos solo
estadísticos unidimensionales, es decir, funciones «sueltas».
Dicho esto, ejemplos de estadísticos muestrales usuales son
n n
1X 1X nS 2 X̄ − µ
Xk = X̄, (Xk − X̄)2 = S 2 , , ,
n k=1 n k=1 σ2 √S
n−1

etc.
Estudiamos a continuación algunas distribuciones de probabilidad que aparecen
naturalmente al estudiar este tipo de estadísticos.

5.1. Distribuciones usuales en el muestreo


En esta sección presentamos tres familias de distribuciones que surgen frecuen-
temente en el muestreo en poblaciones normales (además de la propia distribución
normal): la distribución chi-cuadrado, la distribución t-Student y la distribución F-
Snedecor (o F-Fisher ).

75
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 76

5.1.1. La distribución «chi-cuadrado»


Definición 17. Si Z ∼ N (0, 1), se denomina distribución χ21 (chi-cuadrado con 1 grado
de libertad ) a la distribución de la variable X = Z 2 . 

Sin embargo, esta distribución es un caso particular de la distribución Γ.


Propiedad 28. La distribución χ21 coincide con la distribución Γ 21 , 12 . En particular,


si X ∼ χ21 , entonces
1
MX (t) = (1 − 2t)− 2 .

Demostración. Hay varios caminos posibles para esta demostración. Una vez más, una
herramienta útil son las funciones generadoras de momentos. Si se prueba que, cuando
Z ∼ N (0, 1), la FGM de Z 2 es
 1  12
1
MZ 2 (t) = 1
2
= (1 − 2t)− 2
2
−t
eso completaría la demostración. Para eso es importante notar que
 2  Z +∞ 2
MZ 2 (t) = E etZ = etz fZ (z) dz,
−∞

donde fZ (z) es la función de densidad de la distribución normal estándar. Sin embargo,


tomaremos otro enfoque, que ilustra otra manera de estudiar la distribución de una
transformación de una variable aleatoria (y completar el desarrollo anterior se deja
como ejercicio).
Calcularemos directamente FX (t), siendo X = Z 2 . Para ello, en primer lugar ob-
servemos que FX (t) = P(X ≤ t) = P(Z 2 ≤ t), y que esta probabilidad es nula tanto
cuando t < 0 —porque {Z 2 ≤ t < 0} = ∅, es decir, no puede ocurrir— como cuando
t = 0 —porque {Z 2 ≤ 0} = {Z = 0}, y cualquier probabilidad puntual es 0 para la
distribución de Z, que es la normal y por lo tanto es continua—.
Por lo tanto, solo falta calcular FX (t) = P(Z 2 ≤ t) cuando t > 0. En ese caso,
√ √ √ 
FX (t) = P |Z| ≤ t = P − t ≤ Z ≤ t =
√ √ √ √
= FZ ( t) − FZ (− t − ) = FZ ( t) − FZ (− t),
donde la última igualdad vale por la continuidad de FZ √. Como FZ es derivable en todo
R, también lo es FX (salvo tal vez en t = 0, porque t no lo es, pero un punto no
influye), y esto nos permite obtener una densidad para X. A saber:
√ 1 √ −1
fX (x) = FX0 (x) = FZ0 ( x) · √ − FZ0 (− x) · √ ,
2 x 2 x
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 77

z2
y como FZ0 es la densidad fZ (z) = √1 e− 2 , que es simétrica respecto de z = 0,

√ 1
1 √ 1 1 ( x)2 (1/2) 2 1 −1 − 1 x
fX (x) = 2 · √ · fZ ( x) = x− 2 √ e− 2 =  x2 e 2 ,
2 x 2π Γ 12
cuando x > 0. Claramente la densidad da 0 para x < 0, por lo visto al principio. Esta
es, efectivamente, una densidad para la distribución Γ 21 , 12 .

Además, podemos dar la siguiente


Definición 18. Si X1 , . . . , Xn son variables independientes todas con distribución χ21 ,
se denomina χ2n (chi-cuadrado con n grados de libertad ) a la distribución de la variable
X = X 1 + · · · + Xn . 

Resulta entonces inmediato que


n 1

Propiedad 29. La distribución χ2n coincide con la distribución Γ ,
2 2
. En particular,
si X ∼ χ2n , entonces
n
MX (t) = (1 − 2t)− 2 .

Observación 16. Es inmediato probar que la suma de variables χ2n y χ2m independien-
tes tiene una distribución χ2n+m . 

Sin embargo, no vale lo mismo para la resta, aunque bajo ciertas condiciones puede
darse una propiedad que guarda cierta analogía.
Propiedad 30. Sean W ∼ χ2n , V ∼ χ2m (m < n), y sea U una variable aleatoria
independiente de V tal que W = U + V . Entonces,
U = W − V ∼ χ2n−m .

Demostración. Como U y V son independientes, vale


MW (t) = MU (t) · MV (t).
Luego, teniendo en cuenta la propiedad 29, vemos que
n
MW (t) (1 − 2t)− 2 −
n−m
MU (t) = = m = (1 − 2t) 2 ,
MV (t) (1 − 2t)−
2

y esto implica (por el teorema 3) que U ∼ χ2n−m .


CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 78

5.1.2. Las distribuciones «t-Student» y «F-Snedecor»


Al menos otras dos distribuciones surgen naturalmente al trabajar con estadísticos de
una muestra con distribución normal.

Definición 19. Si Z ∼ N (0, 1) y X ∼ χ2n son variables aleatorias independientes, se


denomina distribución tn (t-Student con n grados de libertad ) a la distribución de la
variable
Z
T =q .
X
n

Definición 20. Si U ∼ χ2m y V ∼ χ2n son variables aleatorias independientes, se


denomina distribución Fm,n (F-Snedecor con m grados de libertad en el numerador y n
grados de libertad en el denominador ) a la distribución de la variable
U
m
F = V
.
n

5.2. Distribución de algunos estadísticos


A continuación estudiamos la distribución de ciertas funciones de la muestra que
presentan las distribuciones antes estudiadas, para lo cual antes presentamos un im-
portante resultado: el Lema de Fisher.

5.2.1. El Lema de Fisher y la distribución de S 2


Si se considera la varianza muestral cuando se conoce la esperanza µ = E(Xi ) de una
distribución N (µ, σ 2 ), puede usarse la distribución χ2 para analizar la disribución de
la varianza muestral con media conocida
n
1X
σ̂n2 = (Xi − µ)2 ,
n i=1
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 79

o en realidad de una expresión relacionada, a saber:


n
nσ̂n2 X (Xi − µ)2
= ,
σ2 i=1
σ2

es decir n 2
nσ̂n2 X

Xi − µ
= .
σ2 i=1
σ

Como la expresión entre paréntesis tiene distribución N (0, 1), su cuadrado tiene
distribución χ21 . Y al ser cada término independiente de los demás, la suma es una χ2n .
Resumiendo:

Propiedad 31. Si X1 , . . . , Xn son v.a.i.i.d. con Xi ∼ N (µ, σ 2 ), entonces

nσ̂n2
2
∼ χ2n . 1
σ

Sin embargo, la mayoría de las veces que no se conoce σ 2 tampoco se conoce µ; entonces
un estadístico mucho más útil es la varianza muestral
n
1X 2
Sn2 = Xi − X̄ .
n i=1

En este caso, si se sigue la misma idea,


n  2
nSn2 X Xi − X̄
=
σ2 i=1
σ

y las variables Xiσ−X̄ si bien son normales (y su esperanza es 0), ni tienen varianza 1 ni,
menos aún son independientes entre sí (o al menos no tendrían por qué serlo, ya que,
por ejemplo, tanto X1σ−X̄ como X2σ−X̄ dependen de las n variables X1 , . . . Xn (porque
X̄ depende de todas ellas).
2
Por lo tanto, no puede afirmarse que nS
σ2
n
tenga distribución χ2n , y en principio no
habría siquiera motivos para suponer que su distribución sea de la familia χ2 . Pero sin
1
En este capítulo recuadramos para mayor claridad todas las fórmulas sobre distribuciones exactas
y asintóticas que serán de utilidad para desarrollar intervalos de confianza y pruebas de hipótesis (ver
?? y ??).
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 80

embargo, el caso es que dicho estadístico sí sigue una distribución χ2 , aunque no con
n grados de libertad.
Para este punto, resultará fundamental el siguiente teorema —conocido como Lema
de Fisher —, que es útil en sí mismo y volveremos a usar en varias ocasiones. Lo
enunciamos sin demostración.
Teorema 10 (Lema de Fisher). Si X1 , . . . , Xn son v.a.i.i.d., con Xi ∼ N (µ, σ 2 ), en-
tonces las variables aleatorias
n n
X X 2
Xi y Xi − X̄
i=1 i=1

son independientes. En particular, también son independientes X̄n y Sn2 .

Xi como (Xi − X̄)2 dependen de todas


P P
Observación 17. Es de notar que tanto
las variables X1 , . . . , Xn , por lo que no es nada obvio que estas sean independientes.
La indepedencia se prueba en base una propiedad de «ortogonalidad» entre ambos
estadísticos: en cierto sentido, ambos estadísticos capturan cada uno una parte de la
información contenida en el vector (X1 , . . . , Xn ) de modo que lo que uno «contiene»
de información sobre su distribución conjunta es independiente de lo que «contiene» el
otro. En cualquier caso, es importante destacar que la independencia solo se da si la
distribución de las Xi es normal. 
nSn2
Ahora sí, estamos en condiciones de probar cuál es la distribución de σ2
.
Teorema 11. Si X1 , . . . , Xn son v.a.i.i.d., con Xi ∼ N (µ, σ 2 ), entonces

nSn2
∼ χ2n−1 .
σ2

Demostración. En primer lugar, realizamos la siguiente descomposición:


n
X n
X
2
(Xi − µ) = [(Xi − X̄) + (X̄ − µ)]2 =
i=1 i=1
n
X n
X n
X
2
= (Xi − X̄) + 2(Xi − X̄)(X̄ − µ) + (X̄ − µ)2 .
i=1 i=1 i=1

Pero el último término es constante (para cada i), así que


n
X
(X̄ − µ)2 = n(X̄ − µ)2
i=1
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 81

y en el segundo término son constantes (para cada i) los factores 2 y (X̄ − µ), que
pueden sacarse de la suma como factor común, es decir
n
X n
X
2(Xi − X̄)(X̄ − µ) = 2(X̄ − µ) (Xi − X̄).
i=1 i=1

Pero
n
X n
X n
X n
X n
X n
X
(Xi − X̄) = Xi − X̄ = Xi − nX̄ = Xi − Xi = 0,
i=1 i=1 i=1 i=1 i=1 i=1

por lo que todo el segundo término del desarrollo anterior es 0. En resumen:


n
X n
X
2
(Xi − µ) = (Xi − X̄)2 + n(X̄ − µ)2 ,
i=1 i=1
2
y si dividimos por σ en cada miembro y reorganizamos cada término, tenemos
n  2 X n  2  2
X Xi − µ Xi − X̄ X̄ − µ
= + √ .
i=1
σ i=1
σ σ/ n

Sobre el miembro izquierdo sabemos que tiene, bajo las hipótesis del teorema, dis-
2
tribución χ2n , mientras que el último término de la derecha es la variable X̄ ∼ N (µ, σn )
menos su esperanza y dividida por su desvío (es decir, estandarizada) elevada al cua-
drado: por lo tanto, su distribución es χ21 .
2
El primer término de la derecha es, precisamente, nSσ2
n
, cuya distribución queremos
calcular. Lo esperable es que «por diferencia», se trate de una distribución del mismo
tipo, pero restando los grados de libertad de las otras dos, es decir, con distribución
χ2n−1 .
La propiedad 30 afirma que ese análisis es posible, siempre que sean independientes
las variables «que se suman» (en este caso, las del miembro derecho).
La variable de la izquierda depende de todas las Xi y la de la derecha también 2
(porque X̄ depende de todas). Sin embargo, la primera depende de ni=1 Xi − X̄ y
P
nada más (o de Sn2 , como se prefiera) y la segunda depende de X̄ y nada más. Como
por el Lema de Fisher esas dos variables son independientes, cualquier transformación
de una es independiente de cualquier transformación de la otra y por lo tanto vale
aplicar la propiedad 30 para concluir que la distribución es χ2n−1 , como se quería.

5.2.2. El «estadístico t»
Son varios los estadísticos con distribución t que surgen «naturalmente» en este con-
texto, y casi por regla general involucran algún cociente entre medias y varianzas
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 82

muestrales. Si bien más comúnmente se usa ese nombre para el estadístico de prueba
de un cierto test de comparación de medias poblacionales, en el contexto de una sola
muestra «el» estadístico t refiere a
X̄ − µ
t= .
√S
n−1

El nombre surge de la siguiente propiedad, que muestra una vez más la utilidad del
Lema de Fisher:

Propiedad 32. Si X1 , . . . , Xn ∼ N (µ, σ 2 ), entonces

X̄ − µ
∼ tn−1 .
√S
n−1

2
Demostración. Dado que X̄ ∼ N (µ, σn ), tenemos que

X̄ − µ
∼ N (0, 1).
√σ
n

Además, sabemos que


nS 2
∼ χ2n−1
σ2
y por el Lema de Fisher este cociente y el anterior son independientes (S 2 y X̄ lo son).
Luego, se tiene que
X̄−µ
√σ
n
r ∼ tn−1 ,
nS 2
σ2
n−1

por construcción.
Pero cancelando factores repetidos (hacer la cuenta), esta expresión es exactamente

X̄ − µ
,
√S
n−1

lo que completa la prueba.


CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 83

5.2.3. Estadísticos basados en dos muestras normales


Un caso de estudio frecuente es aquel en el que se toman dos muestras independientes
2
X1 , X2 , . . . , XnX ∼ N (µX , σX )

y
Y1 , Y2 , . . . , YnY ∼ N (µY , σY2 );
es decir una muestra de tamaño nX de variables con distribución normal y otra muestra
también normal pero con tamaño nY (posiblemente con nX 6= nY ) y con una media y
una varianza no necesariamente iguales a las de la primera muestra. Excede el objeto de
este capítulo discutir en qué contexto o a través de qué procedimiento surgen muestras
independientes, pero caben dos observaciones:

El hecho de que X1 , . . . , XnX sea una muestra aleatoria implica que las variables
2
Xi —además de tener todas la misma distribución (v.g., N (µX , σX ))— son inde-
pendientes entre sí, y lo mismo sucede con las variables Yj ; pero la independencia
entre muestras implica además que las variables Xi son independientes de las
variables Yj para cada i y cada j, o más generalmente, que las variables

X1 , X2 , . . . , XnX , Y1 , Y2 , . . . , YnY

son independientes dos a dos.

Esto implica que se trata de una situación esencialmente distinta al caso deno-
minado de muestras apareadas, en el que la primera observación de una muestra
«se corresponde» (en algún sentido probabilístico) con la primera observación de
la segunda muestra —es decir, X1 e Y1 —, y lo mismo ocurre con X2 e Y2 , con X3
e Y3 , etc., en cuyo caso —por cierto— se tiene necesariamente nX = nY .

Diferencia de medias

En estas circunstancias es usual querer estudiar la diferencia de medias poblaciona-


les µX − µY a través de la diferencia de medias muestrales X̄ − Ȳ , en cuyo caso resultan
de interés los estadísticos que aparecen a continuación.
Por un lado, la independencia entre muestras implica —en particular— que X̄ e Ȳ
son variables aleatorias (normales) independientes, por lo que su diferencia sigue una
distribución también normal, a saber:
2
σY2
 
σX
X̄ − Ȳ ∼ N µX − µY , + ,
nX nY
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 84

por lo que
(X̄ − Ȳ ) − (µX − µY )
q 2 2
∼ N (0, 1).
σX σY
nX
+ nY

Sin embargo, es usual querer realizar el mismo análisis sin necesidad de conocer los
2
valores σX y σY2 . Y si bien para el caso general no se tiene una solución completamente
2
satisfactoria de este problema, es usual estudiar el caso en que se supone que σX = σY2 ,
2
aun cuando este valor común —digamos σ — sea desconocido.

Propiedad 33. Dadas dos muestras independientes entre sí

X1 , X2 , . . . , XnX ∼ N (µX , σ 2 )

e
Y1 , Y2 , . . . , YnY ∼ N (µY , σ 2 ),
se tiene
(X̄ − Ȳ ) − (µX − µY )
q ∼ tnX +nY −2 ,
Sp n1X + n1Y

donde
2
nX SX + nY SY2
Sp2 = .
nX + nY − 2

Demostración. Del análisis anterior sabemos que

(X̄ − Ȳ ) − (µX − µY ) (X̄ − Ȳ ) − (µX − µY )


q = q ∼ N (0, 1).
σ 2 σ 2 1 1
nX
+ nY
σ nX
+ nY

Por otro lado


(nX + nY − 2) · Sp2 2
nX SX nY SY2
= + ∼ χ2nX +nY −2 ,
σ2 σ2 σ2
2
ya que es la suma de dos variables aleatorias independientes (SX y SY2 son indepen-
2 2
dientes) con distribuciones χnX −1 y χnY −1 , respectivamente, por lo que su distribución
es también chi-cuadrado pero con nX − 1 + nY − 1 grados de libertad.
Por otro lado, esta expresión y la anterior corresponden a variables aleatorias inde-
pendientes, lo que puede justificarse mediante el lema de Fisher, y esto implica —por
construcción— que
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 85

(X̄−Ȳ )−(µX −µY )


q
σ n1 + n1
X Y
r 2
∼ tnX +nY −2 .
(nX +nY −2)·Sp
σ2
nX +nY −2

Pero reordenando la expresión puede verse que esta variable es exactamente la del
enunciado del teorema.

Cociente de varianzas

También es un problema usual el de querer comparar las varianzas de dos poblacio-


nes normales (no necesariamente con la misma media). Para esto se suele estudiar el
σ2 S2 S ∗2
cociente de varianzas poblacionales σX2 , mediante el cociente SX2 , o bien mediante SX∗2 ,
Y Y Y
donde S ∗2 se define como
n
S ∗2 = S2
n−1
y se denomina «varianza muestral insesgada» (ver capítulo 6) o «cuasivarianza».
Recordemos que en estas condiciones
2
nX SX nY SY2
2
∼ χ2nX −1 y ∼ χ2nY −1 ,
σX σY2
así que
2
nX SX
2
σX
/(nX − 1)
nY SY2
∼ FnX −1,nY −1 ,
σY2 /(nY − 1)
que puede reescribirse como
2
nX nY − 1 SX σ2
· · 2 · Y2 ∼ FnX −1,nY −1 .
nY nX − 1 SY σX

2
Puede obtenerse una expresión más sencilla si se utilizan en lugar de SX y SY2 las
denominadas cuasivarianzas. En ese caso se tiene
∗2
SX σY2
· 2 ∼ FnX −1,nY −1 .
SY∗2 σX

En la siguiente tabla resumimos las principales características de las distribucio-


nes introducidas en este capítulo: a saber, la distribución χ2n , la distribución tn y la
distribución Fm,n .
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES
Nombre Notación Función de densidad Función de distribución Esperanza Varianza

Chi-cuadrado

t-Student

F-Snedecor

86
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 87

5.3. Distribución de estadísticos de orden


Al tomar una muestra de tamaño n, ningún mecanismo asegura que los valores vayan
a surgir en un orden determinado, como por ejemplo

X1 ≤ X 2 ≤ . . . ≤ Xn .

De hecho, si se supiera que esto debe ocurrir necesariamente, entonces el valor de X1


actuaría como «piso» para el valor de X2 y las demás observaciones (y lo mismo haría
X2 para X3 y las subsiguientes, etc.), lo que derribaría el supuesto de que las variables
Xi son independientes e idénticamente distribuidas.
Sin embargo, muchas veces resulta útil pensar en la muestra ordenada, para lo cual
usamos la siguiente notación:

X(1) ≤ X(2) ≤ . . . ≤ X(n) .


Es decir: X(1) es el valor que toma la menor de las observaciones, X(2) es el menor valor
de las n−1 observaciones restantes, etc. El valor X(i) se denomina el i-ésimo estadístico
de orden.
Si bien podría pensarse que existe ambigüedad en la definición cuando dos observa-
ciones toman el mismo valor (algo que si la definición subyacente es discreta de hecho
puede ocurrir con probabilidad positiva), en ese caso los correspondientes estadísticos
de orden serán iguales, y no es ambiguo cuál de las observaciones corresponde a cada
una, ya que los estadísticos de orden no son las variables ordenadas sino los valores de
las mismas.
Es decir, si resultara ser

(X1 , X2 , X3 , X4 ) = (4, 2, 6, 2)

tenemos
(X(1) , X(2) , X(3) , X(4) ) = (2, 2, 4, 6).
Y podríamos pensar que existe ambigüedad en el hecho de que no sabemos si en este
caso es
X(1) = X2 y X(2) = X4
o
X(1) = X4 y X(2) = X2 ,
pero es un error pensarlo de este modo, ya que en este caso todas son ciertas porque
de hecho, como resulta obvio, ocurrió que

X(1) = X(2) = X2 = X4 .
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 88

Es decir, a los estadísticos de orden se les asignan los valores de las observaciones, pero
no es necesariamente cierto que a cada uno le asignemos una de las variables de la
muestra en forma biunívoca.2
Es claro que estos estadísticos tendrán una distribución de probabilidad (son va-
riables aleatorias, ya que sus valores solo se determinan una vez conocido el resultado
[aleatorio] de la extracción de la muestra). De hecho, esta distribución dependerá de la
distribución de las Xi . Empecemos por un ejemplo.

Ejemplo 14. Llamemos F a la función de distribución de la población de la que se


extraen las observaciones, es decir

FXi (t) = F (t), 1 ≤ i ≤ n.

Queremos saber cuál es la distribución de M = X(n) , es decir, la (función de)


distribución de la variable aleatoria

M = máx{X1 , X2 , . . . , Xn }.

Podríamos pensar que M tiene la misma distribución F que las Xi , ya que resulta
siempre igual a una de ellas. Pero en realidad este modo de razonar no tiene sentido
(como se dijo, M no es una de las variables de la muestra, sino otra variable que toma
el mismo valor que una de ellas al menos —la que resulte mayor—).
Por ejemplo si se tuviera Xi ∼ U[0, 1] y n = 1000, es razonable pensar que la
probabilidad de que M > 0,95 es relativamente alta, ya que entre mil repeticiones, casi
con certeza habrá al menos una (probablemente varias) que superen el valor 0,95, y en
ese caso el máximo M de todas las observaciones también lo superará. Sin embargo, si
M tuviera también distribución U[0, 1], se tendría apenas P(M > 0,95) = 0,05, lo cual
es claramente absurdo.
Para convencernos, calculemos dicha probabilidad exactamente. Como dijimos, bas-
ta con que una de las variables X1 , . . . , X1000 supere el valor 0,95 para que M también
lo haga. Puesto de otro modo podríamos también decir que

M ≤ 0,95 ⇐⇒ Xi ≤ 0,95 ∀i ∈ {1, . . . , 1000};

o dicho más simplemente,

M ≤ 0,95 ⇐⇒ X1 ≤ 0,95 ∧ . . . ∧ X1000 ≤ 0,95.


2
Sin embargo, esta forma de ver la situación es útil en ciertos contextos como la estadística no
paramétrica, y es razonable cuando la distribución de las variables de la muestra es continua ya que
en esos casos se tiene probabilidad cero de tener valores repetidos en la muestra.
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 89

Esto es cierto, puesto que si el máximo valor es menor o igual que 0,95, también
lo serán todos los de la muestra dado que son menores o iguales que el máximo. Y
recíprocamente, si todos los valores en la muestra son menores o iguales a 0,95, el
máximo de todos —que es uno de ellos— también lo será. Esto prueba la equivalencia.
Pero los mil sucesos aleatorios {Xi ≤ 0,95} son independientes entre sí, porque las
variables Xi lo son, por lo que tenemos

P(M ≤ 0,95) = P(X1 ≤ 0,95∧. . .∧X1000 ≤ 0,95) = P(X1 ≤ 0,95)·. . .·P(X1000 ≤ 0,95).

Ahora bien, como todas las Xi tienen distribución U[0, 1], resulta P(Xi ≤ 0,95) = 0,95,
por lo que
P(M ≤ 0,95) = 0,951000 = 5,3 × 10−23 ,
y entonces
P(M > 0,95) = 1 − 0,951000 ' 1.

Más en general, el mismo razonamiento dice que si las Xi tienen función de distri-
bución F , entonces

P(M ≤ 0,95) = P(X1 ≤ 0,95) · . . . · P(X1000 ≤ 0,95) = F (0,95)1000 .

Y más generalmente aún, si la muestra es de tamaño n y tomamos en lugar de 0,95


un valor t arbitrario,

P(M ≤ t) = P(X1 ≤ t) · . . . · P(Xn ≤ t) = [F (t)]n ,

es decir
FM (t) = [F (t)]n .


Vimos en el ejemplo anterior que FX(n) = [F (t)]n si llamamos F a la función de


distribución de las Xi (es decir, la distribución poblacional). Siguiendo los mismos
razonamientos, podemos ver que el primer estadístico de orden, el mínimo de las ob-
servaciones, tiene la propiedad X(1) > t si y solo si Xi > t para todo i = 1, 2, . . . , n.
Luego,
n
Y
P(X(1) > t) = P(Xi > t) = [1 − F (t)]n .
i=1

Y por lo tanto,
FX(1) (t) = 1 − P(X(1) > t) = 1 − [1 − F (t)]n .
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 90

Para entender el caso general, repensemos lo anterior. También podríamos haber


dicho que para que X(1) ≤ t es suficiente con que al menos una de las n observa-
ciones resulte menor o igual a t, es decir, que ocurra al menos uno de los n eventos
independientes
{Xi ≤ t}, i = 1, . . . , n,
que también son equiprobables con probabilidad F (t). La probabilidad de dicho even-
to puede entenderse como la probabilidad de que para una variable aleatoria Y con
distribución binomial, más precisamente

Y ∼ Bi n, F (t) ,

suceda {Y ≥ 1}.
De igual modo, {X(2) ≤ t} tiene la misma probabilidad que {Y ≥ 2} y, en general,

P(X(k) ≤ t) = P(Y ≥ k).

Por lo tanto, resulta


n  
X n
FX(k) (t) = ·[F (t)]y ·[1 − F (t)]n−y ,
y
y=k

de donde surgen como casos particulares los ya mencionados

FX(1) (t) = 1 − [1 − F (t)]n

y
FX(n) (t) = [F (t)]n .

Es de destacar que si n es impar, el estadístico de orden X n+1  es simplemente


2
la mediana muestral, que suele representarse como Me(Xi ) o como X̃ (si n es par la
mediana será el promedio de los estadísticos de orden n2 y n+1
2
).
Como comentario final, nótese que cuando las Xi son independientes pero no con
la misma distribución, pueden generalizarse los razonamientos ya vistos. Como caso
particular, si tenemos X1 , X2 y X3 , cada una con una distribución en particular (e
independientes), es fácil ver que la distribución de M = máx{X1 , X2 , X3 } se puede
expresar como
FM (t) = FX1 (t) · FX2 (t) · FX3 (t)
y que la distribución de N = mı́n{X1 , X2 , X3 } resulta
  
FN (t) = 1 − 1 − FX1 (t) · 1 − FX2 (t) · 1 − FX3 (t) .
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 91

5.4. Algunas distribuciones asintóticas relevantes

Cuando se tiene una muestra aleatoria (es decir v.a.i.i.d.) X1 , X2 , . . . , Xn de una


distribución cualquiera con momentos de primer y segundo orden finitos, sabemos por
el teorema central del límite que vale

X̄n − µ D
−→ N (0, 1).
√σ
n

Entonces este estadístico, con distribución asintótica conocida es aproximadamente


válido para deducir intervalos de confianza o test de hipótesis, provisto que n sea un
número suficientemente grande.3
En este apartado presentamos otros estadísticos usuales cuya distribución asintótica
es conocida, por lo que resultan útiles para la inferencia estadística. Para realizar este
análisis, resulta fundamental el siguiente teorema.

Teorema 12 (Teorema de Slutsky). Dadas sucesiones de variables aleatorias {Xn } e


{Yn } tales que
D P
Xn −→ X e Yn −→ c ∈ R,

entonces existe el límite en distribución de Xn · Yn y resulta


D
Xn · Yn −→ cX.

D
Observación 18. Es importante recordar que la expresión Xn −→ X es una notación
D
alternativa a Xn −→ FX , que usamos en este caso por simplicidad, pero que no implica
que haya una alta probabilidad de que los valores de Xn tiendan al valor de X, ni nada
similar; solo estamos afirmando que las sucesivas funciones de distribución FXn tienden
a los valores de la función FX para todos los valores de t donde esta última es continua.
D
Alternativamente, podríamos enunciar el teorema diciendo que si Xn −→ F y F̃
es la distribución de una variable que resulta de multiplicar c por una variable con
distribución F , es decir,
F̃ (t) = F ct ,


3
Como regla práctica es usual en contextos pedagógicos aceptar dicha aproximación cuando n ≥ 30,
si bien esta idea es obviamente una sobresimplificación.
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 92

P
entonces si además Yn −→ c, se tiene

D
Xn · Yn −→ F̃ .

Notar que en particular, si c = 1, entonces


D
Xn · Yn −→ F (t),

al igual que Xn . 

5.4.1. Distribución asintótica de medias muestrales


Caso general

En primer lugar, podemos usar la LGN para probar que4


P
S 2 −→ σ 2 ,

(o, dicho en otros términos, S 2 es un estimador consistente de σ 2 —ver capítulo 6—)


y por ello resulta
σ2 P
−→ 1
S2
o —tomando la raíz cuadrada—
σ P
−→ 1.
S
De la última afirmación y del TCL, surge —vía el teorema de Slutsky— que

X̄n − µ σ D
· −→ N (0, 1),
√σ S
n

4
Para esto, reexpresamos S 2 como
1X 2
Xn − (X̄)2 ,
n
y bajo condiciones que garanticen la LGN (como las Xn2 son v.a.i.i.d., al igual que las Xn , alcanza con
suponer que m1 y m2 son finitos) esto implica que
P
S 2 −−→ m2 − m21 = σ 2 .
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 93

es decir
X̄n − µ D
−→ N (0, 1).
√S
n

Esta conclusión vale si las Xi son v.a.i.i.d. con momentos finitos al menos de segundo
orden, y resultará útil para hacer inferencia en contextos en que de la distribución
subyacente no se conozca siquiera la varianza (aunque sí se tenga certeza de que esta
existe y es finita).

Proporción muestral

Un caso frecuente de inferencia con una distribución no normal que satisface las
condiciones mencionadas es aquel en que las Xi ∼ Be(p). En este caso —en el que
X̄ suele notarse por p̄ y representa la proporción de éxitos entre las n observaciones
realizadas—, como E(Xi ) = p y var(Xi ) = p(1 − p), resulta del TCL que
p̄ − p D
qn −→ N (0, 1).
p(1−p)
n

Y además, dado que


p(1 − p) P
−→ 1
p̄n (1 − p̄n )
P
(porque p̄n −→ p), surge del Teorema de Slutsky que
s
p̄n − p p(1 − p) D
q · −→ N (0, 1).
p(1−p) p̄n (1 − p̄n )
n

Es decir,
p̄ − p D
qn −→ N (0, 1).
p̄n (1−p̄n )
n

5.4.2. Comparación de medias de muestras independientes


Caso general

Si se quieren comparar las medias de dos muestras provenientes de poblaciones no


necesariamente normales, también se puede recurrir a ciertos resultados sobre distribu-
ciones asintóticas. Por ejemplo, puede probarse que si cuando nX → +∞ y nY → +∞
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 94

se tiene
nX
→ λ > 0, 5
nY
entonces
(X̄ − Ȳ ) − (µX − µY ) D
q 2 2
−→ N (0, 1) .
σX σY
nX
+ nY

Sin embargo, la demostración es menos inmediata de lo que puede parecer, ya que no se


basa —al menos directamente— en la propiedad de la suma de normales independientes
D D
combinada con el TCL, como podría creerse; esto es porque si Xk −→ X e Yk −→ Y
D
no vale en general (aunque puede ocurrir) que Xk + Yk −→ X + Y .
Ahora bien, si no se conocen las varianzas de ambas muestras, es útil otro estadístico
cuya distribución asintótica podemos deducir del teorema de Slutsky. En primer lugar,
notemos que como
2 P 2 P
SX −−−−−→ σX y SY2 −−−−−→ σY2 ,
nX →∞ nY →∞
6
puede probarse que q 2
σX 2
σY
nX
+ nY P
q 2
−→ 1.
SX SY2
nX
+ nY

Por lo tanto, podemos concluir que


q
σ2 2
σY
(X̄ − Ȳ ) − (µX − µY )
X
nX
+ nY D
q 2 2
· q 2
−→ N (0, 1),
σX σY SX SY2
nX
+ nY nX
+ nY

5
Esto garantiza que ni nX crece «mucho más rápido» que nY (en cuyo caso el cociente tendería
a ∞, ni nY crece mucho más rápido que nX , en cuyo caso el cociente tendería a 0; en realidad
ambos tamaños muestrales tienden a crecer en una cierta proporción. Por ejemplo, imaginemos que
tomáramos un par de muestras de tamaño (nX , nY ) = (1, 1), luego de tamaño (2, 4), luego (3, 9),
después (4, 16), y que en general el n-ésimo par de muestras fuera de tamaño (n, n2 ). En ese caso no
tendríamos garantizada la conclusión, ya que
nX n 1
= 2 = −−−−→ 0.
nY n n n→∞
Es decir que a medida que tomamos las sucesivas muestras, podría ocurrir que la distribución del
estadístico en cuestión no converja a una distribución normal, o incluso que no converja a ninguna
distribución (notar que en la muestra número 100 se tendrá nX = 100, pero nY = 10 000 será cien
veces mayor).
6
Este resultado es menos obvio de lo que parece, ya que en realidad el límite en cuestión involucra
una indeterminación del tipo «cero sobre cero»; en cualquier caso, puede probarse que es válido
haciendo uso de la condición nnX
Y
→ λ > 0.
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 95

es decir
(X̄ − Ȳ ) − (µX − µY ) D
q 2 −→ N (0, 1).
SX SY2
nX
+ nY

Comparación de proporciones

Nuevamente, una aplicación especialmente útil es el caso en que las poblaciones


tienen distribuciones de Bernoulli, con parámetros que llamaremos pX y pY , respecti-
vamente. En ese caso vale que
(p̄X − p̄Y ) − (pX − pY ) D
q −→ N (0, 1),
pX (1−pX ) pY (1−pY )
nX
+ nY

aunque esta expresión no es muy útil para estudiar pX − pY ya que depende también
de los valores individuales de cada parámetro.
Resulta útil, nuevamente, aplicar el teorema de Slutsky, para concluir que

(p̄X − p̄Y ) − (pX − pY ) D


q −→ N (0, 1).
p̄X (1−p̄X ) p̄Y (1−p̄Y )
nX
+ nY

También es de interés una expresión que surge en el caso particular en que se supone
que la diferencia entre ambos parámetros es nula, es decir, que pX = pY . Si llamamos p
a ese valor común, tenemos que tanto Xk como Yk siguen una distribución Be(p), por
lo que
E(p̄X − p̄Y ) = p − p = 0
y
p(1 − p) p(1 − p) p(1 − p)
var(p̄X − p̄Y ) = + = .
nX nY nX + nY
Luego,
p̄ − p̄Y D
qX −→ N (0, 1).
p(1−p)
nX +nY

Si ahora definimos una proporción muestral común a ambas muestras como


P P
nX p̄X + nY p̄Y Xk + Yk
p̂ = = ,
nX + nY nX + nY
entonces
nX p + nY p
E(p̂) = =p
nX + nY
CAPÍTULO 5. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 96

y
nX p(1 − p) + nY p(1 − p) p(1 − p)
var(p̂) = 2
= ;
(nX + nY ) nX + nY
y por la LGN vale que
P
p̂ −→ p

cuando nX + nY → +∞.
Luego, el teorema de Slutzky garantiza que si nX , nY → +∞ (en cuyo caso también
nX + nY → +∞), con la condición nnXY → λ > 0, entonces también
q
p(1−p)
p̄ − p̄Y nX +nY D
qX ·q −→ N (0, 1).
p(1−p) p̂(1−p̂)
nX +nY nX +nY

O simplificando la expresión,

p̄ − p̄Y D
qX −→ N (0, 1).
p̂(1−p̂)
nX +nY
Capítulo 6

Estimadores puntuales

Abordamos en este capítulo el problema de la estimación puntual de uno o más


parámetros de una distribución de probabilidad desde la perspectiva clásica (en el ??
se presenta el mismo problema desde la perspectiva bayesiana). Este problema surge
al estudiar una cierta variable o característica cuantitativa cuya distribución «pobla-
cional» es solo parcialmente conocida, y la información desconocida puede resumirse
en una cantidad finita de valores, conocidos como «parámetros» de la distribución.
Para precisar el problema comenzamos por definir nociones como «población»,
«muestra aleatoria», «modelo estadístico paramétrico», etc (apartado 6.1). Luego de-
finiremos el concepto de «estimador puntual» y presentaremos ciertas propiedades que
es deseable que un estimador verifique (apartado 6.2), y lo mismo haremos para el con-
cepto más amplio de «estadístico» (apartado 6.3); para completar dicha presentación
será de gran utilidad definir la «información de Fisher» (apartado 6.4). Finalmente,
presentamos procedimientos sistemáticos que permiten generar estimadores puntuales:
los llamados «métodos de estimación» (apartado 6.5).

6.1. Introducción a la inferencia estadística


Presentamos a continuación algunas nociones básicas sobre inferencia estadística,
que resultan centrales para los contenidos no solo de este capítulo, sino también de los
subsiguientes.

97
CAPÍTULO 6. ESTIMADORES PUNTUALES 98

6.1.1. Población: concepto. Muestra aleatoria (muestreo alea-


torio simple).
El concepto de población suele usarse en referencia a dos situaciones diferentes en
las que es de interés aplicar métodos de inferencia estadística:

Puede ser que exista efectivamente una población, es decir, un conjunto (finito)
de unidades sobre las cuales se puede medir la variable o característica de interés
(por ejemplo, las personas que viven en una ciudad —sobre las que podemos
considerar variables como la estatura, la edad, el tiempo que llevan viviendo
allí, etc.—), en cuyo caso la variable en cuestión tiene una cierta distribución
de frecuencias a la que teóricamente se podría acceder si se realizara un censo
completo sin errores ni omisiones.

Puede ser que en cambio la característica que se quiere medir surja como repe-
tición de un experimento que idealmente puede reiterarse una infinidad de veces
en forma controlada (por lo que suele hablarse de «experimento de laboratorio»)
a tal extremo que se logre mantener la independencia entre una y otra realización
del mismo y que las condiciones al comienzo de y durante cada repetición sean
idénticas al punto de que pueda asignarse a la característica de interés una misma
distribución de probabilidad antes de cada realización del experimento aleatorio.

En cualquiera de estos casos, podríamos considerar —en teoría— una cantidad n


de variables aleatorias a observar (en general, las denominamos X1 , X2 , . . . , Xn ) inde-
pendientes e idénticamente distribuidas, cuya distribución de probabilidad reflejaría la
distribución «poblacional» en cada caso. A saber:

En el caso de un experimento tipo «laboratorio», basta con repetir n veces el


experimento, cuidando que las condiciones sean las mismas al comienzo de cada
repetición y, en particular, que no se vean afectadas por los resultados anteriores.

Para el caso de una población «finita» de tamaño N , la distribución de probabi-


lidad de la característica en cuestión es en realidad idéntica a la distribución de
frecuencias de esta en la población, por lo que en realidad es siempre una varia-
ble aleatoria discreta1 . Por ejemplo, si se estudia la estatura (en metros) de una
población de N = 100 personas, por un lado es claro que el registro de los datos
se hará hasta una cierta precisión (digamos, por ej., centímetros), por lo que solo
valores como 1,51 m; 1,52 m; 1,53 m; etc., pueden obtenerse efectivamente2 . Una
1
No obstante, frecuentemente puede modelarse dicha distribución discreta mediante una distribu-
ción continua, con un grado de aproximación razonable y considerable simplificación del análisis y de
los cálculos involucrados.
CAPÍTULO 6. ESTIMADORES PUNTUALES 99

vez considerado este detalle, si hubiese entre las cien unidades de la población
exactamente tres de ellas con una estatura de 1,72 m (con precisión a cm) —es
decir, una frecuencia relativa fr = 0,03—, entonces al elegir una persona/unidad
1
al azar (cada una con probabilidad 100 ), la probabilidad de que el resultado de
3
medir la estatura de la persona seleccionada al azar sea 1,72 m es claramente 100 ,
igual a la frecuencia relativa. Pero para que al elegir n unidades la distribución
aleatoria sea cada vez la misma que al principio debe ocurrir o bien

— que la extracción sea con reposición, por lo que cada unidad puede salir
ninguna, una, dos o hasta n veces entre las n extracciones; o bien
— que por más que la extracción sea sin reposición, el tamaño muestral sea
muy inferior al poblacional (n << N ), de modo que si bien cada unidad que
se extrae y no se repone modifica la distribución de frecuencias sobre la que
se muestrea, tal efecto sea prácticamente inapreciable y resulte despreciable
en la práctica.

En cualquiera de estos casos podemos pensar en que observaremos n variables aleato-


rias independientes y con idéntica distribución (v.a.i.i.d.) X1 , X2 , . . . , Xn (que también
puede representarse como un vector X ~ = (X1 , X2 , . . . , Xn ), y que denominamos la
3
muestra aleatoria .
2
Nótese que aun si la precisión fuera infinita, habiendo una cantidad finita de unidades poblaciones,
la variable aleatoria que se mide es de todos modos discreta, sin importar que se trate de una magnitud
«continua» como la estatura (si acaso cabe hablar de algo continuo en un universo cuantizado).
Es decir que con la precisión suficiente tal vez las cien estaturas tengan valores diferentes, pero de
todos modos se tendrá una variable aleatoria discreta que tendrá por rango al conjunto de esas cien
1
estaturas diferentes y su función de probabilidad le asignará probabilidad 100 a cada valor del rango.
En contextos como este, las variables aleatorias continuas son una buena y necesaria aproximación
al fenómeno real, ya que permiten un análisis mucho más simple y profundo tal vez que la propia
distribución exacta; pero no por eso dejan de ser una aproximación a la distribución real que es, como
dijimos, discreta.
3
El procedimiento de seleccionar sucesivamente elementos de la población de forma tal que en
cada repetición todas las unidades poblacionales tengan la misma probabilidad de ser elegidas (el
equivalente a un sorteo donde todos/as los/as participantes tienen un solo número y no se direcciona
el resultado mediante ningún mecanismo de fraude) se denomina muestreo aleatorio simple (M.A.S.) o
muestreo simple al azar (M.S.A.). En particular, se puede distinguir entre M.A.S. con y sin reposición.
En lo sucesivo, salvo aclaración en contrario, cuando hablamos de una muestra aleatoria se sobreen-
tiende que fue generada o por un experimento de laboratorio controlado que garantiza la independencia
y la idéntica distribución entre las variables que conforman la muestra, o que se extrajo una muestra
de una población finita mediante M.A.S. con reposición (o al menos bajo la condición n << N ). Sin
embargo, el muestreo en poblaciones finitas puede realizarse de maneras mucho más elaboradas que
no analizamos en estas notas pero que pueden ser preferibles por diversos motivos teóricos y prácticos
(muestreo sistemático, muestreo estratificado, muestreo por conglomerados, etc.).
CAPÍTULO 6. ESTIMADORES PUNTUALES 100

6.1.2. Modelos estadísticos paramétricos y no paramétricos.


El conocimiento previo aunque incompleto de la población de estudio suele permi-
tir hacer ciertas hipótesis sobre la distribución de probabilidad subyacente. En muchos
casos puede decirse con razonable certeza que la distribución de la variable o caracterís-
tica de estudio sigue una cierta distribución aleatoria con función de distribución F (t),
pero de la que solo se sabe que pertenece a determinado conjunto F de distribucio-
nes. Esta determinación del conjunto de posibles distribuciones de la variable aleatoria
resulta en el planteo de lo que se denomina un modelo estadístico. En el caso de que
cada distribución del conjunto o familia F se pueda identificar unívocamente fijando
los valores de una cantidad finita de parámetros, se dice que el modelo es paramétrico
(por ejemplo, si decimos que F es el conjunto de las distribuciones normales con cual-
quier media y varianza); de lo contrario, es un modelo no paramétrico (por ejemplo, si
decimos que F es el conjunto de las distribuciones simétricas con mediana igual a 0).
En lo que sigue abordamos modelos paramétricos y estudiamos el problema de la
estimación paramétrica puntual. Para precisar conceptos: suponemos que la muestra
aleatoria X1 , X2 , . . . , Xn —es decir, las n v.a.i.i.d— se obtienen de manera que su
distribución es una (la misma para todas) entre las varias distribuciones del conjunto
F, las cuales solo se diferencian en el valor de un parámetro θ. Podemos simbolizar
esto como
Xi ∼ Fθ (t), θ ∈ Θ ⊂ Rp .
Como se observa, suponemos para mayor generalidad que θ puede ser un vector p-
dimensional, lo que permite pensar que el modelo tiene más de un parámetro. El
conjunto Θ se denomina espacio paramétrico (es el conjunto de los posibles valores
del parámetro) y p es la cantidad de parámetros del modelo (es decir, la cantidad de
componentes de θ).
Ejemplo 15. Si suponemos el modelo
F = {F (t) : F es una distribución normal},
podemos suponer que θ = (µ, σ 2 ) y que el espacio paramétrico es Θ ⊂ R2 (porque hay
dos parámetros), donde
Θ = {(µ, σ 2 ) ∈ R2 : σ 2 > 0},
es decir, la mitad superior del plano coordenado (sin contar el eje horizontal).
Como el supuesto es de normalidad, las funciones F(µ,σ2 ) ∈ F son de la forma
Z t
1 1 2
F(µ,σ2 ) (t) = √ e− 2σ2 (x−µ) dx,
2πσ 2
−∞

y si se fija un valor para µ ∈ R y otro para σ 2 > 0, ello determina completamente la


distribución de probabilidad. 
CAPÍTULO 6. ESTIMADORES PUNTUALES 101

Una vez definido entonces un modelo paramétrico, el problema de seleccionar una


distribución del conjunto F para modelizar la variable de análisis se reduce a elegir
un valor para el parámetro θ dentro del espacio paramétrico Θ. Este es el problema
estadístico de la estimación puntual. Esto es, en base al modelo planteado, una vez
obtenida una muestra aleatoria: ¿cómo usar dichos datos para dar una estimación
razonable de los parámetros poblacionales, lo que equivaldrá a seleccionar una entre
todas las distribuciones posibles? ¿En base a qué criterios se puede evaluar la calidad
de dichas estimaciones y cómo se puede decidir entre procedimientos alternativos?

6.2. Estimadores puntuales. Propiedades deseables.


Dicho todo esto, entendemos que la estimación consiste en realizar algún cálculo con
los resultados de la muestra y obtener un valor numérico que será nuestra estimación
del parámetro θ en cuestión. En principio solo cabe una restricción obvia sobre dicho
cálculo: si θ es desconocido no puede usarse su valor en ningún cálculo. Por eso definimos
el concepto de estimador θ̂ del parámetro θ como cualquier función h(X1 , . . . , Xn ) que
no dependa del valor de θ.

6.2.1. Distribución de un estimador. Características relevantes


y propiedades deseables
Dado que el estimador θ̂ = h(X1 , . . . , Xn ) es una función de la muestra aleatoria,
es claro que es en sí mismo una variable aleatoria (discreta, continua o de cualquier
tipo), con una correspondiente distribución de probabilidad; en particular podrá te-
ner (o no) definida una esperanza, una varianza y otros momentos de orden superior
—posiblemente incluso su FGM esté bien definida—, y tendrá sentido hablar de su
mediana, moda, percentiles, etc. Estas características de su distribución son relevantes
a la hora de apreciar sus propiedades y «bondades» como estimador del parámetro fijo
(no aleatorio, pero desconocido4 ) θ.
En particular, resultan relevantes:
4
Esta caracterización de la noción de parámetro, la de un valor desconocido que sin embargo se
considera bien definido como un valor constante, no como una variable aleatoria, es propia del denomi-
nado «enfoque clásico» de la inferencia estadística. Como se verá en el ??, el «enfoque bayesiano» se
caracteriza en cambio, fundamentalmente, por interpretar los parámetros desconocidos como variables
aleatorias, a las que se puede asignar por lo tanto una distribución de probabilidad (en función de
alguna noción de probabilidad aplicable al problema de inferencia en cuestión).
CAPÍTULO 6. ESTIMADORES PUNTUALES 102

Medidas de tendencia central : indican en torno a qué valores caerán las realiza-
ciones de θ̂ si se usa varias veces ese estimador para diferentes muestras, ya sea
que pensemos en los valores de mayor probabilidad o densidad (valores modales
o modas), los que separan cantidades iguales de observaciones (por ejemplo las
mayores y las menores, como la mediana), el valor que aparece como promedio
de muchas repeticiones (la media o esperanza), etc.
Medidas de dispersión: indican si las reiteradas estimaciones realizadas con θ̂
presentarán valores similares o cercanos a los valores centrales, o si por el contrario
habrá gran variabilidad.
Medidas directas del error de estimación: son cuantificaciones basadas en la di-
ferencia θ − θ̂, que indica el error cometido si se toma la estimación θ̂ como valor
aproximado del parámetro desconocido θ. En general existen varias maneras de
obtener un valor que represente la situación genérica, entre las cuales se desta-
can especialmente el error cuadrático medio o ECM (ver más adelante), el error
absoluto medio, el error mediano absoluto, etc.

Es claro que el error debería ser pequeño, que las estimaciones deberían distribuirse
en torno al valor verdadero y que sería interesante que lo hicieran con poca dispersión.
El inconveniente es que en la mayoría de los casos relevantes algunas de estas propie-
dades suelen ir en detrimento de las otras. Por ello, llamaremos propiedades deseables a
las «buenas» propiedades de un estimador, aun cuando no se las pueda considerar esen-
ciales. Es decir que no serán en general propiedades irrenunciables, a veces ni siquiera
serán alcanzables: pero basta con pensar que entre la posibilidad de que se verifiquen o
no se verifiquen, si eso no obliga a cambiar nada más, sin dudas elegiríamos que dichas
propiedades estén presentes.
En los próximos apartados estudiamos algunas de ellas, muchas de las cuales están
claramente motivadas en la discusión que antecede.

Propiedades en muestras finitas

Mencionamos a continuación algunas propiedades que pueden definirse para valores fijos
de n. En general si se hace un análisis para n ∈ N genérico, usualmente la propiedad se
verifica para cada valor posible de n o para ninguno, aunque si solo fuera cierta para
algunos valores bastaría con dicha aclaración.
Empezamos con una definición que no se refiere en sí a la distribución de probabi-
lidad de θ̂, sino a su forma funcional.
Definición 21 (Linealidad). Un estimador basado en la muestra X1 , . . . , Xn se deno-
~ ni del parámetro
mina lineal si existen constantes α0 , α1 , . . . , αn no dependientes de X
CAPÍTULO 6. ESTIMADORES PUNTUALES 103

a estimar5 θ tales que


θ̂ = α0 + α1 X1 + · · · + αn Xn .


Ejemplo 16. La media muestral basada en n observaciones, es decir


n
1X 1 1 1
X̄n = X k = X 1 + X 2 + · · · + Xn
n k=1 n n n

es un estimador lineal, donde


α0 = 0
y
1
.
α1 = α2 = . . . = αn =
n
(Notar que los coeficientes αk pueden depender de n; la linealidad vale porque no
dependen de ningún parámetro poblacional desconocido ni de las propias variables
aleatorias Xk ). 

Ya mencionamos antes que —en términos de medidas de tendencia central— sería


deseable que la distribución de θ̂ estuviera concentrada en valores cercanos a θ, y que
esto ocurriera con una baja dispersión: la intuición indica que en esas condiciones hay
alta probabilidad de que θ̂ devuelva valores cercanos al parámetro buscado. Definimos
entonces

Definición 22 (Insesgamiento). Se dice que θ̂ es un estimador insesgado de θ sii

Eθ (θ̂) = θ, ∀θ ∈ Θ.

A la diferencia θ − Eθ (θ̂) (que se anula si y solo si θ̂ es insesgado) se la denomina sesgo


del estimador y se nota
Sesgoθ (θ̂) = θ − Eθ (θ̂).


Observación 19. Cuando se quiere indicar en la notación que los cálculos son válidos
bajo cierto valor del parámetro θ, es usual agregarlo como subíndice del operador de
esperanza, varianza, etc. 

Definición 23 (Eficiencia relativa y absoluta). Dados θ̂0 y θ̂1 , ambos estimadores insesgados
de θ:
5
No obstante, pueden —y suelen— depender de n y eventualmente de otros parámetros que sean
conocidos.
CAPÍTULO 6. ESTIMADORES PUNTUALES 104

Decimos que θ̂0 es más eficiente que θ̂1 sii

Varθ (θ̂0 ) ≤ Varθ (θ̂1 ), ∀θ ∈ Θ

y la desigualdad es estricta para algún valor de θ. (Si no se sabe si vale la de-


sigualdad estricta para algún valor de θ, podemos decir en todo caso que «θ̂0 es
al menos tan eficiente como θ̂1 »).

Si θ̂0 es un estimador insesgado de θ y vale que para cualquier estimador insesgado


de θ, digamos θ̂, vale

Varθ (θ̂0 ) ≤ Varθ (θ̂), ∀θ ∈ Θ,

se dice que θ̂0 es un estimador eficiente (en sentido absoluto) para θ.

Determinar que un estimador insesgado es eficiente6 (es decir el mejor entre todos
los insesgados), no es sencillo ni inmediato en general. La principal dificultad radica
en que no es posible usualmente dar una expresión general de todos los estimadores
insesgados de θ que a su vez sea útil para el cálculo de la varianza. Por ese motivo,
para probar que un estimador es eficiente se suele recurrir a determinados resultados
teóricos de los cuales el más conocido es el Teorema de Cramér-Rao (ver apartado 6.4).
Sin embargo, sí es sencillo representar a todos los estimadores insesgados y calcular
su varianza si nos restringimos a la clase de los operadores lineales. En ese caso, se
tiene la siguiente definición:

Definición 24 (Mejor estimador lineal insesgado). Sea θ̂0 un estimador lineal e inses-
gado de θ. Si para todo otro estimador θ̂ lineal e insesgado para θ vale

Varθ (θ̂0 ) ≤ Varθ (θ̂), ∀θ ∈ Θ,

se dice que θ̂0 es un estimador MELI 7 para θ. 

Dicho todo esto, cabe hacer notar que estamos comparando siempre las varianzas de
estimadores insesgados. Si se desea comparar la performance de un estimador insesgado
con uno que no lo es o si se trata de dos sesgados, la situación es menos obvia, como
muestra la figura 6.1 (pág. 105). Por caso:
6
También son usuales las expresiones MEI (Mejor Estimador Insesgado) y estimador IMVU (In-
sesgado de Mínima Varianza Uniformemente).
7
Abreviatura de Mejor Estimador Lineal Insesgado. También es usual la sigla ELIO (Estimador
Lineal Insesgado Óptimo) y en inglés BLUE (Best Linear Unbiased Estimate).
CAPÍTULO 6. ESTIMADORES PUNTUALES 105

p(1)=0.89 p(2)=0.16

m(1) m(2)
2.0 2.5 3.0 3.5 4.0
theta=3

p(2)=0.4
p(1)=0.21

m(1) m(2)
0 1 2 3 3.5 4 5 6
theta=3

Figura 6.1: Para θ = 3 se presentan en cada imagen las distribuciones de dos esti-
madores: en ambos ejemplos uno es insesgado y el otro tiene un sesgo igual a −0,5.
La diferencia en las varianzas afecta la performance relativa de ambos, en este caso
representada por el valor de P(|θ̂ − θ| ≤ 0,4), equivalente al área sombreada. (Aclara-
ción: las escalas verticales difieren entre ambas imágenes —y también las horizontales,
desde ya—, por lo cual solo son comparables las áreas dentro de un mismo gráfico; para
referencia es útil recordar que el área bajo cada curva es igual a uno).

Entre un estimador insesgado con varianza «grande», y otro sesgado con varianza
muy «chica» —eventualmente nula— es posible que resulte mejor el primero
(imagen superior): el segundo tiene su densidad muy concentrada alrededor de su
media, que no es el valor que se busca estimar. El primero, en cambio, apunta en
la dirección correcta, y si bien tiene bastante dispersión, al menos puede a veces
caer más cerca de θ que el que casi sistemáticamente toma valores lejanos.

Sin embargo, esto tampoco implica que el insesgamiento sea una condición sine
qua non: un estimador insesgado pero con demasiada dispersión tal vez falla por
mucho y mucho más frecuentemente que uno que tiene un pequeño sesgo y una
varianza relativamente baja (imagen inferior).

Definición 25 (Error cuadrático medio). Se define el error cuadrático medio del esti-
mador θ̂ para el parámetro θ como

ECMθ (θ̂) = Eθ (θ − θ̂)2 .


CAPÍTULO 6. ESTIMADORES PUNTUALES 106

Desde ya, el ECM es una medida razonable de la precisión de un estimador pero en


parte es arbitraria: ¿por qué elevar las diferencias al cuadrado y no tomar el módulo
simplemente?; ¿por qué promediar con la esperanza en lugar de tomar la mediana... o
la moda?; ¿tienen sentido algunas de estas alternativas si el problema obligara a acertar
la estimación dentro de cierto margen porque las consecuencias de cualquier error por
exceso o defecto más allá de determinado valor se consideraran igual de graves?
Debe entenderse entonces que el ECM es apenas una entre tantas posibilidades.
El criterio del mínimo ECM es eso: un criterio; decide que se preferirá entre dos
estimadores aquel que tenga menor ECM para todo valor de θ. De hecho, dado
θ̂0 , si existe θ̂ tal que
ECMθ (θ̂0 ) ≥ ECMθ (θ̂), ∀θ ∈ Θ,
y si la desigualdad es estricta para al menos un valor de θ, entonces θ̂0 se dice inadmisible
(según el criterio del ECM).
Nótese que el ECM no es igual a la varianza: en un caso medimos distancia del
estimador a E(θ̂) y en otro directamente a θ. Solo si θ̂ es insesgado aquellos valores
coinciden y el ECM es igual a la varianza. De hecho, vimos que la comparación de esti-
madores insesgados podía hacerse razonablemente con la varianza, por lo que el ECM
resulta en realidad una generalización de dicho criterio. Efectivamente, si no estamos
comparando estimadores que sean todos insesgados, el ECM resulta una herramienta
más general para comparar las performances relativas de los mismos (tomando como
regla que se prefieren aquellos de menor ECM).
Teniendo en cuenta lo anterior, resulta interesante reexpresar el ECM teniendo en
cuenta que
2
  2
ECMθ (θ̂) = Eθ (θ − θ̂) = Eθ θ − Eθ (θ̂) − θ̂ − Eθ (θ̂) =
2 2   
= Eθ θ − Eθ (θ̂) + Eθ θ̂ − Eθ (θ̂) − 2Eθ θ − Eθ (θ̂) θ̂ − Eθ (θ̂) .
Y teniendo en cuenta que el tercer término es cero (se sugiere justificarlo en detalle
como ejercicio), podemos decir que
ECMθ (θ̂) = Sesgo2θ (θ̂) + Varθ (θ̂).

Esta fórmula no solo es útil en el cálculo, sino que conceptualmente reafirma las ideas
que comentamos sobre cómo un sesgo y una varianza pequeños colaboran a mejorar la
estimación y tanto esta como aquel deben ser tenidos en cuenta.

Propiedades asintóticas

Se denominan propiedades asintóticas a aquellas que no se pueden analizar para


un valor fijo de n, sino que dependen del comportamiento «del estimador» en el límite
CAPÍTULO 6. ESTIMADORES PUNTUALES 107

para n → ∞. En realidad, no se puede hablar en estos casos técnicamente de «un»


estimador: cuando hablamos de la media muestral X̄, por caso, nos podemos estar
refiriendo a cualquiera de los siguientes estimadores:
X1 + X2 1
X1 , , (X1 + X2 + · · · + X10 ), etc.
2 10
Se trata de diferentes cálculos y por lo tanto diferentes estimadores, al punto de que a
veces es usual distinguirlos como X̄1 , X̄2 , X̄10 , etc.
Sin embargo, hecha o no esta distinción, se sobreentiende en general que el primero
se usará cuando n = 1, el segundo cuando n = 2 y el tercero cuando n = 10 (hacer
otra cosa resultaría o bien imposible —por ejemplo, si n = 3 no tiene sentido hablar
de X̄10 —, o bien un desperdicio de información muestral —como usar X̄2 para una
muestra de tamaño n = 5—).

En realidad, podemos pensar a X̄ ≡ X̄n n∈N como una sucesión de estimadores

X̄1 , X̄2 , X̄3 , . . . , X̄n , . . .

donde cada uno se aplica a un tamaño de muestra distinto. Este es el concepto que
analizaremos en este apartado.
La primera propiedad asintótica que mencionamos es un «second best» para la
propiedad de insesgamiento. Si el sesgo no es nulo, pero tiende a cero con n → ∞ ,
entonces para n suficientemente grande dicho sesgo resultará despreciable.

Definición 26 (Insesgamiento asintótico). Decimos que la sucesión de estimadores θ̂n


es asintóticamente insesgada para θ sii

Eθ (θ̂n ) −−−−→ θ, ∀θ ∈ Θ.
n→∞

Definición 27 (Consistencia). Decimos que la sucesión de estimadores θ̂n es consis-


tente para θ sii
P
θ̂n −→ θ, ∀θ ∈ Θ;

es decir, si

∀ε > 0, P(|θ̂n − θ| ≤ ε) = P(θ − ε ≤ θ̂n ≤ θ + ε) −−−−→ 1.


n→∞


CAPÍTULO 6. ESTIMADORES PUNTUALES 108

Dado que la definición de consistencia involucra el límite en probabilidad, a veces es


posible probar consistencia a través de resultados como la Ley de los Grandes Números.
Sin embargo, resulta muy útil en general la siguiente condición suficiente (aunque no
necesaria) que puede probarse mediante la desigualdad de Tchebycheff, análogamente
a como se probó la Ley de los Grandes Números.

Propiedad 34. Si θ̂n es una sucesión asintóticamente insesgada de estimadores de θ,


simbólicamente,
Eθ (θ̂n ) −−−−→ θ;
n→∞

y además
Varθ (θ̂n ) −−−−→ 0;
n→∞

entonces θ̂n es un estimador consistente de θ.

Observación 20. La condición planteada en la propiedad 34 es equivalente a

ECMθ (θ̂n ) −−−−→ 0,


n→∞

lo cual resulta inmediato partiendo de la expresión alternativa dada para el ECM. 

Ejemplo 17. Consideremos el estimador de λ de la distribución de Poisson dado por


n
n X
λ̂n = Xi
n2 + 1 i=1

(que en realidad es una sucesión de estimadores, uno para cada tamaño muestral).
Es inmediato ver que

n2 n3
Eλ (λ̂n ) = λ y Varλ (λ̂n ) = λ.
n2 + 1 (n2 + 1)2

En particular vemos que —para cada n— λ̂n es un estimador sesgado, con sesgo
λ
n2 +1
pero como el sesgo tiende a 0 o —equivalentemente— Eλ (λ̂n ) −−−−→ λ, se trata
;
n→∞
de un estimador asintóticamente insesgado.
Además, comparando los grados del numerador y el denominador, vemos que

Varλ (λ̂n ) −−−−→ 0,


n→∞

y esto prueba que el estimador λ̂n (es decir, la sucesión de estimadores) es consistente
para λ.
CAPÍTULO 6. ESTIMADORES PUNTUALES 109

m(1) m(1) m(1)


1 2 2.83 4 5 2.0 2.5 2.98
3.0 3.5 4.0 2.0 2.5 3.0
3 3.5 4.0
theta theta theta

m(1) m(1) m(1)


1 2 2.83 4 5 2.0 2.5 2.98
3.0 3.5 4.0 2.0 2.5 3.0
3 3.5 4.0
theta theta theta

Figura 6.2: Área sombreada: P(θ − ε ≤ θ̂n ≤ θ + ε); de arriba a abajo ε = 0,5 y ε = 0,1;
de izquierda a derecha n = 10, n = 100 y n = 500. (Las escalas no son comparables
entre gráficos, por lo que la probabilidad representada por el área sombreada debe
interpretarse en relación al área total bajo la curva correspondiente).

Alternativamente, podemos probar la consistencia usando la LGN. El estimador λ̂n


puede reexpresarse como
n2
λ̂n = 2 X̄n .
n +1
Y como el primer factor tiende a 1 (como sucesión en R), y la LGN asegura que la
media muestral converge en probabilidad a la esperanza, sabemos que
n2 P
2
X̄n −→ 1 · E(Xi ) = λ,
λ̂n =
n +1
que nos lleva a la misma conclusión. 

Para entender mejor la propiedad de consistencia conviene observar la figura 6.2


(pág. 109). En la primera fila vemos cómo una vez fijado el valor ε = 0,5, a medida
que n aumenta (de 10 a 100 y luego de 100 a 500) el área sombreada que representa la
probabilidad
P(θ − ε ≤ θ̂n ≤ θ + ε)
es cada vez mayor y es claro que tiende a 1.
Sin embargo, para ε = 0,1, ya no se alcanzan las mismas probabilidades. En reali-
dad, lo que la propiedad de consistencia garantiza es que en este caso también el límite
será 1 aunque «tardará más» en alcanzar los mismos valores que antes.
CAPÍTULO 6. ESTIMADORES PUNTUALES 110

En cualquier caso, la consistencia implica que para cualquier combinación de preci-


sión (ε) y grado de confianza o credibilidad (P) deseados, existe un n a partir del cual
dicha meta queda satisfecha. Claro está que esto es en la teoría, porque el n podría ser
absurdamente grande como para llevarlo a la práctica.

6.3. Propiedades deseables de estadísticos muestrales

6.3.1. Estadísticos y estimadores.


El concepto de estadístico es análogo al de estimador. En principio un estadístico
T es una función muestral cualquiera8 T = h(X1 , . . . , Xn ) y como tal es una variable
aleatoria. El único sentido en el que es un concepto más amplio que el de estimador es
que puede depender (como función) del parámetro de interés, aunque en el estudio de la
estimación puntual nos limitaremos a los casos en que eso no ocurre. En otros ámbitos,
no obstante, los que sí dependen del parámetro desconocido resultan de utilidad y en
determinados contextos son los únicos que tiene algún interés estudiar (veremos en
el ??, por ejemplo, el concepto de pivote, y su utilidad para construir intervalos de
confianza).
Por otro lado, desde una perspectiva menos rigurosa —pero más conceptual y en-
focada en consideraciones pragmáticas—, podríamos decir que los estimadores son es-
tadísticos que (además de cumplir la condición formal de no depender del parámetro
a estimar) se estudian deliberadamente para ver si su distribución se asemeja en algún
sentido a la de los parámetros que se busca estimar (que son constantes desconocidas,
desde la perspectiva clásica). Los estadísticos son simples funciones que —además de
poder depender o no de parámetros desconocidos— surgen en un contexto donde no se
sobreentiende ni se espera que su distribución los lleve a tomar con alta probabilidad
valores cercanos al parámetro a estimar; en general se entienden (y es válido) más bien
como los bloques en los que se basa la construcción de estimadores. Por eso el insesga-
miento, la consistencia o la eficiencia se ven como propiedades de estimadores, mientras
que otras como la suficiencia —que estudiamos a continuación—, junto a la completi-
tud o la robustez (entre otras que no analizaremos en estas notas), son propiedades de
los estadísticos que repercutirán sobre los estimadores que con ellos se construyan.
8
Para ser más precisos, T = h(X1 , . . . , Xn ), donde por ejemplo

h : R n → Rm

si la muestra es de tamaño n y las variables toman valores reales; m puede ser un número natural
cualquiera, mayor, igual o menor que n. Esto permite pensar a varios estadísticos como uno solo (es
decir, un vector de estadísticos) cuando es conveniente.
CAPÍTULO 6. ESTIMADORES PUNTUALES 111

Como metáfora muy pero muy simplista, si pensamos en una casa y en los ladri-
llos usados para su construcción, encontramos que ciertas propiedades corresponden a
la casa como un todo, como producto final (y tales propiedades resultan de factores
tan variados como los materiales, las técnicas y prácticas de construcción utilizadas,
decoraciones, oportunidad... ¡un poco de buena suerte, por cierto!); y algunas otras
son propiedades específicas de los materiales de construcción, como los ladrillos. Unos
ladrillos débiles o mal formados darán lugar a una construcción débil e inestable casi
con seguridad. En cambio, unos ladrillos resistentes bien usados daran una estructura
resistente a la casa; aunque mal usados, en cambio, podrían ser inútiles.

6.3.2. Estadísticos suficientes


Un estadístico T = t(X1 , . . . , Xn ) se dice informalmente en la enseñanza estadística
que es suficiente si «conserva toda la información de la muestra». Es decir, si tenemos
una medida de la información que una muestra otorga sobre cierto/s parámetro/s, un
estadístico T será suficiente si tiene el mismo valor para dicha información que el que
tiene el estadístico S = (X1 , . . . , Xn ), es decir, la muestra sin ninguna transformación.
El estudio de una definición de información en tal sentido lo haremos en la siguiente
sección. Sin embargo, se puede dar una definición razonable que en cierto sentido es
independiente de qué medida de información se utilice.

Definición 28. Dada una muestra aleatoria X ~ = (X1 , . . . , Xn ) de una familia de


distribuciones Fθ , se dice que T = t(X1 , . . . , Xn ) es un estadístico suficiente para θ sii

fX|T
~ =τ (~
x)

no depende de θ (es decir, es constante como función de θ). Esta definición aplica al
caso en que X~ es un vector absolutamente continuo; la definición es en términos de
pX|T ~
~ =τ si el vector X es discreto. 

Esta definición tiene el siguiente sentido: en general, si la distribución subyacente


depende de θ, la distribución conjunta de la muestra también lo hará; y posiblemente
entonces, otras distribuciones conjuntas basadas en X, ~ así como las condicionales,
podrían depender de θ.
Al condicionar para T «muy genérico», por ejemplo, T igual a toda la muestra, está
claro que la distribución se vuelve trivial y no depende de θ. En otras instancias menos
evidentes, es intutivo pensar que incluso si T no es toda la muestra tal vez puede ser
suficiente para extraer de esta toda la información relevante que la misma contiene sobre
el parámetro. Sin embargo, es claro también que si se descarta demasiado de lo que
a simple vista dice la muestra, eventualmente se empieza a perder información: como
CAPÍTULO 6. ESTIMADORES PUNTUALES 112

ejemplo extremo, pensemos en un estadístico «constante» (es decir, que en realidad


no depende de la muestra, sino que se fija en un valor), por ejemplo T = 3, este no
tiene nada de la «información» de la muestra original. Y en términos de la definición,
la distribución de fX|T
~ =τ (~
x) será simplemente la distribución marginal sin condicionar
(fX~ (~x)), que depende de θ en la misma medida tanto antes como después de condicionar
a T.
En general, el cálculo de
fX|T
~ =τ (~
x)
no es sumamente complejo pero requiere de cierto trabajo. Sin embargo, supongamos
que la densidad conjunta de la muestra tiene la forma

fX~ (~x; θ) = h(~x) · g(t(~x); θ), (6.1)

es decir, un producto de dos factores: el primero, uno que no depende de θ y tal vez sí
de la muestra; el segundo puede depender de θ pero si depende de la muestra esto solo
ocurre por medio de t(~x).
Ahora bien,
fXT
~ (~ x, τ ; θ) f ~ (~x, τ ; θ)
fX|T
~ =τ (~
x; θ) = = R XT
fT (τ ; θ) f ~ (~x, τ ; θ) d~x
Rn XT

En estas condiciones, si suponemos t(~x) = τ , resulta fXT ~ (~x, τ ; θ) = h(~x) · g(τ, θ), por
lo que
h(~x) · g(τ, θ) h(~x)
fX|T
~ =τ (~x; θ) = R =R .
Rn
h(~x) · g(τ, θ) d~x Rn
h(~x) d~x
Por otro lado, si t(~x) 6= τ , entonces fXT
~ (~
x, τ ; θ) = 0 y también se anula fX|T
~ =τ (~
x).
En cualquier caso se tiene que

fX|T
~ =τ (~
x; θ)

en realidad no depende de θ.9


Más aún, la proposición recíproca también es cierta, por lo que en realidad la ecua-
ción (6.1) da una caracterización equivalente (aunque tal vez mucho más críptica) de
la noción de suficiencia, en base a cierta descomposición de la densidad. Este resultado
se conoce como Teorema de Fisher-Neymann.
9
Si se quiere entrar demasiado en el detalle de los cálculos se observa una dificultad técnica: la
distribución conjunta de X~ y T es una distribución degenerada, ya que si bien corresponde a n + 1
variables aleatorias, por definición estas cumplen en forma exacta la ecuación T = t(X1 , . . . , Xn ),
por lo que la densidad se encuentra acumulada en un conjunto de dimensión n o menos (pensar por
ejemplo en una densidad bivariada que se acumula sobre los puntos de una recta o una circunferencia).
CAPÍTULO 6. ESTIMADORES PUNTUALES 113

Teorema 13 ([de factorización] de Fisher-Neyman). El estadístico T = t(X) ~ es sufi-


ciente para θ si y solo si existen funciones no negativas g y h tales que la densidad (o
probabilidad) conjunta de la muestra puede expresarse como

fX~ (~x; θ) = g t(~x); θ · h(~x).

Ejemplo 18. Supongamos que contamos con una muestra X1 , . . . , Xn proveniente de


una distribución N (µ, σ 2 ). Usando el teorema de Fisher-Neyman podemos probar que
el estadístico bidimensional X X 
T = Xk , Xk2

es suficiente para µ y σ 2 (o dicho de otro modo, para el parámetro bidimensional


(µ, σ 2 )).
La densidad conjunta de la muestra es
1 1 2 1 1 2
fX~ (x1 , . . . , xn ) = √ e− 2σ2 (x1 −µ) · . . . · √ e− 2σ2 (xn −µ) =
2πσ 2 2πσ 2
1 Pn 1 Pn Pn
= (2πσ 2 )− 2 · e− 2σ2 ( xk +µ2 )
n 2 n x2k −2µ
= (2πσ 2 )− 2 · e− 2σ2 k=1 (xk −µ) k=1 k=1 .


6.4. Información de Fisher


Dado un vector aleatorio X ~ con función de densidad10 conjunta f ~ (x1 , ..., xn ; θ) (es
X
decir, con distribución en una familia de distribuciones parametrizada por θ) se define
la cantidad de información de Fisher de X ~ para θ como
 2

IX~ (θ) = E ln fX~ (X1 , ..., Xn ; θ) (6.2)
∂θ
siempre que la derivada en cuestión exista.

Puede probarse que esto es equivalente (si también existe la derivada segunda) a
 2 

IX~ (θ) = − E ln fX~ (X1 , ..., Xn ; θ) (6.3)
∂θ2
que en muchos casos conlleva cálculos más simples.

10
Si el vector es discreto valen las mismas expresiones usando la función de probabilidad puntual
en lugar de la función de densidad.
CAPÍTULO 6. ESTIMADORES PUNTUALES 114

En el caso típico de una muestra aleatoria X, ~ es decir, cuando X1 , ..., Xn son


v.a.i.i.d., todas con densidad fX (x; θ), se puede trabajar directamente con dicha den-
sidad marginal fX y la ecuación (6.2) puede reexpresarse como
 2

IX~ (θ) = n · E ln fX (X; θ) (6.4)
∂θ

y la ecuación (6.3), como

∂2
 
IX~ (θ) = −n · E ln fX (X; θ) . (6.5)
∂θ2

Estas expresiones se prueban fácilmente mediante la siguiente propiedad: si X e Y


son variables aleatorias independientes (con distribuciones no necesariamente idénticas,
pero ambas dependientes del parámetro θ), entonces

I(X,Y ) (θ) = IX (θ) + IY (θ).

Así, en el caso en cuestión de una muestra aleatoria, la multiplicación por n en la


ecuación (6.4) y en la ecuación (6.5) surge de sumar (pues se supone independencia)
las n informaciones de las Xi , que son todas iguales (por tener la misma distribución).

Es interesante notar que, en términos del cálculo, la expresión



ln fX~ (X1 , ..., Xn ; θ)
∂θ
surge frecuentemente también al buscar el estimador de máxima verosimilitud de θ
(ver apartado 6.5); de hecho se trata, aunque con un sentido distinto11 , de la derivada
de la log-verosimilitud (l0 (θ)). Con esta idea en mente —detalles conceptuales aparte
y haciendo cierto abuso de notación12 — la ecuación (6.2) y la ecuación (6.3) podrían
resumirse como
IX~ (θ) = E l0 (θ)2 = − E (l00 (θ) ,
 
(6.6)
11
La diferencia técnica es que la función de verosimilitud se piensa para una muestra ya realizada
u observada (aun si se la expresa para valores genéricos x1 , ..., xn ), es decir L(θ; x1 , ..., xn ), y es por
lo tanto un valor constante para cada valor de θ —o sea, una función no aleatoria de θ—; en el
cálculo de la información de Fisher, en cambio, la verosimilitud (así como su logaritmo, la derivada
de este, etc.) deben evaluarse en la muestra no realizada, y por lo tanto es para cada θ una variable
aleatoria L(θ; X1 , ..., Xn ). Si no fuera así, por cierto, no tendría sentido el operador E de la esperanza
matemática en expresiones como las  de la ecuación (6.6).
12
Una expresión como E l0 (θ)2 no refleja el hecho de que se está tomando la esperanza de una

2
variable aleatoria, lo que sí es claro en E ∂θ ln fX~ (X1 , · · · , Xn ) . Sin embargo, hecha esa aclaración,
las dos expresiones resultan equivalentes.
CAPÍTULO 6. ESTIMADORES PUNTUALES 115

por lo que cuando se desea calcular IX~ (θ) así como hallar el estimador de máxima vero-
similitud θ̂M V , parte del procedimiento es redundante y pueden abreviarse los cálculos.

6.4.1. Interpretación de la definición


Para tener una idea intuitiva de por qué la definición dada en la ecuación (6.2) y en
la ecuación (6.4) tiene sentido como medida de la cantidad de información que X ~ oX
pueden dar acerca del valor desconocido θ al observarlas, es conveniente ir construyen-
do la fórmula paso a paso. Por simplicidad, consideremos el caso de una sola variable
observada X que arroja un valor x.

Si calculamos la densidad (o la probabilidad puntual, según el caso) del valor ob-


servado x de la variable aleatoria X para valores alternativos de θ, es decir,

fX (x; θ),

podemos concluir que el valor de X que se obtuvo tiene más sentido al suponer valores
de θ que dan una densidad o probabilidad puntual alta; en cambio, debemos pensar que
ocurrió un suceso muy extraño o inesperado si suponemos otros valores de θ (aquellos
que impliquen que el suceso {X = x} tenía muy baja probabilidad o densidad).

Por ejemplo: si se sabe que X ∼ P(λ) y se desconoce la esperanza λ de la distri-


bución, al observar el valor x = 10 sería poco razonable suponer que la esperanza es
λ = 3 o λ = 100, ya que en el primer caso la probabilidad de obtener x = 10 sería
apenas pX (10) = 0, 0008 (muy pequeña en relación a otros valores posibles) y en el
segundo caso pX (10) ' 0; en cambio, λ = 8, 5 no sería una estimación insostenible
(pues en ese caso pX (10) = 0, 11); y si alguien afirmara que λ = 10 o algún valor muy
cercano, no podríamos refutar esa afirmación —al menos no en base a que se observó
x = 10— dado que en realidad con λ = 10 se obtiene el máximo valor posible de pX (10)
(pX (10) = 0, 125). De hecho, en esta línea de razonamiento se basa la estimación por
el método de máxima verosimilitud.

Sin embargo, aun cuando el análisis de pX (10) para diferentes valores de λ puede ser
útil para obtener una estimación λ̂, esto no da una idea inmediata de qué tan precisa
es esa estimación.
CAPÍTULO 6. ESTIMADORES PUNTUALES 116

Ahora bien, si calculamos



ln fX (x; θ)
∂θ
(valor que suele denominarse score de θ) o bien, en nuestro ejemplo,


ln pX (10; λ),
∂λ
obtendríamos una cierta medida de la sensibilidad de pX (10; λ) a cambios en λ para el
valor observado.

Para entender esto, recordemos en primer lugar que la derivada del logaritmo de
una función da un valor aproximado de la variación relativa (o porcentual, si se la
piensa multiplicada por 100 %) por cada unidad que aumenta la variable respecto de
la que se deriva. Es decir, en nuestro ejemplo, si pasamos de evaluar la probabilidad de
nuestra observaciónsuponiendo  λ0 a calcularla para λ1 = λ0 + ∆λ, la variación relativa
∆pX (10;λ0 )
de la probabilidad pX (10;λ0 ) se puede aproximar mediante la fórmula

∆pX (10; λ0 ) pX (10; λ1 ) − pX (10; λ0 ) ∂


= ≈ ln pX (10; λ) · ∆λ.

pX (10; λ0 ) pX (10; λ0 ) ∂λ λ=λ0

Si esta variación de pX (10; λ) fuera muy chica al pasar —por ejemplo— de λ0 = 7, 5


a λ1 = 8 podríamos decir que la observación que obtuvimos de X nos da poca informa-
ción para distinguir entre una opción y la otra; de hecho, más allá de que para λ = 8 el
valor de pX (10; λ) sería mayor que para λ = 7, 5, si la variación fuera muy pequeña una
estimación no sería mucho más confiable que la otra. En cambio, si al pasar de λ = 7, 5
a λ = 8 la probabilidad pX (10) aumentara —digamos— un 50 % (una variación relativa
de 0, 5), ante ambas alternativas no dudaríamos en elegir la segunda: el valor observado
x = 10, en tal caso, nos habría dado mucha información para distinguir entre ambos
posibles valores de λ.13

Sin embargo, al analizar qué tanto nos puede llegar a decir sobre λ el hecho de obser-
var la variable X, en lugar de cuantificar la información que nos da un caso particular
ya observado (en nuestro ejemplo, x = 10), se debería analizar una situación genérica
13
A fines comparativos, cabe mencionar que en este ejemplo la variación relativa de pX (10) al pasar
de λ = 7, 5 a λ = 8 es de un nada despreciable 15, 6 %; el score evaluado en λ = 7, 5 es 13 , que
multiplicado por ∆λ = 0, 5 da un valor razonablemente aproximado de 16 , es decir, un 16, 7 %.
Desde ya, cuanto menor sea ∆λ, más precisa tiende a ser la aproximación. Por ejemplo, la variación
relativa de λ = 7,5 a λ = 7,6 es 3,298 %, y la aproximación daría 13 · 0,1 ' 3,33 %.
CAPÍTULO 6. ESTIMADORES PUNTUALES 117

e impredecible; una situación aleatoria en la que lo único que se conoce de X, en lugar


de un valor específico que se observó, es su distribución de probabilidad. Es por esto

que se considera el valor aleatorio ∂λ ln pX (X; λ), que es previo a la observación de X
y dependerá —por lo tanto— del valor x efectivamente observado en cada caso.

En este sentido, la cantidad de información de Fisher busca extraer de esta última


expresión —que es una variable aleatoria— un valor no aleatorio que resuma la dis-
tribución de los scores y solo dependa del valor verdadero (aunque desconocido) del
parámetro a estimar.

Podría suponerse, por ejemplo, que una buena medida de resumen sería tomar sim-
plemente la esperanza de los scores; sin embargo, como las variaciones relativas de fX o
pX pueden ser tanto positivas como negativas, al tomar la esperanza habrá cierta cance-
lación. De hecho, puede probarse que, en condiciones muy generales, dicha cancelación
es exacta y la esperanza de los scores es igual a 0. Es por esto que interesa transformar
los scores de manera que sean siempre positivos antes de tomar su esperanza: la opción
elegida para la definición de IX (θ), como es frecuente, es elevar al cuadrado los scores
antes de calcular su esperanza, es decir, calcular su momento de orden 2 (de hecho, su
varianza, ya que tienen esperanza nula). A saber:
 2

E ln pX (X; λ) .
∂λ

Es decir que para un valor determinado de λ (aunque desconocido), el valor observado


X = x daría a veces mucha información (entendida esta como el cuadrado del score
obtenido, que en general será función de λ) y otras veces el valor observado de X
sería poco informativo; pero la cantidad de información de Fisher nos dice cuánta
información podemos esperar en promedio acerca de λ cuando observemos el valor
obtenido mediante una realización de X.

Ejemplo 19. Para entender mejor el cálculo y las aclaraciones hechas, podemos ver
que en nuestro ejemplo anterior de una observación X a partir de una distribución de
Poisson daría
2 2
e−λ λX
 
∂ ∂
IX (λ) = E ln pX (X; λ) = E ln =
∂λ ∂λ X!
 2  2
∂ X
=E (−λ + X ln λ − ln X!) = E −1 =
∂λ λ
E(X 2 ) E(X) λ + λ2 λ 1
= 2
− 2 + 1 = 2
−2 +1= .
λ λ λ λ λ
CAPÍTULO 6. ESTIMADORES PUNTUALES 118

También puede verse la utilidad de la expresión alternativa


 2      
∂ ∂ X X
IX (λ) = − E ln pX (X; λ) = − E −1 = −E − 2 =
∂λ2 ∂λ λ λ
E(X) λ 1
= 2
= 2 = .
λ λ λ
Por otro lado, si se tuviera una muestra aleatoria (es decir, v.a.i.i.d.) de tamaño n,
no es necesario usar la función de probabilidad conjunta de la muestra, sino que puede
simplemente concluirse
n
IX~ (λ) = n · IX (λ) = .
λ


6.4.2. Información y eficiencia. Cota de Cramér-Rao.


Una de las principales aplicaciones de la cantidad de información de Fisher es el
análisis de la eficiencia de los estimadores insesgados. El teorema de Cramér-Rao, que
mencionamos a continuación, establece una cota inferior —la cota de Cramér-Rao—
para la varianza de los estimadores insesgados de θ basados en la muestra X1 , ..., Xn .
Esta cota inferior para la varianza de tales estimadores es, según el teorema de Cramer-
Rao, sencillamente I ~1(θ) .
X

Teorema 14 (Cramér-Rao). Dada una muestra aleatoria X ~ = (X1 , . . . , Xn ) y un


estimador θ̂, si θ̂ es un estimador insesgado de θ, entonces
1
var(θ̂) ≥ .
IX~ (θ)

Es de destacar que esta cota inferior para la varianza de un estimador insesgado de θ


es menor cuanto mayor sea IX~ (θ) y viceversa. Esto refuerza la validez de IX~ (θ) como una
posible cuantificación de la información qué se puede obtener de la muestra X1 , ..., Xn
acerca de θ, a la vez que ilumina un poco sobre el sentido de que la «información» que
una variable aleatoria puede dar sobre un cierto parámetro resulte en general función
de ese mismo parámetro: algo que a simple vista puede resultar llamativo y difícil de
interpretar.
Efectivamente, si la muestra contiene mucha información para cierto θ, la cota
de CR es chica, por lo que en teoría podrían existir estimadores insesgados de θ con
CAPÍTULO 6. ESTIMADORES PUNTUALES 119

una varianza pequeña, es decir, muy precisos (aunque no siempre habrá estimadores
que alcancen dicha cota); por el contrario, si la muestra brinda poca información, eso
conlleva que la varianza de los estimadores insesgados necesariamente será grande, lo
que coincide con la idea intuitiva de que con poca información la estimación será muy
imprecisa.
La utilidad del teorema 14 es notable cuando se conoce un estimador θ̂ insesgado y
cuya varianza coincide con la cota de Cramèr-Rao, esto es:
1
E(θ̂) = θ y var(θ̂) = ~ (θ)
IX
.
En ese caso, como cualquier otro estimador insesgado tendrá varianza mayor o igual a
la cota, en particular tendrá varianza mayor o igual que la de θ̂. Esto coincide con la
definición de estimador eficiente (en el sentido de eficiencia absoluta).

Ejemplo 20. Para el caso del ejemplo 19 un estimador usual para el parámetro des-
conocido es n
1X
λ̂ = Xi = X̄n
n i=1
(ver apartado siguiente), que es insesgado para λ, ya que
n
! n
! n n
  1 X 1 X 1X 1X 1
E λ̂ = E Xi = E Xi = E (Xi ) = λ = · nλ = λ.
n i=1 n i=1
n i=1 n i=1 n
Pero además, tenemos que
n
! n
! n n
  1X 1 X 1 X 1 X 1 λ
var λ̂ = var Xi = 2 var Xi = 2 var(Xi ) = 2 λ = 2 ·nλ = ,
n i=1 n i=1
n i=1 n i=1 n n
donde se tuvo en cuenta que las Xi son independientes, por lo que la varianza de la
suma es la suma de las varianzas, y que var(Xi ) = λ en la distribución de Poisson.
Como se vio también en el ejemplo 19, si se toma una muestra aleatoria de tamaño
n de una distribución P(λ), la información de Fisher es
n
IX~ (λ) = ,
λ
y esto implica que la cota de Cramér-Rao es
1 λ  
CCR = = = var λ̂ .
IX~ (λ) n
Luego, como λ̂ es insesgado y su varianza coincide con la CCR, no puede existir otro
estimador insesgado de menor varianza: por lo tanto, λ es eficiente. 
CAPÍTULO 6. ESTIMADORES PUNTUALES 120

6.4.3. Otras propiedades de la información de Fisher


Entre otras propiedades de IX~ (θ) que suelen citarse al tratar el tema de la cantidad
de información, podemos mencionar:

~ no depende de θ.14
IX~ (θ) ≥ 0, y solo vale 0 si la distribución de X
~ es un estadístico suficiente para θ, entonces I ~ (θ) = I ~ (θ).15
Si t(X) X t(X)

~ es un estadístico cualquiera obtenido como función


Más generalmente, si g(X)
~ entonces
de X,
IX~ (θ) ≥ Ig(X)
~ (θ).

Como conclusión, mencionemos que la cantidad de información de Fisher es una de


muchas posibles cuantificaciones que se podrían definir sobre el concepto vago de cuánta
información una muestra puede brindar sobre un parámetro desconocido. Es debido
a sus propiedades estadísticas (como su relación con la varianza de los estimadores
insesgados, la aditividad para vectores independientes, su relación con el concepto de
suficiencia, etc.) y a su relación con otros conceptos fundamentales (como la función
de verosimilitud), que se ha extendido su uso y aceptación en la teoría y práctica
estadística.

6.5. Métodos de estimación


Hasta ahora vimos cómo evaluar las propiedades de un estimador para determinar
si resulta útil para estimar un parámetro dado, o para elegir entre varias alternativas
disponibles la que mejor se ajuste a nuestras necesidades. Sin embargo, por evidente
que pueda parecer, todo esto presume que se dispone de dichas alternativas o al menos
de un posible estimador.
Y aún cuando puede resultar muy obvio, por ejemplo, que para estimar el parámetro
µ de una distribución normal es razonable pensar en X̄ como estimador, no siempre es
tan evidente en otras situaciones qué estimador podría tener al menos algunas de las
propiedades deseables.
14
O más precisamente, si no depende de θ con probabilidad 1.
15 ~ —si este es un estadístico suficiente— dará la misma información
Es decir, conocer el valor t(X)
que conocer la muestra completa (el valor individual de cada Xi ); la recíproca es cierta bajo ciertas
condiciones. Es llamativo que esta propiedad sea más cercana a la noción intuitiva de suficiencia que
la propia definición.
CAPÍTULO 6. ESTIMADORES PUNTUALES 121

Por caso, si se quiere estimar los parámetros α y β de una distribución B(α, β) (o al


menos uno de ellos), ¿cuál sería un estimador razonable para cada uno? La dificultad en
responder a esta pregunta va de la mano de la dificultad para entender cómo influyen
en la forma de la distribución los cambios en dichos parámetros, o más aún, como
influyen en las probabilidades de obtener tal o cual muestra.
Es cierto, no obstante, que casi cualquier expresión que inventemos por definición
es un estimador, pero esto de ninguna manera significa que vayamos a poder inventar
expresiones que den estimadores mínimamente aceptables para nuestros objetivos. Por
esto es que es importante encontrar maneras de generar sistemáticamente fórmulas que
puedan funcionar como estimadores aceptables en aquellos casos en que no hay una
solución obvia.
Los denominados métodos de estimación son procedimientos sistemáticos pensados
para generar dichas expresiones y proponerlas como estimadores. Si bien en muchos
casos no es posible asegurar ninguna propiedad deseable en los estimadores resultantes
(y en otros casos solo están garantizadas algunas propiedades básicas, como la consis-
tencia), se trata de procedimientos basados en ideas razonables que tienden a generar
buenos estimadores mucho más exitosamente que lo que podría lograrse proponien-
do fórmulas arbitrarias al azar. En esta sección estudiamos dos de los métodos más
conocidos y comentamos brevemente algunos otros.

6.5.1. Métodos de momentos


En la unidad anterior vimos que bajo condiciones bastante generales la media mues-
tral converge a la media poblacional en probablidad, lo que se conoce como «ley de los
grandes números». Así, si tuviéramos —como en los ejemplos previos— una muestra
de tamaño arbitrariamente grande de una distribución P(λ), dado que E(Xi ) = λ en
este caso, vale
P
X̄n −→ E(Xi ) = λ.

Esto sugiere que X̄n es un estimador razonable de λ, ya que al menos resulta consistente:
para tamaños de muestra grandes, el sesgo será pequeño al igual que su varianza, por
lo que se tendrá un bajo ECMλ (X̄). Por cierto, vimos en el apartado anterior que este
estimador de λ es en particular insesgado y eficiente.
También podríamos haber tenido en cuenta que E(Xi2 ) = var(Xi )+E(Xi )2 = λ+λ2 ,
por lo que, como también se vio en su momento
n
1X 2 P
X −→ λ + λ2 .
n i=1 i
CAPÍTULO 6. ESTIMADORES PUNTUALES 122

Definimos entonces otro estimador λ̂, pero que cumpla


n
1X 2
X = λ̂ + λ̂2 ,
n i=1 i

a saber,
n  2
1X 2 1 1
X = + λ̂ −
n i=1 i 2 4
es decir —teniendo en cuenta que la estimación debe tomar valores positivos—,
v
u n
u1 1 X 1
λ̂ = t + Xi2 − .
4 n i=1 2

Entonces, es inmediato ver que por continuidad


v s
u n r 2
u1 1 X 1 P 1 1 1 1
2 2
λ̂ = t + Xi − −→ + (λ + λ ) − = λ+ − = λ,
4 n i=1 2 4 2 2 2

y este estimador también resulta consistente.


En general, llamamos estimador de momentos de θ a todo estimador θ̂ que verifique
p relaciones de la forma
n
1X k
X = E(X k )|θ=θ̂ ,
n i=1
si θ es un parámetro p-dimensional.
Ejemplo 21. Como se explicó en la primera sección, considerar que la dimensión (la
cantidad de componentes) de θ es mayor a 1 permite abarcar también los casos en que
hay dos o más parámetros desconocidos que se busca estimar simultáneamente.
Si por ejemplo tenemos una muestra aleatoria de tamaño n de una distribución
Γ(α, λ), los estimadores de momentos α̂M y λ̂M deben cumplir dos ecuaciones como las
que ya vimos. Es usual usar los momentos de orden más bajo que sea posible, por lo
que en este caso planteamos

n
1X
X̄ = Xi = E(Xi )|(α,λ)=(α̂,λ̂)
n i=1
y
n
1X 2
(X 2 ) = X = E(Xi2 )|(α,λ)=(α̂,λ̂) .
n i=1 i
CAPÍTULO 6. ESTIMADORES PUNTUALES 123

Esto puede resultar adecuado ya que entre estos dos momentos aparecen ambos pará-
metros al menos una vez (de hecho ambos figuran en las dos igualdades). Entonces:

α̂
X̄ =
λ̂
α̂(α̂ + 1)
(X 2 ) = .
λ̂
Y despejando se obtiene

(X 2 ) − X̄ (X 2 ) − X̄
α̂M = λ̂M = .
X̄ (X̄)2

Por supuesto, si —por ejemplo— se conociera el valor de λ, solo sería necesaria la


primera igualdad, y definiríamos
α̂M = λX̄,
pero esto no es un estimador si λ es desconocido.
Análogamente, si se conociera el valor de α, pero no el de λ, de la primera expresión
se obtendría el estimador
α
λ̂M = ,

que es válido como estimador ya que α será un valor conocido. 

Ejemplo 22. No siempre es posible utilizar el primer momento cuando solo se busca
estimar un parámetro: si un momento no depende del parámetro que se busca estimar,
no será de utilidad. Consideremos por ejemplo la distribución N (0, σ 2 ); es decir, una
distribución normal en la que µ es conocido y se sabe que vale 0, pero se desconoce σ 2 .
En ese caso, podríamos intentar buscar σ̂ 2 tal que

X̄ = E(Xi )|σ2 =σ̂2 ,

pero como en este ejemplo E(Xi ) = 0, esto da un absurdo (X̄ = 0) y no define ningún
2
estimador de momentos σ̂M .
Lo usual en estos casos es pasar a un momento de orden superior, segundo orden
por ejemplo, y plantear
(X 2 ) = E(Xi2 )|σ2 =σ̂2 ,
es decir
(X 2 ) = E(Xi )2 + var(Xi ) = 02 + σ̂ 2 ,
2
= n1
P 2
de donde se obtiene el estimador σ̂M Xi .
CAPÍTULO 6. ESTIMADORES PUNTUALES 124

Más en general, si se conoce el valor de µ, pero no necesariamente es 0, digamos


µ = µ0 , entonces es fácil ver que se obtiene el estimador
2 1X 2
σ̂M = Xi − µ20 .
n


6.5.2. Método de máxima verosimilitud


El método de máxima verosimilitud (MV) es uno de los métodos de estimación
puntual más populares, tanto por las buenas propiedades que suelen tener los estima-
dores que de él se derivan como por su versatilidad, ya que la idea fundamental puede
adaptarse a una enorme variedad de modelos estadísticos muchos más complejos que
el que analizamos aquí. Además, su estudio lleva naturalmente a introducir la noción
de verosimilitud —likelihood, en inglés—, omnipresente en la literatura sobre inferencia
estadística paramétrica.
Para entender la idea del método e introducir los conceptos básicos, consideremos
un ejemplo.
Ejemplo 23. Supongamos que analizamos una variable —digamos, la cantidad de
siniestros diarios denunciados por los clientes de una compañía de seguros de vivienda—
y que se concluye que puede suponerse que la cantidad de siniestros de un día dado
puede modelarse al comienzo del día como una variable aleatoria X con distribución
P(λ). Supongamos, sin embargo, que el valor del parámetro λ es desconocido.
Si se cuenta con información de tres días elegidos al azar (supongamos que los valores
obtenidos provienen de variables independientes e idénticamente distribuidas —es decir,
con el mismo valor de λ—), se entiende esto como que se realizaron tres variables
aleatorias X1 , X2 y X3 , todas con la misma distribución P(λ) e independientes.
En particular, esto implica que la función de probabilidad conjunta de las tres
variables puede obtenerse como
e−λ λx1 e−λ λx2 e−λ λx3
pX1 X2 X3 (x1 , x2 , x3 ) = pX1 (x1 ) · pX2 (x2 ) · pX3 (x3 ) = · · =
x1 ! x2 ! x3 !
e−3λ λx1 +x2 +x3
= .
x1 !x2 !x3 !
Supongamos que se obtiene una muestra que da los valores x1 = 8, x2 = 11, x3 = 6.
Podemos preguntarnos cuál es la probabilidad puntual de dicha muestra; o más preci-
samente: antes de tomar la muestra y conocer dichos valores, ¿cuál era la probabilidad
que habríamos calculado de que ocurriera lo que efectivamente ocurrió?
CAPÍTULO 6. ESTIMADORES PUNTUALES 125

0.0008
likelihood

0.0000
0 5 10 15
0
log−likelihood

−5
−15

0 5 10 15

Figura 6.3: Gráfico de la función de verosimilitud L(λ) (arriba) y de log-verosimilitud


l(λ) (abajo) para el ejemplo 23. Se observa que el valor máximo es diferente en cada
caso, pero en ambos casos el máximo se obtiene en el mismo valor (λ̂ = 8,3).

El cálculo es simple: basta con evaluar la función de probabilidad conjunta en el


punto (8, 11, 6), y se obtiene
e−3λ λ8+11+6 e−3λ λ25
pX1 X2 X3 (8, 11, 6) = ≈ .
8!11!6! 1,16 · 1015

Pero entonces, resulta imposible calcular la probabilidad que tenía de ocurrir la


muestra que efectivamente obtuvimos, ya que para ello es necesario conocer —obvia-
mente— el valor de λ, que en realidad no conocemos e intentamos estimar.
Esta probabilidad de obtener la muestra que efectivamente se obtuvo es por lo tanto
una función de λ, que llamaremos función de verosimilitud y representamos como L(λ)
(L por likelihood ). Es decir, en este problema la función de verosimilitud es
e−3λ λ25
L(λ) =
A
donde A ' 1,16 × 1015 .
En la imagen superior de la figura 6.3 se observa el gráfico de L, y puede verse que
aunque los valores de L son muy pequeños, se tiene por ejemplo que L(8) > L(5). Más
aún, podemos comparar estos valores y vemos que
L(8) 1,23 · 10−3
' ' 15,6;
L(5) 7,87 · 10−5
es decir que la probabilidad de obtener la muestra (8, 11, 6) es unas quince veces mayor
si λ = 8 que si λ = 5.
CAPÍTULO 6. ESTIMADORES PUNTUALES 126

Ahora bien, teniendo en cuenta que efectivamente obtuvimos la muestra (8, 11, 6)
—es decir, que este es un suceso aleatorio que ocurrió en la realidad y por lo tanto
tendría sentido suponer que no se trata de un suceso demasiado improbable—, si por
algún motivo teórico o práctico tuviéramos la certeza de que los dos únicos posibles
valores de λ en este problema son 8 y 5, ¿cuál elegiríamos como estimación?
Desde ya es mucho más razonable suponer que si la muestra (8, 11, 6) ocurrió, es
porque λ debe ser 8, y no 5, ya que en el segundo caso resultaba mucho menos probable
(o menos «esperable») que ocurriera lo que finalmente ocurrió16 .
Ahora bien, como en nuestro caso no estamos restringidos a los valores 5 y 8, sino
que podemos elegir como estimación cualquier valor λ > 0, parece razonable elegir como
estimación aquel valor que haga más probable la muestra que efectivamente obtuvimos:
el punto λ̂ donde se maximiza la función L(λ). Esta será la estimación por máxima
verosimilitud de λ para esta muestra.
La función L parece tener un solo máximo según el gráfico. Más allá de esto, sabe-
mos que L está definida sobre el intervalo (0, +∞), que es un conjunto abierto, y es
evidente (viendo su definición) que es una función C ∞ . Luego, donde haya un máximo,
necesariamente su derivada primera será igual a cero. Veamos:
1  e−3λ λ24
L0 (λ) = −3e−3λ λ25 + 25e−3λ λ24 = · (−3λ + 25)
A A
Igualando a cero, dado que e−3λ 6= 0 y que λ 6= 0, se obtiene que necesariamente
−3λ + 25 = 0,
que se cumple para λ = 25 3
. Como este es el único punto crítico y además es claro que
a la izquierda de este valor la función crece y a la derecha decrece17 , en ese punto hay
un máximo absoluto.
Sin embargo, aún en este caso sencillo los cálculos no fueron tan simples ni inme-
diatos. Pero consideremos la función que se obtiene al aplicar un logaritmo (digamos
16
Por poner una analogía más cualitativa y menos numérica. Sabemos que en verano, en la Ciudad
de Buenos Aires, es común que la temperatura máxima del día supere los 30◦ C, mientras que en
invierno esto resulta más bien excepcional, aunque no es completamente imposible. Si entonces un día
nos despertamos completamente desorientados/as al mediodía y no tenemos en ese momento noción
siquiera de en qué estación del año estamos, pero al salir comprobamos que la temperatura es superior
a los 30◦ C (en un termómetro, o simplemente lo sentimos en el cuerpo), sin dudas ante la disyuntiva
de si estamos en verano o en invierno (no habiendo más información), nos inclinaremos por la primera
opción. De todos modos, suponer que estamos en invierno (en un día excepcionalmente caluroso) no
sería totalmente incorrecto en términos lógicos: pero sí sería una hipótesis inverosímil.
17
Como L0 es una función continua y solo se anula en 25
 λ = 3 , el teorema de Bolzano implica que el
25 25
signo se mantiene en el intervalo 0, 3 y en 3 , +∞ . En particular, en el primero el signo es el de,
por ejemplo, L0 (1) > 0 y en el segundo el de L0 (10) < 0, y esto implica que L es creciente en 0, 25
3
y decreciente en 25 3 , +∞ .
CAPÍTULO 6. ESTIMADORES PUNTUALES 127

natural, pero no es importante la base) a L, que llamamos función de log-verosimilitud


y notamos con l(λ).

l(λ) = ln L(λ) = −3λ + 25 ln λ − ln A.

El gráfico de l aparece en la imagen inferior de la figura 6.3, manteniendo la escala y


posición del eje de abscisas igual a la del otro gráfico. Se observa que el máximo valor
de l, si bien no es el mismo que el de L (de hecho, es el logaritmo natural de este), sí se
obtiene para el mismo valor de λ. Esto tiene sentido, ya que el logaritmo natural, al ser
una función estrictamente creciente, mantiene el orden de los valores a los que se aplica:
luego, si L(5) < L(8) pero L(8) > L(10), también será cierto que ln L(5) < ln L(8) y
que ln L(8) > ln L(10), es decir, l(5) < l(8) y l(8) > l(10). Si lo pensamos para puntos
arbitrarios, esto significa que L y l tienen los mismos intervalos de crecimiento y de
decrecimiento, y por tanto también los mismos extremos relativos y absolutos.
Verifiquemos la coincidencia mencionada:
25
l0 (λ) = −3 +
λ
(ya que A es una constante), por lo que el único punto crítico de l es λ = 25
3
, y se
mantienen las mismas observaciones sobre crecimiento y decrecimiento y por qué este
resulta un máximo absoluto.
Alternativamente podríamos notar que
25
l00 (λ) = − < 0, ∀λ > 0,
λ2
lo que implica que l es una función estrictamente cóncava, es decir que si tiene un punto
crítico este corresponde necesariamente al único máximo global de la función.
En cualquier caso, las dos funciones (o cualquier otra que se obtenga mediante
transformaciones monótonas de L) sirven para buscar el punto donde se maximiza
L(λ). Sin embargo, se observa en este ejemplo —y es muy frecuente en las diferentes
situaciones prácticas y teóricas— que el cálculo de los extremos de l(λ) es mucho más
simple que el de L(λ). Y esto no es sorprendente, ya que L(λ) surgía en realidad del
producto de varias probabilidades, y derivar un producto es mucho más complicado
que derivar una suma, que es la operación que surge una vez aplicado el logaritmo.
Por todo lo dicho, resulta como estimación por máxima verosimilitud de λ para este
ejemplo el valor
25
λ̂M V = .
3

CAPÍTULO 6. ESTIMADORES PUNTUALES 128

Ejemplo 24. Si ahora quisiéramos estimar λ con tres observaciones para el mismo
modelo, pero obtuviéramos una muestra diferente —digamos x1 = 7, x2 = 7 y x3 =
13— en principio deberíamos repetir todo el procedimiento hasta obtener la función
de verosimilitud
e−3λ λ27
L(λ) = ,
A
donde A es un número distinto al del ejemplo anterior pero que no influirá en el
resultado, y de allí se puede obtener λ̂M V = 27
3
= 9.
Sin embargo, para evitar repetir el procedimiento cada vez, podemos pensar en una
muestra genérica (x1 , x2 , x3 ), donde los xi ∈ N0 , y obtener la expresión del cálculo que
debemos hacer en cada caso. Esto, además, permitirá estudiar las propiedades de la
estimación por máxima verosimilitud para este modelo en particular.
Veamos:
e−λ λx1 e−λ λx2 e−λ λx3
 
l(λ; x1 , x2 , x3 ) = ln L(λ; x1 , x2 , x3 ) = ln · · =
x1 ! x2 ! x3 !
= −3λ + (x1 + x2 + x3 ) ln λ − ln(x1 !x2 !x3 !).
Aquí hemos escrito a l como función de λ, x1 , x2 y x3 , mientras que en el primer ejemplo
solo habíamos escrito λ: ocurre que en el primer ejemplo cada xi se reemplazaba por
un valor numérico, por lo que «desaparecía» de la expresión de L y de l. Lo cierto
es que tanto el valor del parámetro como los de las xi influyen en el valor de l, pero
mientras que cuando pensamos en un valor fijo, predeterminado, del parámetro λ y en
los valores (x1 , x2 , x3 ) como variables, la expresión anterior corresponde a la función
de probabilidad conjunta pX1 X2 X3 (x1 , x2 , x3 ), cuando hacemos lo contrario (las xi se
piensan como valores ya dados —(8, 11, 6) en el ejemplo que vimos al comienzo de esta
sección, o (7, 7, 13) en el más reciente—), la expresión queda solo en función de λ y
corresponde a la función de verosimilitud L(λ). Es decir que si tenemos en cuenta todas
las variables que influyen, en realidad
L(λ; x1 , x2 , x3 ) = pX1 X2 X3 (x1 , x2 , x3 ; λ), ∀λ > 0, ∀x1 , x2 , x3 ∈ N0 .

Hecha esta aclaración, podemos omitir las xi en la expresión de L y de l, y tenemos


x1 + x2 + x3
l0 (λ) = −3 + .
λ
Y como hay un único λ tal que l0 (λ) = 0 y la función crece a la izquierda de este valor
y decrece a la derecha, resulta
x1 + x2 + x3
λ̂M V = = x̄3 .
3

CAPÍTULO 6. ESTIMADORES PUNTUALES 129

Observación 21. En el ejemplo anterior, nótese que se escribió el resultado en términos


de los valores xi y no de las variables aleatorias Xi : es decir que estamos pensando a
λ̂M V como una estimación, i.e. el valor numérico resultante de tomar una muestra y
usar los valores x1 , x2 y x3 obtenidos para calcular x1 +x32 +x3 .
Sin embargo, cuando se hace este análisis, resulta mucho más ilustrativo pensar en
esta expresión dependiendo de las variables aleatorias Xi . Si escribimos
X1 + X 2 + X3
λ̂M V = ,
3
pensando no en los valores que se obtuvieron luego de tomar una muestra, sino en los
valores que se pueden obtener (al azar), considerando que Xi ∼ P(λ) para i = 1, 2, 3; es
decir que estamos considerando a λ̂M V , ya no como un número, sino como una variable
aleatoria; en particular, como una función de la muestra que no depende de λ. En fin,
obtuvimos un estimador de λ.
La ventaja de este enfoque es que permite estudiar las propiedades de la estima-
ción realizada de esta manera, cuando aplicamos el mismo procedimiento a diferentes
muestras. Por dar un ejemplo, por propiedades de la esperanza vemos que
 
  X1 + X2 + X3 1
E λ̂M V = E = · E (X1 + X2 + X3 ) =
3 3
1 
= · E (X1 ) + E (X2 ) + E (X3 ) .
3
Pero como para todo i se tiene Xi ∼ P(λ), resulta E(Xi ) = λ; por lo tanto
1
E(λ̂M V ) = · (λ + λ + λ) = λ,
3
lo que prueba que E(λ̂M V ) es un estimador insesgado de λ. 
Definición 29 (Función de verosimilitud). Si se tiene una muestra aleatoria X1 , . . . , Xn
de una distribución Fθ , la función de probabilidad o densidad conjunta, según corres-
ponda, vista como función de θ se denomina función de verosimilitud y se representa
L(θ). Es decir, si Fθ es una distribución de variable aleatoria discreta,
n
Y
L(θ) = L(θ; x1 , . . . , xn ) = pX1 ...Xn (x1 , . . . , xn ) = pθ (xi ),
i=1

donde pθ es la función de probabilidad correspondiente a Fθ ; o si es una distribución


absolutamente continua,
n
Y
L(θ) = L(θ; x1 , . . . , xn ) = fX1 ...Xn (x1 , . . . , xn ) = fθ (xi ),
i=1

donde fθ es una densidad. 


CAPÍTULO 6. ESTIMADORES PUNTUALES 130

Observación 22. Cabe aclarar que en la definición anterior, como a lo largo de todo
este capítulo, θ puede ser un vector y por lo tanto la función de verosimilitud puede
ser función de uno o más parámetros desconocidos. 

Definición 30. Dada una muestra X1 , . . . , Xn de una distribución (de v.a. discreta o
absolutamente continua) de la que se desconoce un parámetro θ, se denomina estimador
de máxima verosimilitud (EMV) de θ —y lo notamos θ̂M V — al valor de θ donde
la función de verosimilitud L(θ) alcanza su máximo global (si es que dicho valor es
único). 

Cabe destacar que la observación 22 recuerda el hecho de que θ podría ser un vector,
algo que a veces podemos remarcar usando la notación θ. ~ Para ser más explícitos,
digamos que si se desconocen los parámetros θ1 , . . . , θp (p es la cantidad de parámetros
desconocidos), los estimadores de máxima verosimilitud de θ1 , . . . , θp (o también «el»
estimador de máxima verosimilitud del vector de parámetros θ~ = (θ1 , . . . , θp )) son las
respectivas coordenadas del punto del espacio paramétrico Θ ⊂ Rp donde se maximiza
la función de verosimilitud L(θ1 , . . . , θp ) (o bien podemos decir que el punto en sí mismo
ˆ
es el estimador θ~ —como vector— del parámetro θ~ —también como vector—)18 .

Ejemplo 25. Si deseamos volver al ejemplo anterior, pero suponiendo que tomaremos
una muestra de tamaño n arbitrario, podemos buscar una expresión del estimador de
máxima de verosimilitud para este caso general, en lugar de hacerlo específicamente
para muestras de tamaño n = 3, como lo hicimos hasta ahora. Es en estos casos en los
que se ve aún más claro las ventajas que genera trabajar con la log-verosimilitud l en
lugar de la verosimilitud L.
Por definición n
Y
L(λ) = pXi (xi )
i=1
y
n n n
Y X X e−λ λxi
l(λ) = ln L(λ) = ln pXi (xi ) = ln pXi (xi ) = ln ,
i=1 i=1 i=1
xi !
que por propiedades del logaritmo es
n
X n
−λ xi
 X
l(λ) = ln e + ln λ − ln(xi !) = (−λ + xi · ln λ − ln(xi !)) .
i=1 i=1

ˆ
En este caso podemos usar tanto la notación θˆ1M V , . . . , θˆp M V como θ~M V , o incluso θ̂M V según la
18

claridad y la conveniencia.
CAPÍTULO 6. ESTIMADORES PUNTUALES 131

Por otro lado, las propiedades de la sumatoria (donde todo lo que no depende del índice
i es una «constante», i.e. algo que se repite en cada término de la suma) implican que
n
X n
X n
X n
X
l(λ) = (−λ) + xi · ln λ − ln(xi !) = −nλ + ln λ · xi + A(~x),
i=1 i=1 i=1 i=1

donde lo relevante sobre A(~x) es que no depende de λ.


Es claro que l(λ) es una función derivable (respecto de su única variable λ)19 . Y
como está definida en el abierto (0, +∞), alcanza su máximo en un punto λ∗ donde
l(λ∗ ) = 0. Como en este caso hay uno solo y se observa que la función crece al comienzo
y decrece luego de este punto, allí se encuentra el máximo. Efectivamente,
n
1 X
l0 (λ) = −n + · xi ,
λ i=1

de donde surge Pn
i=1 xi
λ̂M V = = x̄n ,
n
o escrito como variable aleatoria,
Pn
i=1 Xi
λ̂M V = = X̄n .
n

Ejemplo 26. Consideremos la distribución N (µ, σ 2 ), y calculemos la log-verosimilitud
del parámetro (µ, σ 2 ).
n
! n
Y X
2 2

l(µ, σ ) = ln L(µ, σ ) = ln f (xi ) = ln f (xi ) ,
i=1 i=1

donde f (x) es la densidad de la distribución N (µ, σ 2 ). Es decir,


n  
2
X 1 − 12 (xi −µ)2
l(µ, σ ) = ln √ e 2σ =
2πσ 2
i=1

n  
X 1 1 2 1 2
= − ln(2π) − ln(σ ) − 2 (xi − µ) =
i=1
2 2 2σ
19
Por confusa que pueda parecer la expresión de l, para entender sus propiedades conviene recordar
que solo es una verdadera función P λ, para lo que incluso se le pueden dar valores a n
Pen la «variable»
y las xi . Por ejemplo, si n = 10, xi = 109 y ln(xi !) = 154, se tiene l(λ) = −10λ + 109 ln λ − 154.
Se ve entonces claramente que l es la suma de una función logarítmica y un polinomio de grado uno.
CAPÍTULO 6. ESTIMADORES PUNTUALES 132

n
n n 2 1 X
= − ln(2π) − ln(σ ) − 2 (xi − µ)2 .
2 2 2σ i=1

Consideremos primero el caso en que σ 2 es un valor conocido y solo se busca estimar


µ, en cuyo caso pensamos a l solo como función de este parámetro, es decir,
n
n n 2 1 X
l(µ) = − ln(2π) − ln(σ ) − 2 (xi − µ)2 .
2 2 2σ i=1

Para buscar el máximo, vemos que l es derivable como función de µ y que


n n n
!
1 X 1 X 1 X
l0 (µ) = − 2 2(xi − µ) · (−1) = 2 (xi − µ) = 2 xi − nµ ,
2σ i=1 σ i=1 σ i=1

por lo que si buscamos µ tal que l0 (µ) = 0, es decir


n
!
1 X
xi − nµ = 0,
σ 2 i=1

se tiene n Pn
X
i=1 xi
xi − nµ = 0 ⇐⇒ µ= ,
i=1
n
es decir que
µ̂M V = x̄,
lo cual resulta sumamente intuitivo.
Supongamos, por el contrario, que el valor de µ es conocido, y es en realidad σ 2 el
parámetro a estimar. En lo sucesivo, para evitar la dificultad de derivar respecto de σ 2
como un todo, hacemos la sustitución α = σ 2 y buscamos el EMV de α. Es decir:
n
n n 1 X
l(α) = − ln(2π) − ln(α) − (xi − µ)2 ,
2 2 2α i=1

y como esto es una función derivable buscamos el máximo igualando a cero la derivada
n
n 1 X
l0 (α) = − + 2 (xi − µ)2
2α 2α i=1

e igualando a cero y despejando obtenemos


n
2 1X
α̂M V = σ̂M V = (xi − µ)2 .
n i=1
CAPÍTULO 6. ESTIMADORES PUNTUALES 133

Observemos que el estimador de máxima verosimilitud de σ 2 depende de µ, pero esto


no es un problema porque estamos suponiendo en este caso que se trata de un valor
conocido.
Finalmente, supongamos que ninguno de los parámetros es conocido, por lo que
debemos encontrar el punto (µ, α) del espacio paramétrico que maximiza l(µ, α). Como
l es una función diferenciable, debemos encontrar el punto donde el gradiente se anula,
es decir, donde se hacen cero ambas derivadas parciales (que ya fueron calculadas en
los ejemplos anteriores), a saber:
n
!
∂ 1 X
l(µ, α) = xi − nµ
∂µ α i=1
n
∂ n 1 X
l(µ, α) = − + 2 (xi − µ)2 .
∂α 2α 2α i=1
Esto da un sistema de ecuaciones en µ y α que, sin embargo, resulta muy sencillo de
resolver.
Vimos en el caso anterior que de despejar α en la segunda ecuación se obtenía
n
1X
α= (xi − µ)2 .
n i=1
Sin embargo, siendo que α depende de µ en esta expresión, para escribir la solución
(o al menos parte de ella) necesitamos que esto no suceda. Pero en el primer caso
analizado vimos que de despejar µ en la primera ecuación se obtiene
µ = x̄,
y esta expresión no depende de α. Por lo tanto, tenemos un sistema triangular, o
recursivo, en el cual el valor de µ puede obtenerse directamente y luego usarse para
obtener el valor de α que resulta ser
n
1X
α= (xi − x̄)2 = s2 .
n i=1
En resumen, obtenemos los estimadores
2 2

(µ̂M V , σ̂M V ) = x̄, s .

Es destacable el hecho de que el estimador de máxima verosimilitud de µ es el mismo


independientemente de que se conozca o no la varianza de la distribución, mientras que
el de σ 2 cambia dependiendo de si el valor de µ es o no conocido y —por lo tanto— de
si puede incorporarse a la expresión del estimador.

CAPÍTULO 6. ESTIMADORES PUNTUALES 134

6.5.3. Otros métodos de estimación


Los métodos vistos en los apartados anteriores son los más usados para la estimación
puntual en las condiciones de los modelos estadísticos que estamos estudiando. Existen
sin embargo una cantidad de otros procedimientos más o menos formales para obtener
estimadores en este tipo de modelos, así como existen métodos específicos para otros
modelos estadísticos paramétricos.20
En este apartado presentamos brevemente dos métodos que permiten obtener es-
timadores puntuales a partir de una muestra de v.a.i.i.d., si bien son aplicables en
situaciones mucho más generales.21

Estimadores lineales sujetos a condiciones

Una forma de obtener estimadores relativamente simple es restringirse a la clase


específica de los estimadores lineales. En ese caso el estimador en cuestión se elige
de modo que cumpla con ciertas condiciones. En el caso más cómun se impone como
condición adicional que el estimador lineal a obtener sea insesgado, lo cual —teniendo
en cuenta que un estimador lineal de θ es de la forma
θ̂ = α0 + α1 X1 + · · · + αn Xn ,
donde las αi son constantes que no dependen de θ— impone la condición adicional
E(θ̂) = α0 + α1 E(X1 ) + · · · + αn E(Xn ) = θ,
que, si llamamos m1 (θ) a la esperanza de la distribución, implica
α0 + α1 m1 (θ) + · · · + αn m1 (θ) = α0 + (α1 + · · · + αn )m1 (θ) = θ, ∀θ ∈ Θ.

En caso de que existan α0 , . . . , αn tales que se cumpla la condición que garantiza


la propiedad de insesgamiento, en general existirán infinidad de soluciones. En tal caso
suele imponerse como condición de optimalidad que la varianza sea mínima entre todos
los posibles estimadores obtenidos. Un estimador que verifique tales condiciones se de-
nomina estimador lineal insesgado óptimo y tiene la propiedad MELI por definición (en
particular es insesgado), aunque no necesariamente será eficiente (es decir, de mínima
varianza entre todos los estimadores insesgados, incluyendo los no lineales).
20
Por mencionar un caso sumamente específico, por ejemplo, en el estudio de los modelos lineales
multiecuacionales surgen el método de mínimos cuadrados indirectos (MCI) y el método de mínimos
cuadrados en dos etapas (MC2E), que pueden aplicarse o no a cada ecuación del modelo en función
de la cantidad de variables exógenas y endógenas que esta incluya.
21
Por caso, el método de «mínimos cuadrados» fue desarrollado por Gauss —entre otros que lo des-
cubrieron independientemente— para estimar los parámetros de una recta en lo que hoy denominamos
modelo de regresión lineal.
CAPÍTULO 6. ESTIMADORES PUNTUALES 135

Ejemplo 27. Si se tuviera Xi ∼ Γ(θ, 2), se tendría m1 (θ) = 2θ , por lo que la condición
de insesgamiento sería
θ
α0 + (α1 + · · · + αn ) = θ, ∀θ > 0.
2
Como las constantes αk no dependen de θ, es fácil ver que necesariamente debe ser
α0 = 0, 22 y luego
θ
(α1 + · · · + αn ) = θ, ∀θ > 0,
2
que implica
α1 + · · · + αn = 2.

Por otro lado, como var(Xi ) = 4θ , tenemos


θ
var(θ̂) = var(α0 + α1 X1 + · · · + αn Xn ) = (α12 + · · · + αn2 ) .
4
El estimador lineal insesgado de mínima varianza se obtiene para los valores de
α1 , . . . , αn (ya vimos que α0 = 0) que minimicen la expresión
θ
h(α1 , . . . , αn ) = (α12 + · · · + αn2 )
4
sujeto a la restricción
α1 + · · · + αn = 2,
problema de optimización con restricciones que puede resolverse mediante el método
de los multiplicadores de Lagrange y da como solución
2
α1 = . . . = αn = .
n
Por lo tanto, el estimador buscado es
n
2X
θ̂ = Xi .
n i=1


22
Existen varias maneras de ver esto. Las más simples son dar dos valores particulares a θ > 0, por
ejemplo 1 y 2 y de ahí llegar a la conclusión buscada, o bien observar que tanto el miembro izquierdo
como el miembro derecho de la igualdad pueden pensarse como polinomios de grado uno en la variable
θ y que por lo tanto su término independiente y su coeficiente principal —es decir, la pendiente—
deben coincidir. Esto implica que α0 = 0 y que 12 (α1 + · + α2 ) = 1. Una tercera forma es decir que
como la igualdad vale para todo θ > 0, también es cierto que
 
θ
lı́m α0 + (α1 + · · · + αn ) · = lı́m+ θ
θ→0+ 2 θ→0

y esto equivale a α0 = 0.
CAPÍTULO 6. ESTIMADORES PUNTUALES 136

Mínimos cuadrados

En determinados modelos paramétricos es razonable plantear que, suponiendo dado


el valor del parámetro θ, cada observación xi importa un determinado error o discre-
pancia respecto de la distribución de probabilidad, lo que se denomina residuo y suele
denotarse como ûi . Si bien este enfoque tiene mucho más sentido en modelos más
complejos, como el modelo de regresión lineal o en modelos de análisis de la varianza,
podemos aplicarlo a nuestro problema de estimación puntual en algunos casos. Veamos
la idea general con un ejemplo.

Ejemplo 28. Supongamos que se estudia una variable aleatoria con distribución N (µ, σ 2 )
para la que se desea estimar µ. En tal caso, siendo µ la media de la distribución, po-
dríamos decir que el valor más razonable que deberían tomar las observaciones xi de
las variables Xi sería en cada caso xi = µ. Por ese motivo, tendría sentido definir para
cada observación el residuo
ûi = xi − µ.
Otra manera de interpretar esto es que si Xi ∼ N (µ, σ 2 ), también podemos escribir

X i = µ + εi ,

donde εi es una variable aleatoria con distribución N (0, σ 2 ). Es decir, separamos la


distribución de Xi en la suma de µ, que es un valor fijo y no aleatorio, y εi , que es
una variable aleatoria cuya distribución es independiente de µ. Como en este caso
Xi − µ = εi , tiene sentido definir los residuos

ûi = xi − µ,

los que entonces actuarán como observaciones de las variables aleatorias εi .


En cualquier caso, se entiende que los residuos deberían en conjunto ser «chicos»,
pero no es posible minimizarlos individualmente, ya que al cambiar el valor de µ unos
disminuyen a medida que otros aumentan. Por eso se define una medida conjunta del
tamaño del vector û = (û1 , . . . , ûn ), que es la suma de cuadrados residual23
n
X n
X
SCR(µ) = û2i = (xi − µ)2 .
i=1 i=1

Como resulta razonable desear que esta cantidad sea pequeña, el estimador de mínimos
cuadrados de µ se define como el valor µ̂M C que minimiza SCR(µ).
23
Como en tantas otras instancias, considerar la suma de los cuadrados es solo una alternativa,
que resulta conveniente por determinados motivos teóricos y prácticos,
P 4 Ppero existen infinidad de otras
posibilidades que también resultarían razonables, como tomar ûi , |ûi |, máx{|ûi |}1≤i≤n , etc.
CAPÍTULO 6. ESTIMADORES PUNTUALES 137

Por caso, en este ejemplo24 resulta


n n
!
d X X
SCR(µ) = 2(xi − µ)(−1) = −2 xi − nµ ,
dµ i=1 i=1
P
xi
y esto vale cero cuando µ = n
, por lo que

µ̂M C = X̄.

Un reparo que puede plantearse sobre este método es que, como se ve en el ejemplo
anterior, la distribución de las variables Xi no juega ningún rol en la deducción del
estimador en tanto valor que minimiza la SCR. Es cierto, sin embargo, que sí se tu-
vo en cuenta la distribución informalmente a la hora de elegir una definición para los
residuos ûi . Es claro entonces que los estimadores así obtenidos serán razonables siem-
pre y cuando la definición de los residuos sea adecuada en términos de la distribución
subyacente y de cómo la misma se ve afectada por variaciones en el parámetro que se
busca estimar.

24
Vale la pena notar que la única complicación en los cálculos surge de la notación de sumato-
ria, que en cualquier caso nos permite obtener un resultado genérico para cualquier n y justificarlo
adecuadamente. Alternativamente, se puede recurrir a una notación con puntos suspensivos

SCR(µ) = (x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2 ,

y es claro que la derivada de la función SCR(µ) es

SCR0 (µ) = −2 (x1 − µ) + (x2 − µ) + · · · + (xn − µ) = −2(x1 + x2 + · · · + xn − nµ),




o incluso realizar los cálculos cada vez a partir de los valores observados. Por ejemplo, si n = 3,
x1 = 1,3, x2 = 2,4 y x3 = 1,5, se tiene

SCR(µ) = (1,3 − µ)2 + (2,4 − µ)2 + (1,5 − µ)2 ,

etc. Se ve claro aquí que la SCR es una función polinómica de µ de grado 2.

También podría gustarte