Apuntes
Apuntes
1
ÍNDICE 2
Índice
1. Introducción a la probabilidad 2
1.1. Historia de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Aleatoriedad, experimentos y sucesos . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Definición y axiomas probabilísticos . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2. Probabilidad Condicionada 12
2.1. Probabilidad Condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.1. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . . 13
2.1.2. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.3. Sucesos independientes . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1. Introducción a la probabilidad
No me cabe la menor duda de que todas y todos habéis escuchado hablar de suerte,
coincidencia, aleatoriedad, incertidumbre, riesgo, fortuna, azar. . . pero siempre utilizadas
de una manera informal.
De hecho estos conceptos son intrínsecos al ser humano que siempre ha andado intrigado
con cuestiones como si va a llover o no, si tiene alguna posibilidad de ganar a los dados
(uno de los juegos de azar más antiguos que se conocen) o a las cartas, o a lo que sea. . .
mientras sea ganar.
Pero para lo que estamos aquí es para formalizar estos conceptos porque, no olvidemos
que la probabilidad es la rama de las matemáticas que trata de formalizar el concepto de
incertidumbre (las matemáticas siempre empeñadas en formalizarlo todo).
1.2 Aleatoriedad, experimentos y sucesos 5
Algunos de los primeros autores conocidos que trabajaron para formalizar probabilidad
fueron Blaise Pascal (1623-1662) o Pierre Fermat (1601–1665) aunque en los trabajos de
Cardano o Galileo Galilei ya aparecen algunos conceptos del cálculo de probabilidades.
Vale pero, ¿Por qué este empeño en formalizar la incertidumbre? Bien, la probabilidad
es necesaria en muchas de las ciencias que conocemos (sino en todas). En particular, si
pensamos en la Ciencia de Datos, vais a necesitar la probabilidad para aplicar y entender los
conceptos estadísticos indispensables para el análisis de cualquier tipo de datos, desde los
pequeños conjuntos de datos disponibles en cualquier ciencia (Medicina, Biología, Economía,
etc.) al BigData de las redes sociales.
Antes de empezar es importante que tengáis en mente que mucho de lo que vamos a ver en
esta sección tiene que ver con conceptos que ya habéis estudiado en Matemática Discreta
(conjuntos, subconjuntos, combinatoria, etc.)
Para empezar debemos entender que significa que algo sea aleatorio. Si yo os pregunto
cuánto suman 2+2 seguro que tenéis clarísimo el resultado y, también, que este no va a
cambiar por mucho que os lo pregunte saltando a la pata coja, dando volteretas, en un día
de sol o si está lloviendo. Sin embargo, si lanzamos una moneda al aire no tendremos tan
claro el resultado. Unas veces saldrá cara y otras, cruz.
Estos son ejemplos sencillos pero podemos pensar en otros más elaborados como: extraer
1.2 Aleatoriedad, experimentos y sucesos 6
un poco de sangre a una persona y ver cuál es su grupo sanguíneo; medir los minutos
transcurridos entre el paso de dos tranvías. . .
En ocasiones no nos interesa estudiar todo el espacio muestral, quizás nos interesa solo una
parte de el, un subconjunto. Pues, bien, a cualquier subconjutno de un espacio muestral se
le denomina suceso1 .
Siguiendo con la Teoría de Conjuntos, una herramienta interesante para visualizar distintos
sucesos con respecto al espacio muestral es lo que se conoce como Diagramas de Venn.
Podemos ver un ejemplo en la Figura 7
Lenguaje Notación
Lo que podemos observar Ω
Que no pase nada ∅
s es un posible resultado s∈Ω
A es un suceso A⊆Ω
Ha pasado el suceso A sobs ∈ A
Observamos el suceso A o el B A∪B
Observamos el suceso A y el B A∩B
No observamos A Ac
Observamos A o B pero no los dos (A ∩ B c ) ∪ (Ac ∩ B)
Observamos alguno de los sucesos A1 , . . . , An A1 ∪ A2 ∪ · · · ∪ An
Observamos todos los sucesos A1 , . . . , An A1 ∩ A2 ∩ · · · ∩ An
Que pase A implica que pase B A⊆B
A y B no pueden suceder a la vez A∩B =∅
A1 , . . . , An son una partición de Ω A1 ∪ · · · ∪ An = Ω y Ai ∩ Aj = ∅ ∀i 6= j
Un ejemplo sencillo. Imaginad que lanzamos una moneda dos veces, pensemos en el espacio
muestral: los posibles resultados serán 4: CC, CX, XC, XX (siendo C cara y X cruz) y por
tanto, el espacio muestral es Ω ={CC, CX, XC, XX}. Si pensamos en el suceso A “que
salga al menos una cara” ¿Cuantos resultados posibles tiene dicho suceso? La solución en
este caso es sencilla, mirando Ω vemos que hay tres resultados que contienen al menos una
cara.
Bueno, ahora que conocemos los conceptos de experimento y suceso podemos plantearnos
la formalización del termino probabilidad.
1.3 Definición y axiomas probabilísticos 8
Ahora ya estamos en disposición de definir que significa eso de probabilidad, ¿o no?. Definir
la probabilidd no es una tarea fácil. Lo que es básico es tener claro que la probabilidad es
un número entre 0 y 1 donde 0 significa que el suceso no es posible y 1 que es seguro que
pasa.
Siguiendo a DeGroot and Schervish [2012], existen tres formas distintas de entender la
probabilidad. Tres que, además, se entremezclan y confunden fácilmente.
En el ejemplo de la moneda esto sería, si lanzamos la moneda muchas veces cuántas caras
y cuántos cruces obtendremos. Si lo pensamos intuitivamente, (teniendo en cuenta que la
moneda no este trucada), esperaríamos obtener el mismo número de caras que de cruces y
por tanto los dos sucesos serán igual de probables (esto es, como después veremos, una
probabilidad de 0.5 para cada uno).
m
P (A) =
N
Esta definición es, sin embargo, redundante puesto que estamos usando el concepto de
probabilidad (sucesos igual de probables) dentro de su definición. Además, que pasa cuando
dos sucesos no son igual de probables, por ejemplo, como asignamos la probabilidad a una
cara o a una cruz si la moneda no está bien balanceada.
Esta interpretación de la probabilidad contiene, de una forma u otra, a las dos anteriores.
Pensadlo, ¿Cómo establecemos la verosimilitud de un suceso? ¿Cómo creamos nuestra
interpretación de esa verosimilitud? La mayor parte de nosotr@s lo haría pensando en las
veces que dicho suceso se repite (definición frecuentista) o en que hay sucesos que son igual
de verosímiles (interpretación clásica). Aunque también podemos hacerlo por comparación:
Si me planteo apostar por cara en un lanzamiento de moneda antes que apostar por mi
equipo en la competición es porque creo que la probabilidad de que mi equipo gane es
inferior al 0.5. Del mismo modo, si apuesto antes por sacar un 1 en un lanzamiento de
dados que por que gane mi equipo, es que confio bastante poco en que ganen (probabilidad
inferior a 0.16).
Pues vamos a ver la definición de probabilidad y sus axiomas tal y como los enunció
A.N.Kolmogorov4 en 1933
de 1827) fue un astrónomo, físico y matemático francés. Continuador de la mecánica newtoniana, descubrió
y desarrolló la transformada de Laplace y la ecuación de Laplace; como estadístico sentó las bases de la
teoría analítica de la probabilidad
3
Si bien es cierto que esta definición y sus axiomas derivados son ciertos sin importar la interpretación
del termino probabilidad, debemos tener en cuenta que el paradigma estadístico resultante si será diferente.
Las interpretaciones frequentista y clásica de la probabilidad dan lugar al paradigma conocido como
Frequentista mientras que el enfoque Bayesiano se deriva de la visión subjetiva de la probabilidad.
4
Andrey Nikolaevich Kolmogorov (Tambov, 25 de abril de 1903-Moscú, 20 de octubre de 1987) fue un
matemático ruso que realizó aportes de primera línea en los contenidos de teoría de la probabilidad y de
topología. Estructuró el sistema axiomático de la teoría de la probabilidad, utilizando el lenguaje teoría de
conjuntos.
1.3 Definición y axiomas probabilísticos 10
0≤P ≤1
P (Ω) = 1
Si A1 , An . . . son eventos que no pueden suceder a la vez (eventos disjuntos ∀i 6= j
Ai ∩ Aj = ∅)
∞
[ ∞
X
P Aj = P (Aj )
j=1 j=1
Para entender un poco mejor esta definición Blitzstein and Hwang [2015] nos animan a
pensar en una caja llena de piedrecitas cuyo peso total sea 1 (1 kg, 1 g, lo que sea). La
caja vacía pesa 0 mientras que la caja completa pesa 1 y cada una de las piedras tiene un
peso diferente.
Evidentemente, el peso de cualquier subconjunto de piedrecitas será las suma del peso de
cada piedra en ese conjunto.
P (∅) = 0,
Si A ⊆ B, P (A) ≤ P (B)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
La tercera de estas reglas tiene una generalización conocida como la fórmula de inclusión-
exclusión:
Fijaos que esta última regla parece estar en contradicción con la definición de probabilidad
1.3 Definición y axiomas probabilísticos 11
inicial. pero OJO en la definición hacíamos referencia a sucesos disjuntos (que no tienen nada
en común) y que juntos cubren todo el espacio muestral. Aquí, estamos hablando de sucesos
que pueden compartir parte del espacio muestral y que, si sólo sumamos probabilidades,
estaríamos considerando su probabilidad más de una vez.
Una vez formalizado el concepto de probabilidad no debemos perder de vista que esta
tiene una interpretación y una componente cotidiana que, como tal, la hace dependiente y
cambiante según cambia el desarrollo de los acontecimientos.
Por ejemplo, si sabemos que hace 10 minutos que estamos en la parada del autobús,
tendremos a pensar que la probabilidad de que el próximo autobús llegue en los próximos
5 minutos será mayor que si sólo llevamos esperando en la parada 1 minuto ¿no?
1.4. Ejercicios
1. Laura está planeado salir a cenar todas las noches de una semana, de lunes a viernes.
Cada día quiere ir a uno de sus 10 restaurantes favoritos.
(b) Y si no le importa repetir pero no quiere cenar en el mismo restaurante dos dias
consecutivos?
2. Si tenemos 12 personas
(a) ¿Cuántas formas hay de dividirlas en 3 equipos donde uno de los equipos tiene
2 personas y, los otros 2, 5 cada uno?
(b) ¿Cuántas formas hay de dividirlas en tres equipos donde cada equipo tiene 4
personas?
3. Una familia tiene 3 hijos y 3 hijas. Asumiendo que todos tienen la misma probabilidad
de haber nacido en cualquier orden. ¿Cuál es la probabilidad de que las tres mayores
sean chicas?
4. Una ciudad con 6 barrios sufre 6 accidentes en una semana. Asumiendo que los
accidentes pueden haber sucedido en cualquier parte de la ciudad con la misma
probabilidad y que los tres barrios tienen el mismo tamaño. ¿Cual es la probabilidad
de que un barrio haya tenido más de un accidente?
7. Una persona llega al centro de salud con dolor de garganta y algo de fiebre. Después
de examinarla le dicen que puede tener una infección bacteriana; una infección viral
o ambas. En concreto tiene una probabilidad de 0.7 de que sea bacteriana y una
probabilidad de 0.4 de que sea vírica ¿Cuál es la probabilidad de que tenga ambas?
8. Una caja contiene tres cartas. Una carta es roja por las dos caras, otra es verde por
las dos caras y la tercera es roja por una cara y verde por la otra. Sacamos una carta
de la caja y observamos que es verde por una cara. ¿Qué probabilidad hay de que la
otra cara también lo sea?
9. Sea Ai : i ∈ I una sucesión de conjuntos. Prueba las leyes de Morgan5 que dicen:
[ c \ \ c [
Ai = Aci , Ai = Aci
i i i i
10. Tenemos un conjunto de tazas con sus correspondientes platos. Hay dos tazas (con sus
platos) que son rojas, dos blancas y dos con estrellas. Si las tazas se asignan a los platos de
forma aleatoria, encuentra la probabilidad de que ninguna taza coincida con el patron de
su plato.
5
Augustus De Morgan (Madurai, India; 27 de junio de 1806 - Londres, 18 de marzo de 1871) fue
un matemático y lógico británico nacido en la India. Profesor de matemáticas en el University College
de Londres entre 1828 y 1866; y primer presidente de la Sociedad Matemática de Londres. Conocido
por formular las llamadas leyes de De Morgan, en su memoria, y establecer un concepto riguroso del
procedimiento, inducción matemática
14
2. Probabilidad Condicionada
Definición: Dado un evento B del que sabemos que P (B) > 0, definimos la probabilidad
de que suceda otro evento A condicionada a que ha sucedido B como:
P (A ∩ B)
P (A | B) =
P (B)
Estamos reduciendo nuestras posibilidades a las piedras del grupo B (porque ya sabemos
que es eso lo que ha pasado), B es nuestro nuevo espacio muestral. Ahora, como la suma de
probabilidades debe ser 1 en ese nuevo espacio muestral, debemos dividir el peso de todas
las piedras por P (B) y el efecto es como hacer zoom (como vemos en la tercera imagen).
Buscamos entonces las piedras que están en A y en B a la vez (P (A ∩ B)) y sumamos sus
nuevos pesos obteniendo así la P (A | B).
Según las leyes de Mendel, todos los posibles genotipos del hijo de una madre portadora
2.1 Probabilidad Condicionada 15
(xX)6 y un padre normal (XY) son xX, xY, XX, XY y tienen la misma probabilidad. El
espacio muestral es Ω = {xX, xY, XX, XY}
El suceso A={hijo enfermo} corresponde al genotipo xY, por tanto, según la definición
clásica de probabilidad P (A) = 1/4 = 0,25
La mujer tiene el hijo y es varón ¿qué probabilidad hay de que tenga la enfermedad?
Se define el suceso B = {ser varón} = {xY, XY} con probabilidad P (B) = 0,5 la probabilidad
que necesitamos es la del suceso A | B= {estar enfermo dado que es varón}; P (A | B).
Aplicando la definición de probabilidad condicional tenemos:
P (A ∩ B) P (xY) 0,25
P (A | B) = = = = 0,5
P (B) 0,5 0,5
P (A ∩ B) = P (A | B)P (B)
y
P (A ∩ B) = P (B | A)P (A)
A = (A ∩ B) ∪ (A ∩ B c )
n
X
P (A) = P (A | Bi )P (Bi )
i=1
Veamos un ejemplo: Imaginad que tenemos dos monedas. Una de ellas tiene cara y cruz
mientras que la otra tiene dos caras. Escogéis una moneda al azar (de una bolsa) y la
lanzáis. ¿Cuál es la probabilidad de cara?.
En este ejemplo resulta sencillo dividir el espacio muestral en dos, los resultados que vienen
de la moneda trucada y los que vienen de la moneda no trucada. Además conocemos la
probabilidad de cara bajo cada una de esas circunstancias 1 y 1/2 respectivamente. También
2.1 Probabilidad Condicionada 17
conocemos la probabilidad de que la moneda elegida esté trucada o no, 1/2 en ambos casos,
puesto que las hemos elegido al azar.
Con todos estos elementos podemos definir el suceso A = Cara, el suceso B1 = moneda
trucada y el suceso B2 moneda no trucada. Utilizando entonces el teorema anterior tenemos:
1 1 1 3
P (A) = P (A | B1 )P (B1 ) + P (A | B2 )P (B2 ) = 1 × + × =
2 2 2 4
Para trabajar este tipo de probabilidades, se puede recurrir a una herramienta muy visual
llamada diagrama de árbol o árbol de probabilidad donde cada resultado viene representado
por un circulo y el condicionamiento se representa mediante lineas de conexión. En cada
arista suele aparecer un número que representa la probabilidad del resultado final dado el
resultado anterior (es decir, la probabilidad condicionada). Para este ejemplo concreto, el
diagrama de árbol sería:
Thomas Bayes fue un reverendo presbiteriano allá por el siglo XVIII. No publicó ningún
trabajo sobre probabilidad en vida o al menos, no que se sepa. Sin embargo, tras su muerte,
en 1763 su amigo y colega Richard Price publicaría un trabajo de Bayes que haría que su
2.1 Probabilidad Condicionada 18
nombre pasase a la historia aunque, cabe mencionar que la forma en la que hoy se conoce
el Teorema de Bayes se la debemos a Laplace (el Newton Francés), así como muchos de los
resultados que veremos en esta asignatura.
P (B | A)P (A)
P (A | B) =
P (B)
P (B | Ai )P (Ai )
P (Ai | B) = Pn
j=1 P (B | Aj )P (Aj )
Volviendo al ejemplo de las dos monedas, supongamos ahora que lo que nos interesa es
saber cuál es la probabilidad de que la moneda escogida sea la trucada dado que nos ha
salido una cara. Recordemos que una moneda tenía dos caras y la otra sólo una.
Veamos, al lanzar una moneda (cualquiera de las dos) los posibles resultados hubiesen sido
Ω = {C,X,C,C}. Este espacio muestral puede dividirse en dos sucesos A1 que la moneda
esté trucada y por tanto sólo pueda salir cara o que la moneda no esté trucada A2 y que
pueda salir cara o cruz. Cada uno de ellos tiene una probabilidad 1/2. El suceso B es, en
este caso, haber obtenido cara.
Fijaros que en este caso es difícil determinar P(moneda esté trucada dado que he obtenido
una cara) pero muy fácil dar la P(haber obtenido una cara dado que la moneda está
trucada) (en concreto 1)
Tenemos entonces
1
P (B | A1 )P (A1 ) 1× 2 2
P (A1 | B) = = =
P (B | A1 )P (A1 ) + P (B | A2 )P (A2 ) 1 × 21 + 1
2 × 1
2
3
Una aplicación muy común del teorema de Bayes en la salud es la detección de enfermedades.
Imaginad que existe una enfermedad muy rara que sólo afecta al 1 % de la población. Para
poder detectar dicha enfermedad se elabora un test que tiene una efectividad de un 95 %, es
decir, dará positivo para el 95 % de los enfermos y negativo para el 95 % de los no enfermos.
Fijaros que el espacio muestral en el que estamos trabajando contiene dos sucesos, estar
enfermo E y no estarlo E c . Sabemos que la probabilidad de estar enfermo es P (E) = 0,01,
que obtener un positivo (+) cuando se está enfermo es P (+ | E) = 0,95 y que obtener un
negativo (-) cuando no se está enfermo es P (− | E c ) = 0,95. Lo que nos interesa saber es
la probabilidad de tener la enfermedad sabiendo que hemos obtenido un positivo, esto es:
P (E | +)
Para poder calcular esta cantidad podemos usar el teorema de Bayes y tendremos:
P (+ | E)P (E)
P (E | +) = .
P (+)
De esta expresión solo nos falta por conocer P (+) que podemos obtener usando el teorema
de la probabilidad total como:
Tanto en el caso de las aplicaciones en salud como en el mundo de las apuestas, un concepto
que aparece muy a menudo es el conocido como odds (o momios en castellano).
Definición Los odds a favor de un evento A son el ratio entre la probabilidad del suceso y
la probabilidad de su complementario. Esto es:
2.1 Probabilidad Condicionada 20
P (A) P (A)
c
=
P (A ) 1 − P (A)
En el fondo estamos estudiando cuando más probable es tener la enfermedad que no tenerla
(por ejemplo). Un valor de 2 nos indicaría que es 2 veces más probable estar enfermo que
no estarlo.
Los odds también se suelen utilizar mucho en términos de apuestas ya que nos indican
cuanto más probable es ganar que perder y se pueden calcular “a priori”, es decir, sin saber
lo que ha pasado antes, o “a posteriori”, una vez conocemos que ha tenido lugar el suceso
B. Para ello podemos utilizar el Teorema de Bayes de la siguiente forma:
P (A | B) P (B | A) P (A)
=
P (Ac | B) P (B | Ac ) P (Ac )
Este teorema nos dice que los odds a favor del suceso A dado el suceso B se pueden calcular
como los odds sin condicionar multiplicados por
P (B | A)
.
P (B | Ac )
Durante toda esta sección hemos intentado dilucidar la probabilidad de un suceso condicio-
nado a otro P (A | B). Y bien ¿Qué sucede si el conocimiento de que ha sucedido B no
cambia la probabilidad de que suceda A?
P (A ∩ B) = P (A)P (B)
Imaginad que lanzo dos monedas balanceadas y quiero saber la probabilidad de que una
sea cara dado que la otra es cara. Es decir quiero calcular la probabilidad de A = {cara
en la moneda 1} dado que conozco B = {cara en la moneda 2}. El espacio muestral es Ω
={CC, CX, XC, XX} y es fácil ver que P (A ∩ B) = 1/4. Por otra parte, la probabilidad
de A es idéntica a la probabilidad de B P (A) = P (B) = 1/2. Y, finalmente vemos que
P (A ∩ B) = P (A)P (B) = 1/4
En este ejemplo era fácil entender que ambos sucesos eran independientes puesto que, el
resultado obtenido en una moneda no afecta al resultado obtenido en la otra. Pero pensemos
en otro ejemplo.
Imaginad que lanzamos un dado y planteamos dos sucesos A = {Obtener un número par}
y B = {Obtener 1, 2, 3 o 4}
En este caso resulta más difícil de entender porque estamos hablando del mismo dado y del
mismo lanzamiento pero se puede ver de una forma muy sencilla. Imaginad que os hago
apostar por si va a salir un número par o impar, como la probabilidad es la misma en los
dos casos no me sabríais que decir. Ahora lanzo el dado y os digo que ha salido un número
2.1 Probabilidad Condicionada 22
del 1 al 4, ¿Sabríais entonces que decirme? ¿Os ha servido de algo la información que os he
dado?. Evidentemente la respuesta a ambas preguntas es no y, de ahí, la independencia de
ambos sucesos.
1. P (A ∩ B) = P (A)P (B)
2. P (A ∩ C) = P (A)P (C)
3. P (B ∩ C) = P (B)P (C)
Es importante tener en cuenta que las tres primeras condiciones (independencia dos a
dos) no implican necesariamente la cuarta. Por ejemplo: Consideremos dos lanzamientos
independientes de una moneda balanceada. Sea A el suceso obtener primero cara; B
el suceso el segundo lanzamiento es cara y C el suceso obtener el mismo resultado en
ambos lanzamientos. En este caso A, B Y C son sucesos independientes dos a dos pero no
independientes ya que P (A ∩ B ∩ C) = 1/4 mientras que P (A)P (B)P (C) = 1/8. El punto
es que, saber A o B no nos dice nada sobre C pero si conocer ambos A ∩ B.
En ocasiones varios sucesos no son independientes entre si pero sí lo son bajo la premisa de
2.1 Probabilidad Condicionada 23
C al suceso haber trabajado duro. En este caso, A y C no son independientes dado B pero
si lo son dado B c
2.2. Ejercicios
1. Cada vez que un cliente compra una determinada pasta de dientes elige entre la marca
A o B. Supongamos que si ha comprado una determinada marca, la probabilidad de
que repita en la siguiente compra es 1/3. Si es igual de probable que, en la primera
compra elija A o B ¿Cual es la probabilidad de que en la primera y la segunda compra
elija la marca A?
2. Una caja contiene tres monedas con una cara en ambos lados, cuatro monedas con
una cruz en cada lado y dos con cara y cruz. Si elegimos al azar una de esas 9 monedas
y la lanzamos, ¿Qué probabilidad hay de obtener cara?
3. El porcentaje de personas con gafas en los tres barrios de una ciudad son, 30 para
el primero , 25 en el segundo y 45 en el tercero. Teniendo en cuenta que 1/4 de
la población vive en el primer barrio, 2/4 en el segundo y 1/4 en el tercero ¿Qué
probabilidad hay de que una persona elegida al azar tenga gafas?
4. De acuerdo con la cifras del INE (Instituto Nacional de Estadística), los hombres
que fuman tienen 23 veces más probabilidad de desarrollar cáncer de pulmón que
aquellos que no fuman. El mismo estudio informa de que un 21 % de los hombres
españoles fuman. ¿Cual es la probabilidad de que un hombre fumase dado que ha
desarrollado cáncer de pulmón?
5. Las pantallas que se usan en un tipo de móviles pueden ser fabricadas por tres
compañías diferentes A, B o C. La proporción de pantallas elaboradas por cada una
de ellas es 0.5, 0.3 y 0.2 respectivamente. Se sabe que el 0.01 de las fabricadas por A,
el 0.02 de las que fabrica B y el 0.03 de las elaboradas por C son defectuosas. Dado
que la pantalla de un teléfono es defectuosa, que probabilidad hay de que la haya
fabricado A.
Una nueva compañía B, para competir con A, ofrece un nuevo test que dice que
detecta la enfermedad con mayor facilidad. En concreto, B afirma que la sensibilidad
de su test es del 98 % aunque su especificidad se reduce al 90 %.
Ante un resultado positivo, ¿Con que test estarías más seguro/a de tener la enferme-
dad? ¿Se te ocurre cuando es mejor usar el test proporcionado por A y cuando el
proporcionado por B?
7. Supongamos que hay 5 tipos de sangre en la probación cada uno con probabilidad
p1 , p2 , . . . , p5 . Sabemos que un crimen ha sido cometido por dos individuos. Tenemos
un sospechoso que tiene un tipo de sangre 1 y una probabilidad p de ser culpable. En
el escenario del crimen se ha descubierto que uno de los criminales tenía sangre de
tipo 1 y, el otro, de tipo 2.
Tras este descubrimiento, ¿La probabilidad de que el sospechoso sea culpable au-
menta o disminuye? ¿Depende esta probabilidad *a posteriori* de las probabilidades
p, p1 , . . . , p5 ?
8. Consideremos cuatro dados no estándar (el dado de Efron) cuyas caras están nume-
radas de la siguiente forma: (las seis caras de cada dado son igual de probables
A: 4,4,4,4,0,0
B: 3,3,3,3,3,3
C: 6,6,2,2,2,2
D: 5,5,5,1,1,1
Estos cuatro dados son lanzados una vez cada uno. Sea A el resultado del dado A, B
el resultado del dado B etc.
b) ¿Es el suceso A > B independiente del suceso B > C? ¿Es el suceso B > C
independiente del suceso C > D? Explica por qué
9. Supongamos que existen dos tipos de conductores, los buenos y los malos. Sea G
el suceso de cierta persona es un buen conductor; A el suceso el conductor se ve
involucrado en un accidente este año y B el suceso el conductor se ve involucrado en
un accidente el próximo año.
2.2 Ejercicios 26
b) Calcula P (G|Ac ).
c) Calcula P (B|Ac ).
10. Una familia tiene tres hijos/as y cada uno de ellos es niño o niña con la misma
probabilidad. Si definimos los eventos
b) ¿Es A independiente de C?
3.1. Introducción.
Imaginemos un experimento que consiste en observar cuantos coches pasan por las calles
de la ciudad durante una hora de un día determinado.
¿No sería mucho más fácil, en lugar de trabajar con sucesos y conjuntos, trabajar con
números reales? Por ejemplo, que el evento A43 se representase simplemente por, digamos,
el número 4. Así, podríamos sumarlo con el número de coches que pasan en ese mismo
minuto por la calle B, digamos 3.
Por ejemplo, imaginad que lanzamos una moneda 10 veces. El espacio muestral tendrá 210
elementos:
C C C C C C C C C C
X C C C C C C C C C
X X C C C C C C C C
. . . . . . . . . .
Ahora pensad que estamos interesad@s en el número de caras obtenidas. Podemos definir la
variable aleatoria X evaluada sobre un suceso S, X(S) como el número de caras de dicho
3.2 Variables aleatorias. 28
Figura 7: Una variable aleatoria convierte cada suceso en un valor de la recta real.
Pensemos ahora en una empresa de construcción que está preocupada por la posible
demanda de agua y de electricidad en un nuevo edificio de viviendas. Se sabe que la
demanda de agua se mueve entre los 16 y los 800 L por día mientras que la electricidad se
mueve entre los 1 y los 150 kw/h al día:
800
600
Agua
400
200
0 50 100 150
Electricidad
800
600
Agua
400
200
0
0 50 100 150
electricidad
800
600
Agua
400
200
0
0 50 100 150
electricidad
Fijaos que, todos los sucesos descritos se pueden expresar como un conjunto de puntos X,
Y donde X es la demanda de agua e Y la demanda de electricidad, y cualquier punto del
espacio muestral Ω se corresponde con un conjunto de números (x, y)
Incluso podríamos definir una tercera variable Z que, para cada punto del espacio muestral
Ω, Indicará si la demanda es alta o no:
0
si x > 115 & y > 400
Z(s) =
1
si no
Es importante, sin embargo, no perder de vista que existe una conexión entre el espacio
muestral y la variable aleatoria. Esta conexión es la que nos permite utilizar la definición
de probabilidad.
3.3 Distribución de una variable aleatoria. 32
Por ejemplo, podemos resumir los resultados de 10 lanzamientos de una moneda mediante
el número de caras. Pero, para pensar en como de probable es obtener 4 retornaremos,
consciente o inconscientemente, a la idea inicial del espacio muestral intentando contar
cuantos resultados son favorables de entre los 210 posibles.
Nota: Fijaos que las variables aleatorias se denotan usando letras mayúsculas, por ejemplo,
X mientras que los posibles valores de esta variable se representan con letras minúsculas,
por ejemplo, x.
Bien, hemos definido lo que es una variable aleatoria pero lo que realmente queremos
es entender su comportamiento. ¿Cuál es el rango de valores que sucederá con mayor
probabilidad? ¿Qué puedo esperar que suceda?
Para poder describir estas y otras características probabilísticas de la variable que estamos
estudiando utilizamos su distribución.
Como ya hemos comentado al final de la sección anterior, la probabilidad sobre los elementos
del espacio muestral de la variable X viene inducida por la probabilidad definida sobre el
espacio muestral Ω del experimento original. En este sentido P (X ∈ C) se define como la
probabilidad del suceso formado por los resultados del experimento s tal que X(s) ∈ C.
!
10 1 10
P (X = 2) = ≈ 0,044
2 2
En el ejemplo de la empresa constructora, podemos calcular la probabilidad haciéndola
proporcional al área de los cuadrados asociados a los sucesos que nos interesan. Por tanto,
La probabilidad de que la demanda de electricidad, Y , sea superior a 115 kw/h (Figura 2)
será el área del cuadrado verde ((150 − 115) × (800 − 16) = 26440) dividida por el área del
cuadrado grande ((150 − 1) × (800 − 16) = 116816). Esto es:
(c2 − c1 ) × 784
P (c1 ≤ Y ≤ c2 ) =
116816
A lo largo de este capítulo y el siguiente veremos formas más elegantes de asignar probabi-
lidades a los valores de las variables aleatorias. Para hacerlo, distinguiremos entre variables
discretas y continuas.
Definición: una variable discreta X es aquella que sólo puede tomar un conjunto de
valores finitos a1 , . . . , an o infinitos pero contables a1 , a2 , . . ..
Fijaos que, al escribir X = x estamos denotando un suceso que consiste en todos los posibles
resultados del experimento que asignen a X el valor x. De manera formal podríamos escribir:
s ∈ S : X(s) = x, pero, escribir X = x es más corto y más intuitivo.
Volviendo al ejemplo de las monedas, X = 3 denotaría todos aquellas tiradas en las que 3
de las 10 monedas hayan resultado ser cara. En concreto, para este ejemplo, podríamos
3.3 Distribución de una variable aleatoria. 34
determinar las probabilidades de todos los valores que conforman el soporte de X, esto es:
0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10
!
10 1
P (X = 0) =
0 210
!
10 1 1
P (X = 1) = × 1× 9
1 2 2
!
10 1 1
P (X = 2) = × 2× 8
2 2 2
...
!
10 1 1
P (X = k) = × k × 10−k
k 2 2
Algunas funciones de probabilidad son tan conocidas y usadas que tienen nombre propio.
En concreto, la función que expresa la probabilidad de un número dado de éxitos en N
intentos se llama Binomial. Esta y otras distribuciones conocidas las estudiaremos en el
próximo tema.
Nota: dos variables aleatorias pueden tener la misma distribución (es decir, usar la misma
función de probabilidad) sin ser la misma variable. Por ejemplo, cualquier variable aleatoria
que sólo pueda tomar dos valores con la misma probabilidad, tendrá la misma distribución
que el número de caras en el lanzamiento de una moneda (0 o 1).
Como toda función, una función de probabilidad puede dibujarse. Para la función de
probabilidad del experimento de las monedas tenemos:
Función de probabilidad
1.0
0.8
probabilidad
0.6
0.4
0.2
0.0
0 2 4 6 8 10
número de caras
Fijaos que se trata de una función que sólo toma valores en algunos puntos. La altura a la
que se encuentran estos puntos es la probabilidad de ese valor. Suele añadirse una línea
vertical para que se observe mejor la magnitud de dicha probabilidad.
Teorema: sea X una variable aleatoria discreta con función de probabilidad pX cuyo
soporte es x1 , x2 , . . .:
2. P (X ∈ C) =
P
xi ∈C pX (xi )
P∞
3. i=1 pX (xi ) =1
Una vez hemos visto lo que significa que una variable sea discreta la definición de variable
continua parece obvia. De forma simple podríamos decir que una variable aleatoria es
continua cuando puede tomar cualquier valor en un intervalo de la recta real. Pero, ¿qué
significa que puede tomar cualquier valor? Bien, para formalizar esta definición debemos
pensar, de nuevo, en términos de probabilidad:
3.3 Distribución de una variable aleatoria. 36
Definición: decimos que una variable aleatoria es continua o que tiene una distribu-
ción continua si existe una función no negativa fX , definida en la recta real, tal que, para
todo intervalo de números reales (acotado o no acotado) la probabilidad de que X tome un
valor en dicho intervalo es la integral de f sobre dicho intervalo:
Z b
P (a ≤ X ≤ b) = fX (x)dx
a
De esta definición se deduce que la distribución de una variable aleatoria continua X (es
decir, el comportamiento de ésta, que valores son más probables y cuales menos, etc.) queda
totalmente caracterizado por la función f . Podemos decir entonces, que fX juega el mismo
papel para una variable aleatoria continua que la función de probabilidad en el caso de una
variable aleatoria discreta y merece, por tanto, su propio nombre y definición.
Definición: sea X una variable aleatoria continua, la función fX que caracteriza su distri-
bución de probabilidad recibe el nombre de función de densidad (en inglés: probability
density function, p.d.f) y el conjunto {x : fX (x) > 0} recibe el nombre de soporte de X.
1. Ser no negativa:
fX (x) ≥ 0 ∀x
Un típico ejemplo de una función de densidad podemos verlo en la siguiente figura, donde
el área sombreada representa la probabilidad de que X esté en el intervalo [0, 5]:
if(is.null(between)){
below = ifelse(is.null(below), qnorm(pcts[1],mu,sig), below)
above = ifelse(is.null(above), qnorm(pcts[2],mu,sig), above)
}
3.3 Distribución de una variable aleatoria. 37
if(is.null(outside)==FALSE){
below = min(outside)
above = max(outside)
}
lowlim = mu - 4*sig
uplim = mu + 4*sig
if(justabove==FALSE){
x.below = x.grid[x.grid<below]
dens.below = dens.all[x.grid<below]
polygon(c(x.below,rev(x.below)),c(rep(0,length(x.below)),rev(dens.below)),col=c
}
if(justbelow==FALSE){
x.above = x.grid[x.grid>above]
dens.above = dens.all[x.grid>above]
polygon(c(x.above,rev(x.above)),c(rep(0,length(x.above)),rev(dens.above)),col=c
}
if(is.null(between)==FALSE){
from = min(between)
to = max(between)
x.between = x.grid[x.grid>from&x.grid<to]
dens.between = dens.all[x.grid>from&x.grid<to]
3.3 Distribución de una variable aleatoria. 38
polygon(c(x.between,rev(x.between)),c(rep(0,length(x.between)),rev(dens.betwee
}
}
## ---------------------- ##
## Shading under a Normal ##
## in R ##
## ---------------------- ##
0.04
0.00
−10 −5 0 5 10
0.2
0.1
0.0
−3 −2 −1 0 1 2 3
Es fácil ver que se trata de una función no acotada cerca de 0 (tiende a ∞) pero, sin
embargo, si cumple los requisitos necesarios para ser una función de densidad
Nota 3: constante normalizadora. El hecho de que una función de densidad tenga que
integrar 1 en toda la recta real, permite que esta pueda quedar definida a falta de una
constante. Por ejemplo, si para la función de densidad de la nota 2, escribimos
cx−1/3 para 0 < x ≤ 1
fX (x) = ,
0
en otro caso
Cuando definimos una función de probabilidad o densidad a falta de una constante hablamos
de proporcionalidad y utilizamos el símbolo ∝. De esa forma si f (x) = cx podemos escribir
f (x) ∝ x. Esta propiedad será muy útil en el último tema cuando aprendamos a simular
de una distribución.
Hemos visto que la distribución de una variable aleatoria discreta queda caracterizada por
su función de probabilidad, mientras que la de una variable aleatoria continua lo hace por
3.3 Distribución de una variable aleatoria. 41
su función de densidad. Sin embargo, ambos tipos de variables quedan caracterizados por
la función de distribución acumulada.
Fijaos que esta función esta definida tanto para variables discretas como para variables
continuas. Lo que cambiará será su cálculo. Si X es una variable discreta, su función de
distribución acumulada se calculará como:
X
FX (xj ) = pX (xi ).
xi ≤xj
Si dibujamos esta función veremos que tendrá forma de escalera, es decir, será una función
definida a trozos.
par(mfrow=c(1,2))
1.0
0.8
0.8
probabilidad
0.6
0.6
F(x)
0.4
0.4
0.2
0.2
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
número de caras x
En el caso de que X sea una variable continua, en lugar de utilizar la función de probabilidad
deberemos usar la función de densidad. Del mismo modo, no usaremos una suma discreta
3.3 Distribución de una variable aleatoria. 42
Podéis ver que esta definición tiene mucho que ver con la definición de la distribución de
probabilidad en una variable aleatoria continua de la sección anterior.
x≤0 x≤0
Z x 0
0
FX (x) = fX (u)du = =
−∞ x
R 1 1 − 1
0 (1+u)2 du x>0 x>0
1+x
así, la probabilidad de que el voltaje sea menor que 3 puede calcularse como P (X ≤ 3) =
FX (3) = 3/4.
par(mfrow=c(1,2))
aux <- seq(0.01,10, length.out = 100)
plot(aux, 1/(1+aux)^2, type="l", main="Función de densidad", ylab = "densidad",xlab="X"
0.8
0.8
0.6
0.6
densidad
F(x)
0.4
0.4
0.2
0.2
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
X X
P (X > x) = 1 − FX (x)
Supongamos que X es el número de lacasitos rojos que hay en un bote y que conocemos
su función de distribución acumulada F . En mi grupo de amigas queremos apostar sobre
cuantos hay. La dinámica del juego es, que si el bote tiene menos de x0 lacasitos rojos
X ≤ x0 ganamos un euro pero si es mayor X ≥ x0 perdemos un euro. Para que tengamos
la misma probabilidad de ganar que de perder tenemos que buscar un x0 tal que P (X ≤
x0 ) = P (X > x0 ) = 1/2.
Podemos ponernos a buscar un número entero que cumpla que F (x) = 1/2 y elegir este
como el valor por el que apostaremos (x0 ) pero, si F es una función biyectiva tal que tiene
una inversa F −1 , x0 = F −1 (1/2). A x0 se le llama cuantil 0.5 o percentil 50 % de X
En general:
Definición: llamamos Cuantil o Percentil asociado a una probabilidad p, al valor FX−1 (p)
definido como el valor más pequeño del soporte de X que cumple que F (x) ≥ p. La función
FX−1 recibe el nombre de función cuantil de X.
El gestor quiere establecer un nivel de confianza sobre como de grande podría ser la perdida.
En concreto quiere que saber cual es el valor por debajo del cual el cambio (X) sólo estará
con probabilidad 0.01. Matemáticamente esto es: P (X < x0 ) = 0,01. Vemos en la figura
que este valor se establece en x0 = −4,14.
De entre los cuantiles, hay 3 que son especialmente usados y conocidos, el cuantil 1/2 (o
3.4 Momentos de una variable aleatoria. 45
percentil 50) conocido como la mediana el cuantil 1/4 (o percentil 25) y el cuantil 3/4 (o
percentil 75). Estos se utilizan habitualmente para describir la distribución de una variable
aleatoria y dan una buena idea de los valores que puede tomar esta.
Como hemos visto, la distribución de una variable nos da una idea del comportamiento de
la misma. Sin embargo, ésta es, a veces, difícil de entender y es necesario utilizar resúmenes
más sencillos que nos permitan visualizar, sin mucho esfuerzo, la información que contiene.
3.4.1. Esperanza.
Pensemos en una inversora que sabe que si compra un determinado stock por un valor de
18 euros, su ganancia tras un año será la variable aleatoria X tal que 18 + X sea el valor
del stock en el mercado al cabo de un año. Parece lógico que esta inversora quiera saber el
valor medio de X, pero que significa eso exactamente.
De forma intuitiva, el valor medio o esperado de X sería el promedio de todos los posibles
valores que puede tomar X ponderados por la probabilidad de que ese sea el verdadero
valor.
Pensadlo así, lanzamos una moneda, si sale cara nos dan 3 euros y si sale cruz nos quitan
1, cual será la ganancia esperada. Como la mitad de las veces ganaré 3 y la otra mitad
ganaré -1, si juego muchas veces y saco el promedio del dinero ganado por tirada tendré:
1 1
3× + (−1) × = 1
2 2
Fijaos que la esperanza de una variable aleatoria discreta depende únicamente de la función
de probabilidad pX y que podría no existir si tenemos un soporte infinito y la suma de la
serie definida por pX no converge.
La idea de calcular una media ponderada de los valores de una variable puede extenderse
al caso de variables continuas. En concreto:
Definición: sea X una variable aleatoria continua con función de densidad fX . La espe-
ranza de la variable X se denota por E(X) y se calcula como:
Z ∞
E(X) = xf (x)dx
∞
Imaginemos que compramos una bombilla que tiene un tiempo máximo de funcionamiento
de un año. El tiempo hasta que la bombilla falla, X, es una variable aleatoria continua con
función de densidad:
2x
si 0 < x < 1
f (x) = .
0
en otro caso
Al igual que en el caso de una variable aleatoria discreta, la esperanza de una v.a. continua
depende únicamente de su función de densidad y podría no existir si, al integrar, no
obtenemos un valor finito.
la tasa de fallos de una máquina en un año, X, pero estar interesados en el tiempo que la
máquina tarda en fallar Y = 1/X.
En general, dada r una función en la recta real podemos definir Y = r(X). La esperanza
de esta nueva variable aleatoria podría calcularse usando la definición siempre y cuando
la distribución de Y sea conocida. Sin embargo, en la mayoría de las situaciones esto no
sucede. El siguiente teorema nos indica como calcular la esperanza de una función de una
variable aleatoria a partir de la distribución de la variable original.
Teorema: sea X una variable aleatoria y r una función en la recta real. Si X tiene una
distribución continua:
Z ∞
E[r(X)] = r(x)f (x)dx,
−∞
si la integral es finita.
si la suma es finita.
Teorema: La esperanza de una variable aleatoria debe cumplir las siguientes propiedades:
1. sea Y = aX + b, utilizando el teorema que nos dice como calcular la esperanza de una
función tenemos que
E(Y ) = aE(X) + b.
Supongamos que los ingresos medios anuales de una famila de una determinada comunidad
son de 30 000 euros. Es posible que solo un número reducido de familias cobre más de esta
cantidad pero que estas familias cobren mucho más de 30 000 euros. Como un caso extremo,
pensemos en 100 familias de las cuales 99 cobra 1000 euros y la restante cobra 2 901 000
euros. En ese caso, efectivamente, la media es de 30 000 euros pero la mediana es de 1 000
euros. Sin embargo, si tuviésemos una mediana de 30 000 euros, podríamos estar seguros
de que al menos la mitad de las familias cobra más de esa cantidad.
Y es que la mediana tiene una interesante propiedad que no tiene la media y es que:
Teorema: sea X una variable aleatoria y r una función biyectiva en la recta real, si m es
la mediana de X, r(m) será la mediana de r(X).
3.4.2. Varianza
Definición: sea X una variable aleatoria con esperanza finita µ = E(X). La varianza de
X se denota por V ar(X) se define como:
Veamos un ejemplo, supongamos que tengamos una variable aleatoria discreta que sólo
puede tomar valores -2, 0, 1, 3 y 4 con igual probabilidad. La media de esta variable X es
claramente:
1
E(X) = (−2 + 0 + 1 + 3 + 4) = 1,2.
5
Ahora definimos la variable W = (X − 1,2)2 y calculo su esperanza como
1h i
E(W ) = (−2 − 1,2)2 + (0 − 1,2)2 + (1 − 1,2)2 + (3 − 1,2)2 + (4 − 1,2)2 = 4,56.
5
1
E(X 2 ) = (4 + 0 + 1 + 9 + 16) = 6,
5
Teorema: la varianza de una variable aleatoria X debe cumplir las siguientes propiedades:
1. La varianza de una variable aleatoria X, si existe, será siempre V ar(X) ≥ 0. 2. Si X es
una variable aleatoria acotada, entonces V ar(X) existe y es finita.
3. V ar(X) = 0 si y solo si existe una constante c tal que P r(X = c) = 1. 4. Dadas dos
constantes a y b, sea Y = aX + b entonces:
V ar(Y ) = a2 V ar(X),
3.4.3. Momentos
Por otra parte, sea µ = E(X) a la magnitud E[(x − µ)k ] se le conoce como momento
central de orden k
E(X − µ) = E(X) − µ = µ − µ = 0
Se puede demostrar que sucede lo mismo para cualquier momento central de orden impar.
De esta forma, los momentos centrales de orden impar pueden utilizarse para medir la
simetría de la variable. En concreto
Definición: sea X una variable aleatoria con media µ y momento de orden 3 finito, se
define su Asimetría o Skewness como
E[(X − µ)3 ]
S(X) = .
σ3
Cuanto más alejado de 0 esté este valor menos simétrica será la distribución de la variable
indicando una mayor probabilidad para los los valores que están a la derecha de la media
si es positivo y para los valores a la izquierda de la misma si es negativo.
3.4.3.2. Kurtosis
3.5 Ejercicios 51
E[(X − µ)4 ]
K(X) = −3
σ4
3.5. Ejercicios
2. Supongamos que una variable aleatoria discreta X tiene una función de probabilidad
cx
para x = 1, . . . , 5
f (x) = .
0
en otro caso
3. Un grupo de personas están llegando a una fiesta de uno en uno. Mientras esperan a
que llegue más gente, se entretienen comparando sus fechas de cumpleaños. Sea X el
número de personas que se necesitan para conseguir una coincidencia (es decir, antes
de que llegase la persona X no había coincidencia y cuando llega si la hay). Calcula
la función de probabilidad de la variable X.
4. En ocasiones, para detectar fraudes se hace uso de la ley de Benford. Esta ley dice
que la primera cifra X de muchos de los números que manejamos a diario, sigue
una distribución concreta que establece que el 30 % de las veces será X = 1, el 18 %
X = 2 y, en general,
j+1
P (X = j) = log10
j
para j = 1, 2, 3, . . . , 9. Comprueba de que se trata de una función de probabilidad
valida. (Inténtalo usando las propiedades de los logaritmos y no la calculadora).
7. Una vendedora de helado carga su carrito con 40 litros cada día. La cantidad de
helado que ha conseguido vender al final del día es una variable aleatoria X con
función de densidad
3.5 Ejercicios 53
cx
para 0 < x < 40
f (x) = .
0
en otro caso
8. Supongamos que una variable aleatoria X puede tomar únicamente los valores -2, 0,
1, y 4, con probabilidades: P (X = −2) = 0,4, P (X = 0) = 0,1, P (X = 1) = 0,3 y
P (X = 4) = 0,2. Esboza la función de distribución acumulada de X.
9. Una moneda es lanzada repetidas veces hasta obtener una cara por primera vez. Sea
X el número de lanzamientos necesarios. Esboza la función de distribución acumulada
de X.
12. Imagina que debes elegir una palabra al azar de la frase El yogurt griego es el mejor
del mundo. Si X denota el número de letras en la palabra seleccionada, ¿cuál es la
E(X)? ¿y su varianza?
15. Supongamos que en una clase hay 10 chicos y 15 chicas. Si debemos elegir 8 estudiantes
aleatoriamente y definimos X como el número de chicos seleccionados e Y como en
número de chicas seleccionadas, calcula la esperanza de E(X-Y) y su varianza.
54
4.1. Introducción
A lo largo del tema anterior vimos como se definía una variable aleatoria y como podía
caracterizarse su distribución de probabilidad a través de su función de probabilidad (en el
caso de v.a. discretas) o de su función de densidad (para v.a. continuas).
Cuando hablamos de este tipo de distribuciones solemos referirnos a ellas como familias
puesto que, en realidad, no se trata de una única distribución sino de un conjunto de
ellas con características similares y que difieren, únicamente, en el valor de uno o varios
parámetros.
El caso más simple de una v.a. discreta es aquella que sólo puede tomar dos valores que se
suelen representar por 1 cuando sucede aquello que nos interesa y 0 cuando no.
Por ejemplo, si lanzamos una moneda y buscamos que nos salga una cara, 1 representará
cara y 0 cruz. Si estamos estudiando la aparición de efectos secundarios tras tomar un
medicamento, tendremos un 1 cuando estos aparezcan y 0 cuando no.
Definición: Se dice que una variable aleatoria X sigue una distribución de Bernoulli con
parámetro π (0 ≤ π ≤ 1) si X sólo puede tomar los valores 0 y 1 con probabilidades:
P (X = 1) = p y P (X = 0) = 1 − p.
La función de probabilidad para este tipo de variables puede escribirse en función del
4.2 Distribuciones discretas. 55
parámetro π como
p(x|π) = π x (1 − π)(1−x) ,
y es fácil deducir de ella que se cumplen las probabilidades de la definición. Del mismo
modo, es fácil ver que:
E(X) = 1 × π + 0 × (1 − π) = π
E(X 2 ) = 1 × π + 0 × (1 − π) = π
V ar(X) = E(X 2 ) − E(X)2 = π − π 2 = π(1 − π)
A los experimentos en los que el resultado es una v.a. del tipo descrito se les conoce como
experimentos Bernoulli.
Del mismo modo, cuando tenemos un ensayo clínico con 30 pacientes para estudiar la
aparición de efectos secundarios, estaremos ante 30 experimentos Bernoulli independientes
X1 , . . . , X3 0. Si nuestro interés reside en saber cuantos pacientes desarrollaron efectos
secundarios definiremos la variable X, de nuevo, como la suma de las 30 variables tipo
Bernoulli.
Definición: se dice que una variable X tiene una Distribución Binomial de parámetros
N y π cuando su función de probabilidad tiene la siguiente forma:
N π x (1 − π)(N −x)
x Si x = 0, 1, . . . , N
p(x | N, π) =
0
En otro caso
Para certificar si la queja estaba justificada, el jurado tomo cada persona llamada a ser
jurado como un experimento Bernoulli independiente con parámetro π = 0,791 y, como
lo que alegaba era que 100 era un número muy bajo, se calculó la probabilidad de que
una variable binomial X de parámetros N = 220 y π = 0,791 fuese igual o menor que
100. Realmente esta probabilidad es muy baja pero. . . es signo de discriminación hacia la
población Mejicana-Americana?
Fijaros que estamos calculando la P (X ≤ 100 | N = 220, π = 0,791). Esto supone que
estamos condicionando a que π = 0,791 o, equivalentemente, estamos condicionando a la
situación en la que la población está representada en la proporción correspondiente. La
probabilidad que nos gustaría tener es, sin embargo la probabilidad que nos interesaría
realmente es la inversa, es decir, la probabilidad de que π = 0,791 dado que X = 100.
Fijaros que esto podríamos hacerlo con el teorema de Bayes y veremos como hacerlo más
adelante.
## [1] 6.287453e-28
## [1] 8.032817e-28
## [1] 170
Nota: toda variable con sólo dos posibles valores (0 y 1) tendrá una distribución Bernoulli
pero, no toda suma de Bernoullis tendrá una distribución binomial. Por ejemplo, si estamos
hablando de tener o no tener una enfermedad contagiosa, los experimentos Bernoulli no son
independientes y la probabilidad de enfermar aumenta a medida que más gente se contagia.
Para estudiar este tipo de casos en los que los experimentos Bernoulli son dependientes,
utilizamos la distribución hipergeométrica que estudiamos a continuación.
Pensemos en el típico ejemplo de una urna que contiene A bolas rojas y B azules. Suponga-
mos que seleccionamos N ≥ 0 bolas de la urna sin reemplazamiento y estamos interesados
en X el número de bolas rojas.
Claramente, debemos tener N ≤ A + B o nos quedaríamos sin bolas. Por otra parte, si
N = 0 entonces X = 0 porque no hemos sacado ninguna bola. Centrándonos en N ≥ 1
podemos pensar que, cada vez que sacamos una bola, tenemos una va.a. Xi que valdrá 0
si la bola es azul y 1 si es roja. Es fácil ver que cada Xi tiene una distribución Bernoulli
pero, X1 , . . . , XN no son independientes ya que la probabilidad de Xi cambia según lo
que haya sucedido en los experimentos anteriores. Es por ello que no esperaremos que
X = X1 + · · · + XN sea una distribución binomial.
4.2 Distribuciones discretas. 58
Se puede demostrar que, cualquier variable que siga el esquema de este ejemplo tiene una
función de probabilidad:
A B
x N −x
p(x | A, B, N ) = A+B
N
para todo x = 0, 1, 2, . . . , N .
NA
E(X) = A+B
N AB A+B−N
V ar(X) = (A+B)2
· A+B−1
Nota: fijaros que, si hubiésemos reemplazado las bolas en la urna, cada Xi podría ser
A
considerado independiente y tendríamos una distribución binomial con π = A+B . En ese
NA
caso la media seguiría siendo E(X) = A+B aunque la varianza (es decir, la variabilidad en
los resultados) sería diferente. Lo curioso es que ambas varianzas están relacionadas. De
hecho, definiendo T = A + B, podemos escribir la varianza de una v.a. con distribución
hipergeométrica como:
T −N
V ar(X) = N π(1 − π)
T −1
dhyper(3,10,20,5)
## [1] 0.1599933
phyper(3,10,20,5)
## [1] 0.9687592
qhyper(0.25,10,20,5)
## [1] 1
En muchas ocasiones nos encontramos con experimentos que consisten en saber el número
de veces que se repite un determinado evento. Por ejemplo, el número de llamadas que se
reciben en una centralita en una hora, el número de visitas a una página web en un minuto
o el número de inundaciones que sufre una población en un año.
¿Cuantos WhatsApp recibes en una hora? Hay muchas personas que podrían escri-
birte pero es poco probable que una persona especifica te escriba en esa hora. Visto de
otra forma, si dividimos la hora en milisegundos es poco probable que en un milisegundo
4.2 Distribuciones discretas. 60
concreto alguien te escriba un WhatsApp aunque es cierto que con 3,6 × 106 en una hora,
alguno te llegará.
Este tipo de variables se estudian con lo que se conoce como Paradigma de Poisson o ley
de los eventos raros y se deduce que siguen una distribución de Poisson:
Notad que se trata de una función de probabilidad valida dado que la serie de Taylor
P∞ λx
x=1 x! = eλ
E(X) = λ
V ar(X) = λ
El parámetro λ representa la tasa a la que ocurre el evento, por ejemplo se reciben (de
media) 20 WhatsApp por hora o se producen (de media) 2 terremotos en la región en un
año. Es importante darse cuenta que, en estas situaciones, hablamos de eventos raros no
porque λ sea pequeño sino porque la probabilidad de cada experimento Bernoulli (recibir
un WhatsApp en un milisegundo) es muy baja.
Pero, volvamos un momento al ejemplo de los WhatsApp, ahora podríais decirme que si
dividimos la hora en milisegundos y definimos el experimento Bernoulli como recibir un
WhatsApp en un segundo, como mucho podría recibir 3,6 × 106 y se trataría, por tanto,
de una distribución binomial. En realidad, la función de Poisson se puede expresar (como
vemos en el siguiente teorema) como el límite de una distribución binomial cuando el
4.2 Distribuciones discretas. 61
Veámoslo con un ejemplo: la encargada de redes sociales de una gran empresa esta interesada
en conocer la distribución del número de gente que retwittea su publicidad en un día.
Cada día un millón de personas deciden, de manera independiente, si retwittear o no con
probabilidad π = 10−5
Imaginemos que quiere saber que probabilidad hay de que les retwitteen más de 15 personas
(P (X > 15) = 1 − P (X ≤ 15). Utilizando la probabilidad binomial tendríamos:
## [1] 0.04873954
En este caso π es muy pequeño, N muy grande y N π = 10 por lo que podríamos aplicar el
teorema anterior y aproximar la probabilidad utilizando una distribución de Poisson de
parámetro λ = 10
1-ppois(15,lambda = 10)
## [1] 0.0487404
Definición: Un proceso de Poisson con tasa λ es un proceso que satisface las siguientes
dos propiedades:
Nota: A lo largo de esta sección hemos hablado de número de eventos a lo largo del tiempo,
4.2 Distribuciones discretas. 62
Si recapitulamos, todas las distribuciones vistas hasta ahora tienen que ver con el número
total de éxitos X en N experimentos Bernoulli y distingamos entre experimentos indepen-
dientes con la misma probabilidad de éxito π (distribución binomial); experimentos no
independientes con probabilidad de éxito determinada por el resultado del experimento
anterior (distribución hipergeométrica) y experimentos independientes con N muy grande
π – común– muy pequeña (distribución de Poisson).
Por ejemplo, podemos pensar en Xi como la v.a. resultante de un experimento Bernoulli que
consiste en observar si una bombilla funciona (Xi = 0) o no (Xi = 1) en un determinado
día. Nuestra variable de interés será el número de días transcurridos hasta que la bombilla
se apaga.
Del mismo modo, si la encargada de una máquina esta pendiente de que ésta produzca 4
piezas defectuosas (para re-calibrarla) la variable aleatoria será el número de elementos
producidos hasta que se producen 4 fallos. De nuevo, cada elemento i producido es un
experimento Bernoulli con Xi = 0 si la pieza esta bien y Xi = 1 is la pieza es defectuosa.
Se puede demostrar que este tipo de variables siguen una distribución conocida como
binomial negativa:
Definición: se dice que una v.a. X sigue una Distribución Binomial Negativa (X ∼
BN (r, π)) con parámetros r (r=1,2,. . . ) y π ∈ (0, 1) si su función de probabilidad es de la
forma:
!
r+x−1 r
p(x | r, π) = π (1 − π)x
x
para cualquier x = 0, 1, 2, . . .
4.2 Distribuciones discretas. 63
Definición: Diremos que una v.a. X sigue una distribución Geométrica cuando su
función de probabilidad sea de la forma:
para x = 0, 1, 2, . . ..
Veamos otro ejemplo. Imaginemos un juego de la lotería que implica elegir tres números
del 0 al 9 de manera independiente y con reemplazamiento. Este juego se repite todos los
días (también de forma independiente).
Un evento curioso es cuando los tres números obtenidos un día concreto son idénticos
fenómeno se le denomina triplete y que se produce con una probabilidad π = 0,01 (fijaros
que existen 10 posibles tripletes de los 103 posibles resultados).
Si queremos saber cuantos días transcurren antes de que se produzca un triplete estaremos
ante una v.a. X con distribución geométrica de parámetro π = 0,01 cuya esperanza es
1−π
π = 0,99/0,01 = 99 y por tanto tardaremos, de media, 100 días en ver un triplete.
Pero, imaginemos ahora que un jugador lleva 120 días sin ver un triplete y cree que debe
estar a punto de suceder y para ello se dispone a calcular la probabilidad condicionada de
X dado que X ≥ 120. En ese momento se da cuenta de que no puede estar más lejos de la
realidad como nos muestra el siguiente teorema:
Teorema: Sea X una v.a. con distribución geométrica con parámetro π y sea k ≥ 0,
entonces, para cualquier valor t ≥ 0
P (X = k + t | X ≥ k) = P r(X = t).
4.3 Distribuciones continuas. 64
## [1] 0.078125
## [1] 1
## [1] 0
La distribución de probabilidad más sencilla para una variable continua que toma valores
en un intervalo acotado (a, b) es aquella que da, a todos los valores, la misma densidad:
El siguiente gráfico nos muestra la función de densidad y distribución de una U nif (0, 1)
1.0
1.0
0.8
0.8
Probabilidad
0.6
0.6
Densidad
0.4
0.4
0.2
0.2
0.0
0.0
−0.5 0.0 0.5 1.0 1.5 −0.5 0.0 0.5 1.0 1.5
x x
dunif(2.5,2,4)
## [1] 0.5
punif(3, 2, 4)
## [1] 0.5
qunif(0.25, 2)
## [1] NaN
Dentro de las distribuciones que nos sirven para describir variables continuas, existe una
que tiene especial relevancia. Se trata de la que denominamos Distribución Normal también
conocida como campana de Gauss (de lo que podemos deducir que tiene forma de campana
y que fue “descubierta” por el matemático, físico y astrónomo alemán Karl Friedrich Gauss).
Definición: decimos que una variable aleatoria X tiene una distribución normal con
media µ y varianza σ 2 (X ∼ N (µ, σ 2 )) con −∞ ≤ µ ≤ ∞, σ > 0 si su función de
densidad puede expresarse como:
" 2 #
1 1 x−µ
2
f (x | µ, σ ) = √ exp −
σ 2π 2 σ
Pensemos en una empresa de motores que necesita saber cual es la emisión de gases de un
nuevo tipo de motor que están desarrollando y conocer cual es la probabilidad de que estos
emitan más gases de lo permitido. El siguiente histograma muestra los datos recogidos
para 46 motores así como una distribución normal que se aproxima bastante bien a los
datos recogidos.
Histogram of x
1.0
0.8
0.6
Density
0.4
0.2
0.0
−1 0 1 2 3
Otra propiedad importante de la distribución normal es que una combinación lineal de una
variable normal siguen siendo normal:
Por el teorema anterior es fácil ver que cualquier variable aleatoria X con distribución
normal de media µ y varianza σ 2 puede transformarse en una variable Z con una distribución
normal estándar simplemente restándole la media y dividiendo por la desviación estándar,
esto es:
X −µ
Z= .
σ
A este proceso se le conoce como estandarización.
0.4
1.0
0.8
0.3
Probability
0.6
Density
0.2
0.4
0.1
0.2
0.0
0.0
−3 −1 0 1 2 3 −3 −1 0 1 2 3
z z
Una aplicación particularmente importante de la estandarización de una variable aleatoria
normal es la utilización de tablas de probabilidad. Y es que, cuando el acceso a un
ordenador no era tan habitual como ahora, resultaba muy útil estandarizar para calcular
probabilidades ya que estas están recogidas en tablas fáciles de utilizar.
5−4 X −4 8−4
P (5 ≤ X ≤ 8) = P ( ≤ ≤ ) = P (0,5 ≤ Z ≤ 2)
2 2 2
donde Z es una variable aleatoria con distribución normal estándar. Podemos buscar
entonces en las tablas los valores de Φ(2) = 0,9772 y Φ(0,5) = 0,6914 y calcular
Una combinación lineal muy particular (y útil) de variables aleatorias es la media muestral
Pensemos, por ejemplo, que la altura de una determinada población X sigue una distribución
normal de media 1.60 y varianza 0.05. Podemos suponer que la altura de cada persona Xi
(antes de conocerla) será una variable aleatoria con esa misma distribución. Por tanto, si
pensamos en la variable aleatoria que representa la media de la altura de 10 personas X̄10
de esa población será una variable aleatoria de media 1.60 y varianza σ 2 = 0,05/10 = 0,005.
## [1] 0.0002676605
## [1] 0.9999683
## [1] 1.662755
4.3 Distribuciones continuas. 71
Definición sea X una variable aleatoria tal que log(X) ∼ N (µ, σ 2 ) diremos que X sigue
una distribución lognormal de parámetros µ y σ 2 .
Pensemos, por ejemplo, en una fabrica de ropa que comprueba la resistencia de sus prendas
y calcula el tiempo que van a durar (medido en años). Se sabe que el logaritmo del tiempo
de vida de las prendas es normal de media µ = 1 y desviación estándar σ = 1. Cual es la
probabilidad de que una prenda dure más de 2 años.
1- pnorm(log(2),1,1)
## [1] 0.6205223
Por tanto, la probabilidad de que la prenda dure más de dos años es 0.6205223.
4.3 Distribuciones continuas. 72
0.30
0.20
Density
0.10
0.00
0 2 4 6 8 10 12
años
dlnorm(2,1,1)
## [1] 0.1902978
plnorm(2,1,1)
## [1] 0.3794777
qlnorm(0.25, 1, 1)
## [1] 1.384737
4.3 Distribuciones continuas. 73
La distribución gamma es un modelo común para variables que sólo pueden tomar valores
positivos.
Pero, para poder definir la función de densidad de una distribución gamma debemos definir
primero una función muy conocida en matemáticas y que tiene que ver con la generalización
continua del concepto de factorial. Se trata de la Función Gamma
Definición: la función gamma para cualquier valor positivo α, Γ(α) viene definida por la
siguiente integral:
Z ∞
Γ(α) = x(α−1) e−x dx
0
y, en particular
Z ∞
Γ(1) = e−x dx = 1
0
Γ(n) = (n − 1)!
Una vez definida la función gamma podemos pasar a definir la distribución gamma.
Definición: decimos que una variable X sigue una distribución gamma de parámetros α y
β (X ∼ Ga(α, β)) si su función de densidad es
α
β xα−1 e−βx
Γ(α) si x > 0
f (x | α, β) =
0
si x ≤ 0
α α
La media y la varianza de una distribución gamma son: - E(X) = β - V ar(X) = β2
4.3 Distribuciones continuas. 74
1.2
α=0.1 β=0.1
1.0 α=1 β=1
α=2 β=2
α=3 β=3
0.8
0.6
0.4
0.2
0.0
0 1 2 3 4 5
Teorema: sea X una variable aleatoria con distribución exponencial de parámetro β y sea
t > 0. Entonces, para todo h > 0,
P (X ≥ t + h | X ≥ t) = P (X ≥ h).
De forma intuitiva, el tiempo de espera restante es, en cierto modo, independiente del
tiempo ya transcurrido.
4.3 Distribuciones continuas. 75
Ahora, ¿Cual será el tiempo hasta que falle la siguiente bombilla? Dada la propiedad de
falta de memoria de la distribución exponencial, el tiempo hasta que la siguiente bombilla
falle Y2 tendrá también una distribución exponencial pero, esta vez, de parámetro (n − 1)β
y de manera recursiva:
Imaginemos, por ejemplo, que el encargado de una tienda de ropa quiere saber cuanto
tiempo transcurrirá hasta que entre la siguiente persona. Se trata de una situación parecida
a la del teorema pero con la particularidad de que no sabemos cuantas personas van a
entrar en total ni cuando ha salido cada una de su casa.
Teorema: Supongamos que las llegadas suceden según un proceso de Poisson de parámetro
λ, sea Zk el tiempo hasta que se produce la k-ésima llegada, definimos el tiempo entre
llegadas: Y1 = Z1 e Yk = Zk − Zk−1 . Se puede demostrar que Y1 , Y2 , . . . son variables
independientes e idénticamente distribuidas con distribución exponencial de parámetro
β = λ.
Como consecuencia, la distribución del tiempo hasta la k-ésima llegada, Zk es una Gamma
de parámetros k y β.
4.3 Distribuciones continuas. 76
dgamma(2,2,2)
## [1] 0.1465251
pgamma(2,2,2)
## [1] 0.9084218
qgamma(0.25, 2,2)
## [1] 0.4806394
Al igual que con la distribución gamma, antes de pasar a definir la distribución beta
debemos conocer la función matemática con el mismo nombre.
Una de las propiedades de la función beta es que puede expresarse en términos de la función
gamma como:
4.3 Distribuciones continuas. 77
Γ(α)Γ(β)
B(α, β) =
Γ(α + β)
Y una vez definida esta función podemos pasar a definir la distribución beta: Definición:
una variable aleatoria X tiene una Distribución Beta con parámetros α > 0 y β > 0 si
su función de densidad es:
Γ(α+β) xα−1 (1 − x)β−1
Γ(β)Γ(α) si 0 < x < 1
f (x | α, β) =
0
en otro caso
α
La esperanza y la varianza de una variable aleatoria con distribución beta son: - E(X) = α+β
αβ
- V ar(X) = (α+β)2 (α+β+1)
Recordemos el ejemplo del juicio de Castaneda vs Partida en el que en una población con
un 79.1 % mejicano-americanos, de de las 220 personas qua habían sido elegidas para ser
jurado popular sólo 100 tenían dicha procedencia.
Nos interesa saber, una vez observado X = 100 (a posteriori), cuál es la probabilidad de
que P sea menor que 0,8 × 0,791 = 0,6328 lo que, para nosotros, supondría un claro caso
de discriminación
!
220 100 Γ(α)Γ(β) α−1
p (1 − p)120 p (1 − p)β−1
100 Γ(α + β)
Podemos ver que f (π | N = 220, X = 100, α, β), como función de P es una constante (que
no depende de P ) multiplicada por P 100+α−1 (1 − P )220+β−1 que es, claramente, el núcleo
de una distribución beta de parámetros 100 + α y 220 + β por lo que podemos decir que,
una vez observado X = 100 la distribución de P se ha transformado en una beta con esos
parámetros.
Si hubiésemos elegido, a priori, una distribución uniforme para P , es decir, una beta con
α = β = 1 la probabilidad a posteriori de que P < 0,6328 es:
pbeta(0.6328,101,221)
## [1] 1
por lo que, claramente, existe discriminación hacia las personas de procedencia mejicano-
americana.
4.3 Distribuciones continuas. 79
Teorema: Proceso Beta Binomial. Supongamos que π es una variable aleatoria con
distribución beta de parámetros α y β y que X es una variable aleatoria que, condicionada
a que π = p sigue una distribución binomial de parámetros N y p. Entonces, la distribución
de π condicionada a X = x es Be(α + x, β + N − x).
Nota: La versión del teorema de Bayes para variables aleatorias se utiliza, sobre todo,
en el paradigma Bayesiano de la estadística aunque también en el su versión clásica o
frecuentista.
Ya hemos comentado que a la función de distribución sobre π antes de observar los datos
se le conoce como distribución a priori mientras que el resultado de aplicar el teorema
de Bayes se conoce como distribución a posteriori.
Cabe destacar también que la función de densidad aplicada sobre los datos observados
f (X | π) es una función de π que recibe el nombre de Verosimilitud y que es muy
importante tanto en probabilidad como en estadística ya que nos ayudará a determinar el
valor del parámetro más verosímil según los datos observados.
dbeta(2,3,2)
## [1] 0
pbeta(2,3,2)
## [1] 1
qbeta(0.25,3,2)
## [1] 0.4563217
4.4. Ejercicios
4. Supongamos que una caja contiene 5 bolas rojas y 10 azules. Si sacamos 7 bolas al
azar sin reemplazamiento, ¿Qué probabilidad hay de que, al menos, 3 sean rojas?
10. Supongamos que los diámetros de una serie de tornillos almacenadas en una caja sigue
una distribución normal con media 2 cm y desviación estándar 0.03 cm. Del mismo
modo, los diámetros de una serie de tuercas en otra caja, siguen una distribución
normal de media 2,02 cm y desviación estándar 0,04 cm. Un tornillo y una tuerca
encajarán juntos si el diámetro de la tuerca es mayor que el diámetro del tornillo
pero la diferencia entre ambos no es mayor de 0.05 cm. Si una tuerca y un tornillos
son seleccionados al azar, cual es la probabilidad de que encajen juntos?
11. Supongamos que el voltaje en un determinado circuito eléctrico sigue una distribución
normal con media 120 kw y desviación estándar 2 kw. Si se toman 3 medidas de
manera independiente, cual es la probabilidad de que las tres estén entre 116 y 118
kw?
13. Cinco estudiantes deben hacer un examen, cada uno de manera independiente. Si
tiempo que cada uno/a tarda en realizarlo es exponencial de media 80. Sabiendo que
el examen ha comenzado a las 9:00 a.m. ¿Cuál es la probabilidad de que, al menos
uno/a lo acabe antes de las 9:40 a.m.?
82
5.1. Introducción
Hasta ahora hemos visto algunas distribuciones conocidas para las que sabemos práctica-
mente todo (su función de densidad o probabilidad, su función de distribución acumulada,
su esperanza, su varianza. . . ). Sin embargo, es habitual encontrarse en situaciones en las
que nuestra variable de interés no tiene, en principio, una distribución conocida.
La simulación es una de las técnicas más útiles a la hora de aproximar esas distribuciones
desconocidas y veremos como utilizarla dentro de un par de temas.
Otra de las opciones para aproximar estas distribuciones son lo que se conocen como teoremas
límite y que son dos de las herramientas más utilizadas en probabilidad y estadística. Se
trata de la ley de los grandes números y del teorema central del límite.
Para esta sección y la siguiente vamos a suponer que tenemos una serie de variables
aleatorias X1 , X2 , . . . independientes e idénticamente distribuidas, con media µ y desviación
estándar σ. Como ya definimos cuando hablábamos de la distribución normal, la media de
un conjunto de n de estas variables es:
X1 + · · · + Xn
X̄n =
n
Lo que dice la ley de los grandes números es que, a medida que tengo más datos, la media
muestral converge a la verdadera media de la variable. Formalmente, esta convergencia
puede darse de dos maneras, fuerte y débil y, de ahí, las dos versiones de la ley de los
grandes números:
Teorema: Ley fuerte de los grandes números. La media muestral X̄n converge a
la verdadera media µ con probabilidad 1 o, lo que es lo mismo, el evento X̄n → µ tiene
probabilidad 1.
5.3 Teorema central del limite. 83
Teorema: Ley débil de los grandes números. Para todo > 0, P (|X̄n − µ| > ) → 0
a medida que n → ∞. (A este tipo de convergencia se le denomina convergencia en
probabilidad)
La ley de los grandes números es esencial para la ciencia y es algo que usamos sin apenas
darnos cuenta.
Cada vez que aproximamos la probabilidad de que algo pase a través de la proporción
de veces que lo hemos observado o cada vez que estimamos la media de una cantidad a
partir de la media de nuestras observaciones, estamos, implícitamente, usando la ley de los
grandes números.
Bien, en la versión fuerte de ley de los grandes números decíamos que X̄n convergía a µ
con probabilidad 1 pero, cual es la distribución de X̄n en su camino a convertirse en una
constante (µ)?
Teorema central del límite. Sean X1 , . . . , Xn variables iid con media µ y varianza σ 2 .
Para todo z " !#
X̄n − µ
lı́m P √ ≤z = Φ(z).
n→∞ σ/ n
−µ
X̄n√
Lo que es equivalente a decir que la variable aleatoria σ/ n
converge a una distribución
normal estándar.
Teorema central del límite. Versión aproximada. Para una muestra de n variables
independientes e idénticamente distribuidas con n grande tenemos que su media X̄n se
comporta aproximadamente normal N (µ, σ 2 /n).
para que, teniendo una cantidad suficientemente grande de ellas, podamos suponer que la
media muestral se comporta de manera normal.
Bi(10,0.9)
5 6 7 8 9 10 8.0 8.5 9.0 9.5 8.6 9.0 9.4 8.7 8.9 9.1 9.3
Po(1)
Ga(1,1)
0 1 2 3 4 5 0.5 1.5 2.5 0.7 0.9 1.1 1.3 0.7 0.9 1.1 1.3
Be(0.8,0.8)
0.0 0.4 0.8 0.2 0.4 0.6 0.8 0.35 0.45 0.55 0.65 0.45 0.50 0.55
Convergencia de una Poisson a una normal. Sea Y ∼ P o(n), dadas las propiedades
de la suma de distribuciones Poisson podemos considerarla como la suma de n variables
Xi ∼ P o(1). De esta forma, por el teorema central del limite, para un n grande la
distribución de Y puede considerarse
Y ∼ N (n, n)
Convergencia de una gamma a una normal. Sea Y ∼ Ga(n, λ). De nuevo, por las
propiedades de la suma de distribuciones Gamma Y puede considerarse como la suma de
5.3 Teorema central del limite. 85
n n
Y ∼N ,
λ λ2
Convergencia de una binomial a una normal Sea Y ∼ Bi(n, π), sabemos que Y
puede considerarse la suma de n variables Bernoulli de parámetro π. Por tanto, para n
grande, podemos considerar que
! !
y + 1/2 − nπ y − 1/2 − nπ
P (Y = y) = P (y − 1/2 < Y < y + 1/2) = Φ p −Φ p
nπ(1 − π) nπ(1 − π)
5.3.1.1. Distribución χ2
Definición sean V = Z12 + · · · + Zn2 con Zi ∼ N (0, 1) decimos que V sigue una distribución
χ2 con n grados de libertad y lo denotamos por V ∼ χ2n .
5.3 Teorema central del limite. 86
la función de densidad de una distribución χ2n puede deducirse del siguiente teorema
E(V ) = n
V ar(V ) = 2n
df=2
df=3
0.4
df=5
df=7
0.3
Densidad
df=10
0.2
0.1
0.0
0 5 10 15
dchisq(2,10)
## [1] 0.007664155
pchisq(2,10)
## [1] 0.003659847
y los cuantiles pueden calcularse usando qchisq(p,df) donde p será la probabilidad para la
5.3 Teorema central del limite. 87
que queremos calcular el cuantil. Por ejemplo, el primer cuartil o cuantil 0.25 (p = 0,25)
será:
qchisq(0.25, 10)
## [1] 6.737201
La distribución t de Student fue introducida por William Gosset en 1908. William Gosset
era maestro cervecero en la compañía Guiness y trabaja en control de calidad. La compañía
le pidió que publicará sus resultados bajo seudónimo y él adopto el nombre Student. Esta
distribución es también muy importante en estadística y en particular en la metodología
de contraste de hipótesis.
Definición diremos que X/Y tiene una distribución de Cauchy si X e Y son variables
aleatorias independientes con distribución normal estándar.
La media de una distribución t solo existe para n > 1 y es E(T ) = 0 al igual que su moda
y su mediana. En cuanto a la varianza, sólo existe para n > 2 y es V ar(T ) = n/(n − 2)
5.3 Teorema central del limite. 88
norm
df=10
0.3
df=5
df=3
Densidad
df=2
0.2
df=1
0.1
0.0
−3 −2 −1 0 1 2 3
Observamos que la distribución t tiene la misma forma que una normal pero con colas más
pesadas, es decir, con mayor probabilidad para valores más alejados del 0.
dt(2,10)
## [1] 0.06114577
pt(2,10)
## [1] 0.963306
y los cuantiles pueden calcularse usando qt(p,df) donde p será la probabilidad para la que
queremos calcular el cuantil. Por ejemplo, el primer cuartil o cuantil 0.25 (p = 0,25) será:
5.4 Ejercicios 89
qt(0.25, 10)
## [1] -0.6998121
5.4. Ejercicios
2. Una máquina produce, cada hora, una cuerda cuya longitud tiene una media de 4
metros y una desviación estándar de 5 cm. Asumiendo que la cantidad de cuerda
producida en distintos minutos es independiente e idénticamente distribuida aproxima
la probabilidad de que la maquina fabrique, al menos, 250 metros de cuerda en una
hora.
90
6.1. Introducción
En muchas ocasiones los procesos en los que estamos interesados no se reducen al estudio
de una única variable si no de varias que se distribuyen de manera, digamos, coordinada.
Para terminar de comprender el por qué de este tema, veamos algunos ejemplos en los que
el estudio conjunto de diversas variables es especialmente necesario:
Extenderemos, por tanto, todo lo que hemos visto sobre la distribución de una variable al
caso en que denominaremos conjunto o multivariante.
6.2 Distribución conjunta 91
Un vector aleatorio puede estar compuesto tanto íntegramente por variables discretas o
continuas o de manera híbrida por ambos tipos. Esta composición será fundamental para
la definición de las distintas funciones que caracterizan su distribución.
Extendiendo el concepto de soporte que hemos estudiado para una variable aleatoria,
hablaremos de soporte de un vector aleatorio como el conjunto de todos los posibles
valores de X y lo denotamos por SX .
Empecemos por el caso discreto. Imaginemos que tenemos un vector aleatorio con todas sus
componentes v.a. discretas. La distribución de este vector quedará caracterizada, al igual
que en el caso univariante por su función de probabilidad a la que en este caso añadiremos
el apellido “conjunta”.
0 ≤ pX (x) ≤ 1
6.2 Distribución conjunta 92
y
X
pX (x) = 1.
SX
Teorema Sea X un vector aleatorio discreto con función de probabilidad conjunta pX (x),
la probabilidad de cualquier conjunto C ⊂ Rn se puede calcular como:
X
P (X ∈ C) = pX (x)
x∈C
Suponiendo que conocemos que la probabilidad de recaer es la misma para todos los
pacientes (π) y que estos recaen o no de manera independiente, la probabilidad de un
vector (x1 , . . . , xm ) (de ceros y unos) será:
Fijaros que, para llegar a esta función de probabilidad hemos usado el concepto de in-
dependencia que estudiábamos en el tema 1 así como la distribución de probabilidad de
una distribución Bernoulli de parámetro π. Cabe señalar, además, que no se trata de una
distribución binomial (no aparece el número combinatorio) porque aquí si que importa el
orden ya que estamos calculando la probabilidad de que cada paciente tenga recaída o no y
no el número de pacientes que sufren una recaída.
6.2 Distribución conjunta 93
Un vector aleatorio X decimos que es continuo cuando todas sus componentes lo son. En
el caso de vectores aleatorios continuos, su distribución queda caracterizada por su función
de densidad y, más concretamente, por su función de densidad conjunta.
Definición decimos que un vector aleatorio X tiene una distribución continua si existe
una función f no negativa tal que, para todo C ⊂ Rn
Z Z
P (X ∈ C) = ··· f (x1 , . . . , xn )dx1 . . . dxn
C
F (x) = P (X1 ≤ x1 , . . . , Xn ≤ xn )
library("mvtnorm")
range = seq(-2.5,2.5,length.out = 100)
mean = c(0,0)
Sigma = matrix(c(1, .5, .5, 1), 2)
for (i in 1:length(range)){
for (j in 1:length(range)){
out$z[i,j] = dmvnorm(c(range[i],range[j]),mean=mean,sigma=Sigma)
6.2 Distribución conjunta 94
}
}
persp(out,theta = 50,phi = 40,col="lightblue", shade = .1, border = NA, xlab="X", zlab=
Den
sity
Y
En este caso también se suele recurrir a gráficos de
contorno
0.02
2
0.04
0.08
1
0.12
0.16
0.18
0
0.14
−1
0.1
0.06
−2
−2 −1 0 1 2
X = (X1 , . . . , Xn ):
Pn c para todo xi > 0
(2+ xi )n+1
f (x) = i=1
0
en otro caso
Nos faltaría ahora encontrar el valor de c para que la función de distribución acumulada
integre 1. Para ello, vamos a integrar sucesivamente x1 , . . . , xn empezando por xn . La
primera integral nos da
Z ∞
c c/n
dxn = .
0 (2 + x1 + · · · + xn )n+1 (2 + x1 + · · · + xn−1 )n
Podemos observar que el resultado es igual a la función de densidad original pero con n
reducido a n − 1. Si hacemos esta integración de forma iterativa llegamos a x1 teniendo
c/n!
(2 + x1 )2
e integrando para x1 tenemos c/(2n!) por lo que c = 2n! si queremos que la función integre
1.
pero, lo primero será comprobar que verdaderamente es una función de densidad. Es fácil
ver que podemos separarla en dos funciones h1 (z) = 6e−3z y h2 (y, w) = e−10y (8y)w /w!
6.3 Distribución marginal y distribución condicional 96
i=0 i=0
w!
Ahora solo nos falta integrar sobre y que, claramente nos dará 1, tal y como esperábamos.
Y que pasa cuando conocemos la distribución conjunta de un vector aleatorio pero nos
interesa saber el comportamiento de una (o algunas) de las variables de forma individual.
De forma intuitiva veremos que nos referimos a los conceptos de probabilidad condicional y
probabilidad total que vimos en el tema 1.
Para definir mejor estas herramientas vamos a empezar por la distribución marginal pasando
después a la distribución condicional y retomando, por último, el Teorema de Bayes y el
concepto de independencia.
El siguiente cuadro nos muestra las probabilidades de estar muerto, presuntamente muerto,
resucitado o vivo, en la serie Juego de Tronos, según el género.
Si quiero saber la proporción de mujeres en la serie bastará con sumar todas las proba-
bilidades de esa fila: un 31 % de los personajes son mujeres. Si lo que quiero saber el la
probabilidad de estar muerto, esto es un 75 %. se trata de lo que llamamos probabilidades
marginales y, como hemos visto, se obtienen sumando las probabilidades para todos los
valores de la variable que no nos interesa.
Equivalentemente:
Intuitivamente, situamos en su máximo todas las variables que no son de nuestro interés,
integrando por tanto en todo el espacio muestral para esas variables y dejamos sólo la
variable de interés como desconocida.
Supongamos que tenemos una cantidad medida en la recta real con función de densi-
dad(probabilidad) f . Un conjunto de n variables aleatorias X1 , . . . , Xn forman una mues-
tra aleatoria de f de tamaño n si cada una de estas variables tienen función de densidad
(probabilidad) f .
y decimos que las variables son independiente e idénticamente distribuidas, termino que ya
hemos utilizado y que denotamos por i.i.d.
Volvamos al ejemplo de Juego de Tronos, imaginemos que sabemos que un personaje está
muerto y queremos adivinar si era hombre o mujer. Las probabilidad de ser hombre y
estar muerto es 0.54 y la de ser mujer y estar muerta es 0.21. Estas suman 0.75 y parece
lógico que, si nuestra variable de interés sólo puede tomar los valores hombre/mujer, la
probabilidad de ambas debería sumar 1. Esto lo conseguimos dividiendo por la suma:
0,21 0,54
P (X = mujer | Y = muerto) = = 0,28 P (X = hombre | Y = muerto) = = 0,72
0,75 0,75
En general:
6.4 Relación entre variables 99
Notad que la función que aparece en el denominador es la marginal para todas las variables
eliminado/integrando Xi . Esto es, la suma para todos los posibles valores de Xi , si es
discreta, o la integral sobre el espacio de todos los posibles valores de Xi si es continua.
Al igual que cuando hablamos de una variable aleatoria, conocer los momentos de un
vector aleatorio es útil para resumir su distribución. Sin embargo, la media, la mediana o
la varianza resumen el comportamiento individual de cada variable sin decirnos nada de la
relación existente entre ellas.
De hecho, la esperanza de un vector aleatorio se define como el vector con las esperanzas
marginales de cada una de las variables que lo componen. Esto es:
Necesitamos, entonces, una medida de la capacidad de dos variables de variar juntas. Con
este fin pasamos a definir los términos covarianza, correlación y esperanza condicional.
6.4 Relación entre variables 100
6.4.1. Covarianza
Definición Sean X1 y X2 dos variables aleatorias con una distribución conjunta deter-
minada dónde E(Xi ) = µi y V ar(Xi ) = σi para i = 1, 2. La covarianza de X1 y X2 se
denota por Cov(X1 , X2 ) y se define como:
Un valor positivo de la covarianza indicará que cuanto mayor sea una de las variables
mayor será la otra. Por el contrario, un valor negativo indica una relación inversa, cuando
mayor sea una menor será la otra.
Teorema Para cualesquiera dos variables aleatorias X1 y X2 tales que sus varianzas existen
y son finitas:
Cov(X1 , X2 ) = E(X1 X2 ) − E(X1 )E(X2 )
La covarianza permite también calcular la varianza de la suma de dos variables tal y como
muestra el siguiente teorema:
6.4.2. Correlación
Cov(X1 , X2 )
ρ(X1 , X2 ) =
σ1 σ2
ρ(X1 , X2 ) > 0, que están negativamente correladas cuando ρ(X1 , X2 ) < 0 y no correladas
o incorreladas cuando ρ(X1 , X2 ) = 0
Se puede demostrar que si dos variables, con varianzas finitas, son independientes la
correlación será 0. Sin embargo, el caso contrario no es cierto en general, como podemos
ver en el siguiente ejemplo:
Supongamos que una variable aleatoria X1 puede tomar sólo 3 valores -1, 0 y 1, con igual
probabilidad. Sea X2 la variable aleatoria que se define como X2 = X12 . En este caso, ambas
variables están completamente correladas (una está definida a partir de la otra) pero, dado
que la media de ambas variables era 0:
Se demuestra, por tanto, que podemos tener variables dependientes pero incorreladas. De
hecho, el coeficiente de correlación está especialmente indicado para medir la correlación
lineal de las variables, como muestra el siguiente teorema, pero no tanto para otro tipo de
relaciones de dependencia.
Teorema Sea X1 es una variable aleatoria con varianza finita y sea X2 otra variable
aleatoria definida como una función lineal de X1 : X2 = aX1 + b para determinadas
constantes a 6= 0 y b. Si a > 0, ρ(X1 , X2 ) = 1 y ρ(X1 , X2 ) = −1 si a < 0.
Para entender el concepto de dependencia y correlación podemos ver las siguientes gráficas
par(mfrow=c(2,2))
set.seed(22)
x<- rnorm(100,0,1)
y<- rnorm(100,2*x+1)
plot(x,y,pch=19,xlab="x",ylab="y", main="Correlación Positiva")
x<- rnorm(100,0,1)
y<- rnorm(100,-2*x+1,1)
plot(x,y,pch=19,xlab="x",ylab="y", main="Correlación negativa")
x<- rnorm(100,0,1)
y<- rnorm(100,x^2,0.2)
plot(x,y,pch=19,xlab="x",ylab="y", main="Dependientes pero Incorrelados")
plot(rnorm(100,0,1),rnorm(100,0,1),pch=19, main="Independientes")
6.4 Relación entre variables 102
8
6
6
4
4
2
2
y
0
0
−2
−2
−4
−6
−1 0 1 2 3 −3 −2 −1 0 1 2 3
x x
2
rnorm(100, 0, 1)
1
4
y
0
−1
2
−2
0
−2 −1 0 1 2 −2 −1 0 1 2 3
x rnorm(100, 0, 1)
Otra de las medidas que ayuda a entender la relación entre dos variables aleatorias es la
esperanza condicional.
Evidentemente, si X2 es una variable discreta, la integral será sustituida por una suma.
Notese que E(X2 | X1 ) es una variable aleatoria y, por tanto, se puede calcular tanto su
esperanza como su varianza. En concreto:
E[E(X2 | X1 )] = E(X2 )
Por otra parte, la varianza de esta variable aleatoria V ar[E(X2 | X1 )] tiene una inter-
pretación muy interesante como la medida de cuanto más conocemos de X2 tras conocer
X1 .
En tal caso, la mejor predicción para X2 es E(X2 | x1 ). Y cuando decimos mejor, a lo que
nos referimos es a que es el valor que minimiza el error cometido que, en este caso se denota
por V ar(X2 | x1 ) y que es la varianza de la función condicional de X2 dado X1 = x1 .
Nuestro interés entonces es saber si el error cometido al predecir X2 sin saber nada de
X1 , esto es V ar(X2 ) es mucho mayor que el error cometido en promedio al predecir X2
conociendo X1 , esto es: E[V ar(X2 | X1 )]
En concreto, se demuestra que esta mejora viene representada por la varianza de la variable
aleatoria E(X2 | X1 )
6.5. Ejercicios
1. Supongamos que un dispositivo eléctrico que tiene tres bombillas en la primera fila
y 4 en la segunda. Sea X el número de bombillas de la primera fila que se habrán
apagado en un tiempo t dado y sea Y el número de bombillas de la segunda fila
que se apagan en el mismo tiempo. La probabilidad conjunta de X e Y se da en la
siguiente tabla:
6.5 Ejercicios 104
0 1 2 3 4
0 0.08 0.07 0.06 0.01 0.01
1 0.06 0.10 0.12 0.05 0.02
2 0.05 0.06 0.09 0.04 0.03
3 0.02 0.03 0.03 0.03 0.04
determina las siguientes probabilidades:
Determina el valor de la constante para que f sea una función de densidad conjunta
valida.
3. Supongamos que un punto (X, Y ) es elegido al azar del la región S de un plano que
contiene todos los puntos que cumplen x ≥ 0, y ≥ 0 y 4y + x ≤ 4.
Determina el valor de la constante para que f sea una función de densidad conjunta
valida.
(c) Calcula
1 1 3
P X3 ≤ | X1 = , X2 =
2 4 4
6. Supongamos que tenemos tres variables aleatorias X1 , X2 y X3 . Su función de
densidad conjunta es
ce−(x1 +2x2 +3x3 ) para xi ≥ 0 i = 1, 2, 3
f (x1 , x2 , x3 ) =
0
en otro caso
Si seleccionamos a una persona al azar, ¿Cual será el valor predicho para su nota en
optimización? y si conocemos que su nota en probabilidad es x = 0,7.
107
El siguiente teorema nos muestra que cada una de las variables que conforman el vector
multinomial se comporta, marginalmente como una binomial.
Del mismo modo, si decidimos juntar varias categorías en una única variable, por ejemplo
Xi + Xj , el vector resultante sigue siendo multinomial con el parámetro de probabilidad
correspondiente transformado a πi + πj y la distribución marginal en ese caso, es Xi + Xj ∼
Bi(N, πi + πj ).
Por otra parte, el siguiente teorema nos muestra cual será la función de probabilidad
condicionada:
πj
donde πj0 = π2 +···+πk
7.1 Algunas distribuciones multivariantes conocidas 108
Por supuesto, X1 , . . . , Xk son variables dependientes (pensemos que deben sumar N) por
lo que tiene sentido estudiar su covarianza
Cov(Xi , Xj ) = −N πi πj
Vemos que la covarianza es negativa algo que, de hecho, tiene mucho sentido ya que, cuando
más valores caigan en una categoría, menos caerán en otra.
7.1.2. Multinomial en R
x <- c(2,0,3)
N <- 5
p <- c(1/3,1/3,1/3)
dmultinom(x,N,p)
## [1] 0.04115226
Partiendo de esta definición, podemos decir que una distribución normal multivariante
queda completamente determinada si conocemos:
El vector de medias para cada (µ1 , . . . , µk ) donde µi = E(Xi ). (Nótese que por la
propiedad anterior Xi ∼ N (µi , σi2 ))
La matriz de varianzas-covarianzas Σ que se define como la matriz cuya entrada
i, j es el valor Cov(Xi , Yj ). Los valores de la diagonal serán simplemente la varianza
marginal de cada una de las componentes, σi2 .
En concreto, diremos que un vector aleatorio sigue una distribución normal multivariante
7.1 Algunas distribuciones multivariantes conocidas 109
1 1
f (X1 , . . . , Xk ) = 1/2 n/2
exp − (x − µ)T Σ−1 (x − µ)
|Σ| (2π) 2
Las funciones de densidad marginales para cada una de las variables aleatorias Xi es, como
ya hemos visto más arriba Xi ∼ N (µi , σi2 ) mientras que la distribución de un subgrupo de
variables X1 , . . . , Xq condicionadas a Xq+1 , . . . , Xk es también normal con media
Y matrix de varianzas-covarianzas
donde Σ12 es el bloque de la matriz Σ correspondiente a las covarianzas de las variables del
bloque 1 con las del bloque 2 mientras que y Σ11 y Σ22 contienen las varianzas y covarianzas
del bloque 1 y 2 respectivamente, esto es:
Σ11 Σ12
Σ=
Σ21 Σ22
Para poder usar la normal multivariante en R debemos tener instalada la librería mvtnorm
y usar las ordenes:
library(mvtnorm)
medias <- c(0,0)
rho <- 0.7
covmatrix <- matrix(c(1,rho,rho,1), nrow = 2, ncol = 2)
x <- c(2,1)
dmvnorm(x, mean = medias, sigma = covmatrix)
## [1] 0.02578229
## [1] 0.0184354
110
8.1. Introducción
Sin embargo, la abstracción detrás de todos estos conceptos es, en ocasiones, difícil de
seguir y es necesario “bajar a la tierra” todos esos conceptos. En esta tarea, resultan muy
útiles las técnicas de simulación.
Por ejemplo, puede ser difícil hacer entender a una persona que, en el programa de Monty-
Hall es más probable ganar si se cambia de puerta. Sin embargo, podemos simular el
proceso y conseguir convencerla viendo la proporción de resultados favorables. Al simular,
lo que estaremos haciendo es convertir en datos los resultados teóricos ya obtenidos.
Pero las técnicas de simulación no son sólo útiles para la concreción (lo contrario de
abstracción). Estás técnicas también pueden usarse para la aproximación de valores que no
se pueden obtener de forma exacta como la media, la varianza de una variable aleatoria. En
estos casos bastará con obtener muestras aleatorias independientes de la variable X1 , . . . , Xn
y calcular su media y su varianza muestral:
n
1 X
E(X) ≈ Xi = X̄
N i=1
n
1 X
V ar(X) ≈ (Xi − X̄)2 .
N − 1 i=1
La ley de los grandes números nos asegura que estas aproximaciones serán mejores a medida
que aumente N. De esta manera, Si los valores de Xi se obtienen por ordenador, obtener
una buena aproximación será cuestión de dejarlo trabajar el tiempo suficiente.
Literalmente, simular significa imitar un proceso real, en nuestro contexto, obtener rea-
lizaciones de una variable aleatoria de la que sólo se conoce (total o parcialmente) su
función de densidad. Para simular partiremos siempre de algún generador de números
(pseudo)aleatorios pero necesitaremos técnicas que nos permitan transformar esos números
aleatorios en valores de la variable que queremos estudiar. Sobretodo, cuando las variables
de las que queramos simular nos son independientes.
8.2 Transformada integral de probabilidad. 112
Este tema se centra en el estudio de dichas técnicas y particularmente de dos que se engloban
en lo que se conoce como métodos MCMC (Markov Chain Monte Carlo): Metrópolis Hastings
y Gibbs Sampling. Para llegar a los métodos MCMC empezaremos por estudiar con un
poco de detalle a que nos referimos cuando hablamos de métodos Monte Carlo (en honor
al casino) y de Cadenas de Markov (Markov Chain). Aunque, antes, vamos a describir una
propiedad de la distribución uniforme que nos será muy útil a la hora de simular.
La distribución uniforme tiene una gran ventaja que la hace muy importante. A partir de
una variable aleatoria uniforme en el intervalo (0, 1) podemos simular cualquier variable
aleatoria continua y viceversa. De manera formal:
Teorema: 1. Dada una variable aleatoria U ∼ U nif (0, 1), X = F −1 (U ) es una variable
aleatoria continua con función de distribución acumulada F 2. Dada X una variable aleatoria
continua con función de distribución FX , U = FX (X) es una variable aleatoria continua
con distribución U nif (0, 1).
La primera parte de este teorema nos dice que si tenemos una variable aleatoria uniforme y
la transformamos usando la inversa de una función de distribución acumulada, el resultado
es una variable aleatoria con dicha función de distribución. Gracias a esta propiedad, si
queremos simular de una variable aleatoria con función de distribución acumulada F , nos
bastará con conocer su inversa.
La segunda parte afirma que, si tenemos una variable aleatoria cualquiera, X, y conside-
ramos su función de distribución (que toma valores en [0,1])) se comporta (cuando X es
desconocida) como una variable aleatoria continua con distribución U nif (0, 1).
NOTA 1: Aunque suene un poco redundante, tomar FX (X) como una variable aleatoria
es bastante natural. Se trata simplemente de pensar en FX como una función (e.g 1 − e−x )
y aplicarla sobre la variable aleatoria X (1 − e−X ). Recordemos que ya hemos visto en
otras ocasiones como trabajar con funciones de una variable aleatoria.
Veamos un ejemplo. Decimos que una variable aleatoria X tiene una distribución logística
si su función de distribución acumulada es:
ex
FX (x) =
1 + ex
Supongamos que tenemos valores de una distribución uniforme:
8.2 Transformada integral de probabilidad. 113
U <- runif(1000)
u
F −1 (u) = log
1−u
X <- log(U/(1-U))
par(mfrow=c(1,2))
hist(U, main= "Densidad (simulada y real) para U",freq = FALSE)
curve(dunif(x),from=0, to=1, add=TRUE)
hist(X, main= "Densidad (simulada y real) para X",freq = FALSE)
curve(dlogis(x),from=-6, to=6, add=TRUE)
0.20
0.8
0.15
Density
Density
0.6
0.10
0.4
0.05
0.2
0.00
0.0
U X
Un ejemplo de la segunda parte del teorema se puede obtener de forma sencilla simulando
de una distribución normal y obteniendo valores de U como la función de distribución
acumulada en cada uno de los valores de X:
8.2 Transformada integral de probabilidad. 114
X <- rnorm(1000)
U <- pnorm(X)
par(mfrow= c(1,2))
hist(X, main= "Densidad (simulada y real) para X",freq = FALSE)
curve(dnorm(x),from=-3, to =3, add=TRUE)
hist(U, main= "Densidad (simulada y real) para U",freq = FALSE)
curve(dunif(x),from=0, to=1, add=TRUE)
Density
0.2
0.1
0.0
X U
NOTA 3: Lo más importante de esta propiedad es que, cualquier función f que cumpla las
características para ser una función de densidad o probabilidad, lo será. Es decir, existirá
8.3 Métodos Monte Carlo y la ley de los grandes números 115
Cuando hablamos de Métodos Monte Carlo simplemente nos estamos refiriendo al hecho
de usar números aleatorios para aproximar alguna cantidad desconocida. Estos números
aleatorios pueden haberse obtenido mediante observación (de una muestra obtenida al azar)
o mediante la utilización de números (pseudo)aleatorios.
Ya hemos visto que R proporciona este tipo de números utilizando las funciones runif,
rnorm, rbinom o rgamma, entre otras, que simulan aleatoriamente de una variable con la
distribución correspondiente.
Ejemplo Imaginemos que queremos estudiar la probabilidad de que una moneda (que
sospechamos, está trucada) salga cara. Se trata de una probabilidad desconocida (no
sabemos si realmente esta trucada ni en que sentido). Empezamos tirando la moneda 1, 2,
3. . . hasta N veces y con cada nueva tirada calculamos la proporción (acumulada) de veces
que nos ha salido cara. Esto es, si la primera nos sale cara tendremos una proporción de 1,
si la segunda vez nos sale cruz, la proporción acumulada de caras será 1/2, si añadimos
un tercer valor y este vuelve a ser cara el nuevo valor para la proporción de caras será
de 2/3 y así sucesivamente. Estos valores calculados a medida que realizamos un mayor
número de tiradas convergerán al verdadero valor de la probabilidad de cara. El siguiente
gráfico muestra la evolución de esta proporción en 6 experimentos realizados en las mismas
condiciones ¿Cuál es la probabilidad de cara en este caso?
8.3 Métodos Monte Carlo y la ley de los grandes números 116
1.0
0.8
Proporción de caras
0.6
0.4
0.2
0.0
Index
Una de las aplicaciones más útiles de la metodología Monte Carlo es el cálculo de integrales
complejas. Por ejemplo, supongamos que os interesa que calcular el área por debajo de
una función f (x) que no sabéis integrar. Podría parecer que se trata de un problema
completamente determinista y que los números aleatorios no tienen nada que ver aquí, sin
embargo, las técnicas Monte Carlo generan una aleatoriedad fictícia y se sirve de esta para
resolver la integral en cuestión.
Supongamos que f es una función positiva y acotada 0 ≤ f (x) ≤ c tal que la integral
entre a y b existe y es finita. Sea A el rectángulo [a, b] × [0, c] con área (b − a)c y sea B
la región de dicho cuadrado que se encuentra entre el eje de x y la curva y = f (x). La
Rb
integral deseada: a f (x)dx es el área de la región B. Para calcular este área bastará con
simular dentro del cuadrado utilizando una distribución uniforme y, después, determinar la
proporción de valores por debajo de la curva. Al multiplicar esta proporción por el área
original del rectángulo, obtendremos el valor deseado.
1. Simulamos un punto (x, y) dentro del cuadrado utilizando una distribución uniforme.
2. Para cada punto obtenemos I(yi ≤ f (xi )) que valdrá 1 si se cumple la condición y 0
si no.
8.3 Métodos Monte Carlo y la ley de los grandes números 117
La ley de los grandes números nos asegura que, si N es lo suficientemente grande, esta
aproximación convergerá al verdadero valor.
f <- function(x){
4+ 3*sin(x)
}
curve(f(x),from = 0, to = 8)
7
6
5
f(x)
4
3
2
1
0 2 4 6 8
integrate(f,0,8)
Pero también podemos calcular el área bajo la curva utilizando métodos Monte Carlo como
vemos en las siguientes figuras:
par(mfrow=c(2,2))
for(N in c(10^2,10^3,10^4, 10^5)){
x <- runif(N,0,8)
y <- runif(N,0,7)
area <- 7*8*sum(y<=f(x))/N
7
6
6
5
5
4
4
f(x)
f(x)
3
3
2
2
1
1
0
0
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
x x
7
6
6
5
5
4
4
f(x)
f(x)
3
3
2
2
1
1
0
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
x x
De una forma similar podemos encontrar otras magnitudes como, por ejemplo, una apro-
ximación al número π. Para ello, de nuevo, sólo tenemos que simular en el cuadrado
[0, 1] × [0, 1] y quedarnos con los puntos que cumplan la ecuación x2 + y 2 < 1. Estos
supondrán la proporción del área del cuadrado (2*2=4) que pertenece al circulo.
require(plotrix)
require(grid)
par(mfrow=c(2,2))
for(N in c(10^2,10^3,10^4,10^5)){
x <- runif(N,-1,1)
y <- runif(N,-1,1)
pi_aprox <- 4*sum((x^2+y^2)<=1)/N
plot(c(-1, 1), c(-1,1), type = "n", asp=1, main=bquote(pi == .(pi_aprox)), xlab = pas
rect( -1, -1, 1, 1)
draw.circle( 0, 0, 1 )
points(x[(x^2+y^2)<=1],y[(x^2+y^2)<=1], col=2)
points(x[(x^2+y^2)>1],y[(x^2+y^2)>1], col=3)
}
8.4 Introducción a las cadenas de Markov 121
1.0
π = 3.2 π = 3.164
1.0
0.5
0.5
0.0
0.0
−0.5
−0.5
−1.0
−1.0
−1.0 −0.5 0.0 0.5 1.0 −1.0 −0.5 0.0 0.5 1.0
N=100 N=1000
π = 3.1316 π = 3.14016
1.0
1.0
0.5
0.5
0.0
0.0
−0.5
−0.5
−1.0
−1.0
−1.0 −0.5 0.0 0.5 1.0 −1.0 −0.5 0.0 0.5 1.0
N=10000 N=1e+05
Las cadenas de Markov fueron introducidas por Andrey Markov en 1906. Su objetivo
principal era poder aplicar la ley de los grandes números cuando las variables aleatorias
que componen la muestra no son independientes.
Pero para poder definir lo que son las cadenas de Markov es necesario entender primero
que es un proceso estocástico.
La primera vez que sale estará observando la variable aleatoria X0 : número de personas en
la cola en el instante inicial t = 0, en el tiempo t = 1 observará X1 y así sucesivamente.
A X0 se le denomina estado inicial, mientras que, a cada una de las observaciones en un
tiempo t = n, Xn , se les conoce como estado del proceso en el tiempo t = n
En este escenario, llamamos espacio de estados al conjunto de los posibles valores que
puede tomar cada una de las variables Xn que en nuestro caso sería {0, 1, 2, . . . , 7}.
Si bien es cierto que, tanto el tiempo (de observación) como el espacio de estados podrían
ser de naturaleza continua, en este tema nos centraremos en procesos estocásticos como los
del ejemplo donde tanto el parámetro de tiempo como el espacio de estados son discretos y,
en concreto, en los procesos estocásticos denominados Cadenas de Markov.
Una de las características principales de los procesos estocásticos que los diferencian de
la sucesión de variables aleatorias de la que hablamos cuando hacemos referencia a la ley
de los grandes números (y que ya han aparecido varias veces en este tema), es que lo que
sucede en un instante concreto de tiempo Xn estará relacionado con lo que haya pasado
en instantes anteriores de tiempo. Se trata, por tanto, de una sucesión de variables NO
independientes.
Los tipos de relación temporal pueden ser muy variados y las cadenas de Markov representan
un caso particular. En concreto:
Fijaos que en el caso de una cadena de Markov finita, el interés reside en saber cual es
la probabilidad de pasar del estado si al estado sj en un instante de tiempo n. A este
tipo de probabilidades se les denomina probabilidades de transición y diremos que
las probabilidades de transición son estacionarias cuando no cambian con el instante de
tiempo sino, únicamente, con el hecho de pasar del estado si al estado sj . Esto es:
pi,j = P (Xn+1 = sj | Xn = si )
Volvamos a nuestro ejemplo. Para que pudiésemos considerarlo una cadena de Markov
necesitaríamos que el número de personas en la cola sólo dependiese del número de personas
en la cola en el instante anterior (es decir, 5 minutos antes). Las probabilidades de transición
nos indicarían, por ejemplo, que probabilidad hay de pasar a tener 5 personas en la cola
cuando actualmente hay 3 (p3,5 ). Además, podríamos considerar que las probabilidades de
transición son estacionarias si estas se mantienen constantes en el tiempo (cosa que no es
muy probable en un supermercado).
Por su notación, pi,j , parece bastante razonable ordenar las probabilidades de transición en
forma de matriz:
p1,1 p1,2 · · · p1,k
p2,1 p2,2 · · · p2,k
P = .
. .. .. ..
. . . .
pk,1 pk,2 · · · pk,k
Si queremos saber que probabilidad tenemos de ir al cine dentro de dos días sabiendo
que hoy sí que hemos ido podemos hacerlo simplemente multiplicando P por si misma y
obtenemos:
sí no
2
P = sí 4/9 5/9
no 5/12 7/12
Volviendo al ejemplo, si sabemos que el primer día que empecé mi política de ir al cine,
elegí ir con probabilidad 1/2, la probabilidad de ir al cine el cuarto día será 0.4286265:
0,4290123 0,5709877
tP 4 = 1/2 1/2 = 0,4286265 0,5713735
0,4282407 0,5717593
Las cadenas de Markov pueden clasificarse según sus estados. A su vez, los estados de una
cadena de Markov finita pueden clasificarse según el tiempo que se permanezca en el y las
veces que se visite.
Podemos ver que, para la cadena de Markov de la izquierda, siempre existe la probabilidad
pasar de unos estados a otros, y una “partícula” que entre en el sistema no dejaría de
moverse por todos los estados. Sin embargo, la cadena de la derecha presenta un conjunto
de estados transitorios 1, 2 y 3 por los que se puede mover hasta que caiga en el estado 4,
momento a partir del cual, se quedará entre los estados 4, 5 y 6 que serán nuestros estados
recurrentes
Cuando todos los estados de la cadena son recurrentes o lo que es lo mismo, siempre puedo
llegar de un estado a otro en un número finito de pasos (como en la figura de la izquierda),
diremos que la cadena de Markov es irreducible.
Por otra parte, también podemos hablar del periodo de un estado i como el tiempo que
se tarda en volver a ese estado después de visitarlo. Para calcularlo bastará con coger el
máximo común divisor de todos los valores n tales que el elemento (i, i) de la matriz P n es
distinto de 0.
Cuando tenemos una cadena de Markov resulta inevitable plantearse que pasará en el largo
plazo, ¿Acabaré yendo al cine todos los días? ¿Dejaré de ir?
Pk
Definición Decimos que un vector lt = (l1 , . . . , lk ) de probabilidades tales que i=1 lk =1
8.4 Introducción a las cadenas de Markov 126
lP = l.
Pero, ¿Se da siempre esta circunstancia? ¿Existe la distribución estacionaria? ¿Es única?
Hemos visto que, en el ejemplo del cine, existía la distribución estacionaria, además, con el
teorema anterior, podemos decir que la solución es única. Sin embargo, de cara a calcular
dicha distribución, no siempre será tan fácil.
El siguiente teorema nos muestra que podemos obtener el mismo resultado de forma
empírica calculando P n con n → ∞.
Por último, resulta interesante conocer cual es la probabilidad de volver a un estado dado
y su relación la distribución estacionaria.
Tal y como vimos en la práctica 4, R dispone de una función específica que permite simular
valores aleatorios para cada una de las distribuciones de probabilidad más habituales. En
la práctica 4 también se presentó el listado de distribuciones de probabilidad disponibles
en R.
Así, por ejemplo, la función rexp es la función que genera un vector del tamaño solicitado
de números aleatorios de una distribución exponencial, mientras que rbinom es la función
que genera vectores de números aleatorios de una binomial.
Pero existen muchas otras funciones de probabilidad o densidad para las que R no lleva
incorporada una función específica que permita simular de ellas. Si la función de distri-
bución acumulada F y su inversa F −1 son conocidas, podemos utilizar el teorema de la
Transformada Integral de Probabilidad para simular de ella. Esto es.
Teorema Sea U una v.a. distribuida según una U nif (0, 1) y F una función que cumple
las condiciones para ser una función de distribución acumulada. La variable aleatoria
X = FX−1 (U ) es una v.a. con función de distribución acumulada F .
En general, dada una muestra aleatoria {U1 , U2 , . . . , Un } donde cada Ui es i.i.d. U nif (0, 1),
entonces X1 = FX−1 (u1 ), X2 = FX−1 (u2 ), . . . , Xn = FX−1 (un ) son v.a.’s i.i.d. con función de
distribución acumulada F .
Es decir, basta saber simular de una Un(0,1), lo cual podemos hacer con la función runif y
luego transformar los resultados según la inversa de la función de distribución acumulada.
Ejercicio 1.- Simular 10000 valores de una exponencial de parámetro (tasa) 10 utilizando
este teorema. Comparar el resultado con el que se obtiene con R, utilizando para ello un
histograma de los valores simulados superponiendo la densidad de la Exp(10).
Para ello basta con simular n = 10000 de una Un(0,1) con R y utilizar el resultado anterior
para obtener valores simulados de la Exponencial,
− log(1 − u)
FX (x) = 1 − e−λx −→ FX−1 (u) = ∼ Ex(λ) ,
λ
8.5 Simulación de una variable aleatoria 128
par(mfrow=c(1,2))
hist(sim1, prob=T,xlim=c(0,0.6),ylim=c(0,10), nclass = 40,
xlab =" ", ylab =" ", main="Hist. sims. Exp. con inversa")
valores <- seq(0,1,by=0.001)
lines(valores, dexp(valores,10),col=2)
hist(sim2, prob=T,xlim=c(0,0.6),ylim=c(0,10), nclass = 40,
xlab =" ",ylab =" ", main="Hist. sims. Exp. R")
lines(valores, dexp(valores,10),col=2)
10
8
8
6
6
4
4
2
2
0
Para ello vamos a calcular el área bajo la curva 1 + ex entre [0, 1] ya que su valor es
precisamente ese valor:
Z 1
(1 + ex )dx = [x + ex ]10 = e
0
exp(1)
## [1] 2.718282
Ahora vamos a ver como podemos hacerlo simulando valores y calculando cuantos puntos
quedan por debajo de la curva. La idea es simular de valores del rectángulo [0, 1] × [0, 4]
con área (1 − 0) × 4 = 4, y contar los puntos bajo la curva. Lo haremos para 102 , 103 , 104
y 105 puntos.
par(mfrow=c(2,2))
for(N in c(10^2,10^3,10^4,10^5)){
x <- runif(N,0,1)
y <- runif(N,0,4)
area <- 1*4*sum(y<=f(x))/N
curve(f(x), from=0, to =1, ylim=c(0,4), main=paste("area=", area))
points(x[y<=f(x)],y[y<=f(x)],col=2,pch=16,cex=0.75)
points(x[y>f(x)],y[y>f(x)],col=3,pch=16,cex=0.75)
}
8.6 Simulación por métodos MCMC 130
4
3
3
f(x)
f(x)
2
2
1
1
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x
4
3
3
f(x)
f(x)
2
2
1
1
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x
Observa que aún con 105 puntos no se consigue una aproximación buena, y además se
ha tardado mucho en obtener el resultado. Bueno, eso depende de la máquina con la que
hayas trabajado. Si tienes tiempo, prueba con 5 × 105 o con 106 . Con 108 igual colapsas el
ordenador.
Ahora vamos a unir ambas ideas al concepto de Cadenas de Markov para simular de
variables aleatorias de las que la distribución F no es fácilmente calculable. Es decir, para
aquellas situaciones en las que no es posible simular directamente de la distribución de
8.6 Simulación por métodos MCMC 131
probabilidad.
Antes de proceder, recordemos que una cadena de Markov es un proceso estocástico donde
la variable aleatoria en un instante n, Xn depende de la variable aleatoria en el instante
inmediatamente anterior. En las clases de teoría habéis estudiado Cadenas de Markov
con espacio de estados discreto y finito. Una de las caracteristicas más importantes de las
Cadenas de Markov es la existencia de distribución estacionaria.
En el contexto de la simulación, el objetivo será obtener una muestra de una distribución con
función de densidad f , partiendo de una cadena de Markov X (0) , X (1) , . . . cuya distribución
estacionaria esté determinada por esa misma f . El procedimiento utilizado, en terminos
generales, es el siguiente:
encontrar una función de densidad condicionada p(·|·) tal que en cada paso i po-
damos obtener el siguiente valor X (i+1) como una simulación de la distribución
p(X (i+1) |X (i) ),
repetir el procedimiento obteniendo una Cadena de Markov X (0) , . . . , X (n) hasta que
se alcanza la convergencia a la distribución estacionaria f (período de calentamiento
de la cadena),
Nota: fijaos que utilizamos el super índice para indicar el instante de la cadena de Markov
en el que estamos sin confundirlo con el posible subíndice a la hora de trabajar con vectores
aleatorios.
8.6.1. Gibbs-Sampling
Supongamos que tenemos un vector de v.a’s X con función de densidad conjunta f (x) de
la que queremos simular. Puede que no sea fácil simular de la función conjunta pero si
lo sea hacerlo de sus condicionales f (xi |x1 , . . . , xi−1 , xi+1 , . . . , xd ). Estas serán, por tanto,
nuestras funciones p intermedias y el procedimiento de simulación será:
(0) (0)
1. Inicializar con x(0) = (x1 , . . . , xd ).
(1) (0) (0)
2. Simular x1 de la distribución condicional x1 |(x2 , . . . , xd ).
(1) (1) (0) (0)
3. Simular x2 de la distribución condicional x2 |(x1 , x3 , . . . , xd ).
4. ...
(1) (1) (1)
5. Simular xd de la distribución condicional xd |(x1 , . . . , xd−1 ).
(x|y) ∼ Binomial(16, y)
(y|x) ∼ Beta(x + 2, 20 − x)
Procedimiento:
4. Repetir la simulación.
Construimos una función para simular con este algoritmo y simulamos 1000 valores después
de dejar 1000 de calentamiento:
Teniendo en cuenta que la primera componente de los vectores simulados es una simulación
de la marginal f (x), podemos comparar el resultado obtenido con una simulación de la
beta-binomial correcta:
par(mfrow=c(2,1))
hist(sim3[,1],nclass=40,col=3,xlab=" ", ylab=" ",
main="Gibbs sampling")
hist(bbsim,nclass=40,col=4,xlab=" ", ylab=" ",
main="Simulación directa Beta-Binomial")
8.6 Simulación por métodos MCMC 134
Gibbs sampling
80
40
0
0 2 4 6 8 10 12 14
0 5 10 15
podemos utilizar Monte Carlo para aproximar esta integral y por tanto aproximar los
valores de f (x) = P (X = x) mediante
m
˜ 1 X
f (x) = f (x|yi ) ,
m i=1
Así las simulaciones obtenidas por Gibbs nos permiten aproximar las probabilidades de la
marginal f (x):
8.6 Simulación por métodos MCMC 135
par(mfrow=c(2,1))
barplot(fxtildex, ylim=c(0,0.12), main="Gibbs sampling")
barplot(fx,ylim=c(0,0.12), main="Prob. exactas Beta-Binomial")
Gibbs sampling
0.12
0.06
0.00
8.6.2. Metropolis-Hastings
1. Simular un candidato X (∗) de una distribución q(·|X (i) ) que tenga una forma conve-
niente
Ejercicio 4.- Obtener una simulación de la siguiente distribución de la que solo conocemos
su densidad menos la constante de integración:
(x−1)2
f (x) = e− 2 ,
Para ello utilizaremos como distribuciones propuesta q(.|x) distribuciones normales con
desviaciones típica 0.5, 0.1, 1 y 10. Utilizaremos también diferentes valores iniciales de las
cadenas y diferentes periodos de calentamiento para ver que ocurre en cada caso.
8.6 Simulación por métodos MCMC 137
# El algoritmo M-H
mh <- function(nsim,inicial,std)
{
sims <- numeric(nsim); sims[1]<-inicial
for(t in 1:nsim)
{
rn <- rnorm(1,sims[t],std)
alpha <- min(1,fno(rn)/fno(sims[t]))
ru <- runif(1,0,1)
if (ru<=alpha) sims[t+1] <- rn else sims[t+1] <- sims[t]
t <- t+1
}
sims
}
nsims <- 5000 ; ncal <- 1000 # probar a cambiar todos estos valores
mhsims1 <- mh(nsims,-10,0.5)
mhsims2 <- mh(nsims, 0,0.1)
mhsims3 <- mh(nsims, 0,1.0)
mhsims4 <- mh(nsims, 5, 10)
Vamos a ver los resultado en una gráfica común incorporando en color azul líneas que
marquen los valores habituales entre los que encontraríamos simulaciones de una N(1,1):
par(mfrow=c(2,2))
plot.ts(mhsims1,ylim=c(-10,4),xlab=" ",ylab=" ", col=2, main = "N(-10, 0.5)")
lines(c(-10,nsims+10),c(-1,-1),lty=2,col=4)
lines(c(-10,nsims+10),c(3,3),lty=2,col=4)
4
3
2
−2
1
0
−6
−10
−2
4
2
2
0
0
−2
−2
Para calcular la esperanza basta con calcular la media de los valores simulados (tal y como
hemos visto en integración Monte Carlo):
mean(mhsims1[(ncal+1):nsims])
## [1] 0.9175292
REFERENCIAS 139
mean(mhsims2[(ncal+1):nsims])
## [1] 1.177105
mean(mhsims3[(ncal+1):nsims])
## [1] 0.9916431
mean(mhsims4[(ncal+1):nsims])
## [1] 1.000446
Referencias
Joseph K. Blitzstein and Jessica Hwang. Introduction to Probability. CRC Press, 2015.