Download Estadística I Tema 4: Probabilidad y modelos probabilísticos

Document related concepts
no text concepts found
Transcript
Estadı́stica I
Tema 4: Probabilidad y modelos probabilı́sticos
Tema 4. Probabilidad y modelos probabilı́sticos
Contenidos
I
Probabilidad:
I
Experimentos aleatorios, espacio muestral, sucesos elementales y
compuestos.
I
Propiedades de la probabilidad. Probabilidad condicionada.
I
Variables aleatorias y sus caracterı́sticas.
I
Modelos de probabilidad discretos: Ensayos de Bernoulli y
distribuciones relacionadas.
I
Modelos de probabilidad continuos: Distribución uniforme y
distribución normal.
I
Introducción a la distribución normal bivariante.
Conceptos básicos
I
Experimento aleatorio: proceso de observar un fenómeno cuyos
resultados son inciertos.
I
Espacio muestral: es el conjunto de todos los posibles resultados de
un experimento aleatorio. Se denota por
Ω = {e1 , e2 , . . . , en , . . .}
donde cada uno de sus elementos se denomina suceso elemental.
Estos son siempre disjuntos dos a dos.
I
Suceso: un subconjunto del espacio muestral, es decir, un conjunto
de sucesos elementales
A = {e1 , e3 }
Ejemplos:
I
Resultado al lanzar una moneda.
I
Precio de la acción x al cierre de sesión el próximo lunes.
Sucesos: conceptos básicos
Intersección de sucesos: Si A y B son dos sucesos del espacio muestral Ω,
entonces la intersección, A ∩ B, es el conjunto de todos los sucesos de Ω
que están en A y en B.
Representación en diagramas de Euler-Venn:
Sucesos: conceptos básicos
A y B son sucesos incompatibles si no tienen ningún suceso elemental en
común i.e., el conjunto A ∩ B es vacı́o
Sucesos: conceptos básicos
Unión de sucesos: Si A y B son dos sucesos de un espacio muestral Ω,
entonces la unión, A ∪ B, es el conjunto de todos los sucesos de Ω que
pertenecen a cualquiera de los dos, A ó B.
Sucesos: conceptos básicos
Sucesos triviales:
I
Suceso seguro Ω: conjunto = espacio muestral
I
Suceso imposible ∅: conjunto = conjunto vacı́o
Complementario o suceso contrario
El complementario de un suceso A es el conjunto de todos los sucesos
elementales de Ω que no están en A.
Ejemplo: lanzamiento de un dado
Consideremos el experimento aleatorio “resultado observado al lanzar un
dado”:
I
suceso elemental: el 1, el 2, el 3, el 4, el 5, el 6
I
espacio muestral: Ω = {1, 2, 3, 4, 5, 6}
I
suceso: A = {2, 4, 6}
B = {4, 5, 6}
El suceso A es “sale un número par”.
El suceso B es “sale un número mayor que tres”.
Ejemplo: lanzamiento de un dado
Ω = {1, 2, 3, 4, 5, 6}
I
A = {2, 4, 6}
Complementario:
Ā = {1, 3, 5}
I
B̄ = {1, 2, 3}
Intersección:
Ā ∩ B̄ = {1, 3} = A ∪ B
A ∩ B = {4, 6}
I
B = {4, 5, 6}
Unión:
A ∪ B = {2, 4, 5, 6}
Ā ∪ B̄ = {1, 2, 3, 5} = A ∩ B
A ∪ Ā = {1, 2, 3, 4, 5, 6} = Ω
I
Sucesos incompatibles:
A ∩ Ā = ∅
I
Notar que:
A∩B ⊂A
A∩B ⊂B
A⊂A∪B
B ⊂A∪B
Probabilidad
Probabilidad clásica (regla de Laplace)
Considera un experimento para el que todos los sucesos elementales son
equiprobables. Si tenemos k sucesos elementales,
P(A) =
1
× tamaño de A
k
De esta manera, la probabilidad es una aplicación que asigna a cada
suceso A un valor numérico P (A) ∈ [0, 1].
Propiedades de la probabilidad
I
0 ≤ P(A) ≤ 1.
I
Sea A = {e1 , e2 , . . . , en }, entonces P(A) =
I
P(Ω) = 1 y P(∅) = 0.
I
Complementario: P(Ā) = 1 − P(A).
I
Unión: P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
I
Si A y B son incompatibles (A ∩ B = ∅), entonces
P(A ∪ B) = P(A) + P(B).
Pn
i=1
P(ei ).
Ejemplo: lanzamiento de un dado
I
Probabilidad de un suceso elemental: P(ei ) = 16 , donde ei = i, para
i = 1, . . . , 6.
I
Probabilidad de que salga par: A = {2, 4, 6}, luego
P(A) = P(”2”) + P(”4”) + P(”6”) =
I
Probabilidad de que salga mayor que 3: B = {4, 5, 6}, luego
P(B) = P(”4”) + P(”5”) + P(”6”) =
I
1
1 1 1
+ + =
6 6 6
2
1 1 1
1
+ + =
6 6 6
2
Probabilidad de que salga impar
P(Ā) = 1 − P(A) = 1 −
1
1
=
2
2
Ejemplo: lanzamiento de un dado
I
Probabilidad de que salga par (A =“par”) o mayor que tres
(B =“mayor que 3”)
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
Como A ∩ B = {4, 6}, entonces P(A ∩ B) =
P(A ∪ B) =
I
2
6
=
1
3
1 1 1
4
2
+ − = =
2 2 3
6
3
Probabilidad de que salga par o igual a uno.
Los sucesos A = {2, 4, 6} y C = {1} son incompatibles (A ∩ C = ∅)
por tanto
P(A ∪ C ) = P(A) + P(C ) =
1 1
4
2
+ = =
2 6
6
3
Ejemplo: probabilidad condicional
I
Jugamos a la ruleta y apostamos a los números 3, 13 y 22. ¿Cuál es
la probabilidad de ganar?
I
El espacio muestral es Ω = {0, 1, 2, . . . , 36} por lo que el número de
sucesos elementales es 37. Definimos el suceso A = ”nuestra
apuesta” = {3, 13, 22} que contiene tres sucesos elementales.
I
Por lo tanto, la probabilidad de ganar es P (A) =
I
Justo antes de empezar la partida, nos dicen que la ruleta
está trucada de manera que siempre sale un número impar. ¿Cuál es
ahora nuestra probabilidad de ganar? ¿Es la misma que antes?
3
37 .
Probabilidad condicional
Probabilidad condicional
Sean dos sucesos A y B tal que P(B) > 0, la probabilidad condicionada
de A dado B es:
P(A ∩ B)
P(A|B) =
P(B)
Ley de la multiplicación
Si P(B) > 0, se tiene que
P(A ∩ B) = P(A|B)P(B)
Independencia
Se dice que dos sucesos A y B son independientes si
P(A ∩ B) = P(A)P(B).
Además, si P(B) > 0, P(A|B) = P(A) y si P(A) > 0, P(B|A) = P(B).
OBS: No confundir sucesos independientes con sucesos incompatibles.
Ejemplo: Probabilidad condicional
I
Definimos el suceso B =“Siempre sale impar”= {1, 3, 5, . . . , 35},
que contiene 18 sucesos elementales.
I
Entonces, puesto que A ∩ B = {3, 13}, la probabilidad condicionada
nos queda:
P (A|B) =
P (A ∩ B)
=
P (B)
2
37
18
37
=
2
1
=
18
9
I
Notar que cuando nos dicen que la ruleta está trucada, el espacio
muestral deja de ser el inicial, pues nunca puede aparecer un número
par, y se transforma en Ω∗ = B = {1, 3, 5, . . . , 35}. La probabilidad
de A en Ω∗ es ahora 91 .
I
Puesto que P(A) 6= P (A ∩ B), los sucesos A y B no son
independientes.
Ejemplos
De una baraja española, saco dos cartas sin reposición. Probabilidad de
que:
10
40 .
I
la primera carta sea copa: P(A) =
I
la segunda sea copa, sabiendo que la primera lo fue: P(B|A) =
I
las dos cartas sean copas: P(A ∩ B) = P(B|A)P(A) =
9
39 .
9 10
39 40 .
Tiro dos dados. Probabilidad de que:
I
en el primer dado salga un uno: P(C ) = 16 .
I
en el segundo dado salga un uno, sabiendo que en el primero
salió uno: P(D|C ) = P(D) = 61 .
I
en el primer dado salga un uno, si en el segundo salió uno:
P(C |D) = P(C ) = 61 .
I
en los dos dados salga uno: P(C ∩ D) = P(D)P(C ) =
independientes)
11
66
(sucesos
Ley de la probabilidad total
Un conjunto de sucesos B1 , B2 , . . . , Bk son mutuamente excluyentes si
Bi ∩ Bj = ∅,
∀i 6= j.
Si además de eso cumplen
Ω = B1 ∪ B2 ∪ . . . ∪ Bk ,
se dice que forman una partición del espacio muestral.
Ejemplo
I
En la baraja española, los siguientes conjuntos de sucesos definen
particiones del espacio muestral:
I
Ω = {oros, copas, espadas, bastos} .
I
Ω = {ases, treses, sotas, caballos, reyes, resto de cartas} .
Ley de probabilidad total
Dada una partición del espacio muestral, B1 , B2 , . . . , Bk , y dado un
suceso A, se tiene que
P(A)
=
P(A ∩ B1 ) + P(A ∩ B2 ) + . . . + P(A ∩ Bk ) =
=
P(A|B1 )P(B1 ) + P(A|B2 )P(B2 ) + . . . + P(A|Bk )P(Bk ).
Ejemplo: probabilidad total
I
En una baraja española (48 cartas), calcular la probabilidad de sacar
un as, utilizando la ley de la probabilidad total.
I
Los cuatro palos de la baraja española establecen la partición del
espacio muestral dada por Ω = {oros, copas, espadas, bastos}, por
lo que:
P (Ω) = P (oros) + P (copas) + P (espadas) + P (bastos) =
1 1 1 1
= + + +
4 4 4 4
I
Si definimos el suceso A =“as”, entonces:
P (A) = P (A|oros) P (oros) + P (A|copas) P (copas) +
P (A|espadas) P (espadas) + P (A|bastos) P (bastos) =
1 12
1 12
1 12
1 12
4
1
=
+
+
+
=
=
12 48 12 48 12 48 12 48
48
12
I
Ahora si la carta extraı́da es un as, ¿cuál es la probabilidad que sea
el as de copas? Necesitamos invertir las condiciones.
Inversión de las condiciones: Teorema de Bayes
Para dos sucesos A y B se tiene que
P(A|B) =
P(A ∩ B)
P(B|A)P(A)
=
P(B)
P(B)
Este Teorema se aplica en situaciones en las que la probabilidad P(B|A)
es conocida.
Ejemplo: (continuación del anterior) si la carta extraı́da es un as, ¿cuál
es la probabilidad que sea el as de copas?
P(copas|A) =
P(A|copas)P(copas)
=
P(A)
1 1
12 4
1
12
=
1
4
Ejemplo
I
Un gato quiere pescar un pez en una pecera que contiene tres peces
amarillos y dos negros con rayas blancas. Suponiendo que pesque un
pez, ¿cuál es la probabilidad de que sea un pez rayado?
Si R =“rayado”, entonces:
P (R) =
I
2
5
Suponiendo que pesque dos peces, ¿cuál es la probabilidad de que
pesque uno rayado y uno amarillo?
Si R1 =“el primero es rayado”, R2 =“el segundo es rayado”, A1 =“el
primero es amarillo” y A2 =“el segundo es amarillo”, entonces:
P (R1 ∩ A2 ) + P (A1 ∩ R2 ) = P (A2 |R1 ) P (R1 ) + P (R2 |A1 ) P (A1 ) =
32 23
6
6
12
3
=
+
=
+
=
=
45 45
20 20
20
5
Ejemplo
I
Suponiendo que pesque dos peces y sabiendo que el segundo era
rayado, ¿cuál es la probabilidad de que el primero no lo fuera?
P (A1 |R2 ) =
P (R2 |A1 ) P (A1 )
P (R2 |A1 ) P (A1 )
=
=
P (R2 )
P (R2 |A1 ) P (A1 ) + P (R2 |R1 ) P (R1 )
=
23
45
23
45
+
12
45
=
6
20
6
20
+
2
20
=
6
3
=
8
4
Variables aleatorias
I
Sea Ω el espacio muestral asociado a cierto experimento aleatorio.
I
Se denomina variable aleatoria (v.a.) a una función X : Ω −→ R, tal
que a cada elemento ei ∈ Ω le asigna un valor numérico
X (ei ) = xi ∈ R.
I
Intuitivamente, una variable aleatoria es una medida o cantidad que
varı́a en función del resultado concreto ei que se observa al realizar
el experimento aleatorio.
I
La v.a. se denota con letras mayúsculas, mientras que las letras
minúsculas indican el valor concreto que toma la v.a. cuando se
evalúa en un punto muestral.
I
OBS: Las variables estadı́sticas que hemos visto en los temas 1, 2 y
3 son el resultado de evaluar las v.a. correspondientes en muestras
de individuos.
Variables aleatorias
V.a. discreta
Si X toma valores sobre un conjunto S ⊆ R finito o infinito numerable,
se dice que X es una variable aleatoria discreta.
V.a. continua
Si X toma valores sobre un conjunto S ⊆ R infinito no numerable (por
ejemplo, en un intervalo o en una unión de intervalos de R), se dice que
X es una variable aleatoria continua.
Ejemplos
I
X =“Resultado al tirar un dado” es una variable discreta donde
S = {1, 2, 3, 4, 5, 6}.
I
Y =“Número de coches que pasan por un cierto peaje en una
semana” es una variable discreta donde S = {0, 1, 2, . . .} = N ∪ 0 es
infinito numerable.
I
Z = “altura de un alumno elegido al azar” es una variable continua
donde S = [0, +∞).
Variables aleatorias discretas
Función de probabilidad
Sea X una variable aleatoria discreta con posibles valores {x1 , x2 , . . .}. Se
llama función de probabilidad o función de masa, al conjunto de
probabilidades con las que X toma cada uno de sus valores, es decir,
pi = P[X = xi ], para i = 1, 2, . . . .
Ejemplo
X = resultado de lanzar un dado. La función de probabilidad es
x
P[X = x]
1
2
3
4
5
6
1
6
1
6
1
6
1
6
1
6
1
6
En este caso, S = {1, 2, 3, 4, 5, 6} y p1 = . . . = p6 = 16 .
Variables aleatorias discretas
Función de probabilidad. Propiedades
Sea X una variable aleatoria discreta que toma valores en el conjunto
S = {x1 , x2 . . .} con probabilidades p1 = P(X = x1 ), p2 = P(X = x2 ),. . .
I
I
0 ≤ P[X = xi ] ≤ 1.
X
P[X = xi ] = 1.
i
I
P[X ≤ x] =
X
P[X = xi ].
i,xi ≤x
I
P[X > x] = 1 − P[X ≤ x].
Ejemplo
I
I
Un juego consiste en ensartar 3 aros, uno a uno, en una pica.
Participar cuesta 3 euros. Los premios son 4 euros por un acierto, 6
euros por dos aciertos y 30 euros por tres aciertos. Suponemos que
la probabilidad de ensartar un aro es de 0.1 en cada tiro, y que los
tiros son independientes.
Definimos la v.a. X como la ganancia en el juego. El espacio
muestral está dado por:
Ω = {(f , f , f ) , (a, f , f ) , (f , a, f ) , (f , f , a) ,
(a, a, f ) , (a, f , a) , (f , a, a) , (a, a, a)}
donde a denota acierto y f denota fallo. Por lo tanto, X sólo admite
cuatro posibles resultados con las siguientes probabilidades:
P (X = −3) = 0,93 = 0,729
P (X = 1) = 3 × 0,1 × 0,92 = 0,243
P (X = 3) = 3 × 0,12 × 0,9 = 0,027
P (X = 27) = 0,13 = 0,001
Ejemplo
I
¿Cuál es la probabilidad de ganar 3 o más euros, descontando los 3
euros por participar?
P (X ≥ 3) = P (X = 3) + P (X = 27) = 0,027 + 0,001 = 0,028
I
¿Cuál es la probabilidad de no perder dinero?
P (X ≥ 0) = P (X = 1) + P (X = 3) + P (X = 27) =
= 0,243 + 0,027 + 0,001 = 0,271
o lo que es lo mismo:
P (X ≥ 0) = 1 − P (X < 0) = 1 − P (X = −3) = 1 − 0,729 = 0,271
Variables aleatorias discretas
Función de distribución
La función de distribución o función de probabilidad acumulada de una
variable aleatoria X es una aplicación F : R → [0, 1], que a cada valor
x ∈ R le asigna la probabilidad:
X
F (x) = P[X ≤ x] =
P (X = xi )
xi ∈S,xi ≤x
OBS: Está definida para todo x ∈ R y no sólo para los valores de X .
I
0 ≤ F (x) ≤ 1 para todo x ∈ R.
I
F (y ) = 0 para todo y < mı́n S. Por tanto, F (−∞) = 0.
I
F (y ) = 1 para todo y > máx S. Por tanto, F (∞) = 1.
I
Si x1 ≤ x2 , entonces F (x1 ) ≤ F (x2 ), es decir, F (x) es no
decreciente.
I
Para todo a, b ∈ R,
P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = F (b) − F (a).
Ejemplo
I
La función de probabilidad de la variable X en el ejemplo del juego
es la siguiente:

0,729 x = −3



0,243
x =1
P (X = x) =
0,027
x =3



0,001 x = 27
La función de distribución de la variable X en el ejemplo del juego es
la siguiente:

0
x < −3




0,729
−3 ≤ x < 1

0,729 + 0,243 = 0,972
1≤x <3
F (x) = P (X ≤ x) =


0,729
+
0,243
+
0,027
=
0,999
3
≤ x < 27



0,729 + 0,243 + 0,027 + 0,001 = 1
27 ≤ x
I
I
Notar que esta función presenta discontinuidades de salto en los
puntos del conjunto S. El salto es de magnitud P (X = x), para
todo x ∈ S.
Esperanza de una variable aleatoria discreta
Sea X una v.a. discreta que toma valores en S = {x1 , x2 , . . . } con
probabilidades p1 = P (X = x1 ) , p2 = P (X = x2 ) , . . . Entonces, la
esperanza de X está dada por:
X
X
X
E [X ] =
xP (X = x) =
xi P (X = xi ) =
xi p i
x∈S
i
Se verifican las siguientes propiedades:
I
Si a, b ∈ R, entonces:
E [a + bX ] = a + bE [X ]
I
Sea g una función real. Entonces:
X
E [g (X )] =
g (x) P (X = x)
x∈S
i
Ejemplo
La esperanza de la variable aleatoria X del ejemplo del juego es la
siguiente:
X
E [X ] =
xP (X = x) =
x∈S
= −3 × P (X = −3) + 1 × P (X = 1) + 3 × P (X = 3) + 27 × P (X = 27) =
= −3 × 0,729 + 1 × 0,243 + 3 × 0,027 + 27 × 0,001 = −1,836
Por lo tanto, la ganancia esperada es de −1,836 euros.
Varianza de una variable aleatoria discreta
La varianza de la v.a. discreta X está dada por:
h
i X
2
2
V [X ] = E (X − E [X ]) =
(x − E [X ]) P (X = x) =
x∈S
=
X
2
(xi − E [X ]) P (X = xi ) =
i
X
2
(xi − E [X ]) pi
i
Se verifican las siguientes propiedades:
I
La varianza se puede escribir también como:
2
V [X ] = E X 2 − E [X ]
I
V [X ] ≥ 0 y Var [X ] = 0 si, y sólo si, X es una constante.
I
Si a, b ∈ R, entonces:
V [a + bX ] = b 2 V [X ]
La raı́z cuadrada
p de la varianza se denomina desviación tı́pica y se denota
por S[X ] = V [X ].
Ejemplo
La varianza de la variable aleatoria X del ejemplo del juego es la
siguiente:
2
2
V [X ] = E X 2 − E [X ] = 7,776 − (−1,836) = 4,405
donde:
2
E X 2 = (−3) × 0,729 + 12 × 0,243 + 32 × 0,027 + 272 × 0,001 = 7,776
√
La desviación tı́pica es por tanto S[X ] = 4,405 = 2,0988.
Ejemplo
Consideramos la v.a. discreta X = número de caras al tirar una moneda
dos veces. La función de probabilidad de X es:
x
P[X = x]
0
1
2
1
4
1
2
1
4
Por un lado, su esperanza viene dada por:
E [X ] = 0 ×
1
1
1
+1× +2× =1
4
2
4
mientras que su varianza es:
Var [X ] = E [X 2 ] − E [X ]2 =
donde:
E [X 2 ] = 02 ×
1
3
− 12 =
2
2
1
1
3
1
+ 12 × + 22 × =
4
2
4
2
Desigualdad de Chebyschev
Este resultado es útil para estimar una probabilidad cuando se desconoce
la distribución de probabilidad de una v.a. discreta X .
Si X es una v.a. con esperanza y varianza finitas, entonces para todo
k ≥ 1:
V (X )
P (|X − E [X ]| ≥ k) ≤
k2
o, equivalentemente,
P (|X − E [X ]| < k) ≥ 1 −
V (X )
k2
OBS: La cota que proporciona la desigualdad de Chebyschev es
demasiado gruesa y sólo debe utilizarse cuando no se disponga de la
distribución de X .
Desigualdad de Chebyschev
Veamos como aplicar la desigualdad de Chebyschev con la variable
aleatoria del ejemplo del juego. Tenemos que E [X ] = −1,836 y que
V [X ] = 4,405. Entonces:
P (|X + 1,836| ≥ 3) ≤
4,405
= 0,4894
9
Por otro lado, tenemos que:
P (|X + 1,836| ≥ 3) = P (X + 1,836 ≥ 3) + P (X + 1,836 ≤ −3) =
= P (X ≥ 1,164) + P (X ≤ −4,836) =
= P (X = 3) + P (X = 27) = 0,027 + 0,001 = 0,028
que demuestra que la cota de Chebyschev puede ser muy gruesa.
Ejemplo de repaso
I
Sea X , la variable aleatoria que representa el número de caras menos
el número de cruces en 3 tiradas de una moneda trucada de manera
que es dos veces más probable que salga cara que cruz.
I
Indicamos por “c”={cara} y “+”={cruz}.
I
El espacio muestral es:
e1 = {c, c, c} , e2 = {+, c, c} , e3 = {c, +, c} , e4 = {c, c, +} ,
Ω=
e5 = {+, +, c} , e6 = {+, c, +} , e7 = {c, +, +} , e8 = {+, +, +}
Ejemplo de repaso
I
El conjunto S donde toma valores es S = {−3, −1, 1, 3} ya que:
X (e1 ) = 3 − 0 = 3
X (e2 ) = X (e3 ) = X (e4 ) = 2 − 1 = 1
X (e5 ) = X (e6 ) = X (e7 ) = 1 − 2 = −1
X (e8 ) = 0 − 3 = −3
I
La función de probabilidad viene dada por:

3
1

P (X = −3) = 13 = 27


2

P (X = −1) = 3 × 13 × 23 = 29
P (X = x) =
2

P (X = 1) = 3 × 13 × 32 = 94



3
8
P (X = 3) = 32 = 27
Ejemplo de repaso
I
Supongamos que participamos en el siguiente juego para el que hay
que pagar de inicio 6 euros. Si al lanzar 3 veces la moneda anterior
aparece 1 cruz, ganamos 4 euros, si aparecen 2 cruces ganamos 6
euros y si aparecen 3 cruces ganamos 30 euros. ¿Cuál es la ganancia
esperada?
I
Sea Y la variable ganancia en el juego. Entonces:
I
I
I
I
I
Si no obtenemos ninguna cruz, tenemos que X = 3, por lo que
8
.
Y = −6 con probabilidad P (Y = −6) = P (X = 3) = 27
Si obtenemos una cruz, tenemos que X = 1, por lo que Y = −2 con
probabilidad P (Y = −2) = P (X = 1) = 94 .
Si obtenemos dos cruces, tenemos que X = −1, por lo que Y = 0
con probabilidad P (Y = 0) = P (X = −1) = 92 .
Si obtenemos tres cruces, tenemos que X = −3, por lo que Y = 24
1
con probabilidad P (Y = 24) = P (X = −3) = 27
.
Por lo tanto, Y toma valores en el conjunto S = {−6, −2, 0, 24}. La
ganancia esperada es:
E [Y ] = −6 ×
4
2
1
8
− 2 × + 0 × + 24 ×
= −1,78 euros
27
9
9
27
Modelo Bernoulli
Descripción
Partimos de un experimento aleatorio con sólo dos posibles resultados,
que calificamos de éxito/fracaso.
Definimos la variable aleatoria:
1 si éxito
X =
0 si fracaso
Sea p la probabilidad de éxito. Entonces, 1 − p es la probabilidad de
fracaso.
El experimento se llama ensayo de Bernoulli y la variable aleatoria se dice
que sigue una distribución Bernoulli de parámetro p.
Se escribe X ∼ Ber (p).
Modelo Bernoulli
Ejemplo
Tirar una moneda al aire
X =
1
0
sale cara
si sale cruz
Es un ensayo Bernoulli, y X sigue una distribución Bernoulli de
parámetro 1/2.
Ejemplo
Una lı́nea aérea estima que los pasajeros que compran un billete para un
vuelo tienen una probabilidad igual a 0,05 de no presentarse al embarque
de dicho vuelo.
Definamos
1 si el pasajero se presenta
Y =
0 si no lo hace
Y sigue una distribución Bernoulli con parámetro 0,95.
Modelo Bernoulli
Función de Probabilidad:
P[X = 0] = 1 − p
P[X = 1] = p
Función de distribución:
F (x) =


0
1−p

1
si x < 0
si 0 ≤ x < 1
si x ≥ 1
Propiedades
I
E [X ] = p × 1 + (1 − p) × 0 = p
I
E [X 2 ] = p × 12 + (1 − p) × 02 = p
I
V [X ] = E [X 2 ] − E [X ]2 = p − p 2 = p(1 − p)
p
S[X ] = p(1 − p)
I
Modelo Binomial
Descripción
Un ensayo Bernoulli de parámetro p se repite n veces de manera
independiente. La variable número de éxitos obtenidos, sigue una
distribución Binomial (de parámetros n y p).
Definición
Una variable X sigue una distribución binomial con parámetros n y p si
n
P[X = x] =
p x (1 − p)n−x
x
para x = 0, 1, . . . , n donde
Se escribe X ∼ B(n, p).
n
x
=
n!
x!(n − x)!
Modelo Binomial
Ejemplo
La lı́nea aérea del ejemplo anterior ha vendido 80 billetes para un vuelo.
La probabilidad de que un pasajero no se presente al embarque es de
0, 05. Definimos X = número de pasajeros que se presentan. Entonces
(suponiendo independencia)
X ∼ B(80, 0,95)
I
La probablidad de que los 80 pasajeros se presenten
80
P[X = 80] =
0,9580 × (1 − 0,95)80−80 = 0,0165
80
I
La probabilidad de que al menos un pasajero no se presente:
P[X < 80] = 1 − P[X = 80] = 1 − 0,0165 = 0,9835
Modelo Binomial
Propiedades
I
E [X ] = np
I
Var [X ] = np(1 − p)
I
S[X ] =
p
np(1 − p)
Variables aleatorias continuas
Función de distribución
Para X v.a. continua, la función de distribución es la función
F (x) = P[X ≤ x], ∀x ∈ R
Igual que en el caso discreto, la función F (x) da las probabilidades
acumuladas hasta el punto x ∈ R, pero ahora se trata de una función
continua y no de tipo escalón.
Variables aleatorias continuas
Propiedades
I
0 ≤ F (x) ≤ 1, para todo x ∈ R
I
F (−∞) = 0.
I
F (∞) = 1.
I
Si x1 ≤ x2 , entonces F (x1 ) ≤ F (x2 ), es decir, F (x) es no decreciente.
I
Para todo x1 , x2 ∈ R, P(x1 ≤ X ≤ x2 ) = F (x2 ) − F (x1 ).
I
F (x) es continua.
La función de probabilidad no tiene sentido en variables aleatorias
continuas, porque P(X = x) = 0. Para sustituir la función de
probabilidad, en variables aleatorias continuas usaremos la función de
densidad.
Variables aleatorias continuas
Función de densidad
Para una variable aleatoria continua X con función de distribución F (x),
la función de densidad de X es:
f (x) =
dF (x)
= F 0 (x)
dx
Propiedades
I
I
I
I
f (x) ≥ 0
∀x ∈ R
Rb
P(a ≤ X ≤ b) = a f (x)dx ∀a, b ∈ R
Rx
F (x) = P(X ≤ x) = −∞ f (u)du
R∞
f (x)dx = 1
−∞
Variables aleatorias continuas
Ejemplo
Una variable aleatoria X tiene función de densidad
12x 2 (1 − x) si 0 < x < 1
f (x) =
0
si no
Entonces:
Z
0,5
P(X ≤ 0,5) =
0,5
Z
12u 2 (1 − u)du = 0,3125
f (u)du =
−∞
Z
0
0,5
P(0,2 ≤ X ≤ 0,5) =
Z
0,5
12u 2 (1 − u)du = 0,2853
f (u)du =
0,2
Z
0,2
x
F (x) = P(X ≤ x) =
f (u)du =
−∞





12
30
x
3 −
1
si x ≤ 0
x4
4
si 0 < x ≤ 1
si x > 1
Esperanza de una variable aleatoria continua
Sea X una v.a. continua que toma valores en S ⊆ R, con función de
densidad f (x) . Entonces, la esperanza de X está dada por:
Z
E [X ] = xf (x) dx
S
Se verifican las siguientes propiedades:
I
Si a, b ∈ R, entonces:
E [a + bX ] = a + bE [X ]
I
Sea g una función real. Entonces:
Z
E [g (X )] = g (x) f (x) dx
S
Ejemplo
La esperanza de la variable aleatoria X del ejemplo anterior es la
siguiente:
Z
Z
0
1
1
x · f (x)dx =
x · 12x 2 (1 − x)dx =
R
0
1 4 1 5 1
1 1
3
3
4
12(x − x ) dx = 12
x − x
−
=
0 = 12
4
5
4 5
5
E [X ] =
=
Z
Varianza de una variable aleatoria continua
La varianza de la v.a. continua X está dada por:
i Z
h
2
2
V [X ] = E (X − E [X ]) = (x − E [X ]) f (x)dx =
S
Z
=
2
2
x 2 f (x)dx − E [X ] = E X 2 − E [X ]
S
Se verifican las siguientes propiedades:
I
V [X ] ≥ 0 y Var [X ] = 0 si, y sólo si, X es una constante.
I
Si a, b ∈ R, entonces:
V [a + bX ] = b 2 V [X ]
La raı́z cuadrada
p de la varianza se denomina desviación tı́pica y se denota
por S[X ] = V [X ].
Ejemplo
La varianza de la variable aleatoria X del ejemplo anterior es la siguiente:
2
2
Var [X ] = E X 2 − E [X ] = −
5
2
3
2
9
1
= −
=
5
5 25
25
donde:
E X2 =
Z
2
Z
x f (x)dx =
R
1
12x 4 (1 − x)dx =
0
12 5 x=1 12 6 x=1
x |x=0 − x |x=0 =
5
6
12
2
−2=
5
5
q
1
La desviación tı́pica es por tanto S[X ] = 25
= 15 .
=
Distribución uniforme
Descripción
La distribución uniforme es aquella en la que todos los intervalos de igual
longitud en su rango son igualmente probables. Es decir, que la función
de densidad es constante para todos los valores posibles de la variable.
Definición
Se dice que una variable X sigue una distribución uniforme en el intervalo
(a, b) (sus parámetros son a y b) si
1
si a < x ≤ b
b−a
f (x) =
0
si no
Se escribe X ∼ U(a, b).
Distribución uniforme
Función de densidad
Propiedades
a+b
2
(b−a)2
12
I
Esperanza: E [X ] =
I
Varianza: V [X ] =
I
Desviación tı́pica:
b−a
S[X ] = √
12
Ejemplo: distribución uniforme en (3,5)
Una variable aleatoria X que sigue una distribución uniforme en el
intervalo (3, 5) tiene función de densidad
1
si 3 < x < 5
2
f (x) =
0
si no
Calculamos algunas probabilidades:
R 0,5
P(X ≤ 0,5) = −∞ f (u)du = 0
R4
R4
P(X ≤ 4) = −∞ f (u)du = 3 21 du = 12 u|43 = 21
R 4,5
R 4,5
P(3,5 ≤ X ≤ 4,5) = 3,5 f (u)du = 3,5 12 du = 12
Ejemplo: distribución uniforme en (3,5)
Función de distribución
Z
x
F (x) = P(X ≤ x) =
f (u)du = . . .
−∞
I
Si x ≤ 3 entonces F (x) = P(X ≤ x) = 0.
I
Si 3 < x ≤ 5 entonces F (x) = P(X ≤ x) =
I
Si 5 < x entonces F (x) = P(X ≤ x) =
Rx
1
du
3 2
R5
1
du
3 2
Es decir, que:
F (x) =



0
x−3
2
1
si x ≤ 3
si 3 < x ≤ 5
si x > 5
= u2 |x3 =
= u4 |53 =
5−3
2
x−3
2 .
= 1.
Ejemplo: distribución uniforme en (3,5)
Esperanza
E [X ]
=
R
x · f (x)dx =
R
R5
3
x · 12 dx =
5
x2 4 3
=
52 −32
4
Varianza
Var [X ]
x 2 · f (x)dx − E [X ]2
R5 2
3 5
= 3 x2 dx − 42 = x6 − 16 = 0,33
=
R
R
3
=4
Distribución normal
Descripción
La distribución normal es un modelo teórico que aproxima bien muchas
situaciones reales. La inferencia estadı́stica se fundamenta básicamente
en la distribución normal y en distribuciones que se derivan de ella.
Definición
Se dice que una variable X sigue una distribución normal o Gausiana con
parámetros µ y σ, y se denota por X ∼ N (µ, σ), si
1
1
2
f (x) = √ exp − 2 (x − µ)
2σ
σ 2π
Propiedades
E [X ] = µ V [X ] = σ 2
Si X ∼ N (µ, σ), f (x) es simétrica respecto de µ.
Distribución normal
Función de densidad para 3 valores distintos de µ y σ
Distribución normal
Propiedad
Si X ∼ N (µ, σ),
I
P(µ − σ < X < µ + σ) ≈ 0,683
I
P(µ − 2σ < X < µ + 2σ) ≈ 0,955
I
P(µ − 3σ < X < µ + 3σ) ≈ 0,997
Desigualdad de Chebyshev
La desigualdad de Chebyschev también se puede aplicar en el caso de
variables continuas. En particular, si X es Gaussiana de media µ y
desviación tı́pica σ, tenemos que:
P (µ − k < X < µ + k) = P (|X − µ| < k) ≥ 1 −
σ2
k2
de donde, si k = cσ, tenemos que P (µ − cσ < X < µ + cσ) ≥ 1 −
1
c2 .
Distribución normal
Transformación lineal
Si X ∼ N (µ, σ), entonces:
Y = aX + b ∼ N (aµ + b, |a|σ)
Estandarización
Si X ∼ N (µ, σ), considero
Z=
X −µ
∼ N (0, 1)
σ
Se llama distribución normal estándar. Es una distribución simétrica y
centrada en 0. Además, está tabulada por lo que no tenemos que hacer
uso de integrales para obtener probabilidades.
Tablas de la N (0, 1)
Distribución normal: Ejemplo
Sea Z ∼ N(0, 1). Calculemos algunas probabilidades:
I
Pr(Z < 1,5) = 0,9332.
tabla
I
Pr(Z > −1,5) = Pr(Z < 1,5) = 0,9332.
I
Pr(Z < −1,5) = Pr(Z > 1,5) = 1 − Pr(Z < 1,5) = 1 − 0,9332 =
0,0668.
¿por qué no ≤?
I
Pr(−1,5 < Z < 1,5) = Pr(Z < 1,5) − Pr(Z < −1,5) =
0,9332 − 0,0668 = 0,8664.
¿por qué?
Distribución normal: Ejemplo
Sea X ∼ N(µ = 2, σ = 3). Queremos calcular Pr(X < 4) y
Pr(−1 < X < 3,5):
I
En primer lugar, tipificamos la variable original como sigue:
4−2
X −2
<
= Pr Z < 0,666̇ ≈ 0,7454,
Pr(X < 4) = P
3
3
donde Z ∼ N(0, 1).
I
A continuación, buscamos :
Pr(−1 < X < 3,5) = Pr(−1 − 2 < X − 2 < 3,5 − 2)
−1 − 2
X −2
3,5 − 2
=P
<
<
= Pr(−1 < Z < 0,5) =
3
3
3
= Pr(Z < 0,5) − Pr(Z < −1) = 0,6915 − 0,1587 = 0,5328.
donde Z ∼ N(0, 1).
Distribución normal: otro ejemplo
Es difı́cil etiquetar la carne empaquetada con su peso correcto debido a
los efectos de pérdida de lı́quido (definido como porcentaje del peso
original de la carne). Supongamos que la pérdida de lı́quido en un
paquete de pechuga de pollo se distribuye como normal con media 4 % y
desviación tı́pica 1 %.
Sea X la pérdida de lı́quido de un paquete de pechuga de pollo elegido al
azar.
I
¿Cuál es la probabilidad de que 3 % < X < 5 %?
I
¿Cuál es el valor de x para que un 90 % de paquetes tengan pérdidas
de lı́quido menores que x?
I
En una muestra de 4 paquetes, hallar la probabilidad de que todos
tengan pérdidas de peso de entre 3 y 5 %.
Sexauer, B. (1980) Drained-Weight Labelling for Meat and Poultry: An
Economic Analysis of a Regulatory Proposal, Journal of Consumer Affairs, 14,
307-325.
Distribución normal: otro ejemplo
Pr(3 < X < 5)
3−4
X −4
5−4
<
<
= Pr(−1 < Z < 1)
1
1
1
= Pr(Z < 1) − Pr(Z < −1) = 0,8413 − 0,1587 = 0,6827
=
Pr
Queremos Pr(X < x) = 0,9. Entonces
x −4
X −4
<
= Pr(Z < x − 4) = 0,9
Pr
1
1
Mirando las tablas, tenemos x − 4 ≈ 1,28 que implica que un 90 % de las
paquetes tienen pérdidas de menores que x = 5,28 %.
Para un paquete p = Pr(3 < X < 5) = 0,6827. Sea Y el número de
paquetes en la muestra de 4 paquetes que tienen pérdidas de entre 3 % y
5 %. Luego Y ∼ B(4, 0,6827).
4
Pr(Y = 4) =
0,68274 (1 − 0,6827)0 = 0,2172.
4
Distribución normal: otro ejemplo
Si la muestra fuera de 5 paquetes, ¿cuál seria la probabilidad que por lo
menos una tuviera perdidas de entre el 3 % y 5 %? Tenemos que n = 5 y
p = 0,6827. Por lo tanto, Y ∼ B(5, 0,6827). Entonces,
Pr(Y ≥ 1) = 1 − Pr(Y < 1) = 1 − Pr(Y = 0) =
5
5
=1−
0,68270 (1 − 0,6827)5−0 = 1 − (1 − 0,6827) = 0,9968.
0
Teorema central del lı́mite
El siguiente teorema nos habla de la distribución de la media de un
conjunto de muchas v.a. independientes e igualmente distribuidas:
X̄ =
n
1X
Xi
n
i=1
y nos dice que si n es grande, la distribución de la media de v.a.
independientes e identicamente distribuidas es normal, sea cual sea la
distribución de las v.a. De aquı́ el papel “central” que juega la
distribución normal.
Teorema
Sean X1 , X2 , . . . , Xn v.a. independientes, e idénticamente distribuidas con
media µ y desviación tı́pica σ (ambas finitas). Si n es suficientemente
grande, se tiene que
X̄ − µ
√ ∼ N (0, 1)
σ/ n
Aproximaciones
Binomial
Si X ∼ B(n, p) con n suficientemente grande (o bien n ≥ 30 y
0,1 ≤ p ≤ 0,9 o bien np ≥ 5 y n (1 − p) ≥ 5), entonces:
X − np
p
∼ N (0, 1)
np(1 − p)
TCL y aproximaciones: Ejemplo
I
Sea X ∼ B(100, 1/3). Bucamos el valor de Pr(X < 40), si bien el
cálculo exacto es muy largo ya que necesitamos un gran número de
operaciones.
I
Utilizando el TCL tenemos que X ∼ B(100, 1/3) ≈ N (33,3, 4,714) ,
ya que:
1
= 33.3̇
3
1 2
V [X ] = 100 × × = 22.2̇
p 3 3
S[X ] = 22.2̇ = 4,714
E [X ] = 100 ×
I
Por lo tanto,
Pr(X < 40) = P
X − 33.3̇
40 − 33.3̇
<
4,714
4,714
≈ P (Z < 1,414)
donde Z ∼ N(0, 1)
≈ 0,921.
Función de distribución conjunta de dos variables
I
La función de distribución conjunta de dos variables aleatorias
continuas X e Y es una aplicación F : R2 → [0, 1], tal que a cada
valor (x, y ) ∈ R2 le asigna la probabilidad:
Z x Z y
F (x, y ) = P(X ≤ x, Y ≤ y ) =
f (x, y ) dydx,
−∞
−∞
donde f (x, y ) es la función de densidad conjunta de la variable
aleatoria (X , Y ).
I
La función de densidad conjunta, f (x, y ), verifica tres propiedades:
1. f (x, y ) ≥ 0, para cualquier par (x, y ) ∈ R2 .
RbRd
2. P(a ≤ X ≤ b, c ≤ Y ≤ d) = a c f (x, y ) dydx.
R∞ R∞
3. −∞ −∞ f (x, y ) dydx = 1.
Distribuciones marginales y condicionadas
I
Las funciones de densidad marginales de las variables aleatorias
continuas X e Y están dadas por:
Z ∞
Z ∞
fX (x) =
f (x, y ) dy
y
fY (y ) =
f (x, y ) dx
−∞
−∞
respectivamente.
I
Las variables aleatorias continuas X e Y se dice que son
independientes si y sólo si:
f (x, y ) = fX (x) fY (y )
siendo fX y fY las funciones de densidad marginales de X y de Y ,
respectivamente.
I
La función de densidad condicional de la variable continua Y , dado
el valor X = x0 de la variable aleatoria X , está dada por:
fY |X (y |X = x0 ) =
f (x0 , y )
fX (x0 )
Esperanza y covarianza
I
La esperanza de la variable aleatoria (X , Y ) es el vector formado por
las esperanzas de las distribuciones marginales de X e Y :
X
E [X ]
E
=
Y
E [Y ]
I
La covarianza entre dos variables aleatorias X e Y se define como:
cov [X , Y ] = E [(X − E [X ]) (Y − E [Y ])]
y permite medir como cambian X e Y de forma conjunta.
I
I
Si valores grandes de X se corresponden con valores grandes de Y , y
lo mismo ocurre con los valores pequeños, cov [X , Y ] será positiva.
Si valores grandes de X se corresponden con valores pequeños de Y ,
y viceversa, cov [X , Y ] será negativa.
Notar que la covarianza depende crucialmente de las unidades de
medida de las variables X e Y lo que hace difı́cil su interpretación.
Coeficiente de correlación
I
El coeficiente de correlación entre dos variables aleatorias X e Y se
define como:
cov [X , Y ]
corr [X , Y ] = p
V [X ] V [Y ]
donde cov [X , Y ] es la covarianza entre X e Y y V [X ] y V [Y ] son
las varianzas de X e Y , respectivamente.
I
Notar que −1 ≤ corr [X , Y ] ≤ 1 independientemente de las unidades
de medida de X e Y .
I
corr [X , Y ] sólamente mide relaciones lineales.
I
Un valor de corr [X , Y ] próximo a 1 indica una alta relación lineal
positiva entre X e Y . Un valor de corr [X , Y ] próximo a −1 indica
una alta relación lineal negativa entre X e Y . Por último, un valor de
corr [X , Y ] próximo a 0 indica una relación lineal debil entre X e Y .
Matriz de covarianzas
I
La matriz de covarianza de una variable aleatoria (X , Y ) es una
matriz de tamaño 2 × 2 dada por:
V [X ]
cov [X , Y ]
C [X , Y ] =
cov [X , Y ]
V [Y ]
es decir, C [X , Y ] contiene las varianzas de X e Y en la diagonal
principal y la covarianza entre X e Y fuera de la diagonal principal.
La distribución Gaussiana bivariante
I
Se dice que una variable (X , Y ) sigue una distribución normal o
0
Gaussiana bivariante con parámetros µ = (µX , µY ) y matriz de
covarianzas:
2
σX
σXY
Σ=
σXY
σY2
y se denota por (X , Y ) ∼ N2 (µ, Σ) si tiene función de densidad:
f (x, y ) =
I
1
1/2
2π |Σ|
1
exp − (X − µX , Y − µY )
2
σX2
σXY
σXY
σY2
−1 X − µX
Y − µY
Notar que µX = E [X ], µY = E [Y ], σX2 = V [X ], σY2 = V [Y ] y
σXY = cov [X , Y ].
!
La distribución Gaussiana bivariante
I
La varianza generalizada es el valor de:
2
2
|Σ| = σX2 σY2 − σXY
= σX2 σY2 1 − corr [X , Y ]
y mide la dispersión global de la variable bivariante (X , Y ). Notar
como la varianza generalizada disminuye si corr [X , Y ] tiende a ±1 y
aumenta si corr [X , Y ] tiende a 0.
I
Por último, la matriz Σ−1 se puede escribir como:
1
σY2
−σXY
Σ−1 = 2 2
2
−σXY
σX2
σX σY − σXY
Densidad Gaussiana bivariante µ = (0, 0)0 , σX2 = σY2 = 1 y
σXY = 0, 0,9 y −0,9, respectivamente
0.15
0.3
0.10
0.2
4
4
0.05
0.1
0
−2
0
0.0
−4
0
x2
−4
2
−2
0
−2
x1
−2
x1
2
2
4
−4
4
0.3
0.2
4
0.1
0.0
−4
0
−2
0
−2
x1
2
4
−4
x2
2
−4
x2
2
Esperanza y varianza condicional
I
Si (X , Y ) sigue una distribución Gaussiana bivariante con
0
parámetros µ = (µX , µY ) y matriz de covarianzas
2
σX
σXY
Σ=
σXY
σY2
entonces:
I
I
I
X ∼ N µX , σX2 e Y ∼ N µY , σY2 , respectivamente.
X e Y son independientes si y sólo si σXY = 0.
Y |X = x0 sigue una distribución Gaussiana univariante de
parámetros:
σXY
µY |X = µY + 2 (x0 − µX )
σX
σY2 |X = σY2 −
I
2
σXY
σX2
X |Y = y0 sigue una distribución Gaussiana univariante de
parámetros:
σXY
µX |Y = µX + 2 (y0 − µY )
σY
σX2 |Y = σX2 −
2
σXY
σY2
Ejemplo
I
Sea (X , Y ) una variable aleatoria que sigue una distribución
0
Gaussiana bivariante con parámetros µ = (2, 1) y matriz de
covarianzas:
5 3
Σ=
3 10
I
Entonces, podemos afirmar que:
I
I
I
Las distribuciones marginales de X e Y son X ∼ N (2, 5) e
Y ∼ N (1, 10), respectivamente.
X e Y no son independientes ya que σXY 6= 0.
Y |X = 6 sigue una distribución Gaussiana univariante de parámetros:
3
(6 − 2) = 3,4
5
32
= 8,2
= 10 −
5
µY |X = 1 +
σY2 |X
I
X |Y = 3 sigue una distribución Gaussiana univariante de parámetros:
3
(3 − 1) = 2,6
10
32
=5−
= 4,1
10
µX |Y = 2 +
σX2 |Y