Download Estadística I Tema 4: Probabilidad y modelos probabilísticos

Document related concepts

no text concepts found

Transcript

Estadı́stica I
Tema 4: Probabilidad y modelos probabilı́sticos
Tema 4. Probabilidad y modelos probabilı́sticos
Contenidos
I
Probabilidad:
I
Experimentos aleatorios, espacio muestral, sucesos elementales y
compuestos.
I
Propiedades de la probabilidad. Probabilidad condicionada.
I
Variables aleatorias y sus caracterı́sticas.
I
Modelos de probabilidad discretos: Ensayos de Bernoulli y
distribuciones relacionadas.
I
Modelos de probabilidad continuos: Distribución uniforme y
distribución normal.
I
Introducción a la distribución normal bivariante.
Conceptos básicos
I
Experimento aleatorio: proceso de observar un fenómeno cuyos
resultados son inciertos.
I
Espacio muestral: es el conjunto de todos los posibles resultados de
un experimento aleatorio. Se denota por
Ω = {e1 , e2 , . . . , en , . . .}
donde cada uno de sus elementos se denomina suceso elemental.
Estos son siempre disjuntos dos a dos.
I
Suceso: un subconjunto del espacio muestral, es decir, un conjunto
de sucesos elementales
A = {e1 , e3 }
Ejemplos:
I
Resultado al lanzar una moneda.
I
Precio de la acción x al cierre de sesión el próximo lunes.
Sucesos: conceptos básicos
Intersección de sucesos: Si A y B son dos sucesos del espacio muestral Ω,
entonces la intersección, A ∩ B, es el conjunto de todos los sucesos de Ω
que están en A y en B.
Representación en diagramas de Euler-Venn:
Sucesos: conceptos básicos
A y B son sucesos incompatibles si no tienen ningún suceso elemental en
común i.e., el conjunto A ∩ B es vacı́o
Sucesos: conceptos básicos
Unión de sucesos: Si A y B son dos sucesos de un espacio muestral Ω,
entonces la unión, A ∪ B, es el conjunto de todos los sucesos de Ω que
pertenecen a cualquiera de los dos, A ó B.
Sucesos: conceptos básicos
Sucesos triviales:
I
Suceso seguro Ω: conjunto = espacio muestral
I
Suceso imposible ∅: conjunto = conjunto vacı́o
Complementario o suceso contrario
El complementario de un suceso A es el conjunto de todos los sucesos
elementales de Ω que no están en A.
Ejemplo: lanzamiento de un dado
Consideremos el experimento aleatorio “resultado observado al lanzar un
dado”:
I
suceso elemental: el 1, el 2, el 3, el 4, el 5, el 6
I
espacio muestral: Ω = {1, 2, 3, 4, 5, 6}
I
suceso: A = {2, 4, 6}
B = {4, 5, 6}
El suceso A es “sale un número par”.
El suceso B es “sale un número mayor que tres”.
Ejemplo: lanzamiento de un dado
Ω = {1, 2, 3, 4, 5, 6}
I
A = {2, 4, 6}
Complementario:
Ā = {1, 3, 5}
I
B̄ = {1, 2, 3}
Intersección:
Ā ∩ B̄ = {1, 3} = A ∪ B
A ∩ B = {4, 6}
I
B = {4, 5, 6}
Unión:
A ∪ B = {2, 4, 5, 6}
Ā ∪ B̄ = {1, 2, 3, 5} = A ∩ B
A ∪ Ā = {1, 2, 3, 4, 5, 6} = Ω
I
Sucesos incompatibles:
A ∩ Ā = ∅
I
Notar que:
A∩B ⊂A
A∩B ⊂B
A⊂A∪B
B ⊂A∪B
Probabilidad
Probabilidad clásica (regla de Laplace)
Considera un experimento para el que todos los sucesos elementales son
equiprobables. Si tenemos k sucesos elementales,
P(A) =
1
× tamaño de A
k
De esta manera, la probabilidad es una aplicación que asigna a cada
suceso A un valor numérico P (A) ∈ [0, 1].
Propiedades de la probabilidad
I
0 ≤ P(A) ≤ 1.
I
Sea A = {e1 , e2 , . . . , en }, entonces P(A) =
I
P(Ω) = 1 y P(∅) = 0.
I
Complementario: P(Ā) = 1 − P(A).
I
Unión: P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
I
Si A y B son incompatibles (A ∩ B = ∅), entonces
P(A ∪ B) = P(A) + P(B).
Pn
i=1
P(ei ).
Ejemplo: lanzamiento de un dado
I
Probabilidad de un suceso elemental: P(ei ) = 16 , donde ei = i, para
i = 1, . . . , 6.
I
Probabilidad de que salga par: A = {2, 4, 6}, luego
P(A) = P(”2”) + P(”4”) + P(”6”) =
I
Probabilidad de que salga mayor que 3: B = {4, 5, 6}, luego
P(B) = P(”4”) + P(”5”) + P(”6”) =
I
1
1 1 1
+ + =
6 6 6
2
1 1 1
1
+ + =
6 6 6
2
Probabilidad de que salga impar
P(Ā) = 1 − P(A) = 1 −
1
1
=
2
2
Ejemplo: lanzamiento de un dado
I
Probabilidad de que salga par (A =“par”) o mayor que tres
(B =“mayor que 3”)
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
Como A ∩ B = {4, 6}, entonces P(A ∩ B) =
P(A ∪ B) =
I
2
6
=
1
3
1 1 1
4
2
+ − = =
2 2 3
6
3
Probabilidad de que salga par o igual a uno.
Los sucesos A = {2, 4, 6} y C = {1} son incompatibles (A ∩ C = ∅)
por tanto
P(A ∪ C ) = P(A) + P(C ) =
1 1
4
2
+ = =
2 6
6
3
Ejemplo: probabilidad condicional
I
Jugamos a la ruleta y apostamos a los números 3, 13 y 22. ¿Cuál es
la probabilidad de ganar?
I
El espacio muestral es Ω = {0, 1, 2, . . . , 36} por lo que el número de
sucesos elementales es 37. Definimos el suceso A = ”nuestra
apuesta” = {3, 13, 22} que contiene tres sucesos elementales.
I
Por lo tanto, la probabilidad de ganar es P (A) =
I
Justo antes de empezar la partida, nos dicen que la ruleta
está trucada de manera que siempre sale un número impar. ¿Cuál es
ahora nuestra probabilidad de ganar? ¿Es la misma que antes?
3
37 .
Probabilidad condicional
Probabilidad condicional
Sean dos sucesos A y B tal que P(B) > 0, la probabilidad condicionada
de A dado B es:
P(A ∩ B)
P(A|B) =
P(B)
Ley de la multiplicación
Si P(B) > 0, se tiene que
P(A ∩ B) = P(A|B)P(B)
Independencia
Se dice que dos sucesos A y B son independientes si
P(A ∩ B) = P(A)P(B).
Además, si P(B) > 0, P(A|B) = P(A) y si P(A) > 0, P(B|A) = P(B).
OBS: No confundir sucesos independientes con sucesos incompatibles.
Ejemplo: Probabilidad condicional
I
Definimos el suceso B =“Siempre sale impar”= {1, 3, 5, . . . , 35},
que contiene 18 sucesos elementales.
I
Entonces, puesto que A ∩ B = {3, 13}, la probabilidad condicionada
nos queda:
P (A|B) =
P (A ∩ B)
=
P (B)
2
37
18
37
=
2
1
=
18
9
I
Notar que cuando nos dicen que la ruleta está trucada, el espacio
muestral deja de ser el inicial, pues nunca puede aparecer un número
par, y se transforma en Ω∗ = B = {1, 3, 5, . . . , 35}. La probabilidad
de A en Ω∗ es ahora 91 .
I
Puesto que P(A) 6= P (A ∩ B), los sucesos A y B no son
independientes.
Ejemplos
De una baraja española, saco dos cartas sin reposición. Probabilidad de
que:
10
40 .
I
la primera carta sea copa: P(A) =
I
la segunda sea copa, sabiendo que la primera lo fue: P(B|A) =
I
las dos cartas sean copas: P(A ∩ B) = P(B|A)P(A) =
9
39 .
9 10
39 40 .
Tiro dos dados. Probabilidad de que:
I
en el primer dado salga un uno: P(C ) = 16 .
I
en el segundo dado salga un uno, sabiendo que en el primero
salió uno: P(D|C ) = P(D) = 61 .
I
en el primer dado salga un uno, si en el segundo salió uno:
P(C |D) = P(C ) = 61 .
I
en los dos dados salga uno: P(C ∩ D) = P(D)P(C ) =
independientes)
11
66
(sucesos
Ley de la probabilidad total
Un conjunto de sucesos B1 , B2 , . . . , Bk son mutuamente excluyentes si
Bi ∩ Bj = ∅,
∀i 6= j.
Si además de eso cumplen
Ω = B1 ∪ B2 ∪ . . . ∪ Bk ,
se dice que forman una partición del espacio muestral.
Ejemplo
I
En la baraja española, los siguientes conjuntos de sucesos definen
particiones del espacio muestral:
I
Ω = {oros, copas, espadas, bastos} .
I
Ω = {ases, treses, sotas, caballos, reyes, resto de cartas} .
Ley de probabilidad total
Dada una partición del espacio muestral, B1 , B2 , . . . , Bk , y dado un
suceso A, se tiene que
P(A)
=
P(A ∩ B1 ) + P(A ∩ B2 ) + . . . + P(A ∩ Bk ) =
=
P(A|B1 )P(B1 ) + P(A|B2 )P(B2 ) + . . . + P(A|Bk )P(Bk ).
Ejemplo: probabilidad total
I
En una baraja española (48 cartas), calcular la probabilidad de sacar
un as, utilizando la ley de la probabilidad total.
I
Los cuatro palos de la baraja española establecen la partición del
espacio muestral dada por Ω = {oros, copas, espadas, bastos}, por
lo que:
P (Ω) = P (oros) + P (copas) + P (espadas) + P (bastos) =
1 1 1 1
= + + +
4 4 4 4
I
Si definimos el suceso A =“as”, entonces:
P (A) = P (A|oros) P (oros) + P (A|copas) P (copas) +
P (A|espadas) P (espadas) + P (A|bastos) P (bastos) =
1 12
1 12
1 12
1 12
4
1
=
+
+
+
=
=
12 48 12 48 12 48 12 48
48
12
I
Ahora si la carta extraı́da es un as, ¿cuál es la probabilidad que sea
el as de copas? Necesitamos invertir las condiciones.
Inversión de las condiciones: Teorema de Bayes
Para dos sucesos A y B se tiene que
P(A|B) =
P(A ∩ B)
P(B|A)P(A)
=
P(B)
P(B)
Este Teorema se aplica en situaciones en las que la probabilidad P(B|A)
es conocida.
Ejemplo: (continuación del anterior) si la carta extraı́da es un as, ¿cuál
es la probabilidad que sea el as de copas?
P(copas|A) =
P(A|copas)P(copas)
=
P(A)
1 1
12 4
1
12
=
1
4
Ejemplo
I
Un gato quiere pescar un pez en una pecera que contiene tres peces
amarillos y dos negros con rayas blancas. Suponiendo que pesque un
pez, ¿cuál es la probabilidad de que sea un pez rayado?
Si R =“rayado”, entonces:
P (R) =
I
2
5
Suponiendo que pesque dos peces, ¿cuál es la probabilidad de que
pesque uno rayado y uno amarillo?
Si R1 =“el primero es rayado”, R2 =“el segundo es rayado”, A1 =“el
primero es amarillo” y A2 =“el segundo es amarillo”, entonces:
P (R1 ∩ A2 ) + P (A1 ∩ R2 ) = P (A2 |R1 ) P (R1 ) + P (R2 |A1 ) P (A1 ) =
32 23
6
6
12
3
=
+
=
+
=
=
45 45
20 20
20
5
Ejemplo
I
Suponiendo que pesque dos peces y sabiendo que el segundo era
rayado, ¿cuál es la probabilidad de que el primero no lo fuera?
P (A1 |R2 ) =
P (R2 |A1 ) P (A1 )
P (R2 |A1 ) P (A1 )
=
=
P (R2 )
P (R2 |A1 ) P (A1 ) + P (R2 |R1 ) P (R1 )
=
23
45
23
45
+
12
45
=
6
20
6
20
+
2
20
=
6
3
=
8
4
Variables aleatorias
I
Sea Ω el espacio muestral asociado a cierto experimento aleatorio.
I
Se denomina variable aleatoria (v.a.) a una función X : Ω −→ R, tal
que a cada elemento ei ∈ Ω le asigna un valor numérico
X (ei ) = xi ∈ R.
I
Intuitivamente, una variable aleatoria es una medida o cantidad que
varı́a en función del resultado concreto ei que se observa al realizar
el experimento aleatorio.
I
La v.a. se denota con letras mayúsculas, mientras que las letras
minúsculas indican el valor concreto que toma la v.a. cuando se
evalúa en un punto muestral.
I
OBS: Las variables estadı́sticas que hemos visto en los temas 1, 2 y
3 son el resultado de evaluar las v.a. correspondientes en muestras
de individuos.
Variables aleatorias
V.a. discreta
Si X toma valores sobre un conjunto S ⊆ R finito o infinito numerable,
se dice que X es una variable aleatoria discreta.
V.a. continua
Si X toma valores sobre un conjunto S ⊆ R infinito no numerable (por
ejemplo, en un intervalo o en una unión de intervalos de R), se dice que
X es una variable aleatoria continua.
Ejemplos
I
X =“Resultado al tirar un dado” es una variable discreta donde
S = {1, 2, 3, 4, 5, 6}.
I
Y =“Número de coches que pasan por un cierto peaje en una
semana” es una variable discreta donde S = {0, 1, 2, . . .} = N ∪ 0 es
infinito numerable.
I
Z = “altura de un alumno elegido al azar” es una variable continua
donde S = [0, +∞).
Variables aleatorias discretas
Función de probabilidad
Sea X una variable aleatoria discreta con posibles valores {x1 , x2 , . . .}. Se
llama función de probabilidad o función de masa, al conjunto de
probabilidades con las que X toma cada uno de sus valores, es decir,
pi = P[X = xi ], para i = 1, 2, . . . .
Ejemplo
X = resultado de lanzar un dado. La función de probabilidad es
x
P[X = x]
1
2
3
4
5
6
1
6
1
6
1
6
1
6
1
6
1
6
En este caso, S = {1, 2, 3, 4, 5, 6} y p1 = . . . = p6 = 16 .
Variables aleatorias discretas
Función de probabilidad. Propiedades
Sea X una variable aleatoria discreta que toma valores en el conjunto
S = {x1 , x2 . . .} con probabilidades p1 = P(X = x1 ), p2 = P(X = x2 ),. . .
I
I
0 ≤ P[X = xi ] ≤ 1.
X
P[X = xi ] = 1.
i
I
P[X ≤ x] =
X
P[X = xi ].
i,xi ≤x
I
P[X > x] = 1 − P[X ≤ x].
Ejemplo
I
I
Un juego consiste en ensartar 3 aros, uno a uno, en una pica.
Participar cuesta 3 euros. Los premios son 4 euros por un acierto, 6
euros por dos aciertos y 30 euros por tres aciertos. Suponemos que
la probabilidad de ensartar un aro es de 0.1 en cada tiro, y que los
tiros son independientes.
Definimos la v.a. X como la ganancia en el juego. El espacio
muestral está dado por:
Ω = {(f , f , f ) , (a, f , f ) , (f , a, f ) , (f , f , a) ,
(a, a, f ) , (a, f , a) , (f , a, a) , (a, a, a)}
donde a denota acierto y f denota fallo. Por lo tanto, X sólo admite
cuatro posibles resultados con las siguientes probabilidades:
P (X = −3) = 0,93 = 0,729
P (X = 1) = 3 × 0,1 × 0,92 = 0,243
P (X = 3) = 3 × 0,12 × 0,9 = 0,027
P (X = 27) = 0,13 = 0,001
Ejemplo
I
¿Cuál es la probabilidad de ganar 3 o más euros, descontando los 3
euros por participar?
P (X ≥ 3) = P (X = 3) + P (X = 27) = 0,027 + 0,001 = 0,028
I
¿Cuál es la probabilidad de no perder dinero?
P (X ≥ 0) = P (X = 1) + P (X = 3) + P (X = 27) =
= 0,243 + 0,027 + 0,001 = 0,271
o lo que es lo mismo:
P (X ≥ 0) = 1 − P (X < 0) = 1 − P (X = −3) = 1 − 0,729 = 0,271
Variables aleatorias discretas
Función de distribución
La función de distribución o función de probabilidad acumulada de una
variable aleatoria X es una aplicación F : R → [0, 1], que a cada valor
x ∈ R le asigna la probabilidad:
X
F (x) = P[X ≤ x] =
P (X = xi )
xi ∈S,xi ≤x
OBS: Está definida para todo x ∈ R y no sólo para los valores de X .
I
0 ≤ F (x) ≤ 1 para todo x ∈ R.
I
F (y ) = 0 para todo y < mı́n S. Por tanto, F (−∞) = 0.
I
F (y ) = 1 para todo y > máx S. Por tanto, F (∞) = 1.
I
Si x1 ≤ x2 , entonces F (x1 ) ≤ F (x2 ), es decir, F (x) es no
decreciente.
I
Para todo a, b ∈ R,
P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = F (b) − F (a).
Ejemplo
I
La función de probabilidad de la variable X en el ejemplo del juego
es la siguiente:

0,729 x = −3



0,243
x =1
P (X = x) =
0,027
x =3



0,001 x = 27
La función de distribución de la variable X en el ejemplo del juego es
la siguiente:

0
x < −3




0,729
−3 ≤ x < 1

0,729 + 0,243 = 0,972
1≤x <3
F (x) = P (X ≤ x) =


0,729
+
0,243
+
0,027
=
0,999
3
≤ x < 27



0,729 + 0,243 + 0,027 + 0,001 = 1
27 ≤ x
I
I
Notar que esta función presenta discontinuidades de salto en los
puntos del conjunto S. El salto es de magnitud P (X = x), para
todo x ∈ S.
Esperanza de una variable aleatoria discreta
Sea X una v.a. discreta que toma valores en S = {x1 , x2 , . . . } con
probabilidades p1 = P (X = x1 ) , p2 = P (X = x2 ) , . . . Entonces, la
esperanza de X está dada por:
X
X
X
E [X ] =
xP (X = x) =
xi P (X = xi ) =
xi p i
x∈S
i
Se verifican las siguientes propiedades:
I
Si a, b ∈ R, entonces:
E [a + bX ] = a + bE [X ]
I
Sea g una función real. Entonces:
X
E [g (X )] =
g (x) P (X = x)
x∈S
i
Ejemplo
La esperanza de la variable aleatoria X del ejemplo del juego es la
siguiente:
X
E [X ] =
xP (X = x) =
x∈S
= −3 × P (X = −3) + 1 × P (X = 1) + 3 × P (X = 3) + 27 × P (X = 27) =
= −3 × 0,729 + 1 × 0,243 + 3 × 0,027 + 27 × 0,001 = −1,836
Por lo tanto, la ganancia esperada es de −1,836 euros.
Varianza de una variable aleatoria discreta
La varianza de la v.a. discreta X está dada por:
h
i X
2
2
V [X ] = E (X − E [X ]) =
(x − E [X ]) P (X = x) =
x∈S
=
X
2
(xi − E [X ]) P (X = xi ) =
i
X
2
(xi − E [X ]) pi
i
Se verifican las siguientes propiedades:
I
La varianza se puede escribir también como:
2
V [X ] = E X 2 − E [X ]
I
V [X ] ≥ 0 y Var [X ] = 0 si, y sólo si, X es una constante.
I
Si a, b ∈ R, entonces:
V [a + bX ] = b 2 V [X ]
La raı́z cuadrada
p de la varianza se denomina desviación tı́pica y se denota
por S[X ] = V [X ].
Ejemplo
La varianza de la variable aleatoria X del ejemplo del juego es la
siguiente:
2
2
V [X ] = E X 2 − E [X ] = 7,776 − (−1,836) = 4,405
donde:
2
E X 2 = (−3) × 0,729 + 12 × 0,243 + 32 × 0,027 + 272 × 0,001 = 7,776
√
La desviación tı́pica es por tanto S[X ] = 4,405 = 2,0988.
Ejemplo
Consideramos la v.a. discreta X = número de caras al tirar una moneda
dos veces. La función de probabilidad de X es:
x
P[X = x]
0
1
2
1
4
1
2
1
4
Por un lado, su esperanza viene dada por:
E [X ] = 0 ×
1
1
1
+1× +2× =1
4
2
4
mientras que su varianza es:
Var [X ] = E [X 2 ] − E [X ]2 =
donde:
E [X 2 ] = 02 ×
1
3
− 12 =
2
2
1
1
3
1
+ 12 × + 22 × =
4
2
4
2
Desigualdad de Chebyschev
Este resultado es útil para estimar una probabilidad cuando se desconoce
la distribución de probabilidad de una v.a. discreta X .
Si X es una v.a. con esperanza y varianza finitas, entonces para todo
k ≥ 1:
V (X )
P (|X − E [X ]| ≥ k) ≤
k2
o, equivalentemente,
P (|X − E [X ]| < k) ≥ 1 −
V (X )
k2
OBS: La cota que proporciona la desigualdad de Chebyschev es
demasiado gruesa y sólo debe utilizarse cuando no se disponga de la
distribución de X .
Desigualdad de Chebyschev
Veamos como aplicar la desigualdad de Chebyschev con la variable
aleatoria del ejemplo del juego. Tenemos que E [X ] = −1,836 y que
V [X ] = 4,405. Entonces:
P (|X + 1,836| ≥ 3) ≤
4,405
= 0,4894
9
Por otro lado, tenemos que:
P (|X + 1,836| ≥ 3) = P (X + 1,836 ≥ 3) + P (X + 1,836 ≤ −3) =
= P (X ≥ 1,164) + P (X ≤ −4,836) =
= P (X = 3) + P (X = 27) = 0,027 + 0,001 = 0,028
que demuestra que la cota de Chebyschev puede ser muy gruesa.
Ejemplo de repaso
I
Sea X , la variable aleatoria que representa el número de caras menos
el número de cruces en 3 tiradas de una moneda trucada de manera
que es dos veces más probable que salga cara que cruz.
I
Indicamos por “c”={cara} y “+”={cruz}.
I
El espacio muestral es:
e1 = {c, c, c} , e2 = {+, c, c} , e3 = {c, +, c} , e4 = {c, c, +} ,
Ω=
e5 = {+, +, c} , e6 = {+, c, +} , e7 = {c, +, +} , e8 = {+, +, +}
Ejemplo de repaso
I
El conjunto S donde toma valores es S = {−3, −1, 1, 3} ya que:
X (e1 ) = 3 − 0 = 3
X (e2 ) = X (e3 ) = X (e4 ) = 2 − 1 = 1
X (e5 ) = X (e6 ) = X (e7 ) = 1 − 2 = −1
X (e8 ) = 0 − 3 = −3
I
La función de probabilidad viene dada por:

3
1

P (X = −3) = 13 = 27


2

P (X = −1) = 3 × 13 × 23 = 29
P (X = x) =
2

P (X = 1) = 3 × 13 × 32 = 94



3
8
P (X = 3) = 32 = 27
Ejemplo de repaso
I
Supongamos que participamos en el siguiente juego para el que hay
que pagar de inicio 6 euros. Si al lanzar 3 veces la moneda anterior
aparece 1 cruz, ganamos 4 euros, si aparecen 2 cruces ganamos 6
euros y si aparecen 3 cruces ganamos 30 euros. ¿Cuál es la ganancia
esperada?
I
Sea Y la variable ganancia en el juego. Entonces:
I
I
I
I
I
Si no obtenemos ninguna cruz, tenemos que X = 3, por lo que
8
.
Y = −6 con probabilidad P (Y = −6) = P (X = 3) = 27
Si obtenemos una cruz, tenemos que X = 1, por lo que Y = −2 con
probabilidad P (Y = −2) = P (X = 1) = 94 .
Si obtenemos dos cruces, tenemos que X = −1, por lo que Y = 0
con probabilidad P (Y = 0) = P (X = −1) = 92 .
Si obtenemos tres cruces, tenemos que X = −3, por lo que Y = 24
1
con probabilidad P (Y = 24) = P (X = −3) = 27
.
Por lo tanto, Y toma valores en el conjunto S = {−6, −2, 0, 24}. La
ganancia esperada es:
E [Y ] = −6 ×
4
2
1
8
− 2 × + 0 × + 24 ×
= −1,78 euros
27
9
9
27
Modelo Bernoulli
Descripción
Partimos de un experimento aleatorio con sólo dos posibles resultados,
que calificamos de éxito/fracaso.
Definimos la variable aleatoria:
1 si éxito
X =
0 si fracaso
Sea p la probabilidad de éxito. Entonces, 1 − p es la probabilidad de
fracaso.
El experimento se llama ensayo de Bernoulli y la variable aleatoria se dice
que sigue una distribución Bernoulli de parámetro p.
Se escribe X ∼ Ber (p).
Modelo Bernoulli
Ejemplo
Tirar una moneda al aire
X =
1
0
sale cara
si sale cruz
Es un ensayo Bernoulli, y X sigue una distribución Bernoulli de
parámetro 1/2.
Ejemplo
Una lı́nea aérea estima que los pasajeros que compran un billete para un
vuelo tienen una probabilidad igual a 0,05 de no presentarse al embarque
de dicho vuelo.
Definamos
1 si el pasajero se presenta
Y =
0 si no lo hace
Y sigue una distribución Bernoulli con parámetro 0,95.
Modelo Bernoulli
Función de Probabilidad:
P[X = 0] = 1 − p
P[X = 1] = p
Función de distribución:
F (x) =


0
1−p

1
si x < 0
si 0 ≤ x < 1
si x ≥ 1
Propiedades
I
E [X ] = p × 1 + (1 − p) × 0 = p
I
E [X 2 ] = p × 12 + (1 − p) × 02 = p
I
V [X ] = E [X 2 ] − E [X ]2 = p − p 2 = p(1 − p)
p
S[X ] = p(1 − p)
I
Modelo Binomial
Descripción
Un ensayo Bernoulli de parámetro p se repite n veces de manera
independiente. La variable número de éxitos obtenidos, sigue una
distribución Binomial (de parámetros n y p).
Definición
Una variable X sigue una distribución binomial con parámetros n y p si
n
P[X = x] =
p x (1 − p)n−x
x
para x = 0, 1, . . . , n donde
Se escribe X ∼ B(n, p).
n
x
=
n!
x!(n − x)!
Modelo Binomial
Ejemplo
La lı́nea aérea del ejemplo anterior ha vendido 80 billetes para un vuelo.
La probabilidad de que un pasajero no se presente al embarque es de
0, 05. Definimos X = número de pasajeros que se presentan. Entonces
(suponiendo independencia)
X ∼ B(80, 0,95)
I
La probablidad de que los 80 pasajeros se presenten
80
P[X = 80] =
0,9580 × (1 − 0,95)80−80 = 0,0165
80
I
La probabilidad de que al menos un pasajero no se presente:
P[X < 80] = 1 − P[X = 80] = 1 − 0,0165 = 0,9835
Modelo Binomial
Propiedades
I
E [X ] = np
I
Var [X ] = np(1 − p)
I
S[X ] =
p
np(1 − p)
Variables aleatorias continuas
Función de distribución
Para X v.a. continua, la función de distribución es la función
F (x) = P[X ≤ x], ∀x ∈ R
Igual que en el caso discreto, la función F (x) da las probabilidades
acumuladas hasta el punto x ∈ R, pero ahora se trata de una función
continua y no de tipo escalón.
Variables aleatorias continuas
Propiedades
I
0 ≤ F (x) ≤ 1, para todo x ∈ R
I
F (−∞) = 0.
I
F (∞) = 1.
I
Si x1 ≤ x2 , entonces F (x1 ) ≤ F (x2 ), es decir, F (x) es no decreciente.
I
Para todo x1 , x2 ∈ R, P(x1 ≤ X ≤ x2 ) = F (x2 ) − F (x1 ).
I
F (x) es continua.
La función de probabilidad no tiene sentido en variables aleatorias
continuas, porque P(X = x) = 0. Para sustituir la función de
probabilidad, en variables aleatorias continuas usaremos la función de
densidad.
Variables aleatorias continuas
Función de densidad
Para una variable aleatoria continua X con función de distribución F (x),
la función de densidad de X es:
f (x) =
dF (x)
= F 0 (x)
dx
Propiedades
I
I
I
I
f (x) ≥ 0
∀x ∈ R
Rb
P(a ≤ X ≤ b) = a f (x)dx ∀a, b ∈ R
Rx
F (x) = P(X ≤ x) = −∞ f (u)du
R∞
f (x)dx = 1
−∞
Variables aleatorias continuas
Ejemplo
Una variable aleatoria X tiene función de densidad
12x 2 (1 − x) si 0 < x < 1
f (x) =
0
si no
Entonces:
Z
0,5
P(X ≤ 0,5) =
0,5
Z
12u 2 (1 − u)du = 0,3125
f (u)du =
−∞
Z
0
0,5
P(0,2 ≤ X ≤ 0,5) =
Z
0,5
12u 2 (1 − u)du = 0,2853
f (u)du =
0,2
Z
0,2
x
F (x) = P(X ≤ x) =
f (u)du =
−∞





12
30
x
3 −
1
si x ≤ 0
x4
4
si 0 < x ≤ 1
si x > 1
Esperanza de una variable aleatoria continua
Sea X una v.a. continua que toma valores en S ⊆ R, con función de
densidad f (x) . Entonces, la esperanza de X está dada por:
Z
E [X ] = xf (x) dx
S
Se verifican las siguientes propiedades:
I
Si a, b ∈ R, entonces:
E [a + bX ] = a + bE [X ]
I
Sea g una función real. Entonces:
Z
E [g (X )] = g (x) f (x) dx
S
Ejemplo
La esperanza de la variable aleatoria X del ejemplo anterior es la
siguiente:
Z
Z
0
1
1
x · f (x)dx =
x · 12x 2 (1 − x)dx =
R
0
1 4 1 5 1
1 1
3
3
4
12(x − x ) dx = 12
x − x
−
=
0 = 12
4
5
4 5
5
E [X ] =
=
Z
Varianza de una variable aleatoria continua
La varianza de la v.a. continua X está dada por:
i Z
h
2
2
V [X ] = E (X − E [X ]) = (x − E [X ]) f (x)dx =
S
Z
=
2
2
x 2 f (x)dx − E [X ] = E X 2 − E [X ]
S
Se verifican las siguientes propiedades:
I
V [X ] ≥ 0 y Var [X ] = 0 si, y sólo si, X es una constante.
I
Si a, b ∈ R, entonces:
V [a + bX ] = b 2 V [X ]
La raı́z cuadrada
p de la varianza se denomina desviación tı́pica y se denota
por S[X ] = V [X ].
Ejemplo
La varianza de la variable aleatoria X del ejemplo anterior es la siguiente:
2
2
Var [X ] = E X 2 − E [X ] = −
5
2
3
2
9
1
= −
=
5
5 25
25
donde:
E X2 =
Z
2
Z
x f (x)dx =
R
1
12x 4 (1 − x)dx =
0
12 5 x=1 12 6 x=1
x |x=0 − x |x=0 =
5
6
12
2
−2=
5
5
q
1
La desviación tı́pica es por tanto S[X ] = 25
= 15 .
=
Distribución uniforme
Descripción
La distribución uniforme es aquella en la que todos los intervalos de igual
longitud en su rango son igualmente probables. Es decir, que la función
de densidad es constante para todos los valores posibles de la variable.
Definición
Se dice que una variable X sigue una distribución uniforme en el intervalo
(a, b) (sus parámetros son a y b) si
1
si a < x ≤ b
b−a
f (x) =
0
si no
Se escribe X ∼ U(a, b).
Distribución uniforme
Función de densidad
Propiedades
a+b
2
(b−a)2
12
I
Esperanza: E [X ] =
I
Varianza: V [X ] =
I
Desviación tı́pica:
b−a
S[X ] = √
12
Ejemplo: distribución uniforme en (3,5)
Una variable aleatoria X que sigue una distribución uniforme en el
intervalo (3, 5) tiene función de densidad
1
si 3 < x < 5
2
f (x) =
0
si no
Calculamos algunas probabilidades:
R 0,5
P(X ≤ 0,5) = −∞ f (u)du = 0
R4
R4
P(X ≤ 4) = −∞ f (u)du = 3 21 du = 12 u|43 = 21
R 4,5
R 4,5
P(3,5 ≤ X ≤ 4,5) = 3,5 f (u)du = 3,5 12 du = 12
Ejemplo: distribución uniforme en (3,5)
Función de distribución
Z
x
F (x) = P(X ≤ x) =
f (u)du = . . .
−∞
I
Si x ≤ 3 entonces F (x) = P(X ≤ x) = 0.
I
Si 3 < x ≤ 5 entonces F (x) = P(X ≤ x) =
I
Si 5 < x entonces F (x) = P(X ≤ x) =
Rx
1
du
3 2
R5
1
du
3 2
Es decir, que:
F (x) =



0
x−3
2
1
si x ≤ 3
si 3 < x ≤ 5
si x > 5
= u2 |x3 =
= u4 |53 =
5−3
2
x−3
2 .
= 1.
Ejemplo: distribución uniforme en (3,5)
Esperanza
E [X ]
=
R
x · f (x)dx =
R
R5
3
x · 12 dx =
5
x2 4 3
=
52 −32
4
Varianza
Var [X ]
x 2 · f (x)dx − E [X ]2
R5 2
3 5
= 3 x2 dx − 42 = x6 − 16 = 0,33
=
R
R
3
=4
Distribución normal
Descripción
La distribución normal es un modelo teórico que aproxima bien muchas
situaciones reales. La inferencia estadı́stica se fundamenta básicamente
en la distribución normal y en distribuciones que se derivan de ella.
Definición
Se dice que una variable X sigue una distribución normal o Gausiana con
parámetros µ y σ, y se denota por X ∼ N (µ, σ), si
1
1
2
f (x) = √ exp − 2 (x − µ)
2σ
σ 2π
Propiedades
E [X ] = µ V [X ] = σ 2
Si X ∼ N (µ, σ), f (x) es simétrica respecto de µ.
Distribución normal
Función de densidad para 3 valores distintos de µ y σ
Distribución normal
Propiedad
Si X ∼ N (µ, σ),
I
P(µ − σ < X < µ + σ) ≈ 0,683
I
P(µ − 2σ < X < µ + 2σ) ≈ 0,955
I
P(µ − 3σ < X < µ + 3σ) ≈ 0,997
Desigualdad de Chebyshev
La desigualdad de Chebyschev también se puede aplicar en el caso de
variables continuas. En particular, si X es Gaussiana de media µ y
desviación tı́pica σ, tenemos que:
P (µ − k < X < µ + k) = P (|X − µ| < k) ≥ 1 −
σ2
k2
de donde, si k = cσ, tenemos que P (µ − cσ < X < µ + cσ) ≥ 1 −
1
c2 .
Distribución normal
Transformación lineal
Si X ∼ N (µ, σ), entonces:
Y = aX + b ∼ N (aµ + b, |a|σ)
Estandarización
Si X ∼ N (µ, σ), considero
Z=
X −µ
∼ N (0, 1)
σ
Se llama distribución normal estándar. Es una distribución simétrica y
centrada en 0. Además, está tabulada por lo que no tenemos que hacer
uso de integrales para obtener probabilidades.
Tablas de la N (0, 1)
Distribución normal: Ejemplo
Sea Z ∼ N(0, 1). Calculemos algunas probabilidades:
I
Pr(Z < 1,5) = 0,9332.
tabla
I
Pr(Z > −1,5) = Pr(Z < 1,5) = 0,9332.
I
Pr(Z < −1,5) = Pr(Z > 1,5) = 1 − Pr(Z < 1,5) = 1 − 0,9332 =
0,0668.
¿por qué no ≤?
I
Pr(−1,5 < Z < 1,5) = Pr(Z < 1,5) − Pr(Z < −1,5) =
0,9332 − 0,0668 = 0,8664.
¿por qué?
Distribución normal: Ejemplo
Sea X ∼ N(µ = 2, σ = 3). Queremos calcular Pr(X < 4) y
Pr(−1 < X < 3,5):
I
En primer lugar, tipificamos la variable original como sigue:
4−2
X −2
<
= Pr Z < 0,666̇ ≈ 0,7454,
Pr(X < 4) = P
3
3
donde Z ∼ N(0, 1).
I
A continuación, buscamos :
Pr(−1 < X < 3,5) = Pr(−1 − 2 < X − 2 < 3,5 − 2)
−1 − 2
X −2
3,5 − 2
=P
<
<
= Pr(−1 < Z < 0,5) =
3
3
3
= Pr(Z < 0,5) − Pr(Z < −1) = 0,6915 − 0,1587 = 0,5328.
donde Z ∼ N(0, 1).
Distribución normal: otro ejemplo
Es difı́cil etiquetar la carne empaquetada con su peso correcto debido a
los efectos de pérdida de lı́quido (definido como porcentaje del peso
original de la carne). Supongamos que la pérdida de lı́quido en un
paquete de pechuga de pollo se distribuye como normal con media 4 % y
desviación tı́pica 1 %.
Sea X la pérdida de lı́quido de un paquete de pechuga de pollo elegido al
azar.
I
¿Cuál es la probabilidad de que 3 % < X < 5 %?
I
¿Cuál es el valor de x para que un 90 % de paquetes tengan pérdidas
de lı́quido menores que x?
I
En una muestra de 4 paquetes, hallar la probabilidad de que todos
tengan pérdidas de peso de entre 3 y 5 %.
Sexauer, B. (1980) Drained-Weight Labelling for Meat and Poultry: An
Economic Analysis of a Regulatory Proposal, Journal of Consumer Affairs, 14,
307-325.
Distribución normal: otro ejemplo
Pr(3 < X < 5)
3−4
X −4
5−4
<
<
= Pr(−1 < Z < 1)
1
1
1
= Pr(Z < 1) − Pr(Z < −1) = 0,8413 − 0,1587 = 0,6827
=
Pr
Queremos Pr(X < x) = 0,9. Entonces
x −4
X −4
<
= Pr(Z < x − 4) = 0,9
Pr
1
1
Mirando las tablas, tenemos x − 4 ≈ 1,28 que implica que un 90 % de las
paquetes tienen pérdidas de menores que x = 5,28 %.
Para un paquete p = Pr(3 < X < 5) = 0,6827. Sea Y el número de
paquetes en la muestra de 4 paquetes que tienen pérdidas de entre 3 % y
5 %. Luego Y ∼ B(4, 0,6827).
4
Pr(Y = 4) =
0,68274 (1 − 0,6827)0 = 0,2172.
4
Distribución normal: otro ejemplo
Si la muestra fuera de 5 paquetes, ¿cuál seria la probabilidad que por lo
menos una tuviera perdidas de entre el 3 % y 5 %? Tenemos que n = 5 y
p = 0,6827. Por lo tanto, Y ∼ B(5, 0,6827). Entonces,
Pr(Y ≥ 1) = 1 − Pr(Y < 1) = 1 − Pr(Y = 0) =
5
5
=1−
0,68270 (1 − 0,6827)5−0 = 1 − (1 − 0,6827) = 0,9968.
0
Teorema central del lı́mite
El siguiente teorema nos habla de la distribución de la media de un
conjunto de muchas v.a. independientes e igualmente distribuidas:
X̄ =
n
1X
Xi
n
i=1
y nos dice que si n es grande, la distribución de la media de v.a.
independientes e identicamente distribuidas es normal, sea cual sea la
distribución de las v.a. De aquı́ el papel “central” que juega la
distribución normal.
Teorema
Sean X1 , X2 , . . . , Xn v.a. independientes, e idénticamente distribuidas con
media µ y desviación tı́pica σ (ambas finitas). Si n es suficientemente
grande, se tiene que
X̄ − µ
√ ∼ N (0, 1)
σ/ n
Aproximaciones
Binomial
Si X ∼ B(n, p) con n suficientemente grande (o bien n ≥ 30 y
0,1 ≤ p ≤ 0,9 o bien np ≥ 5 y n (1 − p) ≥ 5), entonces:
X − np
p
∼ N (0, 1)
np(1 − p)
TCL y aproximaciones: Ejemplo
I
Sea X ∼ B(100, 1/3). Bucamos el valor de Pr(X < 40), si bien el
cálculo exacto es muy largo ya que necesitamos un gran número de
operaciones.
I
Utilizando el TCL tenemos que X ∼ B(100, 1/3) ≈ N (33,3, 4,714) ,
ya que:
1
= 33.3̇
3
1 2
V [X ] = 100 × × = 22.2̇
p 3 3
S[X ] = 22.2̇ = 4,714
E [X ] = 100 ×
I
Por lo tanto,
Pr(X < 40) = P
X − 33.3̇
40 − 33.3̇
<
4,714
4,714
≈ P (Z < 1,414)
donde Z ∼ N(0, 1)
≈ 0,921.
Función de distribución conjunta de dos variables
I
La función de distribución conjunta de dos variables aleatorias
continuas X e Y es una aplicación F : R2 → [0, 1], tal que a cada
valor (x, y ) ∈ R2 le asigna la probabilidad:
Z x Z y
F (x, y ) = P(X ≤ x, Y ≤ y ) =
f (x, y ) dydx,
−∞
−∞
donde f (x, y ) es la función de densidad conjunta de la variable
aleatoria (X , Y ).
I
La función de densidad conjunta, f (x, y ), verifica tres propiedades:
1. f (x, y ) ≥ 0, para cualquier par (x, y ) ∈ R2 .
RbRd
2. P(a ≤ X ≤ b, c ≤ Y ≤ d) = a c f (x, y ) dydx.
R∞ R∞
3. −∞ −∞ f (x, y ) dydx = 1.
Distribuciones marginales y condicionadas
I
Las funciones de densidad marginales de las variables aleatorias
continuas X e Y están dadas por:
Z ∞
Z ∞
fX (x) =
f (x, y ) dy
y
fY (y ) =
f (x, y ) dx
−∞
−∞
respectivamente.
I
Las variables aleatorias continuas X e Y se dice que son
independientes si y sólo si:
f (x, y ) = fX (x) fY (y )
siendo fX y fY las funciones de densidad marginales de X y de Y ,
respectivamente.
I
La función de densidad condicional de la variable continua Y , dado
el valor X = x0 de la variable aleatoria X , está dada por:
fY |X (y |X = x0 ) =
f (x0 , y )
fX (x0 )
Esperanza y covarianza
I
La esperanza de la variable aleatoria (X , Y ) es el vector formado por
las esperanzas de las distribuciones marginales de X e Y :
X
E [X ]
E
=
Y
E [Y ]
I
La covarianza entre dos variables aleatorias X e Y se define como:
cov [X , Y ] = E [(X − E [X ]) (Y − E [Y ])]
y permite medir como cambian X e Y de forma conjunta.
I
I
Si valores grandes de X se corresponden con valores grandes de Y , y
lo mismo ocurre con los valores pequeños, cov [X , Y ] será positiva.
Si valores grandes de X se corresponden con valores pequeños de Y ,
y viceversa, cov [X , Y ] será negativa.
Notar que la covarianza depende crucialmente de las unidades de
medida de las variables X e Y lo que hace difı́cil su interpretación.
Coeficiente de correlación
I
El coeficiente de correlación entre dos variables aleatorias X e Y se
define como:
cov [X , Y ]
corr [X , Y ] = p
V [X ] V [Y ]
donde cov [X , Y ] es la covarianza entre X e Y y V [X ] y V [Y ] son
las varianzas de X e Y , respectivamente.
I
Notar que −1 ≤ corr [X , Y ] ≤ 1 independientemente de las unidades
de medida de X e Y .
I
corr [X , Y ] sólamente mide relaciones lineales.
I
Un valor de corr [X , Y ] próximo a 1 indica una alta relación lineal
positiva entre X e Y . Un valor de corr [X , Y ] próximo a −1 indica
una alta relación lineal negativa entre X e Y . Por último, un valor de
corr [X , Y ] próximo a 0 indica una relación lineal debil entre X e Y .
Matriz de covarianzas
I
La matriz de covarianza de una variable aleatoria (X , Y ) es una
matriz de tamaño 2 × 2 dada por:
V [X ]
cov [X , Y ]
C [X , Y ] =
cov [X , Y ]
V [Y ]
es decir, C [X , Y ] contiene las varianzas de X e Y en la diagonal
principal y la covarianza entre X e Y fuera de la diagonal principal.
La distribución Gaussiana bivariante
I
Se dice que una variable (X , Y ) sigue una distribución normal o
0
Gaussiana bivariante con parámetros µ = (µX , µY ) y matriz de
covarianzas:
2
σX
σXY
Σ=
σXY
σY2
y se denota por (X , Y ) ∼ N2 (µ, Σ) si tiene función de densidad:
f (x, y ) =
I
1
1/2
2π |Σ|
1
exp − (X − µX , Y − µY )
2
σX2
σXY
σXY
σY2
−1 X − µX
Y − µY
Notar que µX = E [X ], µY = E [Y ], σX2 = V [X ], σY2 = V [Y ] y
σXY = cov [X , Y ].
!
La distribución Gaussiana bivariante
I
La varianza generalizada es el valor de:
2
2
|Σ| = σX2 σY2 − σXY
= σX2 σY2 1 − corr [X , Y ]
y mide la dispersión global de la variable bivariante (X , Y ). Notar
como la varianza generalizada disminuye si corr [X , Y ] tiende a ±1 y
aumenta si corr [X , Y ] tiende a 0.
I
Por último, la matriz Σ−1 se puede escribir como:
1
σY2
−σXY
Σ−1 = 2 2
2
−σXY
σX2
σX σY − σXY
Densidad Gaussiana bivariante µ = (0, 0)0 , σX2 = σY2 = 1 y
σXY = 0, 0,9 y −0,9, respectivamente
0.15
0.3
0.10
0.2
4
4
0.05
0.1
0
−2
0
0.0
−4
0
x2
−4
2
−2
0
−2
x1
−2
x1
2
2
4
−4
4
0.3
0.2
4
0.1
0.0
−4
0
−2
0
−2
x1
2
4
−4
x2
2
−4
x2
2
Esperanza y varianza condicional
I
Si (X , Y ) sigue una distribución Gaussiana bivariante con
0
parámetros µ = (µX , µY ) y matriz de covarianzas
2
σX
σXY
Σ=
σXY
σY2
entonces:
I
I
I
X ∼ N µX , σX2 e Y ∼ N µY , σY2 , respectivamente.
X e Y son independientes si y sólo si σXY = 0.
Y |X = x0 sigue una distribución Gaussiana univariante de
parámetros:
σXY
µY |X = µY + 2 (x0 − µX )
σX
σY2 |X = σY2 −
I
2
σXY
σX2
X |Y = y0 sigue una distribución Gaussiana univariante de
parámetros:
σXY
µX |Y = µX + 2 (y0 − µY )
σY
σX2 |Y = σX2 −
2
σXY
σY2
Ejemplo
I
Sea (X , Y ) una variable aleatoria que sigue una distribución
0
Gaussiana bivariante con parámetros µ = (2, 1) y matriz de
covarianzas:
5 3
Σ=
3 10
I
Entonces, podemos afirmar que:
I
I
I
Las distribuciones marginales de X e Y son X ∼ N (2, 5) e
Y ∼ N (1, 10), respectivamente.
X e Y no son independientes ya que σXY 6= 0.
Y |X = 6 sigue una distribución Gaussiana univariante de parámetros:
3
(6 − 2) = 3,4
5
32
= 8,2
= 10 −
5
µY |X = 1 +
σY2 |X
I
X |Y = 3 sigue una distribución Gaussiana univariante de parámetros:
3
(3 − 1) = 2,6
10
32
=5−
= 4,1
10
µX |Y = 2 +
σX2 |Y

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Download Estadística I Tema 4: Probabilidad y modelos probabilísticos