Download Estadística I Tema 4: Probabilidad y modelos probabilísticos
Document related concepts
no text concepts found
Transcript
Estadı́stica I Tema 4: Probabilidad y modelos probabilı́sticos Tema 4. Probabilidad y modelos probabilı́sticos Contenidos I Probabilidad: I Experimentos aleatorios, espacio muestral, sucesos elementales y compuestos. I Propiedades de la probabilidad. Probabilidad condicionada. I Variables aleatorias y sus caracterı́sticas. I Modelos de probabilidad discretos: Ensayos de Bernoulli y distribuciones relacionadas. I Modelos de probabilidad continuos: Distribución uniforme y distribución normal. I Introducción a la distribución normal bivariante. Conceptos básicos I Experimento aleatorio: proceso de observar un fenómeno cuyos resultados son inciertos. I Espacio muestral: es el conjunto de todos los posibles resultados de un experimento aleatorio. Se denota por Ω = {e1 , e2 , . . . , en , . . .} donde cada uno de sus elementos se denomina suceso elemental. Estos son siempre disjuntos dos a dos. I Suceso: un subconjunto del espacio muestral, es decir, un conjunto de sucesos elementales A = {e1 , e3 } Ejemplos: I Resultado al lanzar una moneda. I Precio de la acción x al cierre de sesión el próximo lunes. Sucesos: conceptos básicos Intersección de sucesos: Si A y B son dos sucesos del espacio muestral Ω, entonces la intersección, A ∩ B, es el conjunto de todos los sucesos de Ω que están en A y en B. Representación en diagramas de Euler-Venn: Sucesos: conceptos básicos A y B son sucesos incompatibles si no tienen ningún suceso elemental en común i.e., el conjunto A ∩ B es vacı́o Sucesos: conceptos básicos Unión de sucesos: Si A y B son dos sucesos de un espacio muestral Ω, entonces la unión, A ∪ B, es el conjunto de todos los sucesos de Ω que pertenecen a cualquiera de los dos, A ó B. Sucesos: conceptos básicos Sucesos triviales: I Suceso seguro Ω: conjunto = espacio muestral I Suceso imposible ∅: conjunto = conjunto vacı́o Complementario o suceso contrario El complementario de un suceso A es el conjunto de todos los sucesos elementales de Ω que no están en A. Ejemplo: lanzamiento de un dado Consideremos el experimento aleatorio “resultado observado al lanzar un dado”: I suceso elemental: el 1, el 2, el 3, el 4, el 5, el 6 I espacio muestral: Ω = {1, 2, 3, 4, 5, 6} I suceso: A = {2, 4, 6} B = {4, 5, 6} El suceso A es “sale un número par”. El suceso B es “sale un número mayor que tres”. Ejemplo: lanzamiento de un dado Ω = {1, 2, 3, 4, 5, 6} I A = {2, 4, 6} Complementario: Ā = {1, 3, 5} I B̄ = {1, 2, 3} Intersección: Ā ∩ B̄ = {1, 3} = A ∪ B A ∩ B = {4, 6} I B = {4, 5, 6} Unión: A ∪ B = {2, 4, 5, 6} Ā ∪ B̄ = {1, 2, 3, 5} = A ∩ B A ∪ Ā = {1, 2, 3, 4, 5, 6} = Ω I Sucesos incompatibles: A ∩ Ā = ∅ I Notar que: A∩B ⊂A A∩B ⊂B A⊂A∪B B ⊂A∪B Probabilidad Probabilidad clásica (regla de Laplace) Considera un experimento para el que todos los sucesos elementales son equiprobables. Si tenemos k sucesos elementales, P(A) = 1 × tamaño de A k De esta manera, la probabilidad es una aplicación que asigna a cada suceso A un valor numérico P (A) ∈ [0, 1]. Propiedades de la probabilidad I 0 ≤ P(A) ≤ 1. I Sea A = {e1 , e2 , . . . , en }, entonces P(A) = I P(Ω) = 1 y P(∅) = 0. I Complementario: P(Ā) = 1 − P(A). I Unión: P(A ∪ B) = P(A) + P(B) − P(A ∩ B). I Si A y B son incompatibles (A ∩ B = ∅), entonces P(A ∪ B) = P(A) + P(B). Pn i=1 P(ei ). Ejemplo: lanzamiento de un dado I Probabilidad de un suceso elemental: P(ei ) = 16 , donde ei = i, para i = 1, . . . , 6. I Probabilidad de que salga par: A = {2, 4, 6}, luego P(A) = P(”2”) + P(”4”) + P(”6”) = I Probabilidad de que salga mayor que 3: B = {4, 5, 6}, luego P(B) = P(”4”) + P(”5”) + P(”6”) = I 1 1 1 1 + + = 6 6 6 2 1 1 1 1 + + = 6 6 6 2 Probabilidad de que salga impar P(Ā) = 1 − P(A) = 1 − 1 1 = 2 2 Ejemplo: lanzamiento de un dado I Probabilidad de que salga par (A =“par”) o mayor que tres (B =“mayor que 3”) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) Como A ∩ B = {4, 6}, entonces P(A ∩ B) = P(A ∪ B) = I 2 6 = 1 3 1 1 1 4 2 + − = = 2 2 3 6 3 Probabilidad de que salga par o igual a uno. Los sucesos A = {2, 4, 6} y C = {1} son incompatibles (A ∩ C = ∅) por tanto P(A ∪ C ) = P(A) + P(C ) = 1 1 4 2 + = = 2 6 6 3 Ejemplo: probabilidad condicional I Jugamos a la ruleta y apostamos a los números 3, 13 y 22. ¿Cuál es la probabilidad de ganar? I El espacio muestral es Ω = {0, 1, 2, . . . , 36} por lo que el número de sucesos elementales es 37. Definimos el suceso A = ”nuestra apuesta” = {3, 13, 22} que contiene tres sucesos elementales. I Por lo tanto, la probabilidad de ganar es P (A) = I Justo antes de empezar la partida, nos dicen que la ruleta está trucada de manera que siempre sale un número impar. ¿Cuál es ahora nuestra probabilidad de ganar? ¿Es la misma que antes? 3 37 . Probabilidad condicional Probabilidad condicional Sean dos sucesos A y B tal que P(B) > 0, la probabilidad condicionada de A dado B es: P(A ∩ B) P(A|B) = P(B) Ley de la multiplicación Si P(B) > 0, se tiene que P(A ∩ B) = P(A|B)P(B) Independencia Se dice que dos sucesos A y B son independientes si P(A ∩ B) = P(A)P(B). Además, si P(B) > 0, P(A|B) = P(A) y si P(A) > 0, P(B|A) = P(B). OBS: No confundir sucesos independientes con sucesos incompatibles. Ejemplo: Probabilidad condicional I Definimos el suceso B =“Siempre sale impar”= {1, 3, 5, . . . , 35}, que contiene 18 sucesos elementales. I Entonces, puesto que A ∩ B = {3, 13}, la probabilidad condicionada nos queda: P (A|B) = P (A ∩ B) = P (B) 2 37 18 37 = 2 1 = 18 9 I Notar que cuando nos dicen que la ruleta está trucada, el espacio muestral deja de ser el inicial, pues nunca puede aparecer un número par, y se transforma en Ω∗ = B = {1, 3, 5, . . . , 35}. La probabilidad de A en Ω∗ es ahora 91 . I Puesto que P(A) 6= P (A ∩ B), los sucesos A y B no son independientes. Ejemplos De una baraja española, saco dos cartas sin reposición. Probabilidad de que: 10 40 . I la primera carta sea copa: P(A) = I la segunda sea copa, sabiendo que la primera lo fue: P(B|A) = I las dos cartas sean copas: P(A ∩ B) = P(B|A)P(A) = 9 39 . 9 10 39 40 . Tiro dos dados. Probabilidad de que: I en el primer dado salga un uno: P(C ) = 16 . I en el segundo dado salga un uno, sabiendo que en el primero salió uno: P(D|C ) = P(D) = 61 . I en el primer dado salga un uno, si en el segundo salió uno: P(C |D) = P(C ) = 61 . I en los dos dados salga uno: P(C ∩ D) = P(D)P(C ) = independientes) 11 66 (sucesos Ley de la probabilidad total Un conjunto de sucesos B1 , B2 , . . . , Bk son mutuamente excluyentes si Bi ∩ Bj = ∅, ∀i 6= j. Si además de eso cumplen Ω = B1 ∪ B2 ∪ . . . ∪ Bk , se dice que forman una partición del espacio muestral. Ejemplo I En la baraja española, los siguientes conjuntos de sucesos definen particiones del espacio muestral: I Ω = {oros, copas, espadas, bastos} . I Ω = {ases, treses, sotas, caballos, reyes, resto de cartas} . Ley de probabilidad total Dada una partición del espacio muestral, B1 , B2 , . . . , Bk , y dado un suceso A, se tiene que P(A) = P(A ∩ B1 ) + P(A ∩ B2 ) + . . . + P(A ∩ Bk ) = = P(A|B1 )P(B1 ) + P(A|B2 )P(B2 ) + . . . + P(A|Bk )P(Bk ). Ejemplo: probabilidad total I En una baraja española (48 cartas), calcular la probabilidad de sacar un as, utilizando la ley de la probabilidad total. I Los cuatro palos de la baraja española establecen la partición del espacio muestral dada por Ω = {oros, copas, espadas, bastos}, por lo que: P (Ω) = P (oros) + P (copas) + P (espadas) + P (bastos) = 1 1 1 1 = + + + 4 4 4 4 I Si definimos el suceso A =“as”, entonces: P (A) = P (A|oros) P (oros) + P (A|copas) P (copas) + P (A|espadas) P (espadas) + P (A|bastos) P (bastos) = 1 12 1 12 1 12 1 12 4 1 = + + + = = 12 48 12 48 12 48 12 48 48 12 I Ahora si la carta extraı́da es un as, ¿cuál es la probabilidad que sea el as de copas? Necesitamos invertir las condiciones. Inversión de las condiciones: Teorema de Bayes Para dos sucesos A y B se tiene que P(A|B) = P(A ∩ B) P(B|A)P(A) = P(B) P(B) Este Teorema se aplica en situaciones en las que la probabilidad P(B|A) es conocida. Ejemplo: (continuación del anterior) si la carta extraı́da es un as, ¿cuál es la probabilidad que sea el as de copas? P(copas|A) = P(A|copas)P(copas) = P(A) 1 1 12 4 1 12 = 1 4 Ejemplo I Un gato quiere pescar un pez en una pecera que contiene tres peces amarillos y dos negros con rayas blancas. Suponiendo que pesque un pez, ¿cuál es la probabilidad de que sea un pez rayado? Si R =“rayado”, entonces: P (R) = I 2 5 Suponiendo que pesque dos peces, ¿cuál es la probabilidad de que pesque uno rayado y uno amarillo? Si R1 =“el primero es rayado”, R2 =“el segundo es rayado”, A1 =“el primero es amarillo” y A2 =“el segundo es amarillo”, entonces: P (R1 ∩ A2 ) + P (A1 ∩ R2 ) = P (A2 |R1 ) P (R1 ) + P (R2 |A1 ) P (A1 ) = 32 23 6 6 12 3 = + = + = = 45 45 20 20 20 5 Ejemplo I Suponiendo que pesque dos peces y sabiendo que el segundo era rayado, ¿cuál es la probabilidad de que el primero no lo fuera? P (A1 |R2 ) = P (R2 |A1 ) P (A1 ) P (R2 |A1 ) P (A1 ) = = P (R2 ) P (R2 |A1 ) P (A1 ) + P (R2 |R1 ) P (R1 ) = 23 45 23 45 + 12 45 = 6 20 6 20 + 2 20 = 6 3 = 8 4 Variables aleatorias I Sea Ω el espacio muestral asociado a cierto experimento aleatorio. I Se denomina variable aleatoria (v.a.) a una función X : Ω −→ R, tal que a cada elemento ei ∈ Ω le asigna un valor numérico X (ei ) = xi ∈ R. I Intuitivamente, una variable aleatoria es una medida o cantidad que varı́a en función del resultado concreto ei que se observa al realizar el experimento aleatorio. I La v.a. se denota con letras mayúsculas, mientras que las letras minúsculas indican el valor concreto que toma la v.a. cuando se evalúa en un punto muestral. I OBS: Las variables estadı́sticas que hemos visto en los temas 1, 2 y 3 son el resultado de evaluar las v.a. correspondientes en muestras de individuos. Variables aleatorias V.a. discreta Si X toma valores sobre un conjunto S ⊆ R finito o infinito numerable, se dice que X es una variable aleatoria discreta. V.a. continua Si X toma valores sobre un conjunto S ⊆ R infinito no numerable (por ejemplo, en un intervalo o en una unión de intervalos de R), se dice que X es una variable aleatoria continua. Ejemplos I X =“Resultado al tirar un dado” es una variable discreta donde S = {1, 2, 3, 4, 5, 6}. I Y =“Número de coches que pasan por un cierto peaje en una semana” es una variable discreta donde S = {0, 1, 2, . . .} = N ∪ 0 es infinito numerable. I Z = “altura de un alumno elegido al azar” es una variable continua donde S = [0, +∞). Variables aleatorias discretas Función de probabilidad Sea X una variable aleatoria discreta con posibles valores {x1 , x2 , . . .}. Se llama función de probabilidad o función de masa, al conjunto de probabilidades con las que X toma cada uno de sus valores, es decir, pi = P[X = xi ], para i = 1, 2, . . . . Ejemplo X = resultado de lanzar un dado. La función de probabilidad es x P[X = x] 1 2 3 4 5 6 1 6 1 6 1 6 1 6 1 6 1 6 En este caso, S = {1, 2, 3, 4, 5, 6} y p1 = . . . = p6 = 16 . Variables aleatorias discretas Función de probabilidad. Propiedades Sea X una variable aleatoria discreta que toma valores en el conjunto S = {x1 , x2 . . .} con probabilidades p1 = P(X = x1 ), p2 = P(X = x2 ),. . . I I 0 ≤ P[X = xi ] ≤ 1. X P[X = xi ] = 1. i I P[X ≤ x] = X P[X = xi ]. i,xi ≤x I P[X > x] = 1 − P[X ≤ x]. Ejemplo I I Un juego consiste en ensartar 3 aros, uno a uno, en una pica. Participar cuesta 3 euros. Los premios son 4 euros por un acierto, 6 euros por dos aciertos y 30 euros por tres aciertos. Suponemos que la probabilidad de ensartar un aro es de 0.1 en cada tiro, y que los tiros son independientes. Definimos la v.a. X como la ganancia en el juego. El espacio muestral está dado por: Ω = {(f , f , f ) , (a, f , f ) , (f , a, f ) , (f , f , a) , (a, a, f ) , (a, f , a) , (f , a, a) , (a, a, a)} donde a denota acierto y f denota fallo. Por lo tanto, X sólo admite cuatro posibles resultados con las siguientes probabilidades: P (X = −3) = 0,93 = 0,729 P (X = 1) = 3 × 0,1 × 0,92 = 0,243 P (X = 3) = 3 × 0,12 × 0,9 = 0,027 P (X = 27) = 0,13 = 0,001 Ejemplo I ¿Cuál es la probabilidad de ganar 3 o más euros, descontando los 3 euros por participar? P (X ≥ 3) = P (X = 3) + P (X = 27) = 0,027 + 0,001 = 0,028 I ¿Cuál es la probabilidad de no perder dinero? P (X ≥ 0) = P (X = 1) + P (X = 3) + P (X = 27) = = 0,243 + 0,027 + 0,001 = 0,271 o lo que es lo mismo: P (X ≥ 0) = 1 − P (X < 0) = 1 − P (X = −3) = 1 − 0,729 = 0,271 Variables aleatorias discretas Función de distribución La función de distribución o función de probabilidad acumulada de una variable aleatoria X es una aplicación F : R → [0, 1], que a cada valor x ∈ R le asigna la probabilidad: X F (x) = P[X ≤ x] = P (X = xi ) xi ∈S,xi ≤x OBS: Está definida para todo x ∈ R y no sólo para los valores de X . I 0 ≤ F (x) ≤ 1 para todo x ∈ R. I F (y ) = 0 para todo y < mı́n S. Por tanto, F (−∞) = 0. I F (y ) = 1 para todo y > máx S. Por tanto, F (∞) = 1. I Si x1 ≤ x2 , entonces F (x1 ) ≤ F (x2 ), es decir, F (x) es no decreciente. I Para todo a, b ∈ R, P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a) = F (b) − F (a). Ejemplo I La función de probabilidad de la variable X en el ejemplo del juego es la siguiente: 0,729 x = −3 0,243 x =1 P (X = x) = 0,027 x =3 0,001 x = 27 La función de distribución de la variable X en el ejemplo del juego es la siguiente: 0 x < −3 0,729 −3 ≤ x < 1 0,729 + 0,243 = 0,972 1≤x <3 F (x) = P (X ≤ x) = 0,729 + 0,243 + 0,027 = 0,999 3 ≤ x < 27 0,729 + 0,243 + 0,027 + 0,001 = 1 27 ≤ x I I Notar que esta función presenta discontinuidades de salto en los puntos del conjunto S. El salto es de magnitud P (X = x), para todo x ∈ S. Esperanza de una variable aleatoria discreta Sea X una v.a. discreta que toma valores en S = {x1 , x2 , . . . } con probabilidades p1 = P (X = x1 ) , p2 = P (X = x2 ) , . . . Entonces, la esperanza de X está dada por: X X X E [X ] = xP (X = x) = xi P (X = xi ) = xi p i x∈S i Se verifican las siguientes propiedades: I Si a, b ∈ R, entonces: E [a + bX ] = a + bE [X ] I Sea g una función real. Entonces: X E [g (X )] = g (x) P (X = x) x∈S i Ejemplo La esperanza de la variable aleatoria X del ejemplo del juego es la siguiente: X E [X ] = xP (X = x) = x∈S = −3 × P (X = −3) + 1 × P (X = 1) + 3 × P (X = 3) + 27 × P (X = 27) = = −3 × 0,729 + 1 × 0,243 + 3 × 0,027 + 27 × 0,001 = −1,836 Por lo tanto, la ganancia esperada es de −1,836 euros. Varianza de una variable aleatoria discreta La varianza de la v.a. discreta X está dada por: h i X 2 2 V [X ] = E (X − E [X ]) = (x − E [X ]) P (X = x) = x∈S = X 2 (xi − E [X ]) P (X = xi ) = i X 2 (xi − E [X ]) pi i Se verifican las siguientes propiedades: I La varianza se puede escribir también como: 2 V [X ] = E X 2 − E [X ] I V [X ] ≥ 0 y Var [X ] = 0 si, y sólo si, X es una constante. I Si a, b ∈ R, entonces: V [a + bX ] = b 2 V [X ] La raı́z cuadrada p de la varianza se denomina desviación tı́pica y se denota por S[X ] = V [X ]. Ejemplo La varianza de la variable aleatoria X del ejemplo del juego es la siguiente: 2 2 V [X ] = E X 2 − E [X ] = 7,776 − (−1,836) = 4,405 donde: 2 E X 2 = (−3) × 0,729 + 12 × 0,243 + 32 × 0,027 + 272 × 0,001 = 7,776 √ La desviación tı́pica es por tanto S[X ] = 4,405 = 2,0988. Ejemplo Consideramos la v.a. discreta X = número de caras al tirar una moneda dos veces. La función de probabilidad de X es: x P[X = x] 0 1 2 1 4 1 2 1 4 Por un lado, su esperanza viene dada por: E [X ] = 0 × 1 1 1 +1× +2× =1 4 2 4 mientras que su varianza es: Var [X ] = E [X 2 ] − E [X ]2 = donde: E [X 2 ] = 02 × 1 3 − 12 = 2 2 1 1 3 1 + 12 × + 22 × = 4 2 4 2 Desigualdad de Chebyschev Este resultado es útil para estimar una probabilidad cuando se desconoce la distribución de probabilidad de una v.a. discreta X . Si X es una v.a. con esperanza y varianza finitas, entonces para todo k ≥ 1: V (X ) P (|X − E [X ]| ≥ k) ≤ k2 o, equivalentemente, P (|X − E [X ]| < k) ≥ 1 − V (X ) k2 OBS: La cota que proporciona la desigualdad de Chebyschev es demasiado gruesa y sólo debe utilizarse cuando no se disponga de la distribución de X . Desigualdad de Chebyschev Veamos como aplicar la desigualdad de Chebyschev con la variable aleatoria del ejemplo del juego. Tenemos que E [X ] = −1,836 y que V [X ] = 4,405. Entonces: P (|X + 1,836| ≥ 3) ≤ 4,405 = 0,4894 9 Por otro lado, tenemos que: P (|X + 1,836| ≥ 3) = P (X + 1,836 ≥ 3) + P (X + 1,836 ≤ −3) = = P (X ≥ 1,164) + P (X ≤ −4,836) = = P (X = 3) + P (X = 27) = 0,027 + 0,001 = 0,028 que demuestra que la cota de Chebyschev puede ser muy gruesa. Ejemplo de repaso I Sea X , la variable aleatoria que representa el número de caras menos el número de cruces en 3 tiradas de una moneda trucada de manera que es dos veces más probable que salga cara que cruz. I Indicamos por “c”={cara} y “+”={cruz}. I El espacio muestral es: e1 = {c, c, c} , e2 = {+, c, c} , e3 = {c, +, c} , e4 = {c, c, +} , Ω= e5 = {+, +, c} , e6 = {+, c, +} , e7 = {c, +, +} , e8 = {+, +, +} Ejemplo de repaso I El conjunto S donde toma valores es S = {−3, −1, 1, 3} ya que: X (e1 ) = 3 − 0 = 3 X (e2 ) = X (e3 ) = X (e4 ) = 2 − 1 = 1 X (e5 ) = X (e6 ) = X (e7 ) = 1 − 2 = −1 X (e8 ) = 0 − 3 = −3 I La función de probabilidad viene dada por: 3 1 P (X = −3) = 13 = 27 2 P (X = −1) = 3 × 13 × 23 = 29 P (X = x) = 2 P (X = 1) = 3 × 13 × 32 = 94 3 8 P (X = 3) = 32 = 27 Ejemplo de repaso I Supongamos que participamos en el siguiente juego para el que hay que pagar de inicio 6 euros. Si al lanzar 3 veces la moneda anterior aparece 1 cruz, ganamos 4 euros, si aparecen 2 cruces ganamos 6 euros y si aparecen 3 cruces ganamos 30 euros. ¿Cuál es la ganancia esperada? I Sea Y la variable ganancia en el juego. Entonces: I I I I I Si no obtenemos ninguna cruz, tenemos que X = 3, por lo que 8 . Y = −6 con probabilidad P (Y = −6) = P (X = 3) = 27 Si obtenemos una cruz, tenemos que X = 1, por lo que Y = −2 con probabilidad P (Y = −2) = P (X = 1) = 94 . Si obtenemos dos cruces, tenemos que X = −1, por lo que Y = 0 con probabilidad P (Y = 0) = P (X = −1) = 92 . Si obtenemos tres cruces, tenemos que X = −3, por lo que Y = 24 1 con probabilidad P (Y = 24) = P (X = −3) = 27 . Por lo tanto, Y toma valores en el conjunto S = {−6, −2, 0, 24}. La ganancia esperada es: E [Y ] = −6 × 4 2 1 8 − 2 × + 0 × + 24 × = −1,78 euros 27 9 9 27 Modelo Bernoulli Descripción Partimos de un experimento aleatorio con sólo dos posibles resultados, que calificamos de éxito/fracaso. Definimos la variable aleatoria: 1 si éxito X = 0 si fracaso Sea p la probabilidad de éxito. Entonces, 1 − p es la probabilidad de fracaso. El experimento se llama ensayo de Bernoulli y la variable aleatoria se dice que sigue una distribución Bernoulli de parámetro p. Se escribe X ∼ Ber (p). Modelo Bernoulli Ejemplo Tirar una moneda al aire X = 1 0 sale cara si sale cruz Es un ensayo Bernoulli, y X sigue una distribución Bernoulli de parámetro 1/2. Ejemplo Una lı́nea aérea estima que los pasajeros que compran un billete para un vuelo tienen una probabilidad igual a 0,05 de no presentarse al embarque de dicho vuelo. Definamos 1 si el pasajero se presenta Y = 0 si no lo hace Y sigue una distribución Bernoulli con parámetro 0,95. Modelo Bernoulli Función de Probabilidad: P[X = 0] = 1 − p P[X = 1] = p Función de distribución: F (x) = 0 1−p 1 si x < 0 si 0 ≤ x < 1 si x ≥ 1 Propiedades I E [X ] = p × 1 + (1 − p) × 0 = p I E [X 2 ] = p × 12 + (1 − p) × 02 = p I V [X ] = E [X 2 ] − E [X ]2 = p − p 2 = p(1 − p) p S[X ] = p(1 − p) I Modelo Binomial Descripción Un ensayo Bernoulli de parámetro p se repite n veces de manera independiente. La variable número de éxitos obtenidos, sigue una distribución Binomial (de parámetros n y p). Definición Una variable X sigue una distribución binomial con parámetros n y p si n P[X = x] = p x (1 − p)n−x x para x = 0, 1, . . . , n donde Se escribe X ∼ B(n, p). n x = n! x!(n − x)! Modelo Binomial Ejemplo La lı́nea aérea del ejemplo anterior ha vendido 80 billetes para un vuelo. La probabilidad de que un pasajero no se presente al embarque es de 0, 05. Definimos X = número de pasajeros que se presentan. Entonces (suponiendo independencia) X ∼ B(80, 0,95) I La probablidad de que los 80 pasajeros se presenten 80 P[X = 80] = 0,9580 × (1 − 0,95)80−80 = 0,0165 80 I La probabilidad de que al menos un pasajero no se presente: P[X < 80] = 1 − P[X = 80] = 1 − 0,0165 = 0,9835 Modelo Binomial Propiedades I E [X ] = np I Var [X ] = np(1 − p) I S[X ] = p np(1 − p) Variables aleatorias continuas Función de distribución Para X v.a. continua, la función de distribución es la función F (x) = P[X ≤ x], ∀x ∈ R Igual que en el caso discreto, la función F (x) da las probabilidades acumuladas hasta el punto x ∈ R, pero ahora se trata de una función continua y no de tipo escalón. Variables aleatorias continuas Propiedades I 0 ≤ F (x) ≤ 1, para todo x ∈ R I F (−∞) = 0. I F (∞) = 1. I Si x1 ≤ x2 , entonces F (x1 ) ≤ F (x2 ), es decir, F (x) es no decreciente. I Para todo x1 , x2 ∈ R, P(x1 ≤ X ≤ x2 ) = F (x2 ) − F (x1 ). I F (x) es continua. La función de probabilidad no tiene sentido en variables aleatorias continuas, porque P(X = x) = 0. Para sustituir la función de probabilidad, en variables aleatorias continuas usaremos la función de densidad. Variables aleatorias continuas Función de densidad Para una variable aleatoria continua X con función de distribución F (x), la función de densidad de X es: f (x) = dF (x) = F 0 (x) dx Propiedades I I I I f (x) ≥ 0 ∀x ∈ R Rb P(a ≤ X ≤ b) = a f (x)dx ∀a, b ∈ R Rx F (x) = P(X ≤ x) = −∞ f (u)du R∞ f (x)dx = 1 −∞ Variables aleatorias continuas Ejemplo Una variable aleatoria X tiene función de densidad 12x 2 (1 − x) si 0 < x < 1 f (x) = 0 si no Entonces: Z 0,5 P(X ≤ 0,5) = 0,5 Z 12u 2 (1 − u)du = 0,3125 f (u)du = −∞ Z 0 0,5 P(0,2 ≤ X ≤ 0,5) = Z 0,5 12u 2 (1 − u)du = 0,2853 f (u)du = 0,2 Z 0,2 x F (x) = P(X ≤ x) = f (u)du = −∞ 12 30 x 3 − 1 si x ≤ 0 x4 4 si 0 < x ≤ 1 si x > 1 Esperanza de una variable aleatoria continua Sea X una v.a. continua que toma valores en S ⊆ R, con función de densidad f (x) . Entonces, la esperanza de X está dada por: Z E [X ] = xf (x) dx S Se verifican las siguientes propiedades: I Si a, b ∈ R, entonces: E [a + bX ] = a + bE [X ] I Sea g una función real. Entonces: Z E [g (X )] = g (x) f (x) dx S Ejemplo La esperanza de la variable aleatoria X del ejemplo anterior es la siguiente: Z Z 0 1 1 x · f (x)dx = x · 12x 2 (1 − x)dx = R 0 1 4 1 5 1 1 1 3 3 4 12(x − x ) dx = 12 x − x − = 0 = 12 4 5 4 5 5 E [X ] = = Z Varianza de una variable aleatoria continua La varianza de la v.a. continua X está dada por: i Z h 2 2 V [X ] = E (X − E [X ]) = (x − E [X ]) f (x)dx = S Z = 2 2 x 2 f (x)dx − E [X ] = E X 2 − E [X ] S Se verifican las siguientes propiedades: I V [X ] ≥ 0 y Var [X ] = 0 si, y sólo si, X es una constante. I Si a, b ∈ R, entonces: V [a + bX ] = b 2 V [X ] La raı́z cuadrada p de la varianza se denomina desviación tı́pica y se denota por S[X ] = V [X ]. Ejemplo La varianza de la variable aleatoria X del ejemplo anterior es la siguiente: 2 2 Var [X ] = E X 2 − E [X ] = − 5 2 3 2 9 1 = − = 5 5 25 25 donde: E X2 = Z 2 Z x f (x)dx = R 1 12x 4 (1 − x)dx = 0 12 5 x=1 12 6 x=1 x |x=0 − x |x=0 = 5 6 12 2 −2= 5 5 q 1 La desviación tı́pica es por tanto S[X ] = 25 = 15 . = Distribución uniforme Descripción La distribución uniforme es aquella en la que todos los intervalos de igual longitud en su rango son igualmente probables. Es decir, que la función de densidad es constante para todos los valores posibles de la variable. Definición Se dice que una variable X sigue una distribución uniforme en el intervalo (a, b) (sus parámetros son a y b) si 1 si a < x ≤ b b−a f (x) = 0 si no Se escribe X ∼ U(a, b). Distribución uniforme Función de densidad Propiedades a+b 2 (b−a)2 12 I Esperanza: E [X ] = I Varianza: V [X ] = I Desviación tı́pica: b−a S[X ] = √ 12 Ejemplo: distribución uniforme en (3,5) Una variable aleatoria X que sigue una distribución uniforme en el intervalo (3, 5) tiene función de densidad 1 si 3 < x < 5 2 f (x) = 0 si no Calculamos algunas probabilidades: R 0,5 P(X ≤ 0,5) = −∞ f (u)du = 0 R4 R4 P(X ≤ 4) = −∞ f (u)du = 3 21 du = 12 u|43 = 21 R 4,5 R 4,5 P(3,5 ≤ X ≤ 4,5) = 3,5 f (u)du = 3,5 12 du = 12 Ejemplo: distribución uniforme en (3,5) Función de distribución Z x F (x) = P(X ≤ x) = f (u)du = . . . −∞ I Si x ≤ 3 entonces F (x) = P(X ≤ x) = 0. I Si 3 < x ≤ 5 entonces F (x) = P(X ≤ x) = I Si 5 < x entonces F (x) = P(X ≤ x) = Rx 1 du 3 2 R5 1 du 3 2 Es decir, que: F (x) = 0 x−3 2 1 si x ≤ 3 si 3 < x ≤ 5 si x > 5 = u2 |x3 = = u4 |53 = 5−3 2 x−3 2 . = 1. Ejemplo: distribución uniforme en (3,5) Esperanza E [X ] = R x · f (x)dx = R R5 3 x · 12 dx = 5 x2 4 3 = 52 −32 4 Varianza Var [X ] x 2 · f (x)dx − E [X ]2 R5 2 3 5 = 3 x2 dx − 42 = x6 − 16 = 0,33 = R R 3 =4 Distribución normal Descripción La distribución normal es un modelo teórico que aproxima bien muchas situaciones reales. La inferencia estadı́stica se fundamenta básicamente en la distribución normal y en distribuciones que se derivan de ella. Definición Se dice que una variable X sigue una distribución normal o Gausiana con parámetros µ y σ, y se denota por X ∼ N (µ, σ), si 1 1 2 f (x) = √ exp − 2 (x − µ) 2σ σ 2π Propiedades E [X ] = µ V [X ] = σ 2 Si X ∼ N (µ, σ), f (x) es simétrica respecto de µ. Distribución normal Función de densidad para 3 valores distintos de µ y σ Distribución normal Propiedad Si X ∼ N (µ, σ), I P(µ − σ < X < µ + σ) ≈ 0,683 I P(µ − 2σ < X < µ + 2σ) ≈ 0,955 I P(µ − 3σ < X < µ + 3σ) ≈ 0,997 Desigualdad de Chebyshev La desigualdad de Chebyschev también se puede aplicar en el caso de variables continuas. En particular, si X es Gaussiana de media µ y desviación tı́pica σ, tenemos que: P (µ − k < X < µ + k) = P (|X − µ| < k) ≥ 1 − σ2 k2 de donde, si k = cσ, tenemos que P (µ − cσ < X < µ + cσ) ≥ 1 − 1 c2 . Distribución normal Transformación lineal Si X ∼ N (µ, σ), entonces: Y = aX + b ∼ N (aµ + b, |a|σ) Estandarización Si X ∼ N (µ, σ), considero Z= X −µ ∼ N (0, 1) σ Se llama distribución normal estándar. Es una distribución simétrica y centrada en 0. Además, está tabulada por lo que no tenemos que hacer uso de integrales para obtener probabilidades. Tablas de la N (0, 1) Distribución normal: Ejemplo Sea Z ∼ N(0, 1). Calculemos algunas probabilidades: I Pr(Z < 1,5) = 0,9332. tabla I Pr(Z > −1,5) = Pr(Z < 1,5) = 0,9332. I Pr(Z < −1,5) = Pr(Z > 1,5) = 1 − Pr(Z < 1,5) = 1 − 0,9332 = 0,0668. ¿por qué no ≤? I Pr(−1,5 < Z < 1,5) = Pr(Z < 1,5) − Pr(Z < −1,5) = 0,9332 − 0,0668 = 0,8664. ¿por qué? Distribución normal: Ejemplo Sea X ∼ N(µ = 2, σ = 3). Queremos calcular Pr(X < 4) y Pr(−1 < X < 3,5): I En primer lugar, tipificamos la variable original como sigue: 4−2 X −2 < = Pr Z < 0,666̇ ≈ 0,7454, Pr(X < 4) = P 3 3 donde Z ∼ N(0, 1). I A continuación, buscamos : Pr(−1 < X < 3,5) = Pr(−1 − 2 < X − 2 < 3,5 − 2) −1 − 2 X −2 3,5 − 2 =P < < = Pr(−1 < Z < 0,5) = 3 3 3 = Pr(Z < 0,5) − Pr(Z < −1) = 0,6915 − 0,1587 = 0,5328. donde Z ∼ N(0, 1). Distribución normal: otro ejemplo Es difı́cil etiquetar la carne empaquetada con su peso correcto debido a los efectos de pérdida de lı́quido (definido como porcentaje del peso original de la carne). Supongamos que la pérdida de lı́quido en un paquete de pechuga de pollo se distribuye como normal con media 4 % y desviación tı́pica 1 %. Sea X la pérdida de lı́quido de un paquete de pechuga de pollo elegido al azar. I ¿Cuál es la probabilidad de que 3 % < X < 5 %? I ¿Cuál es el valor de x para que un 90 % de paquetes tengan pérdidas de lı́quido menores que x? I En una muestra de 4 paquetes, hallar la probabilidad de que todos tengan pérdidas de peso de entre 3 y 5 %. Sexauer, B. (1980) Drained-Weight Labelling for Meat and Poultry: An Economic Analysis of a Regulatory Proposal, Journal of Consumer Affairs, 14, 307-325. Distribución normal: otro ejemplo Pr(3 < X < 5) 3−4 X −4 5−4 < < = Pr(−1 < Z < 1) 1 1 1 = Pr(Z < 1) − Pr(Z < −1) = 0,8413 − 0,1587 = 0,6827 = Pr Queremos Pr(X < x) = 0,9. Entonces x −4 X −4 < = Pr(Z < x − 4) = 0,9 Pr 1 1 Mirando las tablas, tenemos x − 4 ≈ 1,28 que implica que un 90 % de las paquetes tienen pérdidas de menores que x = 5,28 %. Para un paquete p = Pr(3 < X < 5) = 0,6827. Sea Y el número de paquetes en la muestra de 4 paquetes que tienen pérdidas de entre 3 % y 5 %. Luego Y ∼ B(4, 0,6827). 4 Pr(Y = 4) = 0,68274 (1 − 0,6827)0 = 0,2172. 4 Distribución normal: otro ejemplo Si la muestra fuera de 5 paquetes, ¿cuál seria la probabilidad que por lo menos una tuviera perdidas de entre el 3 % y 5 %? Tenemos que n = 5 y p = 0,6827. Por lo tanto, Y ∼ B(5, 0,6827). Entonces, Pr(Y ≥ 1) = 1 − Pr(Y < 1) = 1 − Pr(Y = 0) = 5 5 =1− 0,68270 (1 − 0,6827)5−0 = 1 − (1 − 0,6827) = 0,9968. 0 Teorema central del lı́mite El siguiente teorema nos habla de la distribución de la media de un conjunto de muchas v.a. independientes e igualmente distribuidas: X̄ = n 1X Xi n i=1 y nos dice que si n es grande, la distribución de la media de v.a. independientes e identicamente distribuidas es normal, sea cual sea la distribución de las v.a. De aquı́ el papel “central” que juega la distribución normal. Teorema Sean X1 , X2 , . . . , Xn v.a. independientes, e idénticamente distribuidas con media µ y desviación tı́pica σ (ambas finitas). Si n es suficientemente grande, se tiene que X̄ − µ √ ∼ N (0, 1) σ/ n Aproximaciones Binomial Si X ∼ B(n, p) con n suficientemente grande (o bien n ≥ 30 y 0,1 ≤ p ≤ 0,9 o bien np ≥ 5 y n (1 − p) ≥ 5), entonces: X − np p ∼ N (0, 1) np(1 − p) TCL y aproximaciones: Ejemplo I Sea X ∼ B(100, 1/3). Bucamos el valor de Pr(X < 40), si bien el cálculo exacto es muy largo ya que necesitamos un gran número de operaciones. I Utilizando el TCL tenemos que X ∼ B(100, 1/3) ≈ N (33,3, 4,714) , ya que: 1 = 33.3̇ 3 1 2 V [X ] = 100 × × = 22.2̇ p 3 3 S[X ] = 22.2̇ = 4,714 E [X ] = 100 × I Por lo tanto, Pr(X < 40) = P X − 33.3̇ 40 − 33.3̇ < 4,714 4,714 ≈ P (Z < 1,414) donde Z ∼ N(0, 1) ≈ 0,921. Función de distribución conjunta de dos variables I La función de distribución conjunta de dos variables aleatorias continuas X e Y es una aplicación F : R2 → [0, 1], tal que a cada valor (x, y ) ∈ R2 le asigna la probabilidad: Z x Z y F (x, y ) = P(X ≤ x, Y ≤ y ) = f (x, y ) dydx, −∞ −∞ donde f (x, y ) es la función de densidad conjunta de la variable aleatoria (X , Y ). I La función de densidad conjunta, f (x, y ), verifica tres propiedades: 1. f (x, y ) ≥ 0, para cualquier par (x, y ) ∈ R2 . RbRd 2. P(a ≤ X ≤ b, c ≤ Y ≤ d) = a c f (x, y ) dydx. R∞ R∞ 3. −∞ −∞ f (x, y ) dydx = 1. Distribuciones marginales y condicionadas I Las funciones de densidad marginales de las variables aleatorias continuas X e Y están dadas por: Z ∞ Z ∞ fX (x) = f (x, y ) dy y fY (y ) = f (x, y ) dx −∞ −∞ respectivamente. I Las variables aleatorias continuas X e Y se dice que son independientes si y sólo si: f (x, y ) = fX (x) fY (y ) siendo fX y fY las funciones de densidad marginales de X y de Y , respectivamente. I La función de densidad condicional de la variable continua Y , dado el valor X = x0 de la variable aleatoria X , está dada por: fY |X (y |X = x0 ) = f (x0 , y ) fX (x0 ) Esperanza y covarianza I La esperanza de la variable aleatoria (X , Y ) es el vector formado por las esperanzas de las distribuciones marginales de X e Y : X E [X ] E = Y E [Y ] I La covarianza entre dos variables aleatorias X e Y se define como: cov [X , Y ] = E [(X − E [X ]) (Y − E [Y ])] y permite medir como cambian X e Y de forma conjunta. I I Si valores grandes de X se corresponden con valores grandes de Y , y lo mismo ocurre con los valores pequeños, cov [X , Y ] será positiva. Si valores grandes de X se corresponden con valores pequeños de Y , y viceversa, cov [X , Y ] será negativa. Notar que la covarianza depende crucialmente de las unidades de medida de las variables X e Y lo que hace difı́cil su interpretación. Coeficiente de correlación I El coeficiente de correlación entre dos variables aleatorias X e Y se define como: cov [X , Y ] corr [X , Y ] = p V [X ] V [Y ] donde cov [X , Y ] es la covarianza entre X e Y y V [X ] y V [Y ] son las varianzas de X e Y , respectivamente. I Notar que −1 ≤ corr [X , Y ] ≤ 1 independientemente de las unidades de medida de X e Y . I corr [X , Y ] sólamente mide relaciones lineales. I Un valor de corr [X , Y ] próximo a 1 indica una alta relación lineal positiva entre X e Y . Un valor de corr [X , Y ] próximo a −1 indica una alta relación lineal negativa entre X e Y . Por último, un valor de corr [X , Y ] próximo a 0 indica una relación lineal debil entre X e Y . Matriz de covarianzas I La matriz de covarianza de una variable aleatoria (X , Y ) es una matriz de tamaño 2 × 2 dada por: V [X ] cov [X , Y ] C [X , Y ] = cov [X , Y ] V [Y ] es decir, C [X , Y ] contiene las varianzas de X e Y en la diagonal principal y la covarianza entre X e Y fuera de la diagonal principal. La distribución Gaussiana bivariante I Se dice que una variable (X , Y ) sigue una distribución normal o 0 Gaussiana bivariante con parámetros µ = (µX , µY ) y matriz de covarianzas: 2 σX σXY Σ= σXY σY2 y se denota por (X , Y ) ∼ N2 (µ, Σ) si tiene función de densidad: f (x, y ) = I 1 1/2 2π |Σ| 1 exp − (X − µX , Y − µY ) 2 σX2 σXY σXY σY2 −1 X − µX Y − µY Notar que µX = E [X ], µY = E [Y ], σX2 = V [X ], σY2 = V [Y ] y σXY = cov [X , Y ]. ! La distribución Gaussiana bivariante I La varianza generalizada es el valor de: 2 2 |Σ| = σX2 σY2 − σXY = σX2 σY2 1 − corr [X , Y ] y mide la dispersión global de la variable bivariante (X , Y ). Notar como la varianza generalizada disminuye si corr [X , Y ] tiende a ±1 y aumenta si corr [X , Y ] tiende a 0. I Por último, la matriz Σ−1 se puede escribir como: 1 σY2 −σXY Σ−1 = 2 2 2 −σXY σX2 σX σY − σXY Densidad Gaussiana bivariante µ = (0, 0)0 , σX2 = σY2 = 1 y σXY = 0, 0,9 y −0,9, respectivamente 0.15 0.3 0.10 0.2 4 4 0.05 0.1 0 −2 0 0.0 −4 0 x2 −4 2 −2 0 −2 x1 −2 x1 2 2 4 −4 4 0.3 0.2 4 0.1 0.0 −4 0 −2 0 −2 x1 2 4 −4 x2 2 −4 x2 2 Esperanza y varianza condicional I Si (X , Y ) sigue una distribución Gaussiana bivariante con 0 parámetros µ = (µX , µY ) y matriz de covarianzas 2 σX σXY Σ= σXY σY2 entonces: I I I X ∼ N µX , σX2 e Y ∼ N µY , σY2 , respectivamente. X e Y son independientes si y sólo si σXY = 0. Y |X = x0 sigue una distribución Gaussiana univariante de parámetros: σXY µY |X = µY + 2 (x0 − µX ) σX σY2 |X = σY2 − I 2 σXY σX2 X |Y = y0 sigue una distribución Gaussiana univariante de parámetros: σXY µX |Y = µX + 2 (y0 − µY ) σY σX2 |Y = σX2 − 2 σXY σY2 Ejemplo I Sea (X , Y ) una variable aleatoria que sigue una distribución 0 Gaussiana bivariante con parámetros µ = (2, 1) y matriz de covarianzas: 5 3 Σ= 3 10 I Entonces, podemos afirmar que: I I I Las distribuciones marginales de X e Y son X ∼ N (2, 5) e Y ∼ N (1, 10), respectivamente. X e Y no son independientes ya que σXY 6= 0. Y |X = 6 sigue una distribución Gaussiana univariante de parámetros: 3 (6 − 2) = 3,4 5 32 = 8,2 = 10 − 5 µY |X = 1 + σY2 |X I X |Y = 3 sigue una distribución Gaussiana univariante de parámetros: 3 (3 − 1) = 2,6 10 32 =5− = 4,1 10 µX |Y = 2 + σX2 |Y