Download Probabilidad Condicional
Document related concepts
no text concepts found
Transcript
Probabilidad Condicional Ejemplo: Se tiene que dos bolas son seleccionadas aleatoriamente (sin reemplazo) de un caja que contiene r bolas rojas y b bolas azules. ¿Cuál es la probabilidad de que la primera bola sea roja y la segunda azul? Probabilidad Condicional Ejemplo: Supongamos ahora que tenemos 4 bolas que serán seleccionadas una a una (sin reemplazamiento) de una caja que contiene r bolas rojas, b bolas azules ( ) ¿Cuál es la probabilidad de obtener la serie: roja, azul, roja, azul? Probabilidad Condicional Ejemplo Se tienen dos cajas que contienen tornillos largos y cortos. Una de ellas tiene 60 tornillos largos y 40 cortos. La segunda caja contiene 10 tornillos largos y 20 cortos. Suponga que una caja se selecciona al azar y se saca aleatoriamente un tornillo de la misma caja. ¿Cuál es la probabilidad de que el tornillo seleccionado sea un tornillo largo? Probabilidad condicional Ejemplo: Se tienen 2 máquinas (1 y 2) en una fábrica que funcionan independientemente una de otra. Sea A el evento de que la máquina 1 se estropee durante 8 hrs y sea B el evento de que la máquina 2 se estropee durante 8 hrs. Suponga que Pr(A)=1/3 y Pr(B)=1/4 ¿Cuál es la probabilidad de que al menos una de las máquinas se estropee durante el mismo período? Probabilidad Condicional Ejemplo: Suponga que una moneda se lanza dos veces de modo que se tiene el siguiente espacio muestral: S={FF, FC, CF, CC}. Sean los siguientes eventos: -F en el 1er lanzamiento: A={FF, FC} -F en el 2do lanzamiento: B={FF, CF} -ambos resultados iguales: C={FF, CC} Teorema de Bayes Si se conoce Pr(A|Bi ) para cada i, el teorema de Bayes proporciona una fórmula útil para calcular las probabilidades condicionales de los Bi eventos dado A . Teorema de Bayes Sea Bi,...,Bk los eventos que forman una partición del espacio S tal que Pr(Bi )>0 para j=1,2,...,k y sea A un evento tal que Pr(A) >0. Entonces para i=1,...,k, Teorema de Bayes Suponga que el ministerio de sanidad está ofreciendo hacer un test gratis para una cierta enfermedad. El test tiene una fiabilidad del 90%. Por otro lado, una colección de datos indican que la posibilidad de tener esa enfermedad es de 1 entre 10000, pero como el test es gratis, no duele y es rápido, decidimos fácilmente hacer el test. ¿Cuál es la probabilidad de tener la enfermedad después de saber que el resultado del test fue positivo? Teorema de Bayes Se tienen 3 diferentes máquinas M1´ M2´ M3 con las que se fabrica cierto producto. Supongamos que los productos se guardan en un almacén y se sabe que el 20% de esos productos fueron hechos con la maquina M1, 30% con la M2 y 50% con M3. También se sabe que el 1% de los productos hechos con la máquina M1 son defectuosos, mientras que con M2, 2% son defectuosos y con M3 , 3% de los productos son defectuosos. Teorema de Bayes Pregunta: Si se selecciona aleatoriamente un producto del almacén y resulta que éste es defectuoso, ¿cuál es la probabilidad de que dicho producto fuese producido por M2 ? Variables aleatorias Definición: Sea S el espacio muestral de un experimento. Una función real definida sobre el espacio S es una variable aleatoria. Las variables aleatorias puede ser: - Discretas - Continuas Variables aleatorias Ejemplo: Una moneda se lanza 5 veces. El tamaño del espacio muestral es entonces 25. Sea R la función real que cuenta el número de caras de un posible resultado. Por ejemplo, para la serie s=cara, cara, cruz, cara, cruz, R(s)=3 Variables aleatorias La colección de todas lasprobabilidades de X es la distribución de X. Función de probabilidad y soporte: Si una variable aleatoria X tiene una distribución discreta, la función de probabilidad de X se define como la función f tal que para cada número real x, f(x)=Pr(X=x) La cerradura del conjunto {x:f(x) > 0} se le llama soporte de la distribución. Variables aleatorias Función de probabilidad: Si X es una variable aleatoria discreta que toma los valores x1,x2,... con probabilidades p1,p2,..., respectivamente, la función de probabilidad (pf) asigna probabilidades a todos los posibles valores de X tal que f(x)=Pr(X=x)=pi si x=xi f(x)=0 Además de otra forma Variables aleatorias Función de probabilidad cumulativa: Se define la función de probabilidad cumulativa (cpf) de X, F(x), cuyo valor da la probabilidad que : Además con la función de probabilidad cumulativa podemos calcular la probabilidad de que X se encuentre entre los valores Variables aleatorias 3 ejemplos de distribuciones discretas: Distribución de Bernoulli Distribución uniforme Distribución binomial Variables aleatorias Distribuciones continuas. Se dice que una variable aleatoria X tiene una distribución continua, o que X es una variable continua, si existe una función no negativa f, definida sobre los números reales, tal que para cada intervalo en los reales, la probabilidad de que X tome un valor en el intervalo es igual a la integral sobre ese mismo intervalo Variables aleatorias Comentario: Una variable aleatoria discreta puede tratarse como una variable aleatoria continua y asignarse la correspondiente densidad de probabilidad. Si X es una variable discreta que toma los valores x1,...,xn con probabilidades p1,...,pn , entonces la densidad de probabilidad continua puede escribirse como Varias variables aleatorias Es común encontrar problemas que dependen de más de una variable aleatoria. Los resultados que hemos visto pueden extenderse a dos o más variables aleatorias. Veamos el caso de dos variables. Sean X y Y dos variables aleatorias. La distribución conjunta de X y Y es la colección de todas las probabilidades de la forma Pr[(X,Y) C], donde C es un conjunto de pares de números reales Varias variables aleatorias Distribucion conjunta discreta. Sean X y Y dos variables aleatorias y consideremos el par ordenado (X,Y). Si existe un número contable de diferentes valores (xi,yi) para el par (X,Y), entonces X, Y tienen una distribución discreta. Definición: La función de probabilidad conjunta de X,Y se define como la función f tal que para cada punto (xi,yi) en el plano xy, Varias variables aleatorias Como en el caso de una variable, si (xi,yi) NO es uno de los valores posibles del par (X,Y) entonces f(xi,yi) = 0. Además, -Similarmente para el caso continuo tenemos: con y Varias variables aleatorias Varias variables aleatorias Caso especial: variables independientes. Es frecuente encontrar casos donde las variables aleatorias X, Y no dependen una de otra. En este caso la densidad de probabilidad puede escribirse como Pr(X=xi ,Y=yi )=g(xi )h(yi ) , donde g(xi) y h(yi) son las densidades de probabilidad de X y Y. Similarmente para el caso continuo: Varias variables aleatorias Aprovechando que estamos hablando de variables aleatorias independientes, supongamos que nos interesa saber la densidad de probabilidad de la suma de variables independientes. Sea Y = X1 + X2, donde X1 , X2 son variables aleatorias independientes con densidades de probabilidad f1 y f2 . La densidad de probabilidad de Y está dada por Varias variables aleatorias Distribución cumulativa conjunta La distribución cumulativa conjunta para dos variables aleatorias X y Y está definida como la función F tal que para todos los valores de xey F(x,y) = Pr(X) Varias variables aleatorias Distribución marginal Frecuentemente en un problema de varias variables, digamos 2 variables, estamos interesados en la distribución de una sóla de las variables. Dicha distribución se obtiene a través de la distribución conjunta y se le llama distribución marginal. Por ejemplo, para el caso discreto, si X y Y son variables aleatorias con distribución conjunta f(x,y), entonces la distribución marginal f1 está dada por Varias variables aleatorias Por ejemplo, para el caso discreto, si X y Y son variables aleatorias con distribución conjunta f(x,y), entonces la distribución marginal f1 está dada por Similarmente para el caso continuo: Varias variables aleatorias Distribución condicional Así como en el cálculo de probabilidades era de interés conocer la probabilidad de un evento dado que otro había sucedido, ahora nos preguntamos por la distribución de una variable X dado que otra, Y, ha tomado un valor Y=y0. La distribución de la probabilidad condicional viene dada por: Varias variables aleatorias Distribución condicional Para n variables: donde f2 es la distribución marginal de X1,... Xk Varias variables aleatorias Ley de la probabilidad total y teorema de Bayes Para n variables: donde y Y el teorema de Bayes para variables aleatorias es: Variables aleatorias Funciones de variables aleatorias Frecuentemente se requiere la distribución de una función de las variables aleatorias. Por ejemplo, si X es una variable aleatoria, quisieramos saber la distribución de 1/X, o bien para dos variables X1,X2, ¿cuál es la probabilididad de exp(X1+X2)? Variables aleatorias Algunas propiedades de las distribuciones Las distribuciones y densidades de probabilidad tienen toda la información estadística de las variables aleatorias en cuestión. En muchas ocasiones algunas propiedades simples de las distribuciones nos dan suficiente información estadística de las variables aleatorias. Los llamados valores esperados (o promedios o momentos) son algunas cantidades estadísticas simples que nos dan información de las variables aleatorias. Variables aleatorias Valor esperado, valor promedio, promedio, valor medio, media, o primer momento La propiedad más utilizada para caracterizar una distribución de variables aleatorias es el llamado valor medio. Si X es una variable aleatoria el valor promedio E[X] está definidio como f(x) es la función de probabilidad (discreto) o densidad de probabilidad (continuo) Variables aleatorias En general, para una función de variables aleatorias, tenemos Variables aleatorias En general, Variables aleatorias Los momentos centrales y tienen nombre: “skewness” y “kurtosis” Función generadora (generatriz) de probabilidad donde fn =Pr(xn ) y xn toma valores enteros no negativos Variables aleatorias de modo que, por ejemplo, el primer momento está dado por Variables aleatorias Otro tipo de función generadora (generatriz) es la función generadora de momentos Para una variable aleatoria X y un número real t, esta función se define como: La función generadora existe para todo valor de t siempre que X esté acotada y MX(t=0)=E(1)=1 Variables aleatorias El n-ésimo momento de X está dado por: De esta forma, por ejemplo, Variables aleatorias Ejemplo: función generadora de una densidad de distribución Gaussiana está dada por: Variables aleatorias Caso especial: suma de variables independientes Si X1,...,Xn son variables independientes y Sn=X1+ ... +Xn, entonces Variables aleatorias Un poco más general: si ahora Sn está dada por la suma de variables independientes de la forma: Sn=c1X1+ ... +cnXn , entonces la función generatriz viene dada por: Variables aleatorias Covarianza y correlación Estas dos cantidades nos dicen que tanto están relacionadas/dependen dos variables aleatorias. Covarianza: sean X e Y variables aleatorias con valores bien definidos y La covarianza se define como Variables aleatorias Teorema del límite central Sean X1,...,Xn n variables aleatorias independientes cada una descrita (estadísticamente) por una funciones de probabilidad fi(x) con valores medios y varianzas . Entonces la variable Tiene las siguientes propiedades Variables aleatorias 1-El valor esperado está dado por 2-La varianza viende dada por 3-Para la función de probabilidad de Z tiene a una distribución normal (Gaussiana) con media y varianza dada en 1 y 2. Nota:las funciones fi(x) pueden ser todas distintas Variables aleatorias Comentarios: 1) Si las Xi siguen la misma distribución, para la distribución de Z se aproxima a una distribución normal con valor medio y varianza 2) Si una variable aleatoria está dada por podemos hacer entonces ln(Y) sigue una distribución “log-normal” Estadística Hasta ahora hemos supuesto que conocemos o podemos calcular la función/densidad de probabilidad (distribución) de las variables aleatorias. En general, esto no es así. Más bien se tiene una “muestra experimental” (conjunto de variables aleatorias) que provienen de una distribución desconocida. Uno de los objetivos de la estadística es inferir información sobre la distribución desconocida a partir de los datos (muestra) que tenemos. Estadística Como hemos visto las distribuciones dependen de parámetros como el valor medio o la varianza, por mencionar un par de ejemplos. Supongamos que queremos estimar alguno de esos parámetros a partir de los datos que tenemos. Para ello utilizaremos los llamados estimadores Estimadores: a) sesgados b) no sesgados Estadística El sesgo se define como la diferencia: donde a es el valor “verdadero”. Si b=0 se dice que el estimador es no sesgado. Un par de ejemplos de estimadores no sesgados: Estadística Estimador del valor medio: Valor medio de la muestra como estimador del valor medio de la población Estimador de la varianza: Pero el valor de Estadística no se conoce! Entonces se sustituye por : Pero si utilizamos s2 como estimador de la varianza, éste es sesgado: Estadística Se puede obtener inmediatamente el estimador no sesgado multiplicando por N/(N-1). De esta forma el estimador no sesgado para la varianza viene dado por: Estadística Finalmente, el estimador para la desviación standard viene dado por: Estadística Pruebas de hipótesis estadística Problema de tomar una decisión (aceptar, rechazar) basándonos en los datos experimentales Existen diferentes pruebas: Student t-test, Neymann-Pearson test, Fisher's F-test. Aquí el problema que nos interesa es una “prueba de bondad de un ajuste” (goodness of fit) Estadística Nos interesa saber si nuestro modelo teórico describe correctamente (estadísticamente hablando) los datos experimentales (puede ser un experimento numérico). La hipótesis H0 a verificar (llamada hipótesis nula) es H0 : nuestro modelo es correcto, desde un punto de vista estadístico. Más que aceptar una hipótesis se habla de ''no rechazar la hipótesis'' Estadística Consideramos pues la hipótesis: H0: F(x) = F0(x) donde F0 representa nuestro modelo teórico y F el resultado observado. Existen varias pruebas, aquí sólo veremos la llamada -test Esta prueba de bondad considera la suma de las variables estandarizadas: donde Ni es el valor observado y fi el valor teórico Estadística Por otro lado, se puede mostrar que la suma de variables aleatorias Xi de la forma: donde Xi sigue una distribución normal, está dada por una distribución conocida como ''función con n grados de libertad: '' Estadística Regresando a nuestro problema, se puede mostrar que la variable sigue una distribución , con k-1 grados de libertad (en un histograma, k es el número de clases). Así, el criterio para no rechazar la hipótesis es comparar el valor de Y con el cuantil de la distribución . El valor del quantil puede consultarse en tablas. Estadística Resumiendo, si se satisface que Entonces la hipótesis no se puede rechazar (no hay razones estadísticas para rechazar el modelo). Se acostumbra a imponer un valor de significancia de