Download Probabilidad Condicional

Document related concepts
no text concepts found
Transcript
Probabilidad Condicional
Ejemplo:
Se tiene que dos bolas son seleccionadas
aleatoriamente (sin reemplazo) de un caja
que contiene r bolas rojas y b bolas azules.
¿Cuál es la probabilidad de que la primera
bola sea roja y la segunda azul?
Probabilidad Condicional
Ejemplo:
Supongamos ahora que tenemos 4 bolas que
serán seleccionadas una a una (sin
reemplazamiento) de una caja que contiene
r bolas rojas, b bolas azules (
)
¿Cuál es la probabilidad de obtener la serie:
roja, azul, roja, azul?
Probabilidad Condicional
Ejemplo
Se tienen dos cajas que contienen tornillos
largos y cortos. Una de ellas tiene 60 tornillos
largos y 40 cortos. La segunda caja contiene
10 tornillos largos y 20 cortos.
Suponga que una caja se selecciona al azar y
se saca aleatoriamente un tornillo de la
misma caja.
¿Cuál es la probabilidad de que el tornillo
seleccionado sea un tornillo largo?
Probabilidad condicional
Ejemplo:
Se tienen 2 máquinas (1 y 2) en una fábrica
que funcionan independientemente una de
otra. Sea A el evento de que la máquina 1 se
estropee durante 8 hrs y sea B el evento de
que la máquina 2 se estropee durante 8 hrs.
Suponga que Pr(A)=1/3 y Pr(B)=1/4
¿Cuál es la probabilidad de que al menos una
de las máquinas se estropee durante el
mismo período?
Probabilidad Condicional
Ejemplo:
Suponga que una moneda se lanza dos veces
de modo que se tiene el siguiente espacio
muestral: S={FF, FC, CF, CC}.
Sean los siguientes eventos:
-F en el 1er lanzamiento: A={FF, FC}
-F en el 2do lanzamiento: B={FF, CF}
-ambos resultados iguales: C={FF, CC}
Teorema de Bayes
Si se conoce Pr(A|Bi ) para cada i, el teorema
de Bayes proporciona una fórmula útil para
calcular las probabilidades condicionales de
los Bi eventos dado A .
Teorema de Bayes
Sea Bi,...,Bk los eventos que forman una
partición del espacio S tal que Pr(Bi )>0 para
j=1,2,...,k y sea A un evento tal que Pr(A) >0.
Entonces para i=1,...,k,
Teorema de Bayes
Suponga que el ministerio de sanidad está
ofreciendo hacer un test gratis para una
cierta enfermedad. El test tiene una fiabilidad
del 90%.
Por otro lado, una colección de datos indican
que la posibilidad de tener esa enfermedad
es de 1 entre 10000, pero como el test es
gratis, no duele y es rápido, decidimos
fácilmente hacer el test.
¿Cuál es la probabilidad de tener la
enfermedad después de saber que el
resultado del test fue positivo?
Teorema de Bayes
Se tienen 3 diferentes máquinas M1´ M2´ M3
con las que se fabrica cierto producto.
Supongamos que los productos se guardan
en un almacén y se sabe que el 20% de esos
productos fueron hechos con la maquina M1,
30% con la M2 y 50% con M3. También se
sabe que el 1% de los productos hechos con
la máquina M1 son defectuosos, mientras que
con M2, 2% son defectuosos y con M3 , 3% de
los productos son defectuosos.
Teorema de Bayes
Pregunta:
Si se selecciona aleatoriamente un producto
del almacén y resulta que éste es defectuoso,
¿cuál es la probabilidad de que dicho
producto fuese producido por M2 ?
Variables aleatorias
Definición:
Sea S el espacio muestral de un experimento.
Una función real definida sobre el espacio S
es una variable aleatoria.
Las variables aleatorias puede ser:
- Discretas
- Continuas
Variables aleatorias
Ejemplo:
Una moneda se lanza 5 veces. El
tamaño del espacio muestral es
entonces 25. Sea R la función real que
cuenta el número de caras de un
posible resultado. Por ejemplo, para la
serie s=cara, cara, cruz, cara, cruz,
R(s)=3
Variables aleatorias
La colección de todas lasprobabilidades de X
es la distribución de X.
Función de probabilidad y soporte: Si una
variable aleatoria X tiene una distribución
discreta, la función de probabilidad de X se
define como la función f tal que para cada
número real x,
f(x)=Pr(X=x)
La cerradura del conjunto {x:f(x) > 0} se le
llama soporte de la distribución.
Variables aleatorias
Función de probabilidad:
Si X es una variable aleatoria discreta que
toma los valores x1,x2,... con probabilidades
p1,p2,..., respectivamente, la función de
probabilidad (pf) asigna probabilidades a
todos los posibles valores de X tal que
f(x)=Pr(X=x)=pi
si x=xi
f(x)=0
Además
de otra forma
Variables aleatorias
Función de probabilidad cumulativa:
Se define la función de probabilidad
cumulativa (cpf) de X, F(x), cuyo valor da la
probabilidad que
:
Además con la función de probabilidad cumulativa
podemos calcular la probabilidad de que X se encuentre
entre los valores
Variables aleatorias
3 ejemplos de distribuciones discretas:
Distribución de Bernoulli
Distribución uniforme
Distribución binomial
Variables aleatorias
Distribuciones continuas.
Se dice que una variable aleatoria X tiene
una distribución continua, o que X es una
variable continua, si existe una función no
negativa f, definida sobre los números
reales, tal que para cada intervalo en los
reales, la probabilidad de que X tome un
valor en el intervalo es igual a la integral
sobre ese mismo intervalo
Variables aleatorias
Comentario:
Una variable aleatoria discreta puede tratarse
como una variable aleatoria continua y
asignarse la correspondiente densidad de
probabilidad.
Si X es una variable discreta que toma los
valores x1,...,xn con probabilidades p1,...,pn ,
entonces la densidad de probabilidad
continua puede escribirse como
Varias variables aleatorias
Es común encontrar problemas que
dependen de más de una variable aleatoria.
Los resultados que hemos visto pueden
extenderse a dos o más variables aleatorias.
Veamos el caso de dos variables.
Sean X y Y dos variables aleatorias. La
distribución conjunta de X y Y es la colección
de todas las probabilidades de la forma
Pr[(X,Y) C], donde C es un conjunto de pares
de números reales
Varias variables aleatorias
Distribucion conjunta discreta.
Sean X y Y dos variables aleatorias y
consideremos el par ordenado (X,Y). Si existe
un número contable de diferentes valores
(xi,yi) para el par (X,Y), entonces X, Y tienen
una distribución discreta.
Definición: La función de probabilidad
conjunta de X,Y se define como la función f
tal que para cada punto (xi,yi) en el plano xy,
Varias variables aleatorias
Como en el caso de una variable, si (xi,yi) NO
es uno de los valores posibles del par (X,Y)
entonces f(xi,yi) = 0. Además,
-Similarmente para el caso continuo tenemos:
con
y
Varias variables aleatorias
Varias variables aleatorias
Caso especial: variables independientes.
Es frecuente encontrar casos donde las
variables aleatorias X, Y no dependen una de
otra. En este caso la densidad de
probabilidad puede escribirse como
Pr(X=xi ,Y=yi )=g(xi )h(yi ) ,
donde g(xi) y h(yi) son las densidades de
probabilidad de X y Y.
Similarmente para el caso continuo:
Varias variables aleatorias
Aprovechando que estamos hablando de
variables aleatorias independientes,
supongamos que nos interesa saber la
densidad de probabilidad de la suma de
variables independientes.
Sea Y = X1 + X2, donde X1 , X2 son variables
aleatorias independientes con densidades de
probabilidad f1 y f2 . La densidad de
probabilidad de Y está dada por
Varias variables aleatorias
Distribución cumulativa conjunta
La distribución cumulativa conjunta para dos
variables aleatorias X y Y está definida como
la función F tal que para todos los valores de
xey
F(x,y) = Pr(X)
Varias variables aleatorias
Distribución marginal
Frecuentemente en un problema de varias
variables, digamos 2 variables, estamos
interesados en la distribución de una sóla de
las variables. Dicha distribución se obtiene a
través de la distribución conjunta y se le
llama distribución marginal.
Por ejemplo, para el caso discreto, si X y Y
son variables aleatorias con distribución
conjunta f(x,y), entonces la distribución
marginal f1 está dada por
Varias variables aleatorias
Por ejemplo, para el caso discreto, si X y Y
son variables aleatorias con distribución
conjunta f(x,y), entonces la distribución
marginal f1 está dada por
Similarmente para el caso continuo:
Varias variables aleatorias
Distribución condicional
Así como en el cálculo de probabilidades era
de interés conocer la probabilidad de un
evento dado que otro había sucedido, ahora
nos preguntamos por la distribución de una
variable X dado que otra, Y, ha tomado un
valor Y=y0. La distribución de la probabilidad
condicional viene dada por:
Varias variables aleatorias
Distribución condicional
Para n variables:
donde f2 es la distribución marginal de
X1,... Xk
Varias variables aleatorias
Ley de la probabilidad total y teorema de
Bayes
Para n variables:
donde
y
Y el teorema de Bayes para variables
aleatorias es:
Variables aleatorias
Funciones de variables aleatorias
Frecuentemente se requiere la distribución
de una función de las variables aleatorias. Por
ejemplo, si X es una variable aleatoria,
quisieramos saber la distribución de 1/X, o
bien para dos variables X1,X2, ¿cuál es la
probabilididad de exp(X1+X2)?
Variables aleatorias
Algunas propiedades de las distribuciones
Las distribuciones y densidades de probabilidad
tienen toda la información estadística de las
variables aleatorias en cuestión.
En muchas ocasiones algunas propiedades
simples de las distribuciones nos dan suficiente
información estadística de las variables
aleatorias.
Los llamados valores esperados (o promedios o
momentos) son algunas cantidades estadísticas
simples que nos dan información de las variables
aleatorias.
Variables aleatorias
Valor esperado, valor promedio, promedio, valor
medio, media, o primer momento
La propiedad más utilizada para caracterizar una
distribución de variables aleatorias es el llamado
valor medio.
Si X es una variable aleatoria el valor promedio
E[X] está definidio como
f(x) es la función de probabilidad (discreto) o densidad de
probabilidad (continuo)
Variables aleatorias
En general, para una función de variables
aleatorias, tenemos
Variables aleatorias
En general,
Variables aleatorias
Los momentos centrales
y
tienen
nombre: “skewness” y “kurtosis”
Función generadora (generatriz) de
probabilidad
donde fn =Pr(xn ) y xn toma valores enteros no
negativos
Variables aleatorias
de modo que, por ejemplo, el primer momento
está dado por
Variables aleatorias
Otro tipo de función generadora (generatriz)
es la función generadora de momentos
Para una variable aleatoria X y un número real t,
esta función se define como:
La función generadora existe para todo valor de t
siempre que X esté acotada y MX(t=0)=E(1)=1
Variables aleatorias
El n-ésimo momento de X está dado por:
De esta forma, por ejemplo,
Variables aleatorias
Ejemplo: función generadora de una densidad de
distribución Gaussiana está dada por:
Variables aleatorias
Caso especial: suma de variables independientes
Si X1,...,Xn son variables independientes y
Sn=X1+ ... +Xn,
entonces
Variables aleatorias
Un poco más general: si ahora Sn está dada por la
suma de variables independientes de la forma:
Sn=c1X1+ ... +cnXn ,
entonces la función generatriz viene dada por:
Variables aleatorias
Covarianza y correlación
Estas dos cantidades nos dicen que tanto están
relacionadas/dependen dos variables aleatorias.
Covarianza: sean X e Y variables aleatorias con
valores bien definidos
y
La covarianza se define como
Variables aleatorias
Teorema del límite central
Sean X1,...,Xn n variables aleatorias
independientes cada una descrita
(estadísticamente) por una funciones de
probabilidad fi(x) con valores medios
y
varianzas
.
Entonces la variable
Tiene las siguientes propiedades
Variables aleatorias
1-El valor esperado está dado por
2-La varianza viende dada por
3-Para
la función de probabilidad de Z
tiene a una distribución normal (Gaussiana) con
media y varianza dada en 1 y 2.
Nota:las funciones fi(x) pueden ser todas distintas
Variables aleatorias
Comentarios:
1) Si las Xi siguen la misma distribución,
para
la distribución de Z se aproxima a
una distribución normal con valor medio
y
varianza
2) Si una variable aleatoria está dada por
podemos hacer
entonces ln(Y) sigue una distribución “log-normal”
Estadística
Hasta ahora hemos supuesto que conocemos o
podemos calcular la función/densidad de
probabilidad (distribución) de las variables
aleatorias.
En general, esto no es así. Más bien se tiene una
“muestra experimental” (conjunto de variables
aleatorias) que provienen de una distribución
desconocida.
Uno de los objetivos de la estadística es inferir
información sobre la distribución desconocida a
partir de los datos (muestra) que tenemos.
Estadística
Como hemos visto las distribuciones dependen
de parámetros como el valor medio o la varianza,
por mencionar un par de ejemplos.
Supongamos que queremos estimar alguno de
esos parámetros a partir de los datos que
tenemos. Para ello utilizaremos los llamados
estimadores
Estimadores:
a) sesgados
b) no sesgados
Estadística
El sesgo se define como la diferencia:
donde a es el valor “verdadero”.
Si b=0 se dice que el estimador es no sesgado.
Un par de ejemplos de estimadores no sesgados:
Estadística
Estimador
del valor medio:
Valor medio de la muestra como estimador
del valor medio
de la población
Estimador
de la varianza:
Pero el valor de
Estadística
no se conoce!
Entonces se sustituye
por
:
Pero si utilizamos s2 como estimador de la
varianza, éste es sesgado:
Estadística
Se puede obtener inmediatamente el estimador
no sesgado multiplicando por N/(N-1). De esta
forma el estimador no sesgado para la varianza
viene dado por:
Estadística
Finalmente, el estimador para la desviación
standard viene dado por:
Estadística
Pruebas de hipótesis estadística
Problema de tomar una decisión (aceptar,
rechazar) basándonos en los datos experimentales
Existen diferentes pruebas: Student t-test,
Neymann-Pearson test, Fisher's F-test.
Aquí el problema que nos interesa es una “prueba
de bondad de un ajuste” (goodness of fit)
Estadística
Nos interesa saber si nuestro modelo teórico
describe correctamente (estadísticamente
hablando) los datos experimentales (puede ser
un experimento numérico).
La hipótesis H0 a verificar (llamada hipótesis nula)
es
H0 : nuestro modelo es correcto, desde un punto
de vista estadístico.
Más que aceptar una hipótesis se habla de ''no
rechazar la hipótesis''
Estadística
Consideramos pues la hipótesis:
H0: F(x) = F0(x)
donde F0 representa nuestro modelo teórico y F el
resultado observado.
Existen varias pruebas, aquí sólo veremos la
llamada
-test
Esta prueba de bondad considera la suma de las
variables estandarizadas:
donde Ni es el valor observado y fi el valor teórico
Estadística
Por otro lado, se puede mostrar que la suma de
variables aleatorias Xi de la forma:
donde Xi sigue una distribución normal, está dada
por una distribución conocida como ''función
con n grados de libertad:
''
Estadística
Regresando a nuestro problema, se puede
mostrar que la variable
sigue una distribución , con k-1 grados de
libertad (en un histograma, k es el número de clases).
Así, el criterio para no rechazar la hipótesis es
comparar el valor de Y con el
cuantil de
la distribución . El valor del quantil
puede consultarse en tablas.
Estadística
Resumiendo, si se satisface que
Entonces la hipótesis no se puede rechazar (no
hay razones estadísticas para rechazar el
modelo). Se acostumbra a imponer un valor de
significancia de