Download Distribuciones de Probabilidad Continuas

Document related concepts
no text concepts found
Transcript
Distribuciones de Probabilidad Continuas
En el caso de variables aleatorias continuas, las funciones densidad de
probabilidad más comunes y de uso más frecuente en inferencia estadística son:
1.
2.
3.
4.
5.
Función de densidad de probabilidad Uniforme.
Función de densidad de probabilidad Normal.
Función de densidad de probabilidad Chi-cuadrado.
Función de densidad de probabilidad T de Student.
Función de densidad de probabilidad F de Snedecor.
En el caso de variables aleatorias continuas, determinar un tipo de experimento
que se pueda explicar con alguna de estas distribuciones ya no es tan sencillo.
Cuando se tiene un conjunto de datos, producto de unas mediciones, existen
formas aproximadas de determinar si ellos provienen de alguna distribución
específica.
Las cuatro distribuciones que se estudiaran a continuación se pueden considerar
como las piedras angulares de lo que se denomina la teoría de la inferencia
estadística.
Para variables aleatorias continuas, la probabilidad de que esta se encuentre entre
dos valores a y b cualesquiera corresponde al área debajo de la curva comprendida
entre estos dos valores
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Recordemos que para variables aleatorias continuas la probabilidad en un
punto siempre es igual a cero. Por esta razón la siguiente secuencia de
igualdades se satisface siempre que X sea una v.a. continua,
Función de distribución acumulada para variables aleatorias continúas
Retomando lo estudiando en el capítulo de variables aleatorias continuas, la f.d.a
es útil para determinar funciones de distribución de probabilidad de variables
aleatorias continuas, así como para determinar el valor probabilístico que se tiene
cuando una variable aleatoria alcanza un valor fijo.
Definición. La función de distribución acumulada, la cual se denota por
una variable aleatoria continua X, cuya función densidad de probabilidad es
se define como,
Esta función resulta ser continua en
Si existe una función
para todo x donde dicha derivada exista, entonces
Función de Densidad de Probabilidad o f.d.p (en inglés p.d.f).
de
,
tal que
es llamada
Por el teorema fundamental del cálculo se tiene que:
∫
Esta expresión quiere decir que para hallar la probabilidad de que la variable
aleatoria X sea menor o igual a x se debe hallar la integral de la función densidad
de probabilidad en los límites apropiados. Esta función tiene la propiedad de que
cuando
y cuando
.
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
1. Función de densidad de probabilidad Uniforme
Este es el modelo de distribución de probabilidad más simple.
Sea X una v.a continua definida en el intervalo
la longitud de , en particular:
(
)
es proporcional a
.
Diremos que X tiene una f.d.p uniforme en
de X esté dada por:
Además,
,
y escribimos
La f.d.p
{
[ ]
La f.d.a para X está dada por:
[ ]
{
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Distribución Uniforme (a, b).
Ejemplo: La longitud de una bisagra para puertas es un v.a X, distribuida
uniformemente en el intervalo (74.6 , 75.4).
La f.d.p para la variable aleatoria X está dada por:
{
a. Calcule
∫
b. ¿Qué proporción de bisagras miden más de 75.0 mm?
∫
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
c. ¿Cuál es la probabilidad de que la bisagra mida menos de 74.9 mm?
∫
2. Función de densidad de probabilidad Normal
Esta distribución juega un papel clave en el desarrollo de la inferencia estadística,
pues muchas de las herramientas usadas en la toma de decisiones o en las pruebas
de hipótesis, tienen su fundamento en esta distribución. Un gran número de
estudios pueden ser aproximados usando una distribución normal. Algunas
variables físicas, datos meteorológicos (temperatura, precipitaciones, presión
atmosférica, etc.), mediciones en organismos vivos, notas o puntajes en pruebas
de admisión o de aptitud, errores en instrumentación, proporciones de errores en
diversos procesos, etc.
Esta distribución es absolutamente simétrica alrededor de su media
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Densidad de probabilidad normal. Sea X una variable aleatoria continua. Se dice
que X se distribuye como una normal con parámetros  y  (estos parámetros
determinan el centro y la dispersión de la distribución y la caracterizan
completamente), lo cual se escribe
, si X tiene función densidad de
probabilidad dada por,
√
Por medio del cálculo se puede probar que realmente esta función es función de
densidad de probabilidad. Además, es simétrica alrededor de . Tiene forma
acampanada, el área bajo la curva (considerando todo el dominio de la v.a)
siempre es igual a 1.
La distribución normal cumple la siguiente regla:
 El intervalo   contiene aproximadamente el 68% de las mediciones.
 El intervalo   2 contiene aproximadamente el 95% de las mediciones.
 El intervalo   3 contiene algo más del 99% de las mediciones.
Esta regla se conoce como la regla empírica de la normal. Gráficamente,
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Si X es una v.a. normal con parámetros  y , la probabilidad de que
calcula así:
∫
√
se
Para calcular probabilidades relacionadas con la normal se hace necesario utilizar
tablas estándar de normalidad. Esto es porque las integrales que surgen en este
tipo de problemas son extremadamente difíciles de resolver. Afortunadamente,
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
cualquier variable aleatoria normal se puede transformar en una normal con
media = 0 y varianza = 1; esto se logra por medio de la siguiente transformación.
Suponga que X es una variable aleatoria normal con parámetros  y . La variable
aleatoria Z, se define como:


Pero ¿Es equivalente la probabilidad original a la obtenida con esta
transformación? La respuesta es afirmativa, ya que,
∫
∫
√
√
∫
Una variable aleatoria X que se transforme de esta manera se dice que es una
variable aleatoria estandarizada. Una vez una variable este estandarizada ya no es
necesario resolver la integral ya que sus valores están tabulados.
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Propiedades de la distribución de probabilidad Normal Estándar
Usando el hecho de que la distribución normal estándar es simétrica con respecto
al cero, es posible hacer algunas afirmaciones que en un momento dado pueden
facilitar el uso de la tabla.
Suponga que la variable
; las siguientes afirmaciones se cumplen,
a.
b.
c.
d.
Ejemplo: La resistencia a la comprensión de una serie de muestras de cemento
puede modelarse por medio de una distribución normal con una resistencia media
de 6000 kg y una desviación estándar de 100 kg por centímetro cuadrado ¿Cuál es
la probabilidad de que la resistencia de una muestra sea inferior a 6200 kg por
centímetro cuadrado?
Solución
Sea X: Resistencia a la compresión de una muestra de cemento. Por la información
del problema se sabe que
. La probabilidad pedida es,
Entonces,
De esta forma se estandariza.
Módulo: Fu da e tos de I fere cia Estadística
(
)
Doce te: Gustavo Vale cia Z
Ejemplo: Una encuesta realizada entre 1000 estaciones de gasolina en los estados
unidos reveló que el precio por galón tiene aproximadamente una distribución
normal con media $1.90 y desviación estándar $0.20. ¿Cuántas de estas estaciones
cobran entre $1.50 y $2.30 por un galón de gasolina corriente?
Solución
Observe que el precio de $1.50 por galón está a dos desviaciones estándar abajo
de la media y el precio de $2.30 está a dos desviaciones estándar arriba de la
media. Por la regla empírica, 95.4% de los datos se encuentra entre dos
desviaciones estándar de la media. Por lo tanto 0.954*1000=954 de las estaciones
cobran entre $1.50 y $2.30 por galón de gasolina corriente en los estados unidos
Ejemplo: Se observó durante un largo tiempo que la cantidad semanal gastada en
el mantenimiento y en las reparaciones de cierto taller tiene aproximadamente
una distribución normal con media de $400000 y desviación estándar de $20000.
Si el presupuesto para la próxima semana es de $450000, ¿Cuál es la probabilidad
de que los costos sean mayores que la cantidad presupuestada?
Solución: Sea X=cantidad gastada en mantenimiento y reparación
(
)
Por lo tanto, es muy improbable que los costos reales superen la cantidad
presupuestada.
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Ejemplo: Se puede ajustar una máquina de café de tal manera que llene los vasos
con un promedio de  onzas por vaso. Si la cantidad de onzas por vaso X se puede
asumir que es una 
. Halle el valor de  de tal manera que los vasos de
ocho onzas se derramen con una probabilidad de 0.01.
Solución:
. Es claro que un
Sea X = cantidad de onzas por vasos. Se sabe que

vaso de ocho onzas se derramará si
. Se debe hallar el valor de  que
garantice la siguiente condición:
Normalizando se tiene que,
(
(



)
)
Si se observa l atabla de la normal estándar, hay un valor abajo del cual el área es
igual a 0.99 y tal valor es 2.33; por lo tanto el área arriba de 2.33 será 0.01;
entonces,


Despejando se obtiene que 
, es decir, la máquina de café debe ajustarse
a un promedio de llenado de 7.301 para garantizar que los vasos de ocho onzas se
derramen con una probabilidad de 0.01
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Tabla de la Normal Estándar
Entendido el concepto de transformar cualquier normal a una normal estándar, el
problema se simplifica debido a que esta última se encuentra tabulada.
Tarea 020
1. Calcule las siguientes probabilidades utilizando las talas de la normal
estandarizada.
a.
b.
c.
d.
e.
2. Identifique como se puede evaluar el supuesto de normalidad para
cada uno de los siguientes casos:
a. Modo gráfico (no aplica la generación de histograma)
b. Método analítico (Pruebas no paramétricas)
c. Por medio de R
3. Seleccione mínimo 50 datos de una variable de interés y utilice los
tres caminos propuestos en el punto anterior para revisar el
supuesto de normalidad y concluya si dicha variable cumple o no el
supuesto.
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Ejemplo: Usando una tabla de la normal estándar calcule las siguientes
probabilidades:
a.
b.
c.
d.
e.
Solución:
a.
b.
=
c.
d.
e.
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Evaluación del supuesto de normalidad.
Cuando se está en presencia de una muestra aleatoria, es ciertamente importante
determinar si proviene o no de una población la cual se distribuye normalmente.
Existen pruebas gráficas y estadísticas para determinar si un conjunto de n datos
sobre una variable proviene o no de una distribución normal.
Método gráfico: Q-Q Plot o gráfico de normalidad. Este método compara los
valores empíricos (o muestrales) de los cuartiles con los valores reales (o teóricos)
de los cuartiles de una normal. Si los datos provienen de una distribución normal,
el gráfico de los cuartiles empíricos contra los reales lucirá como una línea recta. Si
los datos se distribuyen normalmente los puntos en el gráfico caen de manera muy
aproximada sobre una línea recta con intercepto µ y pendiente σ.
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Retomemos los datos de estudiantes de Quinto grado estudiando en los capítulos
de estadística descriptiva.
Quinto Grado
Quinto Grado
Peso en Kg.
20.6 21.4 23.5 24.5 25.3
26
Edad en años.
27.3
28
28.6 29.6
30.4 33.1 34.6 34.6 35 35.1 35.4 36.2 36.6 36.9
37 38.7 38.7 39.9 40.6 41 42 42 44.5 45.3
9
10
9
10 9
9 8
10 9
10 9
10 9
9 9
9
10
8
10
11
10
10
9
10
9
10
8
9
11
10
En R es posible realizar el gráfico Q-Q plot para cualquier variable cuantitativa. La
siguiente figura ilustra este gráfico para la variable Peso.
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
El siguiente es el código en R
PESO <- c(33.1,35.4,36.6,45.3,37,38.7,23.5,34.6,44.5,41,35,
36.2,27.3,28.6,39.9,36.9,38.7,21.4,42,30.4,25.3,20.6,29.6,
42,26,24.5,35.1,40.6,28,34.6)
qqnorm(PESO); qqline(PESO, col = 2)
Esta gráfica nos podría dar entender que la variable Peso podría poseer un
comportamiento normal debido a que muchos puntos se traslapan con la línea a lo
largo de esta.
Las siguientes figuras fueron generadas en el paquete estadístico IBM SPSS
Statistic.
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Esta gráfica nos podría dar entender que la variable Edad posiblemente no tenga
un comportamiento normal debido a que muchos puntos son repetitivos sin
permitir que se traslapen con la línea a lo largo de esta.
Prueba de Normalidad Shapiro-Wilk (No Paramétrica)
Para probar normalidad univariada este test es el que más se recomienda. Es de
resaltar que este test no pertenece a la familia de tests de Kolmogorov. Si solo se
dispone de tablas para comparar este estadístico, se recomienda su uso cuando el
tamaño maestral es menor o igual a 50 aunque los paquetes estadísticos actuales
están en capacidad de calcularlo para muestras más grandes. El alcance de este
curso no abordará el cálculo analítico de esta prueba de normalidad, sin embargo,
en el texto de Conover de estadística No Paramétrica se encuentra en detalle el
desarrollo analítico.
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Las hipótesis de esta prueba son:
(Hipótesis nula):
es una función de distribución normal, con media y
varianza no especificadas.
(Hipótesis alternativa):
no es normal.
Para la variable EDAD rechazo
y para PESO no se puede rechazar
Desde R es posible calcular el estadístico y valor p dela prueba Shapiro Wilk.
> EDAD=c(9,10,9,10,9,9,10,10,9,9,10,9,8,10,9,10,11,
+ 9,10,11,9,10,9,9,9,8,10,10,8,10)
> shapiro.test(EDAD)
Shapiro-Wilk normality test
data: EDAD
W = 0.86, p-value = 0.001014
> PESO=c(33.1,35.4,36.6,45.3,37.0,38.7,23.5,34.6,44.5,
+ 41.0,35.0,36.2,27.3,28.6,39.9,36.9,38.7,21.4,42.0,30.4,25.3)
> shapiro.test(PESO)
Shapiro-Wilk normality test
data: PESO
W = 0.9582, p-value = 0.4811
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Índice de Asimetría
La asimetría de una distribución hace referencia al grado en que los datos se
reparten por encima (derecha) y por debajo (izquierda) de la tendencia central.
Índice de Curtosis
La Curtosis hace referencia al grado de apuntamiento de la distribución.
Podríamos mencionar que si el valor del índice de Asimetría es 0±0.5, se habla de
una posible distribución normal aunque es indispensable apoyarse en otras
verificaciones. Si el valor del índice de Curtosis es 0±0.5, se dice que los datos
están muy bien distribuidos.
Se pudiera pensar que si la media, mediana y moda de una variable presentaran
valores muy similares, se dice que los datos se distribuyen normalmente.
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Descriptivos
Estadístico
EDAD
PESO
Media
9,43
Intervalo de confianza para
Límite inferior
9,14
la media al 95%
Límite superior
9,72
Media recortada al 5%
9,43
Mediana
9,00
Varianza
,599
Desv. típ.
,774
Mínimo
8
Máximo
11
Rango
3
Amplitud intercuartil
1
Error típ.
,141
Asimetría
-,001
,427
Curtosis
-,214
,833
33,747
1,2645
Media
Intervalo de confianza para
Límite inferior
31,160
la media al 95%
Límite superior
36,333
Media recortada al 5%
33,835
Mediana
35,050
Varianza
47,971
Desv. típ.
6,9261
Mínimo
20,6
Máximo
45,3
Rango
24,7
Amplitud intercuartil
11,2
Asimetría
-,288
,427
Curtosis
-,895
,833
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
3. Función de densidad de probabilidad Chi-cuadrado
Este tipo de distribución se utiliza para modelar procesos que tienen que ver con
tiempos de llegada, por ejemplo el tiempo que tarda una persona en una sala de
espera de un hospital; observe que intuitivamente es razonable pensar que es más
probable que transcurra un intervalo de tiempo entre
minutos que un
intervalo de tiempo pequeño comprendido entre
minutos; también tiempos
de espera grandes comprendidos entre
son poco probables; gráficamente
se puede visualizar lo anterior.
Fuente: Juan C. Salazar., 2010. Elementos de probabilidad y estadística. Notas de clase. Universidad Nacional
de Colombia. Sede Medellín
Esta distribución es sesgada a derecha (y por lo tanto no es simétrica) y puede
considerarse como uno de los pilares sobre los que reposa la teoría de la inferencia
estadística clásica ya que otras importantes distribuciones se pueden derivar a
partir de ella y ella misma sirve para probar hipótesis.
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Definición: Sea X una v.a continua. Se dice que X se distribuye como una chicuadrado con r grados de libertad, lo cual se denota variable
, si su f.d.p
está dada por:
 es llamada la función gamma, la cual se define como
∫
Para calcular probabilidades relacionadas con la distribución chi-cuadrado se
cuenta con tablas que dependen de los grados de libertad y de paquetes
estadísticos como R.
Para entender intuitivamente el concepto de grado de libertad considere la
siguiente situación: si se tienen tres casillas las cuales deben ser llenadas de
manera que su suma sea 10 y de antemano se fijan dos números, solamente hay
una elección posible para el tercer número, por lo que se considera que para
completar la operación se tiene un grado de libertad; por ejemplo, el problema es
llenar las tres casillas _+_+_=10, si se realiza 2+6+_=10 es claro que para la tercera
casilla la única elección posible es el número 2; es decir, solo hay un grado de
libertad en nuestra elección.
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Uso de la Tabla de la distribución Chi-Cuadrado
Usualmente, los libros de probabilidad incluyen tablas de esta distribución que
pueden ser de cola inferior o de cola superior. A continuación se presenta la una
imagen de cola superior:
Ahora se verán algunos ejemplos para ilustrar su uso.
EJEMPLO. Usando la tabla de la chi-cuadrado calcule las siguientes probabilidades:
a.
b.
c.
Tarea 021
1. Investigue la relación entre la distribución Chi-Cuadrado y la
distribución Normal.
2. Investigue la relación entre la distribución Normal y la distribución
Chi-Cuadrado.
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
4. Función de densidad de probabilidad T de Student
Esta función se relaciona estrechamente con la normal estándar y la chi-cuadrado.
Juega un papel importante en la teoría de la inferencia estadística. Para calcular
probabilidades relacionadas con la t se utilizan unas tablas que dependen de los
grados de libertad.
Esta distribución de probabilidad surge del problema de estimar la media de una
población normalmente distribuida cuando el tamaño de la muestra es pequeño.
Definición: Sea Z una variable aleatoria normal estándar y sea W una variable
aleatoria chi-cuadrado con r grados de libertad. Entonces si Z y W son
independientes, se dice que tiene una distribución t de Student con r grados de
libertad. Un gráfico de la distribución t y de la normal estándar.
√
Observe que las colas de la distribución t son mucho más alargadas que en la
distribución normal. Valores muy extremos para la normal que tienen
probabilidades muy pequeñas son valores con probabilidades significativas para la
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
distribución t. También a medida que se incrementan los grados de libertad de la t
esta se parece mucho más a la normal estándar.
Ejemplo: Usando la tabla de la t de Student calcule las siguientes probabilidades:
a.
b.
Ejemplo: Usando la tabla de la t de Student calcule los valores de x
a.
b.
que implica que
y según la tabla corresponde a un valor de
5. Función de distribución de probabilidad F de Snedecor.
Esta función se relaciona estrechamente con la chi-cuadrado. Juega un papel
importante en la teoría de la inferencia estadística. Para calcular probabilidades
relacionadas con la F se utilizan unas tablas que dependen de los grados de
libertad.
Definición: Sea
una variable aleatoria chi-cuadrado con grados de libertad y
sea
una variable aleatoria chi-cuadrado con grados de libertad. Entonces si
y
son independientes,
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z
Se dice que tiene una distribución F de Snedecor con
numerador y grados de libertad en el denominador.
grados de libertad en el
Esta distribución no es simétrica y por lo tanto la tabla de la F no puede usarse de
manera igual a la de la normal
La distribución F aparece frecuentemente como la distribución nula de una prueba
estadística, especialmente en el análisis de varianza, en modelos lineales (por
ejemplo los de regresión lineal) y los modelos lineales mixtos.
Ejemplo: Usando la tabla de la F calcule las siguientes probabilidades
a.
b.
Módulo: Fu da e tos de I fere cia Estadística
Doce te: Gustavo Vale cia Z