Download Práctico 5

Document related concepts
no text concepts found
Transcript
Universidad de la República
Facultad de Ingenierı́a
PROBABILIDAD Y ESTADÍSTICA
Curso 2017 - Primer Semestre
Práctico 5: La función de distribución.
Actividades
Actividad 1 ¿Normal o no Normal?
En esta actividad vamos a trabajar con los datos recolectados en clase. Para esto vamos a utilizar la
aplicación disponible en la carpeta Actividad del práctico 5 en la página del curso. En la primer pestaña
de la aplicación pueden cargar los datos para el resto de la actividad. Para esto descargar primero el
archivo Datos.csv, que contiene datos sobre las variables Altura, Peso y Mano de los estudiantes que
concurren a los teóricos del curso. El objetivo de esta actividad es ver si estas variables se pueden modelar
mediante una distribución normal.
1. Para visualizar la distribución de datos que representan valores de una variable absolutamente
continua, es siempre útil realizar un histograma. El problema más importante con el que nos
encontramos al tratar de hacer un histograma es elegir el número de intervalos en el mismo.
a) Observar cómo cambia el aspecto del histograma al cambiar el número de intervalos. Probar
con varios valores posibles, desde los muy pequeños hasta los muy grandes. Describir qué
ocurre en cada caso.
b) Elegir una cantidad de intervalos con la cual trabajar en las siguientes partes. Discutir sobre
los motivos o criterios que justifican esta elección (forma acampanada o regular, sin intervalos
vacı́os, simétrica, etc.).
c) Discutir si existen dos distribuciones “superpuestas”: una correspondiente al sexo femenino y
otra al masculino. De ser ası́, registrar las modas correspondientes.
d ) Discutir si existen valores “atı́picos” que difieran marcadamente de la mayorı́a de los valores.
¿Encuentra alguna explicación para ellos?
2. En esta parte vamos a comparar el histograma con la curva de la densidad normal. Para esto,
vamos a elegir los valores de los parámetros µ y σ que mejor se ajusten a la distribución de los
datos.
a) Describir cómo cambia la curva de la densidad normal al variar cada uno de los parámetros.
b) Elegir los valores de µ y σ que mejor aproximen “visualmente” el histograma. Puede resultar
útil mirar los puntos sobre la curva de la densidad normal, y comparar estos con las alturas de
las barras del histograma. También pueden cambiar el número de intervalos si ası́ lo desean,
para ver si con otra cantidad la aproximación es mejor.
c) Para los valores de µ y σ elegidos en la parte anterior, comparar cuantitativamente cuán buena
es la aproximación usando la tabla que aparece abajo del histograma. La misma contiene la
siguiente información:
Intervalo
172
..
.
Densidad
1,15
..
.
DNormal
1,05
..
.
Area
0,12
..
.
Acumulada
0,41
..
.
AcNormal
0,38
..
.
La columna Intervalo indica el extremo izquierdo del mismo, la columna Densidad su densidad (esto es cantidad de datos que pertenecen al intervalo dividido el largo del intervalo),
la columna DNormal indica el valor de la densidad normal en el punto medio del intervalo
correspondiente a los parámetros µ y σ elegidos, la columna Area el área del intervalo correspondiente, la columna Acumulada la suma de las áreas del intervalo correspondiente y de
los intervalos a la izquierda del mismo, y AcNormal indica el valor de la distribución normal
en el extremo derecho del intervalo correspondiente.
Registrar el valor máximo de la diferencia (en valor absoluto) de las columnas Densidad y
DNormal, y de Acumulada y AcNormal.
1
d ) A partir de la tabla, obtener una aproximación para µ y para σ sabiendo que si X tiene
distribución N (µ, σ 2 ), entonces P (X ≤ µ) = 0,5 y P (|X − µ| ≤ σ) ≈ 0,68.
e) Realizar nuevamente la parte c) con los valores de µ y σ calculados en la parte anterior. ¿Es
mejor la aproximación utilizando estos valores o los de la parte c)?
3. En esta parte vamos a comparar los histogramas separados por sexo con la densidad normal.
a) Usando los métodos explicados en las partes 2.b) y/o 2.d), obtener los valores de µF , σF , µM ,
σM para el sexo femenino y masculino respectivamente.
b) Discutir las diferencias y las similitudes de las distribuciones diferenciadas por sexo. Por
ejemplo, ¿tienen parámetros parecidos? ¿es notoriamente una menor que la otra? ¿es más
“ancha” una que la otra? ¿es una más simétrica que la otra? ¿es “más normal” una que la
otra? etc.
c) Sean pF = 0,29 y pM = 0,71 las proporciones de mujeres y hombres respectivamente. Sea X
una variable aleatoria cuya función de distribución es
F (x) = pF ΦF (x) + pM ΦM (x),
en donde ΦF y ΦM representan la función de distribución normal de parámetros µF , σF y
µM , σM respectivamente.
(i) Interpretar el significado de X.
(ii) En las pestañas correspondientes a los datos diferenciados por sexo, se agrega un gráfico y
una tabla que se muestran la comparación del histograma completo (ambos sexos) junto
con la densidad y la distribución de X. Comparar si la distribución de X se ajusta mejor
a los datos que la distribución normal.
Ejercicios
Ejercicio 1
1. Sea Z ∼ N (0, 1). Mostrar que:
P (Z ∈ [−1, 1]) ' 0,68,
P (Z ∈ [−2, 2]) ' 0,95
y P (Z ∈ [−3, 3]) ' 0,997.
2. Sea X ∼ N (µ, σ 2 ). Calcular las siguientes probabilidades:
P (X ∈ [µ − σ, µ + σ]),
P (X ∈ [µ − 2σ, µ + 2σ])
y P (X ∈ [µ − 3σ, µ + 3σ]).
3. La siguiente figura muestra la densidad de dos variables aleatorias normales centradas. Indicar
aproximadamente cuánto vale el desvı́o estándar σ en cada caso.
4. Para X ∼ N (0, 1) hallar primer cuartil, mediana y tercer cuartil. ¿Cuál es la respuesta si X ∼
N (µ, σ 2 )?
2
5. Repetir las partes 1, 2 y 4 para el caso en que X tiene distribución Cauchy en lugar de Normal.
Ejercicio 2 Un artefacto muy costoso es asegurado contra roturas tempranas. Se supone que el tiempo
de vida en años es una variable aleatoria con distribución Normal de parámetros µ = 7 y σ = 2. El
seguro paga una cantidad a si el artefacto se rompe en el primer o en el segundo año de uso. Si se rompe
en el tercer o cuarto año de uso, el seguro paga a2 . Si se rompe a partir del cuarto año el seguro no paga
nada. ¿Cuánto debe ser a para que el valor esperado del pago por el seguro sea de 50 dólares?
Ejercicio 3 En una población se definen las siguientes categorı́as en base al ı́ndice de Presión Sistólica
en Sangre (PSS):
Normal si PSS ≤ 120,
Pre-hipertenso si 120 < PSS ≤ 140,
Presión alta si PSS > 140.
Se asume que la PSS sigue una distribución Gaussiana con parámetros µ = 125 y σ 2 = 144.
1. Hallar la probabilidad de que un individuo pertenezca a cada uno de los grupos definidos.
2. ¿Cuál es la probabilidad de no tener presión alta?
3. Hallar el intervalo centrado en la media que contiene al 68 % de la población. Idem para el 95 % de
la población.
4. Hallar x1 y x2 tal que P(PSS ≤ x1 ) = 0,25 y P(PSS > x2 ) = 0,25.
5. Se sabe que la probabilidad de sufrir un infarto para un individuo del categorı́a Normal es de 0.15,
mientras que dicha probabilidad se eleva a 0.55 dentro de la categorı́a Presión alta. Finalmente, la
probabilidad de infarto de un individuo pre-hipertenso es de 0.25. Se pide:
a) Calcular la probabilidad de que un individuo elegido al azar de la población sufra un infarto.
b) Dado que un individuo sufre un infarto, ¿Cuál es la probabilidad de que pertenezca a la
categorı́a Normal?
Ejercicio 4 Se considera X una variable aleatoria con distribución exponencial, X ∼ exp (λ):
1. Probar la propiedad de pérdida de memoria, es decir P (X > s + t|X > t) = P (X > s), para todo
s, t > 0.
2. Dada X ∼ exp (λ) se define la variable aleatoria T = [X] parte entera de X.
a) Hallar P (T = k) para cada entero positivo k. Reconocer la variable aleatoria discreta T ası́
obtenida e indicar su valor esperado.
b) ¿La variable aleatoria T también verifica una propiedad de pérdida de memoria como la
definida antes?
c) Se sortea una observación correspondiente a una variable aleatoria Exponencial de parámetro
λ = 1. ¿Cuál es la probabilidad de que el entero más cercano sea un número impar? ¿Cuál es
la probabilidad de que sea mayor que un entero par dado r?. Explicar los resultados obtenidos.
Ejercicio 5
1. Sea X una variable aleatoria que mide el tiempo de vida (en años) de un cierto aparato electrónico.
El fabricante desea garantizar que la duración de estos aparatos supera los x0 años con una probabilidad de 0,90. Si se sabe que X ∼ exp (0,01), determinar x0 . Halle también la menor cantidad
de años enteros que cumple con la condición.
2. Un sistema contiene cierto tipo
de componente cuyo tiempo de vida en años está dado por la
variable aleatoria T ∼ exp 81 . Si 5 de estos componentes se instalan en diferentes sistemas, ¿cuál
es la probabilidad de que al menos 2 continúen funcionando después de 8 años?
Ejercicio 6
1. Se asume que una lı́nea de ómnibus tiene una frecuencia de 15 minutos empezando a las 7:00. Un
pasajero de dicha lı́nea llega a la parada en un tiempo T aleatorio y uniforme entre las 7:00 y las
7:30, esto es:
3
FT (x) =


0
x−7
 0,30

1
s ix ≤ 7
si 7 ≤ x ≤ 7,30,
si x ≥ 7, 30.
Nota: 1 minuto se interpreta como el valor 0.01.
a) ¿Cuál es la probabilidad de que el pasajero espere menos de 5 minutos?
b) ¿Cuál es la probabilidad de que el pasajero espere más de 10 minutos?
2. Se asume ahora que el número de ómnibus Nt que pasan en un intervalo [0, t] es aleatorio y se
distribuye según una distribución Poisson de parámetro λt, con λ > 0. Sea X el tiempo de espera
de un pasajero que llega en un instante cualquiera (que podemos pensar como tiempo 0).
a) Calcular P (X > t) para t > 0.
b) Deducir que X tiene distribución exponencial de parámetro λ.
c) ¿Cuál es el tiempo medio de espera de un pasajero?
d ) Asumiendo que λ =
5 minutos.
1
15 ,
hallar la probabilidad de que el pasajero tenga que esperar menos de
Ejercicio 7
1. Se elige un punto al azar en un rectángulo de largos 2 y 3. Sea D la variable aleatoria que mide la
distancia del punto al borde, esto es, al lado más cercano. Calcular P (D ≥ h) ∀ h ≥ 0 y deducir la
densidad de D.
2. Se elige un punto al azar en un disco de radio R. Calcular la densidad de la variable D que mide
la distancia de este punto al centro del disco.
3. Se elige un punto al azar en un triángulo equilátero de lado ` y de base paralela al eje horizontal.
Sean (X, Y ) las coordenadas cartesianas del punto. Hallar la densidad de X e Y respectivamente.
Ejercicio 8 El consumo máximo de agua potable de una ciudad en un dı́a cualquiera es una variable
aleatoria X (en miles de m3 ) con densidad:
0
si x ≤ 0
x
f (x) =
kxe− 3 si x > 0
1. Determine el valor de k para que f sea una densidad (de ahora en adelante se trabaja con ese
valor).
2. Hallar el consumo máximo promedio de agua potable por dı́a.
3. Si la capacidad máxima de suministro de agua es de 27.000 m3 , hallar la probabilidad de que en
un dı́a determinado no se pueda satisfacer la demanda de agua potable (y por lo tanto haya corte
de suministro).
4. Hallar la probabilidad de que en dos dı́as cualesquiera de la próxima semana haya corte de suministro.
5. Hallar la probabilidad de que por lo menos en un dı́a de la próxima semana haya corte de suministro.
Ejercicio 9
1. Sea X una variable aletatoria real con función de distribución FX . Probar que:
a) P (a < X 6 b) = FX (b) − FX (a)
b) P (X = a) = FX (a) − lı́m FX (x)
e) P (a 6 X < b) = lı́m− FX (x)− lı́m− FX (x)
x→b
x→a−
f ) P (X > a) = 1 − FX (a)
c) P (a 6 X 6 b) = FX (b) − lı́m FX (x)
x→a−
g) P (X > a) = 1 − lı́m− FX (x)
d ) P (a < X < b) = lı́m− FX (x) − FX (a)
x→a
x→b
4
x→a
2. Sea X una variable aleatoria real absolutamente continua con densidad fX . Probar que:
Zb
P (a < X 6 b) = P (a 6 X 6 b) = P (a < X < b) = FX (b) − FX (a) =
fX (x)
a
Ejercicio 10 Sea X una variable aleatoria real cuya función de distribución es:
(
ae2x
si x < 0,
FX (x) =
1 −2x
si x ≥ 0
1 − 2e
con a ∈ R constante positiva.
1.
a) Hallar a para que X sea absolutamente continua. Hallar la función de densidad fX .
b) Hallar a para que se cumpla P (X < 0) = 1/4.
2. Asumimos ahora que a = 14 :
a) Calcular P (X = 0) y P (X = 1).
b) Calcular P (X ∈ [−2, 0]) y P (X > 2).
Ejercicio 11 En todos los casos, graficar las densidades y/o funciones de distribución halladas. Es posible
hacerlo a mano o con R.
1. Sea X ∼ N (µ, σ 2 ):
a) Hallar la función de distibución de Y = X 2 y su densidad.
b) Hallar la función de distribución de Z = |X| y su densidad.
2. Sea X = log(M ) ∼ N (µ, σ 2 ). Hallar la distribución de M y su mediana.
3. Sea X ∼ Exp(λ)
a) Hallar la función de distibución de Y = aX y su densidad.
b) Hallar la función de distribución de Z = aeX y su densidad. Esta distribución se llama Pareto
de parámetros a y λ.
4. Sea X ∼ C(0, 1). Hallar la densidad de Y =
1
X.
Ejercicio 12 Simulación de variables aleatorias Sea F una función de distribución y U ∼ U[0, 1].
Probar que la función de distribución de X = F −1 (U ) es F , esto es FX = F .
Preguntas Conceptuales
ne aproximadamente una distribución normal
de parámetros µ = 110 y desviación tı́pica
σ = 25. El intervalo que contiene al 95 % central de la población es [60, 160]. Verdadero o
falso.
−30
−10
0
x
10
20
30
0.00
0.06
f(x)
0.2
−0.1
f(x)
0.06
0.00
f(x)
1. Indicar cuáles de las siguientes figuras
podrı́an representar una función de densidad.
Justificar.
−4
−2
0
x
2
4
−10
0
10
20
30
40
a) ¿Qué porcentaje de personas entre 20 y
34 años tiene un coeficiente de inteligencia mayor que 100?
50
x
2. La distribución de las alturas de las chicas entre 18 y 24 años es aproximadamente normal
con parámetros µ = 1, 64 m y σ = 0, 06 m.
Se afirma que el 2, 5 % de las chicas más altas
miden más de 1,76 m. Verdadero o Falso.
b) ¿Qué valor del coeficiente de inteligencia
es necesario para estar entre el 25 % que
obtiene peores resultados?
c) ¿Qué valor del coeficiente de inteligencia
es necesario para estar entre el 5 % que
obtienen mejores resultados?
3. La distribución de los coeficientes de inteligencia de personas entre 20 y 34 años tie5
por hora más que los del grupo A. A partir de
dichos datos, bosqueja las densidades de probabilidad de cada grupo ¿Qué densidad corresponde a qué grupo?
4. La siguiente figura es un bosquejo de una densidad (no normal). Se sabe que el área entre
0 y 1 es 0.39.
Encontrar si es posible:
a) el área a la derecha de 1.
8. Alguien a hecho un bosquejo de la densidad
de la variable aleatoria que representa el peso
de un grupo de personas ¿qué está mal?
b) el área ente 0 y 0.5.
5. La siguiente figura es un bosquejo de una densidad (no normal). Se sabe que el área entre
-1 y 1 es 0.58.
Encontrar si es posible:
9. En un estudio médico se compara la presión
sanguı́nea de mujeres con diferentes cantidades de hijos. Abajo hay un bosquejo de las
densidades de probabildiad para mujeres con
2 y 4 hijos. ¿Qué grupo tiene mayor presión
sanguı́nea? ¿Tener más hijos hace que la presión sangı́nea de la madre cambie? ¿o puede
el cambio deberse a algún otro factor?
a) el área a la derecha de 1.
b) el área ente 0 y 1.
c) a la derecha de 2.
6. Abajo hay bosquejos de densidades de probabilidad correspondientes a los puntajes finales
de tres clases diferentes. Los resultados varı́an
de 0 a 100, siendo 50 el puntaje mı́nimo de
aprobación.
a) Para cada clase ¿el porcentaje de los que
aprobaron fue: alrededor de 50 %, muy
arriba de 50 %, o muy abajo de 50 %?
b) Una clase tuvo marcadamente dos grupos de estudiantes diferentes, uno con
muy buenas notas y otro con malas ¿cuál
fue?
10. Los siguientes bosquejos corresponden a la
densidad de probabilidad de la edad de muerte. Uno muestra la distribución de edad al morir por causas naturales y el otro muestra la
distribución de edad al morir por accidentes.
¿Cuál es cual y por qué?
c) En la clase (b) ¿hubo más gente que obtuvo entre 40-50 o entre 90-100?
7. Un investigador colecta datos sobre salarios
por hora de tres grupos de personas. Los del
grupo B ganan cerca del doble que los del
grupo A. Los del grupo C ganan cerca de $10
11. Sea U ∼ U[0, 1] y G(x) = − log(1 − x) para
x ∈ [0, 1]. Entonces G(U ) ∼ Exp(1).
6