Download - atalayadecristo.org

Document related concepts
no text concepts found
Transcript
LA DISTRIBUCIÓN NORMAL (O GAUSSIANA) EN LA ESTADÍSTICA
Ing. Rubén Darío Estrella Sánchez, MBA
Cavaliere dell’ordine al Merito della Repubblica Italiana
Ingeniero de Sistemas, Administrador, Matemático, Teólogo y Maestro
[email protected] / [email protected]
www.atalayadecristo.org
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
La distribución normal es una distribución de datos continuos(*) (no
discretos) que produce una curva simétrica en forma de campana.
La distribución gaussiana fue presentada por Karl Friedrich Gauss
(1777-1855) en el 1812.
La campana de Gauss o curva de distribución normal, curva de
probabilidad normal; se caracteriza por:
- Es unimodal.
- Es simétrica (la simetría es perfecta).
- La mitad izquierda de su histograma es aproximadamente una
imagen especular de su mitad derecha.
- La asimetría de la distribución es cero.
- Las colas de la curva se aproximan más, pero nunca tocan, el eje
horizontal.
- La media, la mediana y la moda son iguales.
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
- La mitad de las observaciones esta por encima de la media y la mitad
esta por debajo.
- Si las observaciones están altamente dispersas, la curva en forma de
campana se aplanara y se esparcirá.
(*) Variables continuas:
Son las que pueden tomar cualquier valor dentro de un intervalo
dado. Por muy próxima que puedan estar dos observaciones, si el
instrumento de medida tiene la precisión suficiente siempre puede haber una
tercera observación que caiga entre las dos primeras. Los valores de una
variable continua proceden en general de mediciones, por ejemplo las
cantidades de leche que las vacas producen son datos continuos porque son
mediciones que pueden asumir cualquier valor dentro de un intervalo
continuo.
Se pueden obtener de un numero infinito de posibles valores que
pueden asociarse a puntos de una escala continua, de tal manera que no
haya huecos ni interrupciones.
La Regla Empírica o Regla 68-95-99.
Esta regla solo aplica a un conjunto de datos cuya distribución tiene
aproximadamente forma de campana. Esta afirma que:
- Cerca del 68% de todos los puntajes u observaciones queda a menos
de una desviación estándar de la media.
- Cerca del 95% de todos los puntajes u observaciones queda a menos
de dos desviaciones estándar de la media.
- Cerca del 99.7% de todos los puntajes u observaciones que a menos
de tres desviaciones estándar de la media.
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
Esta función llamada densidad de frecuencias. Tiene dos propiedades
características:
f ( x) ≥ 1
y
∫
b
a
f ( x)dx = 1
También si a ≤ c ≤ d ≤ b, entonces la integral
∫
d
c
f ( x)dx ,
da la proporción del número de veces que la medición produce un valor
entre c y de respecto al número total de mediciones, es decir, la frecuencia
relativa del resultado c ≤ x ≤ d . de la misma manera, f(x) dx puede
considerarse como la proporción de resultados que están entre x y x + dx.
Desde este punto de vista, la integral anterior puede interpretarse como la
probabilidad de que una medición elegida al azar tenga un resultado entre c
y d, y f(x) se llama entonces función densidad de probabilidad.
Para adquirir una mejor percepción de estos conceptos, pensemos por un
momento en f(x) como la función densidad de masa de una varilla de masa
total 1 que se extiende a los largo del eje x entre x = a y x = b. Entonces
f(x)dx es el elemento masa, x f(x) dx es el momento de este elemento de
masa alrededor del origen y la integral
b
x' = ∫ xf ( x)dx
a
es el centro de masas de la varilla dado que
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
∫
b
a
f ( x)dx = 1 .
También la integral
b
I = ∫ ( x − x' ) 2 f ( x)dx
a
es el momento de inercia de la varilla alrededor de la recta x = x’ como eje. Sabemos por
nuestra experiencia que esta cantidad es pequeña si la mayor parte de los elementos de
masa están próximos al eje, y es grande en caso contrario.
En el caso de una densidad de probabilidad f(x) con las propiedades indicadas
anteriormente, la integral correspondiente a,
b
m = ∫ xf ( x)dx
a
se llama media. Como sabemos, la media es el punto sobre el eje x tal que la región bajo
la gráfica de la densidad de probabilidad, si estuviera hecha de cartulina y fuera colocada
en posición horizontal, se equilibraría sobre la recta x = m.
La raíz cuadrada de la integral correspondiente a,
b
I = ∫ ( x − x' ) 2 f ( x)dx
a
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
σ=
b
∫ ( x − x' )
2
a
f ( x)dx
se llama la desviación típica (o desviación estándar). Si σ es pequeño, los resultados de
nuestras mediciones se agrupan alrededor de la media m, y si σ fuese grande, entonces
una porción significativa de estos resultados están lejos de m.
En la teoría matemática general de la probabilidad, es habitual considerar densidades de
probabilidad que se definen para todos los x, de modo que no se establecen limitaciones
sobre los posibles resultados de la medición o el experimento que se considere. Una
densidad de probabilidad se define entonces como cualquier función que satisface las
condiciones:
f ( x) ≥ 1
y
∫
∞
−∞
f ( x)dx = 1
y la media y la desviación típica σ se define mediante:
∞
m = ∫ xf ( x)dx
−∞
σ=
∫
∞
−∞
( x − x' ) f ( x)dx
2
Varias integrales impropias importantes.
Para entender la distribución normal debemos en primer lugar considerar
varias propiedades de la función:
y = f ( x) = e
−x2
cuya gráfica tiene forma de campana.
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
Comenzaremos señalando que esta función es par, lo que significa que
f(-x)=f(x), de modo que la gráfica es simétrica respecto al eje y. También
los valores de la función son todos positivos, tienen un máximo y = 1 en
x=0, y la gráfica tiene dos puntos de inflexión en x = ± ½ √2 . Es claro que
lim x→±∞ e
− x2
=0
porque e − x = 1 / e x ye x → ∞cuandox → ±∞ . También
2
2
lim x→±∞ e
porque para
− x2
2
=0
x > 1tenemos x e − x = x e − x < xe − x , y sabemos que
2
2 − x2
lim x→±∞ x e
2
2
= lim x→±∞ ze − z = 0 .
Es un hecho destacable que el área bajo la curva
y = f ( x) = e
tiene el valor finito
−x2
∫
∞
e
−∞
−x2
dx = π
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
porque
∫
∞
0
e
− x2
1
dx =
π
2
La mejor manera de demostrar esta asombrosa fórmula que conecta e y π
consiste en usar la integración doble en coordenadas polares.
A continuación, usamos la definición de integral impropia para escribir
∞
∫ xe
− x2
0
t
2
1 2  t
dx = lim t →∞ ∫ xe − x dx = lim t →∞  e − x 
2
0
0
1 1 2  1
= lim t → ∞  − e −t  = .
2 2
 2
Análogamente tenemos
∫
0
−∞
e
− x2
1
dx = −
2
de modo que combinando estas dos integrales obtenemos
∫
∞
e
− x2
−∞
dx = 0
Finalmente una integración por parte con u = x, dv = e − x dx da
2
2 − x2
∫xe
1 − x2
1 − x2
dx = − e + ∫ e dx
2
2
de modo que
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
t
2 −x
∫xe
t
2
0
1 −t
1 − x2
dx = − te + ∫ e dx
2
2
0
2
tenemos ahora
∫
∞
0
2 −x
xe
t
2
1
− x2
dx = limt →∞ ∫ e dx
20
t
1 −t 2
1
− x2
= lim t →∞ (− te ) + lim t →∞ ∫ e dx
2
20
Dado que el integrado de x 2e − x es una función par, concluimos que
2
∞
1
1
− x2
= 0 + ∫ e dx =
π
20
4
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
LA CURVA NORMAL
Sea m (µ) cualquier número y σ cualquier número positivo. Entonces la función se llama
función de densidad de probabilidades normal (o de Gauss) con media m (µ) y desviación
típica σ. Dado que claramente que f ( x ) > 0 para todo x, para comprobar lo que se ha
afirmado implícitamente aquí debemos probar que
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
∫
∞
−∞
f ( x)dx = 1
y la media y la varianza se define mediante:
∞
m = ∫ xf ( x)dx
−∞
∞
σ = ∫ ( x − m) f ( x)dx
2
2
−∞
Para probar estos hechos usamos el cambio de variable t = ( x − m) / σ 2 de modo que t
varía desde − ∞ hasta ∞ y
x = m + σ 2t , dx = σ 2dt , f ( x) =
2
1
e −t .
σ 2π
Caso 1.
La precipitación (es decir, la lluvia) anual media en la ciudad de New York es de 42
pulgadas. La precipitación anual durante muchos años se aproxima bien mediante la
función de densidad normal con m = 42 y desviación típica σ = 2,
2
1
f ( x) =
e − ( x − 42) / 2 ( 2)
2 2π
La proporción de años con precipitación entre 40 y 44 pulgadas es
1
2 2π
44
∫e
− ( x − 42 ) 2 / 8
dx
40
Con el cambio de variable t = ( x − 42) / 2 − y accediendo a una tabla de valores de Φ(t) –
esta integral se convierte en
1
2 2π
1
∫e
−t 2 / 2
dt = φ (1) − φ (−1) = 0.8413 − 0.1587 ≅ 0.6826
−1
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
Análogamente, la proporción de años con precipitación entre 38 y 46 pulgadas es (con el
mismo cambio de variable)
1
2 2π
46
2
− ( x − 42 )
dx = ∫ e − t dt
∫e
2 /8
38
2/ 2
−2
= φ (2) − φ (−2) = 0.9772 − 0.0228 ≅ 0.9544
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
Tabla 1. Áreas bajo la curva normal estándar. Los valores de la
tabla que no se muestran en negrita representan la probabilidad de
observar un valor menor o igual a z. La cifra entera y el primer
decimal de z se buscan en la primera columna, y el segundo
decimal en la cabecera de la tabla.
Z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
0.00
.5000
.5398
.5793
.6179
.6554
.6915
.7257
.7580
.7881
.8159
.8413
.8643
.8849
.9032
.9192
.9332
.9452
.9554
.9641
.9713
.9772
.9821
.9861
.9893
.9918
.9938
.9953
.9965
.9974
.9981
.9987
.9990
.9993
.9995
.9997
Segunda cifra
.01
.02
.03
.5040 .5080 .5120
.5438 .5478 .5517
.5832 .5871 .5910
.6217 .6255 .6293
.6591 .6628 .6664
.6950 .6985 .7019
.7291 .7324 .7357
.7611 .7642 .7673
.7910 .7939 .7967
.8186 .8212 .8238
.8438 .8461 .8485
.8665 .8686 .8708
.8869 .8888 .8907
.9049 .9066 .9082
.9207 .9222 .9236
.9345 .9357 .9370
.9463 .9474 .9484
.9564 .9573 .9582
.9649 .9656 .9664
.9719 .9726 .9732
.9778 .9783 .9788
.9826 .9830 .9834
.9864 .9868 .9871
.9896 .9898 .9901
.9920 .9922 .9925
.9940 .9941 .9943
.9955 .9956 .9957
.9966 .9967 .9968
.9975 .9976 .9977
.9982 .9982 .9983
.9987 .9987 .9988
.9991 .9991 .9991
.9993 .9994 .9994
.9995 .9995 .9996
.9997 .9997 .9997
decimal del valor de z
.04
.05
.06
.07
.5160 .5199 .5239 .5279
.5557 .5596 .5636 .5675
.5948 .5987 .6026 .6064
.6331 .6368 .6406 .6443
.6700 .6736 .6772 .6808
.7054 .7088 .7123 .7157
.7389 .7422 .7454 .7486
.7704 .7734 .7764 .7794
.7995 .8023 .8051 .8078
.8264 .8289 .8315 .8340
.8508 .8531 .8554 .8577
.8729 .8749 .8770 .8790
.8925 .8944 .8962 .8980
.9099 .9115 .9131 .9147
.9251 .9265 .9279 .9292
.9382 .9394 .9406 .9418
.9495 .9505 .9515 .9525
.9591 .9599 .9608 .9616
.9671 .9678 .9686 .9693
.9738 .9744 .9750 .9756
.9793 .9798 .9803 .9808
.9838 .9842 .9846 .9850
.9875 .4878 .9881 .9884
.9904 .9906 .9909 .9911
.9927 .9929 .9931 .9932
.9945 .9946 .9948 .9949
.9959 .9960 .9961 .9962
.9969 .9970 .9971 .9972
.9977 .9978 .9979 .9979
.9984 .9984 .9985 .9985
.9988 .9989 .9989 .9989
.9992 .9992 .9992 .9992
.9994 .9994 .9994 .9995
.9996 .9996 .9996 .9996
.9997 .9997 .9997 .9997
.08
.5319
.5714
.6103
.6480
.6844
.7190
.7517
.7823
.8106
.8365
.8599
.8810
.8997
.9162
.9306
.9429
.9535
.9625
.9699
.9761
.9812
.9854
.9887
.9913
.9934
.9951
.9963
.9973
.9980
.9986
.9990
.9993
.9995
.9996
.9997
.09
.5359
.5753
.6141
.6517
.6879
.7224
.7549
.7852
.8133
.8389
.8621
.8830
.9015
.9177
.9319
.9441
.9545
.9633
.9706
.9767
.9817
.9857
.9890
.9916
.9936
.9952
.9964
.9974
.9981
.9986
.9990
.9993
.9995
.9997
.9998
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
Figura 3. Ejemplos de distribuciones normales con diferentes parámetros.
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
La Desviación Normal o Formula Z
Z = (X - µ)/σ
σ
Valor de Z
Es el numero de desviaciones estándar a las que una observación esta por encima
o por debajo de la media.
X
µ
σ
es algún valor especifico de la variable aleatoria.
es la media
es la desviación estándar
TIPIFICACIÓN
Por tanto su función de densidad es
y su función de distribución es
siendo la representación gráfica de esta función
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
MANEJO DE TABLAS. CASOS MÁS
FRECUENTES.
La distribución de la variable Z se encuentra tabulada
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
Caso I.
Claudia Cáffaro en su viaje que realizo en el fin de semana pasado, para reunirse
con los funcionarios de la Casa Matriz de diseño de modas a la cual pertenece,
determinaron que el publico al cual se dirigen estaba en constante cambio en su tamaño
físico y en sus proporciones. Por lo que realizaron un estudio y llegaron a la conclusión
de que las estaturas de sus clientes estaban distribuidas normalmente alrededor de una
media de 67 pulgadas, con una desviación estándar de 2 pulgadas.
Si Claudia fuera a expresar en Valor de Z la estatura de dos de sus clientes, que
tienen 64 y 73 pulgadas respectivamente. Que debe hacer? También represéntelo
gráficamente.
La Desviación Normal o Formula Z.
Z = (X - µ)/σ
σ
Si se selecciona aleatoriamente a un cliente del negocio de Claudia:
1. ¿Cuál es la probabilidad de que la estatura del mismo esté entre 67 y 69
pulgadas?
2. ¿Cuál es la probabilidad de que la estatura del cliente sea superior a 69 pulgadas?
3. ¿Cuál es la probabilidad de que la estatura de esté entre 64.5 y 70.3 pulgadas?
4. ¿Cuál es la probabilidad de que la estatura de esté entre 69.3 y 70.5 pulgadas?
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
Ejercicios Propuestos
Caso I.
Los tiempos de reemplazo de los reproductores de CD tienen una distribucion normal con
una media de 7.1 años y una desviacion estandar de 1.4 años (basados en datos de
"Getting Things Fixed", Consumer Reports). Determine la probabilidad de que un
reproductor de CD seleccionado al azar tenga un tiempo de reemplazo de menos de 8
años.
Caso II.
Suponga que los pesos del papel desechado por los hogares cada semana estan
normalmente distribuidos con un media de 9.4 lbs y una desviacion estandar de 4.2 lbs.
Determine la probabilidad de seleccionar aleatoriamente un hogar y obtener uno que
desecha entre 5 y 8 lbs de papel en una semana.
Caso III.
Segun la International Mass Retail Association, las muchachas estadounidenses entre los
13 y 17 años gastan en promedio US$31.2 dolares al mes cuando van de compras.
Suponga que las cantidades tienen una distribucion normal con una desviacion estandar
de US$8.27 dolares. Si seleccionamos al azar a una muchacha perteneciente a esa
categoria de edades, ¿que probabilidad hay de que gaste entre US$35 y US$40 dolares en
un mes?
Caso IV.
Los puntajes de cociente intelectual (IQ) estan distribuidos normalmente con una media
de 100 y una desviacion estandar de 15. Mensa es una organizacion para personas con
cociente intelectual elevado, y solo acepta personas con un IQ mayor que 131.5.
Si se escoge aleatoriamente a una persona, determine la probabilidad de que satisfaga el
requisito de Mensa.
CASO V.
VERIZON registro los mensajes telefónicos para sus clientes, los cuales promediaron 150
segundos, con una desviación estándar de 15 segundos.
VERIZON desea determinar la probabilidad de que una sola llamada dure:
a) Entre 145 y 150.
b) Sea mayor que 145.
c) Sea menor que 155.
d) Entre 145 y 155.
e) Sea Mayor que 155.
f) Entre 160 y 170
g) Entre 140 y 145.
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
Caso VI.
Cerca del 4.4% de los accidentes fatales de vehículos motorizados se debe a neumáticos
defectuosos (basados en datos del Consejo Nacional de Seguridad de Estados Unidos). Si
un estudio de seguridad de autopistas inicia con la selección de 750 casos fatales de
choque de vehículos motorizados, estime la probabilidad de que exactamente 35 de ellos
hayan sido causados por neumáticos defectuosos. Represente gráficamente la situación
planteada.
Caso VII.
El promedio de los salarios en los bancos comerciales de New York es de US$22.87 por
hora, con una desviación estándar de US$5.87. ¿Cuál debe ser su salario por hora si
desea ganar (Represente gráficamente cada situación planteada:
a. Más que el 80% de todos los empleados?
b. Más que el 30% de todos los empleados?
c. Menos que el 20% de todos los empleados?
d. Más que el 50% de todos los empleados?
Caso VIII.
Los registros muestran que el 45% de todos los automóviles producidos por Ford Motor
Company contiene partes importadas de Japón. ¿Cuál es la probabilidad de que los
próximos 200 carros, 115 contengan partes japonesas. Represente gráficamente.
Caso IX.
El precio promedio del boleto de entrada a un juego de béisbol de ligas mayores fue de
$11.98 dólares en 1998 (USA Today, 1 de noviembre de 1998). Sumando a los boletos el
costo de alimentos, estacionamiento y souvenirs, el costo promedio aproximado fue de
$110.00 dólares para una familia de 4 miembros, con una desviación de $20.00 dólares.
a. ¿Cuál es la probabilidad de que una familia gaste más de $100.00 dólares?
b. ¿Cuál es la probabilidad de que una familia gaste $90.00 dólares o menos?
c. ¿Cuál es la probabilidad de que una familia gaste $80.00 dólares a 130 dólares?
d. ¿Cuál es la probabilidad de que una familia gaste entre $120.00 dólares y 130
dólares?
e. ¿Cuál es la probabilidad de que una familia gaste entre $95.00 dólares y 100
dólares?
f. ¿Cuál debe ser el gasto de una familia que esta por encima del 80% de los datos
evaluados?
g. ¿Cuál debe ser el gasto del 50% de las familias de 4 miembros?
h. ¿Cuál debe ser el gasto de una familia que separa el 40% del 60 restante de los
datos evaluados?
i. Si se toma una muestra de 50 familias, ¿cuál es la probabilidad de que gasten
entre 115.00 dólares y 125.00 dólares?
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
Caso X.
¿Cuál es el ingreso que separa el 10% de la gente más pobre del 90% restante de la
población dominicana? Si el ingreso medio es de RD$5,200 y la desviación es de
RD$1,300.
Caso XI.
El 40% de los sindicalistas del Sindicato quiere huelga. Si seleccionan 15 miembros
¿Cuál es la probabilidad de que 10 apoyen un paro?
Caso XII.
Los registros muestran que 45% de todos los automóviles producidos por Ford Motor
Company contienen partes importadas de Japón. ¿Cuál es la probabilidad de que los
próximos 200 carros, 115 contengan partes japonesas?
El Teorema del Limite Central indica que en el caso de muestras grandes (n > 30), la
distribución de las medias de muestra es aproximadamente normal con media µ y
desviación estándar σ/√n. Provocando así una variación de la ecuación:
Ζ = (X' - µ)/(σ/√n)
La regla general es que si n es por lo menos 30, el Teorema del Limite Central asegurara
una distribución normal en las medias muestrales incluso si la población no es normal.
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com
• Bibliografía.
o SIMMONS, George F. Cálculo y Geometría Analítica. McGraw-Hill:
Segunda Edición. 2002.
o LIND, Douglas A., MARCHAL William G., and WATHEN Samuel A..
Estadística Aplicada a los Negocios y a la Economía. McGraw-Hill: 12ª.
Edición. 2005.
o WEBSTER, Allen L. Estadística Aplicada a los Negocios y la Economía.
McGraw-Hill: Tercera Edición. 2000.
o ANDERSON David, SWEENEY Dennis and WILLIAMS Thomas.
Estadística para Administración y Economía. International Thomson
Editores, S. A.: Octava Edición 2004 / Séptima Edición. 2000.
o TRIOLA Mario. Estadística Elemental (Elementary Statistics). AddisonWesley: Séptima Edición. 1998.
o JONSON Robert and KUBY Patricia. Estadística Elemental Lo Esencial.
International Thomson Editores, S. A.: Tercera Edición 2004.
o LIPSCHUTS Seymour and LIPSON Marc. PROBABILIDAD. Mc Graw
Hill. Segunda Edición. 2001.
o MILTON J. Susan and ARNOLD Jesse C. PROBABILIDAD Y
ESTADISTICA. Mc Graw Hill. Cuarta Edición. 2004.
o MONTIEL A. M., RIUS F. And BARON F.J. Elementos Básicos de
Estadística Económica y Empresarial. Prentice Hall: 1997.
o HOPKINS Kenneth, HOPKINS B.R. and GLASS Gene. Estadística Básica
para las Ciencias Sociales y del Comportamiento. Prentice Hall: Tercera
Edición. 1997.
o LAPIN Lawrence L. Statistics for Modern Business. The Dryden Press:
1995.
PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com