Download Función de Distribución Normal Archivo

Document related concepts
no text concepts found
Transcript
10. FUNCIÒN DE DISTRIBUCIÓN NORMAL
Principales leyes de distribución de variables aleatorias. Como complemento al
capítulo anterior en el que definimos todos los conceptos relativos a variables
aleatorias, describimos en éste las principales leyes de probabilidad que encontramos
en las aplicaciones del cálculo de probabilidades. Es necesario hacer referencia en el
estudio de las funciones de mayor aplicación en forma detallada y segura de forma
que faciliten una herramienta para el estudiante y le permitan un trabajo seguro y
eficiente en su desarrollo profesional y su investigativo.
LA DISTRIBUCIÓN NORMAL
La distribución normal o de Gauss es sin duda la más importante de cuantas hay,
tanto por razones prácticas como teóricas. En la sección sobre análisis normal se
verán algunas de sus aplicaciones. Formalmente, una variable aleatoria o población X
es normal de media m y varianza s2, lo que se expresa como N(,), si su función de
densidad es

1
f ( x) 
e
σ 2π
x  μ 2
x 
2σ 2
Los valores que toma la función de probabilidad acumulada,
1
F( x ) 
σ 2π




e
 x  μ 2
2σ 2
dx
se pueden calcular a continuación, sin más que introducir los parámetros de media ()
y desviación típica (), junto con el argumento x. Como ya se ha indicado, la media y
la varianza de la variable aleatoria normal X son E[X]=y V[X]=2,
respectivamente.
Un 50% de los valores están a la derecha de este valor central y otro 50% a la
izquierda. Esta distribución viene definida por dos parámetros N ( 2), siendo

el valor medio de la distribución y es precisamente donde se sitúa el centro de
1
la curva y 
valor central: si la varianza es baja los valores están próximos a la media; si es alta,
entonces los valores están muy dispersos.
Cuando la media de la distribución es 0 y la varianza es 1se denomina normal
tipificada, y su ventaja reside en que hay tablas donde se recoge la probabilidad
acumulada para cada punto de la curva de esta distribución. Además, toda
distribución normal se puede transformar en una normal tipificada aplicando
xμ
z
σ
La distribución normal tipificada tiene la ventaja de que las probabilidades para cada
valor de la curva se encuentran recogidas en una tabla que se indica en el anexo a este
documento
Los parámetros de esta función son E(X)= y V(X)=2 En la figura siguiente
se muestran distribuciones gaussianas de diferente varianza
Ejemplo, La renta media de los habitantes de un país es de 4 millones de pesos/año,
con una varianza de 1,5. Se supone que se distribuye según una distribución Normal.
Calcular:
a)
Porcentaje de la población con una renta inferior a 3 millones de pesos.
b)
Renta a partir de la cual se sitúa el 10% de la población con mayores ingresos.
c)
Ingresos mínimo y máximo que engloba al 60% de la población con renta
media.
a)
Porcentaje de la población con una renta inferior a 3 millones de pesos.
x4
z
1.22
2
a) El valor de z para 3 millones de pesos es de -0,816.
P(X<3) = P(Z<-0,816)
P (z>-0,816) = 1-P(z<0,816) = 1 - 0,7925 (aprox.) = 0,2075
Luego, el 20,75% de la población tiene una renta inferior a 3 millones pesos.
b) Nivel de ingresos a partir del cual se sitúa el 10% de la población con renta más
elevada.
Vemos en la tabla el valor de la variable tipificada cuya probabilidad acumulada
es el 0,9 (90%), lo que quiere decir que por encima se sitúa el 10% superior.
Ese valor corresponde a z=1,282. Ahora calculamos la variable normal x
equivalente a ese valor de la normal tipificada: 1.282=(x-4)/1.22
Despejando x=5,57. Por lo tanto, aquellas personas con ingresos superiores a 5,57
millones de pesos constituyen el 10% de la población con renta más elevada.
c) Nivel de ingresos mínimo y máximo que engloba al 60% de la población con
renta media. Vemos en la tabla el valor de la variable normalizada Y cuya
probabilidad acumulada es el 0,8. Como sabemos que hasta la media la
probabilidad acumulada es del 50%, quiere decir que entre la media y este valor
de z hay un 30% de probabilidad.
Por otra parte, al ser la distribución normal simétrica, entre -z y la media hay otro
30% de probabilidad. En definitiva, el segmento (-z,z) engloba al 60% de
población con renta media.
El valor de z que acumula el 80% de la probabilidad es 0,842 (aprox.), por lo que
el segmento viene definido por (-0,842, +0,842). Ahora calculamos los valores de
la variable x correspondientes a estos valores de z. Los valores de x son 2,97 y
5,03. Por lo tanto, las personas con ingresos superiores a 2,97 millones de pesos e
inferiores a 5,03 millones de pesos constituyen el 60% de la población con un
nivel medio de renta.
Ejemplo. La vida media de los habitantes de un país es de 68 años, con una varianza
de 25. Se hace un estudio en una pequeña ciudad de 10.000 habitantes:
a) ¿Cuántas personas superarán previsiblemente los 75 años?
b) ¿Cuántos vivirán menos de 60 años?
a) Personas que vivirán (previsiblemente) más de 75 años
Calculamos el valor de la normal tipificada equivalente a 75 años: z=(75-68)/5=
1.40
Por lo tanto, P (x>75) = (z>1,4) = 1 - P (z<1,4) = 1 - 0,9192 = 0,0808
Luego, el 8,08% de la población (808 habitantes) vivirán más de 75 años.
3
b)
Personas que vivirán (previsiblemente) menos de 60 años
Calculamos el valor de la normal tipificada equivalente a 60 años, z=(6068)/5=1.60
Por lo tanto P (x<60) = (z< -1,6) = P(z> 1,6) = 1 - P (z<1,6) = 0,0548
Luego, el 5,48% de la población (548 habitantes) no llegarán probablemente a esta
edad.
La función característica de la distribución normal y sus parámetros son

2 2
1 z 2 / 2
x 
 Z ( t )   e itz
e
 x ( t )  e it( t  / 2)
siendo z 


2
E ( X)  
V( X)   2
Ejemplo, Supongamos que cierto fenómeno pueda ser representado mediante una
variable aleatoria X  N(45,9) , y queremos calcular la probabilidad de que X tome
un valor entre 39 y 48, es decir, P(39  X  48)
Solución, hallamos la variable estandarizada
39  45
48  45
z1 
 0.666
y z2 
0.333 de modo que
9
9
P(39  X  48)  P(0.666  Z  0.333)  0.378
Remitimos al lector a la tabla de la función de distribución Normal para evaluar los
valores de la función acumulada, que se anexan a este capítulo
Aproximación a la Normal de la ley Binomial. Se puede demostrar (teorema central
del límite) que una variable aleatoria discreta con distribución binomial, X~B(n,p) se
puede aproximar mediante una distribución normal si n es suficientemente grande y p
no está ni muy próximo a 0 ni a 1. Como el valor esperado y la varianza de X son
respectivamente np y npq, la aproximación consiste en decir que X~N(np,(npq)^1/2).
El convenio que se suele utilizar para poder realizar esta aproximación es:
n  30 


X  B(n , p) si np  4   X  N np . npq
nq  4




Ejemplo, Durante cierta epidemia de gripe, enferma el 30% de la población. En un
aula con 200 estudiantes, Cuál es la probabilidad de que al menos 40 de ellos
padezcan la enfermedad? y Calcular la probabilidad de que haya 60 estudiantes con
gripe.
4
Solución: La variable aleatoria que contabiliza el número de alumnos que padece la
gripe es
X  B(200,0.30)
cuya media es np=60 y varianza es npq=42. Realizar los cálculos con la Binomial es
muy engorroso, ya que intervienen números combinatorios de gran tamaño, y
potencias muy elevadas. Por ello utilizamos la aproximación normal de X, teniendo
en cuenta que se verifican las condiciones necesarias para que el error sea aceptable:
n=200>30, np=60>4, y nq=140>4, entonces X  N(60, 42 )
Así aproximando la variable aleatoria discreta binomial X, mediante la variable
aleatoria continua normal,
 X  60 40  60 
P(X  40)  P

  P( Z  3.09)
42 
 42
en las tablas : P  0.999
También es necesario calcular P(X=60). Esta probabilidad se calcula exactamente
como:
 200  60 140
 * p * q
P(X  60)  
 60 
o f (60) 
1
 2
e
1  60 
 

2  
2
 0.063
TEOREMA CENTRAL DEL LÍMITE
El Teorema Central del Límite dice que si tenemos un grupo numeroso de variables
independientes y todas ellas siguen el mismo modelo de distribución (cualquiera que
éste sea), la suma de ellas se distribuye según una distribución normal.
Ejemplo, la variable tirar una moneda al aire sigue la distribución de Bernoulli. Si
lanzamos la moneda al aire 50 veces, la suma de estas 50 variables (cada una
independiente entre si) se distribuye según una distribución normal.
Este teorema se aplica tanto a suma de variables discretas como de variables
continuas. Los parámetros de la distribución normal son Media: n* (media de la
variable individual multiplicada por el número de variables independientes), y
Varianza: n*
variables individuales)
Ejemplo, Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si
sale Sello el valor 0. Cada lanzamiento es una variable independiente que se
distribuye según el modelo de Bernoulli, con media 0,5 y varianza 0,25. Calcular la
probabilidad de que en estos 100 lanzamientos salga más de 60 caras.
5
La variable suma de estas 100 variables independientes se distribuye, por tanto, según
una distribución normal.
Media = 100 * 0,5 = 50
Varianza = 100 * 0,25 = 25
Para ver la probabilidad de que salgan más de 60 caras calculamos la variable normal
tipificada equivalente z=(60-50)/5=2.0
Por lo tanto P(x>60) = P(z>2,0) = 1- P(z< 2,0) = 1 - 0,9772 = 0,0228
Es decir, la probabilidad de que al tirar 100 veces la moneda salgan más de 60 caras
es tan sólo del 2,28%
DISTRIBUCIÓN LOGNORMAL
Cuando en una muestra con valores positivos se observa que el histograma dista de
ser simétrico, suele ser útil una transformación logarítmica de los datos para que los
valores resultantes tengan una apariencia más gaussiana, lo que permitirá utilizar
después técnicas de análisis normal. Se dice en estos casos que los datos originales
tienen distribución lognormal.
La distribución lognormal de parámetros m y s tiene también categoría propia como
modelo de sucesos aleatorios, no siendo extraña su aparición en contextos tales como
los de las ciencias naturales o de la industria. Su función de densidad toma la forma
1
 2 (Lnx m )2
1
f ( x) 
e 2s
x0
s x 2π
en la que se observará su similitud con la función de densidad de la distribución
normal, aunque tomando valores no nulos sólo en el semieje positivo de la recta real.
Su función de probabilidad acumulada es
m m
F( x )  Φ x

 x 
siendo  la distribución de la normal tipificada (media 0 y desviación típica 1).
DISTRIBUCIÓN NORMAL BIDIMENSIONAL
X
 N(, ) . Sea X* y Y* variables
Si X* es una variable aleatoria N(0,1), X * 

aleatorias normales independientes con  N (0,1) , entonces tienen distribución
6
conjunta de densidad f * (x* ,y * ) =
1 ( x*2  y*2 )/ 2
. Las curvas de nivel f* constantes son
e
2
de probabilidad
Y  Y
X  X 
X  X
1
*

Sea X * 
y Y* 

 , por tanto, X   X   X X
2
X 
X
1    Y
y Y   Y   Y Y *  1   2  Y Y *
Densidad f(x,y), trabajando con le Jacobiano de la transformación
1
0
X
1
D


1
XY 1  2

X 1  2 Y 1  2
por lo cual, f * (x * (x, y), y * (x, y)) =
1 h ( x ,y) / 2
e
, entonces,
2
2
2

 x   X  Y   y   Y   Y  
  
  2  

  ,

  X   Y    Y  
1
e  h ( x , y ) / 2 es la distribución marginal
por tanto, la forma f ( x, y) 
2
2X  Y 1  
correspondiente con densidad
1
h ( x , y) 
1  2
f1 ( x ) 
1
2  X
 x  
X



X
e
 1  x 
x
   
 2  x




2



y f 2 ( y) 
1
2 y
e
  Y 
1
y
 
 2  y
 




2



y dado que X y Y son Normales con medias  X y  y y varianzas  2X y  2Y ,
respectivamente
Excentricidad, si  X   Y , entonces,  2 
2
(1   )
. Además, si   0 , entonces,
f(x,y)=f1(x)f2(y)
A medida que se consideran mas eventos, mejor es la aproximación alrededor del
valor medio que en los extremos. Es una función simétrica respecto al valor centra
(media), cóncava hacia abajo su parte central, con tendencia a cóncava hacia arriba en
sus extremos. La varianza representa el achatamiento, esto es, dos curvas con la
característica 12   22 , la primera será mas achatada que la segunda.
Sea fX ( x)  ke  c( xm) , con   x   , la distribución al centro es m
2
7
f X (x) 
1
 x 2
e
 1  x m
x
 
 2   x




2



, por lo cual,

 x  mx
x  mx 
FX ( x )  P[X  x ]  P  U 
  FU 
c 
 x

x  mx
con u 
, entonces, F(-u)=1-F(u)
x
2
v

1 u 2
 
e
 dv
2  

Si X y Y son variables aleatorias con distribución X  N(m x ,  2x ) y Y  N(m y ,  2y ) ,
entonces X  Y  N(m x  m y ,  2x   2y )
Se tiene la función Lognormal, en la cual
Yn  Yn 1 Wn  Yn 2 Wn 1 Wn  ...  Y0 W1 W2 ...Wn ,
y sacando logaritmos naturales se puede aplicar la distribución normal común y
corriente.
Tabulación. Sea X  N(0,1) , luego P[a  X  b] 
1

2
b
a
e x
2
/2
dx
La función de distribución acumulada de la distribución es (s) 
Y de las tablas se obtienen
P[a  X  b]  (b)  (a )
los
valores
de
,
de
1

2
s
e  x / 2 dx .
2

forma
que,
X
tiene N  (0,1) , por tanto,

b  
a  
b
a 
P[a  X  b]  P 
Y
 
  


 
 
  
  
por lo cual, ( x )  1  ( x )
Si X  N(,  2 ) entonces, Y 
Aunque estos temas se analizan por aparte, se hará aquí una introducción,
FUNCIÓN NORMAL BIVARIADA
Sea (X,Y) una variable aleatoria continua bidimensional que toma valores en el plano
Euclideo, tiene una distribución normal bivariada si su función de distribución de
probabilidad conjunta es,
8
f ( x , y) 
1
2x  y

 x  
1

x

exp 
2

2
2(1   )   x
1 



( x   x )( y   y )  y   y

  2

 


x y
y


2




2





en los intervalos,    x   y    y   .
Las distribuciones marginales de X y Y son N( x ,  2x ) y N( y ,  2y )
 es el coeficiente de correlación entre las variables X y Y.
Las distribuciones Condicionales presentan la característica de ser
y

N[ x   x ( y   y ),  2x (1   2 )] y N[ y  
( x   x ),  2y (1   2 )]
y
x
Normal Truncada. El truncamiento a veces es una necesidad ara manejar
información que tiene ciertas propiedades, y no es necesario considerar las colas de
las funciones.
- A la derecha de X=t, la función de distribución de probabilidad es f(x)=0, si x>t,
esto es,
2

1
1
1
 1  x     

f (x)  K
exp  

   , si x  t , siendo K 
 t    P[ Z  t ]
 2

 2     



  
- A la izquierda de X=t, la función de distribución de probabilidad es f(x)=0, si x<t,
esto es,
1
2


1
 1  x     

 t   
f (x)  K
exp  

   , si x  t , siendo K  1  

2

 2












Normal Multivariable. Sea la distribución Bivariable


1
f UV (u, v)  k  exp 
(u 2  2uv  v 2 )
2
 2(1   )

siendo  el coeficiente de correlación y k un factor normalizado, k 
1
2 1   2
,
entonces,
f XY ( x , y) 
1
2X  Y


1

exp 
A  B  C
2
1  2
 2(1   )

9
2
 y  mY
 x  mX 
 ( x  m X )( y  m Y ) 
 , B  2
 , y C  
en donde, A  
XY
 Y
 X 


teniendo en cuenta que    x   y    y  



2

Con distribución marginal de X: f X (x)   f XY (x, y)dy y similarmente lo es para Y,

y se tiene, m Y / X  m Y  
Y
( x  m X ) y  2Y / X  (1   2 ) 2Y
X
10