Download Variables aleatorias. Distribución Binomial y Normal

Document related concepts
no text concepts found
Transcript
TEMA II. VARIABLES ALEATORIAS. DISTRIBUCIÓN
BINOMIAL Y NORMAL
I.- Variable aleatoria. Concepto.
Antes de definir el concepto de varibale aleatoria, veamos algunos ejemplos (ya estás
empezando a comprobar que en estadística sin ejemplos andamos algo perdidos).
Ejemplos:
Supongamos el experimento consistente en el lanzamiento de tres monedas, y consideremos la
variable x = número de caras del experimento. Los valores que puede tomar la variable son
x = 0, 1, 2, 3 .
Sea ahora el experimento consistente en lanzar dos dados y consideremos la varibale
x = suma de la cara superior de los dos dados .
x = 2, 3, 4, 5, 6, 7, 8, , 9, 10, 11, 12 .
Los
valores
posible
son:
Elijamos un alumno de la clase y preguntémonos por la varibable x = {tiempo invertido por el
alumno en cubrir el trayecto que va desde su casa al instituto}. En este caso la variable x no puede
tomar valores discretos, ya que el rango de tiempos es infinito y la distancia entre un tiempo dado y
el “siguiente” es infinitamente próxima y por tanto no podemos numerarlos.
Pues bien, todas las variables de los ejemplos anteriores son variables aleatorias. Así,
Una variable aleatoria es una función x que hace corresponder un
número real a cada resultado de un experimento aleatorio.
También de los ejemplos anteriores ya habrás podido deducir que existen dos tipos de
variables aleatorias:
Discretas, cuando la variable aleatoria toma como valores números enteros.
Continua, cuando la variable aleatoria puede tomar cualquier valor dentro de un
intervalo y no es posible asignar un valor entero a un resultado cualquiera del
experimento.
A los valores que puede tomar una variable aleatoria se le llama recorrido. En el caso
de las tres monedas, por ejemplo, el recorrido son los números 0, 1, 2, 3 . En el caso del
tiempo invertido por el alumno sería el intervalo  t 1, t 2  entre el mínimo valor y el máximo.
Observación. Hay variables discretas que pueden tomar infinitos valores, pero
siempre es posible contarlos o numerarlos. Por ejemplo, en el lanzamiento de un dado,
podemos preguntarnos por el la variable x = número de lanzamientos hasta que salga un . En
principio, el número de lanzamientos hasta que salga el resultado esperado puede infinito,
pero es posible contarlos. Es, por tanto, una variable discreta.
- 19 -
II. Variables discretas. Función de Probabilidad y Función de
Distribución.
Lo que viene a continuación es válido sólo para variables discretas. Y referidas a éstas
pueden definirse dos funciones que con posterioridad nos servirán para calcular parámetros
tales como la media y la desviación típica de una variable aleatoria. Tales funciones son: la
función de probabilidad y la función de distribución.
Se define función de probabilidad, f(x) , de una variable
aleatoria discreta x a toda función que asocia a cada resultado del
experimento su probabilidad de ocurrencia. Es decir:
f(x) = p(x)
Nuevamente confiemos en los ejemplos para entender las ideas.
Supongamos el lanzamiento de las tres monedas y la variable x = número
de la variable x es x = 0, 1, 2, 3 y los resultados posibles del experimento son :
de caras . El recorrido
E = CCC, CCX, CXC, CXX, XCC, XCX, XXXC, XXX .
Si llamamos f(x) a probabilidad de que el número de caras sea
Laplace, es fácil ver que estas probabilidades son:
x , entonces, aplicando la regla de
f(1) = p(1 cara ) = 38
f(3) = p(3 caras ) = 1
8
f(0) = p(0 caras ) = 1
8
f(2) = p(2 caras ) = 38
Supongamos ahora que un tirador tira dos veces seguidas a una diana y sabemos que la probabilidad de
que acierte de cada vez es de 0.6. Consideremos para este experimento la variable aleatoria
x = número de aciertos del tirador en los dos disparos, cuyo recorrido es x = 0, 1, 2
Sea ahora f(x) la función que asocia a cada valor de la variable su probabilidad de ocurrencia. Veamos,
diagrama de arbol:
1er disparo
2º disparo
0,6
0,6
0,4
0,6
0,4
0,4
Acierto
Fallo
f(0) = p(0 aciertos ) = 0.4 2 = 0.16
- 20 -
f(1) = p(1 acierto ) = 2 $ 0.6 $ 0.4 = 0.48
f(2) = p(2 aciertos ) = 0.6 2 = 0.36
En ambos casos la función f(x) es la función de probabilidad asociada a la variable x para cada uno de
los experimentos aleatorios.
Gráficamente:
4/8
0,48
3/8
0,36
2/8
0,16
1/8
0
1
2
3
caras
0
1
2
aciertos
Se define función de distribución F(x) de una variable aleatoria
discreta x a toda función que asocia a cada valor de la variable
su probabilidad de que ésta tome todos los valores menores o
iguales que x. Es decir:
F(x) = p(todos los valores menores o iguales que x
Para el caso de las tres monedas, y siendo la variable aleatoria x =
toma los valores:
número de caras , esta función
F(0) = p(x [ 0 ) = 1/8
F(1) = p(x [ 1) = p(0) + p(1) = 1/8 + 3/8 = 4/8
F(2) = p(x [ 2) = p(0) + p(1) + p(2) = 1/8 + 3/8 + 3/8 = 7/8
F(3) = p(x [ 3 ) = p(0 ) + p1) + p(2) + p(3) = 1/8 + 3/8 + 3/8 + 1/8 = 8/8 = 1
Para el caso del tirador, y siendo x =
número de aciertos , la función F(x) queda:
F(0) = p(x [ 0) = 0.16
F(1) = p(x [ 1 ) = p(0) + p(1) = 0.16 + 0.48 = 0.64
F(2) = p(x [ 2 ) = p(0) + p(1) + p(2) = 0.16 + 0.48 + 0.36 = 1
Por último, cuando para una variable aleatoria discreta hemos obtenido su función de
probabilidad y su función de distribución se dice que ha quedado determinada su distribución
de probabilidad.
Ejercicios:
- 21 -
Determinar la distribución de probabilidad (función de probabilidad y función de
distribución) en cada uno de los siguientes casos. Representar mediante un diagrama de barras
y un polígono de frecuencias los resultados obtenidos.
(a) En una urna hay siete bolas, de las cuales tres son blancas y cuatro negras. Se
extraen tres bolas sin reemplazamiento y consideramos la variable aleatoria x = ”número de
bolas negras obtenidas entre las tres extraídas”
(b) Lanzamos dos dados y analizamos la variable aleatoria x = ”suma de las
puntuaciones de los dos dados”.
(c) En el lanzamiento de 5 chichetas idénticas sea x = ”número de ellas que quedaron
con la punta hacia abajo”. Supongamos que
p(
)=0.70
y
p(
) =0.30
(d) Supongamos un dado de quinielas (tres unos, dos equis y un dos) y estudiamos la
variable aleatoria x = ”número de veces que se lanza el dado hasta obtener una equis”
III. Parámetros estadísticos: Media, Varianza y Desviación Típica
En primer lugar, se entiende por parámetro estadístico a toda cantidad que puede
obtenerse de los datos de una distribución y que son representativos de alguna propiedad de la
misma. Muchos de estos parámetros te suenan ya: media, moda, mediana, varianza ,
desviación típica; de otros, en cambio, seguramente no has oido hablar: momentos ordinarios
y centrales, coeficientes de asimetría, de Kurtosis. Pues bien, de todos los parámetros que
pueden determinarse de una distribución, dos de ellos resumen una gran parte de la
información necesaria para su interpretación. Son: su media, como una medida del valor
central de los datos, y su desviación típica, como medida de lo dispersos que están éstos
respecto del valor medio.
Por cierto, lo de media, varianza y desviación típica, tal vez, te suene raro aquí. Estos
términos suelen asociarse con la estadística descriptiva: media de altura, de pesos, de
calificaciones. Verás, sin embargo, que estos conceptos aplicados a un conjunto de datos y a
una distribución estadística están ligados de manera muy cercana.
Para mostrarlo, un ejemplo:
Supongamos que hacemos un estudio sobre el número de hijos de 15 familias, obteníendose los
resultados de la tabla:
x i =número de hijos
n i =número de familias
0
5
1
6
2
2
3
1
4
1
Si llamamos N al número total de datos (en nuestro caso 15 ), el cálculo del número medio de hijos de
las 15 familias se realiza, como sabes, de la siguiente manera:
- 22 -
x =
x i $ n i 0 $ 5 + 1 $ 6 + 2 $ 2 + 3 $ 1 + 4 $ 1 17
=
= 1, 13 hijos, de media
N =
15
15
Sin embargo, el cálculo de la media puede verse también de otro modo. Supongamos que definimos la
variable aleatoria
x =”número de hijos de una de las familias del estudio
.
El recorrido de esta variable es x =
la tabla toma los valores:
0, 1, 2, 3, 4 . y su función de probabilidad, según los datos de
f(0) = p(0 hijos ) = 5/15 = 0.33
f(1) = p(1 hijo ) = 6/15 = 0.40
f(2 ) = p(2 hijos ) = 2/15 = 0.13
f(3) = p(3 hijos ) = 1/15 = 0.07
f(4) = p(4 hijos ) = 1/15 = 0.07
Ahora, la expresión que nos da el número medio de hijos puede expresarse en términos de
probabilidad, ya que:
x =
xi $ ni
ni
( )
N = x i $ N = x i $ f x i = x i $ p(x i ) = 1, 13 hijos, de media
Resumiendo, la media de un conjunto de datos y de una distribución de probabilidad tiene un
significado equivalente y su valor es el mismo.
Así:
Llamamos media o esperanza matemática de una distribución
estadística a la suma de los productos de cada valor de la
variable por su probabilidad de ocurrencia. Se denota por la letra
griega .
= x i $ p(x i )
(1)
Lo de esperanza matemática proviene de los juegos de azar, ya que la media de una
distribución estadística también puede interpretarse como el promedio de ganancia esperado
por un jugador al apostar.
Llamamos varianza, 2 , de una distribución estadística al
valor obtenido a través de la fórmula
2 = (x i − ) 2 $ p(x i )
(2)
O en su versión más práctica para el cálculo -que no
demostraremos-:
2 = x 2i $ p(x i ) − 2
- 23 -
Por último
Llamamos desviación típica de una distribución estadística, , a
la raíz cuadrada de la varianza:
= varianza = x 2i $ p(x i ) − 2
Sobre la media nada que decir. La varianza, en cambio, merece un comentario.
Observa que su cálculo depende del valor de la diferencia al cuadrado entre cada valor de la
variable y la media de la distribución. Así pues, cuanto más alejados estén los elementos
individuales de la media mayor es la varianza. Por tanto, esta es una medida de lo dispersos
que están los datos respecto del valor medio. La varianza, sin embargo, presenta un problema
de interpretación, ya que se mide en cm 2 , segundos 2 , hijos 2 , etc Para evitar esto y poder dar
los resultados en términos de cm, segundos, hijos, etc se introduce la desviación típica como
la raíz cuadrada de la varianza. Así, todo cuadra.
Ejercicios.
1. Calcular la media y la varianza de las distribuciones de probabilidad de ejercicio del
apartado anterior. Interpretar los resultados.
IV. Distribución Binomial.
En ejercicios anteriores ya has descrito casos de distribución de probabilidad de
variables discretas. Algunas de estas distribuciones, por su importancia, tienen nombres
propios -Distribución dicotómica, binomial, geométrica, hipergeométrica, de PoissonPor ejemplo, la distribución del ejercicio (d) del apartado II, en la que nos preguntamos por el número
de veces que debemos realizar un experimento hasta obtener el resultado esperado corresponde al tipo
geométrica.
Pues bien, probablemente sea la distribución binomial, la que por su relación con el
estudio de las proporciones (proporción de jóvenes que acceden a la universidad frente a los
que no, proporción de personas que en vacaciones viajan al extranjero frente a las que no,
proporción de los que invierten en bolsa frente a los que no, etc) tiene mayor importancia en
el ámbito social.
Una distribución de probabilidad se ajusta a los parámetros de una binomial si
verifica los siguientes requisistos:
El experimento consiste en un número determinado de ensayos idénticos e independientes,
n, cada una de ellos con sólo dos resultados posibles (éxito o fracaso, a favor o en contra,
cara o cruz).
La probabilidad de éxito se designa por p y la de fracaso por q. Y dadas sus características,
se verifica
- 24 -
p+q=1oq=1−p
La variable aleatoria es x = número de éxitos en los n ensayos
Pues bien, su función de probabilidad, es decir, la que da la probabilidad de obtener
x éxitos de n ensayos viene determinada por la siguiente fórmula:
 n  x n−x
f(x) = p(x éxitos de n ensayos) = 
p $q
 x 
 n 
n!
donde el término 
es el llamadao número combinatorio.
 = (
x
x!
n
− x )!


El número medio de éxitos, , y la varianza y desviación típica, , se calculan
aplicando las fórmula (1) y (2) -que omitiremos, por resultar los cálculos algo engorrosos- ,
llegándose a los siguientes resultados:
Media
Varianza
Desv. típica
=n$p
2 = n $ p $ q
= n$p$q
Abreviadamente, a las distribuciones binomiales se las designa por B(n, p).
Una observación muy importante es que en cada uno de los ensayos de una
distribución binomial la probabilidad de éxito y de fracaso no debe cambiar. Por ejemplo, si
extraemos 10 estudiantes al azar de una universidad para preguntarles si utilizan el comedor
universitario, siendo esta proporción, antes de extraer ningún estudiante, del 35 % que sí
(éxito) y del 65 % que no (fracaso) y su respuesta ha sido afirmativa, entonces la proporción
de estudiantes de esa universidad que sí y que no utilizan el comedor universitario ha variado
ligeramente como consecuencia de la extracción de un estudiante. Siendo rigurosos y, para
que pueda hacerse el estudio a través de un distribución binomial, el individuo extraído debe
ser reinsertado nuevamente a la población para que tenga la posibilidad de ser ¡elegido
nuevamente!... No obstante, cuando la población es muy grande, como es el caso que nos
ocupa, la variación que se produce al extraer un número reducido de individuos es tan
pequeña que apenas tiene incidencia en los resultados que se obtienen y puede omitirse este
“rebuscado” procedimiento. Sacamos a los 10 individuos, y ya está.
Ejercicios.
1. Indica si cada una de las siguientes situaciones se ajustan a distribuciones binomiales...
Descríbelas y calcula en cada caso su valor medio y su desviación típica. Interpreta los
resultados.
(a) Un cazador acierta en el 65 % de los disparos que realiza. Definimos la variable
aleatoria x = ”número de aciertos en los próximos cinco disparos”.
(b) Un medicamento contra la gripe es efectivo en 8 de cada 10 enfermos. Definimos la
variable aleatoria x = ”número de enfermos curados en un grupo de 10 enfermos”
- 25 -
(c) Consideremos éxito obtener cara al lanzar una moneda. Lanzamos la moneda 7 veces
y consideramos la variable aleatoria: x = ”número de caras obtenidas en los 7
lanzamientos”
(d) En una urna en la que hay 7 bolas rojas y 5 negras, extraemos de una vez 3 bolas y
consideramos la variable aleatoria x = ”número de bolas rojas de las 3 extraídas”
(e) La probabilidad de nacimiento de niños varones en España es del 51,7 %, mientras
que la de niñas es del 48,3 %. Consideramos la variable aleatoria x = ”número de
varones en una familia con 5 hijos”
(f) En la primera evaluación -sin contar la recuperación- aprobasteis la asignatura de
matemáticas 12 alumnos de un total de 22 que estáis en clase. Sea la variable aleatoria
x = ”número de alumnos que aprobaron que las matemáticas de un grupo de 4 alumnos”.
2.-
a) ¿Cuál es la probabilidad de que el cazador del ejercicio (a) cace al menos una pieza si
un día efectuó cinco disparos?
b) ¿Y de que cace exactamente 2 piezas? ¿Y ninguna? -que también puede ser-.
3.-
a) ¿Cuál es la probabilidad de que un grupo de diez enfermos del ejercicio (b) a los que
se les suministró el medicamento todos estén curados?
b) ¿Cuál es la probabilidad de que estén curados más de la mitad de los enfermos?
4.-
a) ¿Cuántos niños y niñas (ejercicio (e)) se espera habrá entre los 1500 bebés que
nacieron en cierta ciudad el año pasado?
b) ¿Cuál es la probabilidad de que en una familia con cinco hijos sólo haya niñas?
5.- Y finalmente...
a) ¿Cuál es la probabilidad de que cuatro de vosotros elegidos al azar por Adolfo
hayáis aprobado todos las matemáticas en la primera evaluación? ¿Y al menos uno?
b) ¿Podrías hacer previsiones para la segunda evaluación con los datos disponibles?
V. Variables estadísticas continuas. Función Densidad.
Al principio del tema, al introducir el concepto de variable aleatoria, distinguiamos
entre variable discreta y continua. Hasta ahora sólo hemos tratado las primeras, las que sólo
pueden tomar valores discretos (generalmente números enteros), pero no ha aparecido ninguna
que pueda tomar cualquier valor dentro de un rango. Y esto es porque el tratamiento para este
tipo de variables -tiempos, pesos, alturas, cantidades, etc- es completamente distinto.
Un nuevo ejemplo para ilustrar lo dicho:
Supongamos nuevamente a nuestro alumno, compañero y amigo que con gran perseverancia mide y
anota cada dia el tiempo que invierte en el trayecto desde su casa al instituo. Fruto de sus anotaciones observa
que este tiempo se encuentra comprendido entre 7 y 12 minutos, es decir en el intervalo  7, 12 .Ahora bien,
¿cuántos tiempos son posibles en ese intervalo?... Te habrás percatado de que la respuesta es: ¡infinitos!. Así
pues, a priori, la probabilidad de que se de uno solo de ellos es cero (aplica la regla de Laplace: divide tu
resultado favorable entre los infinitos posibles y observa que el resultado es cero). Por tanto para la variable
- 26 -
aleatoria x = ”tiempo invertido en realizar el trayecto desde casa al instituto” no es posible construir una función
de probabilidad, puesto que la probabilidad de que ocurra cada uno de los valores posibles de la variable es
siempre nula. Pensarás con razón que algunos de los resultados sí ocurren, los que tiene anotados en su cuaderno
de tiempos. Y esto es cierto, pero a priori, incluso para esos tiempos la probabilidad de ocurrencia es cero -no me
preguntes, entonces, cómo ocurrieron, podriamos entrar en una interminable discusión sobre el infinito, tal vez
interesante, pero de la misma utilidad que los claustros y reuniones de tutores de este instituto: ninguna, y con el
pernicioso efecto secundario de agrandar el ego de quienes las presiden y disminuir en la misma proporción su
capacidad de síntesis-.
¿Cómo obtener entonces los parámetros que caracterizan la distribución, media y
desviación típica, si no disponemos de una función de probabilidad a través de la cuál realizar
los cálculos?
Nuestro amigo diria: ¡fácil!, sumo todos los tiempos que tengo anotados , los divido por el número de
anotaciones y ya tengo la media. Y para la desviación típica, elevo al cuadrado cada dato, los sumo, divido el
resultado entre el número de anotaciones y le resto el cuadrado de la media; hallo su raíz cuadrada, y ya está. es
decir aplico la fórmula:
=
x 2i $ n i − 2
n i en todos los casos vale uno, pues es muy raro que se repita un resultado.
Bien, esta forma de proceder es la correcta y sin duda es la única que conduce a los
verdaderos resultados de los parámetros media y desviación típica. Pero presenta dos
problemas:
Si el número de anotaciones fuera muy grande (como suele ocurrir cuando se tratan
problemas reales) el procedimiento no es operativo (imagina por ejemplo sumar las alturas
de todos los habitantes de un pais y dividir por el número de habitantes para determinar su
altura media).
Aunque fuera posible determinar sus parámetros, media y desviación típica, no podríamos
utilizarlos para hacer predicciones ni hipótesis sobre sus posibles cambios en el tiempo
(este será el tema del próximo capítulo de la estadística)
Así pues se hace necesario construir “algo parecido” a una función de probabilidad.
Razonamos de la siguiente manera: puesto que para un resultado cualquiera de la
variable aleatoria existen infinitos que están muy próximos a él, no tiene sentido tratarlos
como si fueran distintos y así, lo más razonable es meter dentro de un intervalo de la variable
todos aquellos cuyos valores se encuentran entre sus límites. Esto es un histograma.
Por ejemplo, puede que para nuestro compañero y alumno no represente mucha diferencia tardar
medio minuto más o menos en realizar el trayecto desde su casa al instituto, así es que decide partir el intervalo
que va de los 7 a los 12 minutos en subintervalos de longitud medio minuto y contar el número de veces cuyos
tiempos se encuentran en los intervalos construidos. Como valor representativo de cada intervalo puede tomar su
valor central. Supongamos que el resultado es el siguiente:
- 27 -
n
7
7,5
8
8,5
9
9,5 10 10,5 11 11,5 12
t
La línea que une las barras verticales se llama polígono de frecuencias y como verás más adelante
tiene su importancia.
El proceso iniciado puede acabar aquí o continuar. Si el número de datos es muy
grande ello nos permite estrechar los intervalos. Podemos, además, sustituir la frecuencia
absoluta en el eje vertical por la relativa o, su equivalente, por la probabilidad de que ocurra
un resultado en un intervalo determinado.
f
f
x
x
Observar que f en el eje vertical no hace referencia a la probabilidad de un resultado
concreto, como ocurria para variable discreta, -esta probabilidad como se dijo al principio es
cero- sino a la probabilidad por intervalo de la variable. Se trata pues de una densidad de
probabilidad, de la misma manera que hablamos de habitantes por km 2 de un país, de kg de
grano por hectárea de una explotación agrícola o de nacimientos por cada 1000 habitantes
como índice de crecimiento. Aquí se habla de probababilidad por amplitud de intervalo.
Cuando el número de intervalos es muy grande, y por tanto muy estrechos, el
polígono de frecuencias adopta la forma de una curva que representa en cada punto la altura
de la barra correspondiente. Si quitamos estas barras, que ya no son necesarias queda una
curva como la siguiente:
- 28 -
A esta y otras curvas obtenidas de esta manera se las llama funciones densidad para
variables continuas, y como tales funciones se las denota por f(x) .
Una aclaración ya mencionada. Las funciones dendisad no representan la
probabilidad de ocurrencia de un valor concreto de la variable, como ya se ha mencionado
esta probabilidad es cero, pero a partir de su forma es posible determinar la probabilidad de
que un valor se encuentre entre dos dados, puesto que todas las funciones densidad cumplen
las siguientes dos propiedades:
El área bajo la curva y el eje X entre dos valores x 1 y x 2 nos da la probabilidad de que la
variable se encuentre entre x 1 y x 2 .
probabilidad de x entre x 1 y x 2 = p(x 1 [ x [ x 2 ) = A
El área total bajo la curva entre los extremos de la función es 1.
VI. Distribución Normal.
Aunque existen funciones densidad de muy distintas formas, lo cierto es que muchos
fenómenos sociales acaban adoptando la forma de funciones teóricas conocidas. Esto es una ventaja,
pues al ser conocidas es posible determinar sus parámetros, cuantificar probabilidades y hacer
predicciones.
Entre estas funciones densidad cuya fórmula teórica es conocida, la más importante de todas
es la llamada distribución Normal o Campana de Gauss. Su importancia se debe no sólo al gran
número de fenómenos reales para los que es posible tomar como modelo esta distribución
(especialmente cualquier variable de carácter cuantitativo de casi todas las grandes poblaciones) sino
al hecho de que otras distribuciones de uso frecuente bajo ciertas condiciones tienden a distribuirse
según una normal.
Veamos sus características más importantes:
Su forma es la de una “campana” en la que el valor medio de la varible, , ocupa su valor central.
Para este valor la función toma el máximo valor. es la desviación típica de la variable. Las dos
“colas” de la función se aproximan a cero (eje X) cuanto más nos alejamos del valor central.
- 29 -
x−
− 12  
1
 (Otra vez el número e = 2, 718...)
e 
Su fórmula matemática es f(x) =
2
El área total bajo su curva es 1 -como para cualquier función densidad-, pero además se
verifica que:
En el intervalo  − , +  se encuentra el 68,4 % de los datos.
En el intervalo  − 2, + 2  se encuentran el 95,4 % de los datos
En el intervalo  − 3, + 3  se encuentran el 99,7 % de los datos.
Abreviadamente a las distribuciones normales se las designa por N  ,  .
Bien. ¿Y para qué sirve?... Vamos a ello.
Supongamos que hacemos un estudio sobre el peso de los niños recién nacidos, y que
dichos pesos se distribuyen según una normal de media y desviación típica (es lógico que
así sea: habrá un número muy grande de niños cuyos pesos estén próximos al valor medio y a
medida que nos alejamos de ese valor, tanto por exceso como por defecto el número irá
disminuyendo). Pues bien, a partir de la curva podemos asegurar que el 68,4 % de los recién
nacidos tendrá un peso comprendido entre − y + , y que, por ejemplo, un niño cuyo
peso haya sido superior a + 3 es “anormalmente gordo”, puesto que más del 99,7 % de los
niños dan un peso inferior a esa cantidad. Más aún -y esto es lo más importante- dado el peso
de un niño, podemos calcular la proporción de ellos con un peso superior -inferior- al
obtenido: para ello, basta dividir el área que queda por encima -por debajo- de ese peso entre
el área total de la curva, que como se ha dicho es 1. Pero esto no podemos hacerlo
directamente, antes hay que tipificar la variable.
Un niño da un peso de 4,200 kg, el valor medio establecido en estudios previos fue de
3,750 kg () y la desviación típica de 0,420 kg (), ajustándose los datos a una distribución
normal N(3, 750; 0, 420 ). ¿Son muchos los niños con un peso igual o superior a 4,200 kg?
Para saberlo situamos este valor en la curva y señalamos el área que queda a su derecha. La
razón entre esta área y la total bajo la curva -que es 1- es precisamente esa proporción.
- 30 -
Sin embargo, estos cálculos no pueden hacerse sobre la distribución de los recién
nacidos pues desconocemos el área a la derecha del valor x = 4, 200 kg. Don’t worry!, existe
una distribución normal de media = 0 y = 1, idéntica a cualquier otra distribución normal
pero cuyas áreas están calculadas y recogidas en una tabla para cualquier valor de x . Así es
que lo único que debemos hacer es determinar sobre esa distribución N(0, 1), el valor
equivalente a nuestro 4,200 kg, y buscar en la tabla el valor del área correspondiente (hay
unas reglas de cálculo que vistes el año pasado y que repasaremos este año). A este proceso se
le denomina tipificar la variable.
Si x = 4, 200 kg es el valor que queremos tipificar y llamamos z al valor de su
equivalente en la distribución N(0, 1), entonces
z=
nos da el valor de: z =
x−
(fórmula que tipifica a x )
4, 200 − 3, 750
= 1, 07
0, 420
el cuál, buscado en la tabla, y aplicando las reglas de cálculo da una proporción de:
p(z m 1, 07) = 1 − 0.8577 = 0.1423
Es decir, el 14,23 % de los niños tendrán un peso igual o superior a 4,200 kg
- 31 -
Ejercicios.
1. Las puntuaciones obtenidas en un test de aptitudes aplicado cada año a estudiantes
universitarios siguen una distribución N(500, 100)
a) ¿Qué porcentaje de estudiantes universitarios se espera que obtengan puntuaciones
entre 500 y 675?
b) ¿Qué porcentaje de etudiantes se espera que logran puntuaciones superiores a 630?
c) ¿Qué probabilidad hay de que un estudiante elgido al azar tenga una puntuación
superior a 700?
2. Supongamos que la altura de las personas con edades comprendidas entre 20 y 30 años se
distribuye normalmente con media 1,65 metros y desviación típica 0,15 metros.
Si consideramos que una persona es alta si mide más de 1,80 metros, ¿qué número de
personas altas se espera que haya en un grupo de 2.000 individuos con edades
comprendidas entre los 20 y 30 años?
3. Si se multiplica una variable con distribución normal por una constante, se obtiene otra
variable con distribución normal, cuyas medias y desviación típica quedan multiplicadas por
dicha constante.
x d N  ,  entonces kx d N(k, k)
Según esto, calcula la probabilidad que tiene una empresa de ingresar por ventas más de
20.000 euros, cuyo producto tiene una demanda que sigue una distribución normal
N(5.000, 250) si el precio de venta al públco de cada unidad es de 3,6 euros.
4. Si se suman o restan dos variables aleatorias que presentan distribución normal, se obtiene
otra variable aleatoria con distribución normal cuya media es la suma o resta de las medias y
cuya varianza es la suma de las varianzas:
x d N  1 , 1 
d
x + y d N( 1 ! 2 , 21 + 22 )
y d N  2 , 2 
Una tienda vende dos productos. El primero de ellos tiene una demanda diaria que se
distribuye según una ley normal de media 200 unidades y desviación típica 30, y se vende a 5
euros la unidad. El segundo producto tiene una demanda diaria de 60 unidades, con una
desviación típica de 4 unidades, y se vende a 20 euros la unidad.
a) Halla la probabilidad de que un día, las ventas de ambos productos superen los
2.370 euros.
b) Halla la probabilidad de que un día las ventas del primer producto sean superiores a
las del segundo producto.
- 32 -
VII. Convergencia de la distribución binomial hacia la normal
Son muchas las distribuciones de probabilidad de variable discreta en las que al
aumentar el número de ensayos se comportan como una distribución normal. Así, se puede
comprobar que las distribuciones binomiales B(n, p) si n es los suficientemente grande y p no
está próximo a 0 ni a 1, se aproximan a una normal de media = np y desviación típica
= npq . Es decir:
B  n, p  d N  np, npq 
Generalmente se
n m 30 , np m 5 y np m 5
admite
que
la
aproximación
es
aceptable
cuando
La aproximación es tanto mejor cuanto mayor es el número de pruebas n y cuanto más
próximos a 0.5 sea el valor de la probabilidad p.
En las gráficas siguientes se muestra esta aproximación para algunas binomiales. Las
lineas verticales son los resultados de la distribución binomial y la curva continua la
aproximación de la correspondiente distribución normal.
De ellas se observa que el mejor ajuste se da para la binomial B(30, 0.5), cuyo ajuste a
la normal de media = 30 $ 0.5 = 15 y desviación típica = 30 $ 0.5 $ 0.5 = 2, 72 es casi
perfecto.
Ejercicios
- 33 -
1. El cinco por ciento de las bombillas fabricadas salen defectuosas. Si se extrae una muestra
de 2.000 bombillas, halla la probabilidad de que dicha muestra contenga más de 120
bombillas defectuosas.
2. Durante cierta epidemia de gripe enferma el 20 % de la población. En un centro escolar con
350 alumnos,
a) ¿Cuál es la probabilidad de haya exactamente 50 alumnos que pasen la gripe?
b) ¿Y la probabilidad de que haya al menos 40 alumnos?
c) ¿Y la probabilidad de que haya entre 40 y 60 alumnos?
3. En un país, la tasa de paro de la población es de 8,5 %. Si se toma una muestra de 50
individuos, ¿cuál es la probabilidad de que en la muestra haya un número de parados menor o
igual que 4? Efectúa los cálculos mediante la distribución binomial y aproximando mediante
la normal. Compara los resultados.
En la misma muestra cuál es la probabilidad de que el número de parados sea superior a 10.
- 34 -
- 35 -