Download 01 Capitulo 1 - Sisbib

Document related concepts

Estadístico muestral wikipedia , lookup

Varianza wikipedia , lookup

Distribución t de Student wikipedia , lookup

Muestra estadística wikipedia , lookup

Variable aleatoria wikipedia , lookup

Transcript
Capítulo I
Aspectos generales de
Probabilidades y Variables Aleatorias
Probabilidades
En este capítulo se introduce el concepto de la probabilidad, tópico necesario para la compresión de temas a desarrollarse en
los capítulos posteriores.
Bernoulli fue el primero en estudiar la teoría de la probabilidad en forma sistemática con un enfoque científico; observando
los resultados del lanzamiento de una moneda un número grande de veces, notó que el número de caras y el número de sellos
tendían a ser iguales. Es decir, que la frecuencia relativa de la
obtención de caras se acercaba más a la frecuencia relativa de
sellos, cuanto mayor era el número de lanzamientos. O bien,
ambas frecuencias relativas se parecían cada vez más a 0.5. Otro
tanto le ocurría en el lanzamiento de dados: la frecuencia relativa de un 4 tendía a 1/6. Repitió una y otra vez este tipo de experimentos con monedas, dados y cartas, y siempre llegaba a la
misma conclusión. Imaginó haber encontrado un fenómeno más
general y así dio comienzo a la teoría de probabilidades. Sus resultados teóricos se correspondían razonablemente con la realidad. Sin embargo, debe marcarse siempre una clara distinción
entre los resultados empíricos y los teóricos. El uso de la teoría de
la probabilidad se inició en los albores del siglo XVII, haciéndose
popular entre los “geometras” de aquel entonces, hoy se emplea
en el campo de los seguros, control de calidad, genética, mecánica estadística y muchos más.
[15]
13
La teoría de la Probabilidad se constituye en el fundamento
de la inferencia estadística, en este capítulo se estudiarán sólo
los conceptos básicos, con el objetivo de brindar al lector los métodos fundamentales y necesarios para comprender la inferencia estadística.
Puede señalarse que el concepto de probabilidad está implícito en distintas situaciones. Por ejemplo: en las encuestas de opinión donde se indican las posibilidades que tendría determinado
candidato de ganar las elecciones; en el campo de la educación
primaria se puede afirmar que la deserción escolar es de un 65%
en zonas marginales; la posibilidad de que un alimento esté contaminado es del 50%; la posibilidad de que una estudiante de secundaria quede embarazada es del 20%, etc.
Los investigadores del área de educación y de ciencias sociales continuamente se preguntan si los resultados de sus investigaciones se deben a la casualidad o son el producto de la influencia de diversos factores. Por ejemplo, se emplean dos métodos de enseñanza, el método A y el método B con la finalidad de
comparar el número de alumnos desaprobados; al término del
curso se conoce que el grupo que estudió con el método A, tres de
cada diez estudiantes desaprueban y el grupo que estudió con el
método B uno de cada diez estudiantes desaprueban. ¿Puede afirmarse que el método A es mejor que el método B?. Esta y otras
preguntas pueden responderse a través de la aplicación de los
conceptos y leyes de la probabilidad.
A continuación se definirán algunos términos importantes:
• Experimento aleatorio
Es todo proceso que se puede repetir indefinidamente obteniéndose resultados no previsibles. Por ejemplo, el experimento
de elegir un estudiante al azar y observar el grado de instrucción
del padre.
• Espacio muestral
El espacio muestral asociado a un experimento aleatorio, es
el conjunto de todos los posibles resultados de un experimento.
14
El espacio muestral lo denotaremos por Ω. Por ejemplo, en el caso
del experimento de seleccionar un niño al azar y observar el grado de instrucción del padre los resultados posibles se pueden representar en el conjunto:
Ω={sin instrucción, primaria, secundaria,
superior universitaria}
• Evento o suceso
Cada uno de los resultados de un experimento aleatorio, es
denominado evento o suceso. Un evento E es un elemento o subconjunto de elementos del espacio muestral Ω. Por ejemplo, al seleccionar un alumno y registrar el grado de instrucción del padre
en este caso una de las posibilidades es que el padre tenga instrucción superior , en este caso se define el evento: E1={padre con
instrucción superior}.
• Eventos mutuamente excluyentes
Dos o más eventos son mutuamente excluyentes, si la ocurrencia de un evento implica la no ocurrencia de cualquier otro
evento. Por ejemplo, en el espacio muestral Ω, los eventos
E1={padre con instrucción superior} y E2={padre con instrucción
primaria}, son eventos mutuamente excluyentes.
A continuación se presentará el concepto de probabilidad
en tres perspectivas: probabilidad clásica, probabilidad como frecuencia relativa, probabilidad subjetiva .
Probabilidad clásica
La probabilidad clásica se remonta al siglo XVII en los trabajos
de los matemáticos Pascal y Fermat, y se presenta a través de la
siguiente definición.
Si un experimento aleatorio produce N resultados igualmente probables y mutuamente excluyentes, y si dentro de estos N
resultados el evento E ocurre m veces, la probabilidad de ocurrencia del evento E es igual a m/N.
15
Esta definición se expresa como
P (E ) =
m
N
Se lee: la probabilidad de que ocurra el evento E es igual a m
entre N.
Probabilidad según el concepto de frecuencia relativa
El enfoque de frecuencia relativa de probabilidad está relacionado a un número grande de veces que se repite un experimento
digamos, n veces, y si algún evento E ocurre un número m de
veces la frecuencia relativa de la ocurrencia del evento E m ,
n
estima la probabilidad de ocurrencia del evento E.
La expresión es la siguiente:
P (E ) =
m
n
Esta interpretación de probabilidad como frecuencia relativa depende de la idea de regularidad estadística, que establece
que las frecuencias relativas tienden a estabilizarse y a aproximarse a un valor fijo después de repetir el experimento un gran
número de veces. Por ejemplo, en un Centro de Salud de Lima
nacieron 2,000 niños, intuitivamente puede decirse que la probabilidad de nacimiento de un niño es igual a la probabilidad de
nacimiento de una niña, es decir 0.50. El experimento consiste en
observar en forma secuencial los nacimientos. En base a esta información se organiza la siguiente tabla, en la cual la segunda
columna contiene el número de niñas nacidas en cada 100 nacimientos. Se define el evento E:{nacimiento de una niña}.
Puede observarse que las frecuencias relativas tienden a "estabilizarse" y a aproximarse a 0,50 después de un gran número
de repeticiones de un experimento, aun cuando al inicio de la
secuencia se observa una considerable fluctuación. Este comportamiento de las frecuencias relativas se ha comprobado experimentalmente muchas veces.
16
Número de niñas observada en una secuencia de 2,000 nacimientos
NÚMERODE
NACIMIENTOS
1-100
101-200
201-300
301-400
401-500
501-600
601-700
701-800
801-900
901-1000
1001-1100
1101-1200
1201-1300
1301-1400
1401-1500
1501-1600
1601-1700
1701-1800
1801-1900
1901-2000
NÚMERODE
NIÑAS
X
55
46
47
50
41
51
51
42
46
55
50
56
50
48
51
52
45
56
58
40
NÚMERO
ACUMULADO
ni
55
101
148
198
239
290
341
383
429
484
534
590
640
688
739
791
836
892
950
990
ni/N
0,5500
0,5050
0,4933
0,4950
0,4780
0,4833
0,4871
0,4788
0,4767
0,4840
0,4855
0,4917
0,4923
0,4914
0,4927
0,4938
0,4918
0,4956
0,5000
0,4950
17
Probabilidad subjetiva
Existen diversas situaciones en las cuales la probabilidad de ocurrencia de un evento no puede ser calculada de acuerdo a los
métodos anteriores. A través de estos métodos no es posible por
ejemplo calcular la probabilidad de que en los próximos 10 años
se reduzca la contaminación ambiental en la Tierra o que se elimine la hepatitis B en los escolares de la selva peruana. La magnitud de la probabilidad que una persona asigna subjetivamente
a un evento está en relación al grado de seguridad que esa persona tiene en la ocurrencia del evento. La probabilidad subjetiva
no depende de la posibilidad de repetición de un experimento.
Axiomas de probabilidad
Los axiomas de probabilidad garantizan que las probabilidades
asignadas a los eventos puedan interpretarse como frecuencias
relativas. Los axiomas no determinan las probabilidades, estas
se asignan de acuerdo al conocimiento del sistema estudiado. Los
siguientes axiomas propuestos por Kolmogorov, facilitan el cálculo de probabilidades de algunos eventos a partir del conocimiento de las probabilidades de otros eventos.
Si Ω es el espacio muestral asociado a un experimento y E es
cualquier evento del espacio muestral, se cumple:
i) P(Ω)=1
ii) 0≤P(E) ≤1
iii) Para dos eventos E1 y E2 definidos en W, con E1 ∪ E2 =φ,
se cumple que:
P(E1 ∪ E2 ) = P(E1)+P(E2).
Los axiomas de probabilidad y las propiedades derivadas de
estos se limitan a la asignación de probabilidades de manera tal
que es concordante interpretar éstas como frecuencia relativa.
Como consecuencia de los axiomas anteriores se presentan las
siguientes propiedades.
18
Propiedades
1. P(f)=0, donde f es el conjunto vacío.
2. Para cualquier evento E
P(Ec)=1-P(E), donde Ec es el
complemento del evento E.
3. Si el evento E1 ⊂ E2
P(E1) £ P(E2).
Ejemplo 1.1
Un centro educativo convoca a concurso la plaza de director del
colegio y recibe 25 solicitudes para desempeñar este cargo. Quince de los postulantes al cargo son hombres y diez son mujeres.
Cinco de ellos tienen el grado de doctor y veinte el grado de magister. Un postulante es elegido aleatoriamente entre los veinticinco. Los evaluadores se formulan las siguientes preguntas:
a)
b)
c)
¿Cuál es la probabilidad de que el postulante seleccionado
sea una mujer?
¿Cuál es la probabilidad de que el postulante seleccionado
tenga el grado de doctor?
¿Cuál es la probabilidad de que postulante seleccionado tenga el grado de magister y sea hombre?
Vamos a responder las preguntas planteadas.
Solución
La información relacionada al sexo y grado académico de los
postulantes es la siguiente:
Distribución de los 25 postulantes al cargo de director por sexo y grado académico
Sexo
Grado académico
Total
Magister
Doctor
Femenino
Masculino
8
12
2
3
10
15
Total
20
5
25
19
a)
El experimento consiste en seleccionar aleatoriamente a un
postulante y observar su sexo, los posibles resultados son hombre o mujer. Entonces Ω1 = { E1, E2 } donde:
E1: Mujer
y
E2: Hombre.
La probabilidad de que el postulante seleccionado sea mujer es,
P( E1 ) =
n( E1 ) 10
=
= 0.4
n
25
b)
El experimento consiste en seleccionar aleatoriamente a un
postulante y observar su grado académico. Los posibles resultados son magister o doctor. Entonces Ω2 ={ F1, F2 } donde: F1: Magister y F2: Doctor.
La probabilidad de que el postulante seleccionado tenga el
grado de doctor es,
P( F1 ) =
c)
n( F1 ) 5
=
= 0.2
n
25
El experimento consiste en seleccionar aleatoriamente a un
postulante y observar sexo y grado académico simultáneamente.
E1 ∩ F1: Mujer con grado de magíster
E1 ∩ F2: Mujer con grado de doctor
E2 ∩ F1: Hombre con grado de magíster
E2 ∩ F2: Hombre con grado de doctor
n(E1 ∩ F1)=8
n(E1 ∩ F2)=2
n(E2 ∩ F1)=12
n(E2 ∩ F2)= 3
La probabilidad de que el postulante seleccionado sea hombre y tenga el grado de magister es,
P ( E2 ∩ F1 ) =
20
n( E2 ∩ F1 ) 12
=
= 0.48
n
25
Variables aleatorias
Dado un experimento aleatorio al que se le asocia un espacio muestral Ω, una función X que asigna a cada elemento de ω en Ω uno y
sólo un número real X(ω)=x es llamada variable aleatoria. Esa decir, el dominio de la función es el espacio muestral Ω y el rango es
el conjunto de números reales.
Las variables aleatorias pueden ser clasificadas como discretas o continuas. Se dice que es discreta si tiene un rango finito
o infinito numerable y es continua si tiene un rango que contiene
un intervalo de números reales. Este intervalo puede ser finito o
infinito
Ejemplos de variables aleatorias discretas:
X:
X:
X:
X:
Número de libros solicitados en una biblioteca.
Número de cursos a implementarse en un semestre académico.
Número de alumnos matriculados en el curso de Filosofía.
Número de computadoras en red del laboratorio de informática.
Ejemplos de variables aleatorias continuas:
X:
X:
X:
Tiempo dedicado a la revisión bibliográfica.
Diámetro de un disco compacto.
Tiempo de espera en el banco para efectuar el pago de matrícula.
Ejemplo 1.2
Un alumno es seleccionado aleatoriamente y se observa si está aprobado o desaprobado. El espacio muestral es Ω = {apro-
21
bado, desaprobado} = {A,D}. Consideremos X como una función definida sobre Ω tal que X(D) = 0 y X(A) = 1. Así, X es
una función real valorada que tiene como dominio al espacio
muestral Ω y como rango al conjunto de números reales {x:
x=0,1}.
Variable aleatoria discreta y su distribución de probabilidad
La distribución de probabilidad de una variable aleatoria discre-
(
)
ta, X , es el conjunto de pares x, p ( x) ; donde:
x representa a un valor observado de la variable aleatoria y
p( x) = P(X = x ) representa la correspondiente probabilidad y
es la fracción de veces que puede esperarse que x ocurra y cum-
ple con las siguientes propiedades:
i) 0 ≤ p( x) ≤ 1
ii )
∑ p( x) = 1
Ejemplo 1.3
Una biblioteca que cuenta con un total de 4270 libros, clasifica estos libros según el número de hojas deterioradas.
En este caso la variable aleatoria en estudio es X: Número de
hojas deterioradas encontradas en un libro. Esta es una variable
aleatoria discreta y el rango de posibles valores de X puede ser
Rx = {0,1,2,....,12} si el número máximo de hojas deterioradas es
12. Vamos a encontrar la distribución de probabilidad del número de hojas deterioradas.
En la siguiente tabla se presenta las frecuencias encontradas
según el número de hojas deterioradas.
22
Número de hojas
deterioradas
X
Número de
libros
f
i
0
1
2
3
4
5
6
7
8
9
10
11
12
1.394
1.369
803
357
201
71
36
18
9
5
3
3
1
TOTAL
4.270
Por ejemplo, puede decirse que de un total de 4.270 libros se
han encontrado, 1.394 que no contienen ninguna hoja deteriorada, 36 libros con 6 hojas deterioradas, etc.
Solución
Vamos a presentar la distribución de probabilidad de la variable
aleatoria, número de hojas deterioradas.
Las probabilidades p ( x ) = P (X = x ), son calculadas dividiendo sus respectivas frecuencias absolutas entre el total. Por
ejemplo,
1.394
= 0,3265
4.270
1.369
= 0,3206
p(1) = P (X = 1) =
4.270
.
.
1
= 0,0002
p(12) = P (X = 12 ) =
4.270
p ( 0) = P ( X = 0 ) =
23
Los resultados se presentan en la siguiente tabla
En baseNúmero
al conocimiento
de hojas de la distribución
P( X = x )de probabilidad,
deterioradas
pueden formularse
algunas preguntas, las que respondemos directamente.
i)
0
0,3265
1
0,3206
¿Cuál es la probabilidad
de que un 0,1881
libro seleccionado alea2
toriamente contenga
exactamente
4
hojas deterioradas?.
3
0,0836
4
0,0471
5
0,0166
6
0,0084
7
0,0042
8
0,0021
9
0,0012
10
0,0007
11
0,0007
12
0,0002
TOTAL
1,0000
Solución: Se observa la última tabla y la probabilidad es:
P (X = 4 ) = 0,0471
ii)
¿Cuál es la probabilidad de que un libro seleccionado aleatoriamente contenga exactamente 6 hojas deterioradas?.
Solución: Se observa la última tabla y la probabilidad es:
P (X = 6 ) = 0,0084
Función de distribución
La función de distribución está definida como la probabilidad de
que la variable aleatoria X tome un valor inferior o igual a x , es
decir:
F ( x ) = P (X ≤ x )
24
A continuación se presenta la función de distribución y su
respectiva representación gráfica para el Ejemplo 1.3.
Fig. 2. Representación gráfica de la función de distribución
Así,
F ( x ) = P( X ≤ x )
Número de hojas
deterioradas
0
1
2
3
4
5
6
7
8
9
10
11
12
0,3265
0,6471
0,8352
0,9188
0,9659
0,9825
0,9909
0,9951
0,9972
0,9984
0,9991
0,9998
1,0000
F ( 0) = P ( X ≤ 0) = 0.3265
.
.
Función de distribución
F(x)
F (1) = P ( X ≤
1) = P ( X = 0) + P( X = 1) = 0.6471
1.0000
0.8000
.
F (12) = P ( X ≤ 12) = P ( X = 0) + P ( X = 1)... + P( X = 12) = 1
0.6000
0.4000
0
4
nº libros
8
12
25
La función de distribución es expresada de la siguiente forma:
0,
0.3265,

0.6471,

0.8352,
0.9188,

0.9659,
0.9825,
F ( x ) = P( X ≤ x ) = 
0.9909,
0.9951,

0.9972,
0.9984,

0.9991,
0.9998,

1.0000,
x<0
0 ≤ x <1
1≤ x < 2
2≤ x<3
3≤ x < 4
4≤ x<5
5≤ x <6
6≤ x<7
7≤ x<8
8≤ x<9
9 ≤ x < 10
10 ≤ x < 11
11 ≤ x < 12
x ≥ 12
F( x ) , también es llamada función escalera.
Ejemplo 1.4
En base a la distribución de probabilidad encontrada vamos a
responder algunas preguntas.
i)
¿Cuál es la probabilidad de que un libro seleccionado aleatoriamente a lo más contenga dos hojas deterioradas?
Solución: Observamos la tabla anterior y la probabilidad
es:
P (X ≤ 2 ) = P (X = 0) + P (X = 1) + P (X = 2 ) = 0.3265 + 0.3206 + 0.188 = 0.8352
ii) ¿Cuál es la probabilidad de que un libro seleccionado alea-
26
toriamente tenga entre 4 y 7 hojas deterioradas inclusive?
Solución: Para obtener la probabilidad se calcula:
P (4 ≤ X ≤ 7 ) = P (X ≤ 7 ) − P (X ≤ 3)
= 0.9951 − 0.9188
0.0763
Media, varianza y desviación estándar
La media de una variable aleatoria discreta X (media de la distribución) se define por:
ì = E ( X ) = ∑ xp ( x )
La varianza de una variable aleatoria discreta X (varianza
de la distribución) se define por:
σ 2 = Var( X ) = E (X − µ )2
La desviación estándar es la raíz cuadrada de la varianza,
[
σ = Var ( X ) = E (X − ì )
2
]
Ejemplo 1.5
En relación al ejemplo 1.3 se obtendrá la media, la varianza y la
desviación estándar.
Solución
Media:
12
ì = ∑ xp ( x ) = 0(0.3265) + 1(0.3206) + ... + 12(0.0002) = 1.3435
x =0
y puede decirse que el número promedio es de 1 hoja dete-
27
riorada.
Varianza: En la siguiente tabla se presentan los cálculos auxiliares para encontrar el valor de la varianza
σ 2 = 3.923 − (1.3435) 2 = 2.118 y el valor de la desviación estándar σ = 1.455 .
A continuación se presentan las distribuciones especiales:
Bernoulli y Binomial.
Distribución de Bernoulli
La distribución de Bernoulli caracteriza a una variable aleatoria
con dos posibles resultados y con probabilidad de ocurrencia consNúmero de hojas
deterioradas x
p(x)
x p(x)
x 2 p(x)
0
1
2
3
4
5
6
7
8
9
10
11
12
0.3265
0.3206
0.1881
0.0836
0.0471
0.0166
0.0084
0.0042
0.0021
0.0012
0.0007
0.0007
0.0002
0.0000
0.3206
0.3762
0.2508
0.1884
0.0830
0.0504
0.0294
0.0168
0.0108
0.0070
0.0077
0.0024
0.0000
0.3206
0.7522
0.7525
0.7532
0.4157
0.3035
0.2066
0.1349
0.0948
0.0703
0.0850
0.0288
1.0000
1.3435
3.9230
TOTAL
tante. Típicamente cada uno de estos resultados, representan un
«éxito» (x=1) o un «fracaso» (x=0).
Definición. Una variable aleatoria X, tiene una distribución
28
de Bernoulli si su distribución de probabilidad está dada por:
 p x( 1 − p)1 − x ; x = 0,1
0 ≤ p ≤1
P ( X = x) = 
0
; cualquier otro caso
donde p es la probabilidad de «éxito» y 1-p la probabilidad
de «fracaso», es decir:
P( X = 1 ) = p1( 1 − p)1−1 = p
P ( X = 0 ) = p 0( 1 − p)1−0 = 1 − p
Una variable aleatoria con distribución Bernoulli puede ser
utilizada para modelar situaciones como la siguiente:
•
•
•
Ante una promoción de becas de estudios de computación
un individuo puede aceptar o no la promoción.
Un analista clínico evalúa a un paciente y podrá clasificarlo
como inmune o no a una determinada enfermedad.
Un artículo puede ser clasificado como defectuoso o no
defectuoso después de haber sido sometido a un control de
calidad.
Esperanza y varianza
La media y varianza de una variable aleatoria con distribución
de Bernoulli están definidas por:
E( X ) = p , 0 ≤ p ≤ 1
Var( X ) = p (1 − p ) = pq
Distribución binomial
La distribución Binomial es de importancia porque sirve para
modelar muchas situaciones de la vida real. Se basa en n ensayos independientes de Bernoulli, cada ensayo con dos posibles
resultados y la probabilidad de éxito p permanece constante en
cada prueba o ensayo. La variable aleatoria estudiada es el nú29
mero de éxitos en n pruebas independientes.
Formalizando, se dice que una variable aleatoria, tiene una
distribución Binomial si su distribución de probabilidad está dada
por:
 n  x
n−x
; x = 0 ,1,.., n
  p ( 1 − p)
P ( X = x) =  x 
0
;c.c

donde:
X : representa el número total de «éxitos» en los n ensayos.
La media y varianza de la variable aleatoria son:
E ( X ) = np
Var ( X ) = npq
Ejemplo 1.6
Históricamente, la probabilidad de que un alumno de maestría
en educación desapruebe el curso de metodología de la investigación es p = 0.45. Se obtiene una muestra aleatoria de 6 estudiantes de maestría que llevan el curso de metodología de la investigación y vamos a encontrar:
a)
b)
c)
d)
El número esperado de alumnos que desaprueban el curso.
La probabilidad de que exactamente tres alumnos desaprueben el curso.
La probabilidad que a lo más dos alumnos desaprueben el
curso.
Por lo menos cinco alumnos desaprueben el curso
Solución
n=6
p = 0.45
X : número de alumnos desaprobados {0,1,...,6} y la distribución
de probabilidad de la variable es:
30
6
6− x
P (X = x ) =  0.45x (0.55) x = {0,1,...,6} Así:
x
 
 6
6− 0
P(X = 0 ) =  0.450 (0.55) = 0.0277
0
 
 6
6 −1
P(X = 1) =  0.451 (0.55) = 0.1359
1
 
6
6− 2
P(X = 2 ) =  0.452 (0.55) = 0.2780
 2
 6
6−3
P(X = 3) =  0.453 (0.55) = 0.3032
 3
6
6− 4
P(X = 4 ) =  0.454 (0.55) = 0.1861
4
 
 6
6 −5
P(X = 5) =  0.455 (0.55) = 0.0609
5
 6
6− 6
P(X = 6 ) =  0.456 (0.55) = 0.0083
 6
a)
El número esperado de alumnos desaprobados es:
6
E ( X ) = ∑ xP( X = x)
x =0
= 0 p(0) + 1 p(1) + 2 p(2) + 3 p(3) + 4 p(4) + 5 p(5) + 6 p(6)
= 0(0.0277) + 1(0.1359) + 2(0.2780) + 3(0.3032) + 4(0.1861)
+ 5(0.0609) + 6(0.0083)
= 0 + 0.1359 + 0.5560 + 0.9096 + 0.7444 + 0.3045 + 0.04898
= 2.7002
Se espera encontrar aproximadamente tres desaprobados.
b)
c)
P(X=3) = 0.3032
P(X≤2) = P(X=0)+P(X=1)+P(X=2)=0.0277+0.1359+0.2780 = 0.4416
d)
P(X≥5) = 1-P(X£4) =1-[ P(X=0)+P(X=1)+P(X=2)+P(X=3)+ P(X=4)]
= 1 - [0.0277+0.1359+0.2780+0.3032+0.1861]
= 1-0.9309
31
= 0.0691
Distribución de probabilidad de una variable continua
Una variable aleatoria continua es aquella que puede asumir
cualquier valor en un intervalo específico de valores. En consecuencia, entre dos valores cualesquiera asumidos por la variable
aleatoria continua existe un número infinito de valores.
Definición
Una función no negativa ƒ(x) se llama función de densidad de
probabilidad de la variable aleatoria X, sí el área total delimitada por su curva y el eje de las x, es igual a 1 y sí la subárea delimitada por la curva, el eje de las x, y por las líneas perpendiculares
levantadas sobre dos puntos cualesquiera a y b da la probabilidad de que X esté entre los puntos a y b.
Distribución normal
Una de las distribuciones teóricas más estudiadas en los textos
de estadística y más utilizada en la práctica es la distribución
normal, también llamada distribución gaussiana. Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y cotidianos
siguen, aproximadamente, esta distribución. Caracteres morfológicos (como la talla o el peso), o psicológicos (como el cociente
intelectual) son ejemplos de variables de las que frecuentemente
se asume que siguen una distribución normal. El uso extendido
de la distribución normal en las aplicaciones estadísticas puede
explicarse, además, por otras razones. Muchos de los procedimientos estadísticos habitualmente utilizados suponen normalidad de
los datos observados. La simple exploración visual de los datos
puede sugerir la forma de su distribución. No obstante, existen
otras medidas, gráficos de normalidad y contrastes de hipótesis
que pueden ayudarnos a decidir, de un modo más riguroso, si la
32
muestra de la que se dispone procede o no de una distribución
normal. Cuando los datos no siguen una distribución normal, podremos o bien transformarlos o emplear métodos estadísticos no
paramétricos.
Definición
Una variable aleatoria continua, tiene una distribución normal
si su función de densidad de probabilidad está dada por:
1  x −µ 

σ 
− 
1
f ( x) =
e 2
2ð σ
2
,− ∞ <
x < ∞, − ∞ < ì < ∞,ó > 0
que determina la curva en forma de campana. Así, se dice
que una variable aleatoria X sigue una distribución normal con
media µ y varianza σ2.
Notación: X ~ N
(µ,σ )
2
La distribución normal posee ciertas propiedades importantes destacando las siguientes:
•
•
•
El área total bajo la curva y por encima del eje horizontal es
igual a 1.
La distribución es simétrica respecto de su media.
La media, mediana y moda son iguales.
33
La distancia entre la recta x = µ y el punto de inflexión de la
curva es igual a σ.
La distribución normal constituye realmente una «familia»
de distribuciones, puesto que para cada valor de µ y σ existe
una distribución diferente.
La curva de la distribución normal se extiende de -∞ hasta +∞.
Si levantamos perpendiculares entre:
•
•
•
•
Si una variable aleatoria X tiene una distribución normal, pueden calcularse las probabilidades de que X tome valores entre a y
b, P(a ≤ X ≤ b). Puesto que X es una variable aleatoria continua P(a
≤ X ≤ b) = P(a < X < b)
Distribución normal estándar
µ-σ y µ-σ
corresponde aproximadamente al 68.3% del área total.
µ - 2σ y µ - 2σ
corresponde aproximadamente 95.4% del área total.
µ - 3σ y µ - 3σ
corresponde aproximadamente 99.7% del área total.
Corresponde a una variable con distribución normal con media 0
y varianza 1:
f ( z) =
1
e
2ð
1
− z2
2
y cuyas probabilidades P(Z ≤ z) están tabuladas en la denominada tabla normal.
Estandarización de una variable con distribución normal
Una variable aleatoria X con distribución normal con media µ y
varianza σ2 puede ser transformada en una variable normal estándar:
34
X ~ N (ì, σ ) ⇒ Z =
X −ì
~ N (0,1)
σ
Las áreas de la distribución normal estándar corresponden
a probabilidades que se encuentran tabuladas. En la Tabla A del
Apéndice se presentan las áreas bajo la curva entre -∞ y z0, es
decir P(Z ≤ z0).
Ejemplo 1.7
Vamos a determinar las siguientes probabilidades:
a)
P(Z<1.45)
b)
P(-1.2< Z < 2.1)
c)
P( Z > 1.75)
d)
¿Cuál es el valor de z 0 si P( Z < z 0 ) = 0.9505
Solución
a)
En la Tabla A se encuentra el área acumulada hasta 1.45,
esta corresponde al valor de la siguiente probabilidad
P(Z<1.45) = 0.9265.
Asimismo, el SPSS nos proporciona estas probabilidades:
•
Ingresar al EDITOR DATA y accesar a TRANSFORM y luego COMPUTE
•
Muestra la pantalla COMPUTE VARIABLE y se escoge la función CDF.Normal(zvalue) con parámetros media «0» y varianza «1».
35
•
Se obtiene la probabilidad requerida.
Z = 1.45
b)
σ2 = 1
P(-1.2< Z < 2.1) = P(Z< 2.1) - P(Z<-1.2) = P(Z< 2.1) + P(Z<1.2) - 1
= 0.9821 + 0.8849 –1
µ=0
= 0.8670.
c)
36
P( Z > 1.75) = 1- P( Z < 1.75) = 1- 0.9599 = 0.0401.
d)
En la Tabla A, para obtener z0 donde P(Z< z0) =0.9265, se ubica el valor de la probabilidad en este caso 0.9505 y el cuantil
correspondiente es 1.65.
Ejemplo 1.8
Supongamos que se sabe que el peso de una población de alumnos que practican natación sigue una distribución normal, con
una media de 63 Kg y una desviación estándar de 10 Kg. si se
elige aleatoriamente un estudiante, vamos a responder las siguientes preguntas:
a)
b)
c)
¿Cuál es la probabilidad que tenga más de 69 Kg de peso?.
¿Cuál es la probabilidad que tenga menos de 58 Kg de peso?.
¿Cuál es la probabilidad que un alumno elegido al azar, tenga entre 60 y 65 Kg?.
Solución
La variable aleatoria en estudio es X : Peso y X ~ N( 63, 102),
σ = 10
donde µ = 63
σ2 = 100
Estandarizando la variable aleatoria Z =
X − 63
~ N (0,1)
10
a)
P (X > 69 ) = 1 − P (X ≤ 69 )
 X − 63 69 − 63 
= 1 − P
≤

10 
 10
= 1 − P (Z ≤ 0.6 )
= 1 − 0.7257
= 0.2743
b)
37
 X − 63 58 − 63 
≤
P (X ≤ 58) = P

10 
 10
= P (Z ≤ 0.5)
= 0.6915
c)
Normal
0.6915
 60 − 63 X − 63 65 − 63 
<
≤
P (60 < X ≤ 65) = P

10
10 
 10
X − 63


= P  − 0.3 <
≤ 0.2 
10


= P (Z < 0.2 ) − P (Z < −0.3)
= P (Z < 0.2 ) + P (Z < 0.3) - 1
= 0.5793 + 0.6179 - 1
= 0.1972
Distribución Ji cuadrado, t de Student y F de Snedecor
Distribución Ji cuadrado
Si la variable aleatoria tiene función de densidad de probabilidad dada por,
f ( x) =
1
n
2 n / 2 Γ 
2
x
(n 2 )−1
e
−x
2
si x > 0
Se dice que la variable aleatoria tiene distribución ji cuadra-
38
do con grados n de libertad. La distribución ji cuadrado es una
distribución asimétrica y se denota como X ~ χ (2n )
Función de densidad de probabilidad
de la distribución ji cuadrado
Esperanza y varianza
E(X) = n y Var(X) = 2n.
La distribución ji cuadrado y su relación con la distribución normal
Si
S2 =
∑ (X
i
−X
)
2
n −1
Es la varianza de una muestra aleatoria X 1 , X 2 ,..., X n de tamaño n, seleccionada de una población distribuida normalmente con
media µ y σ2, entonces:
( n − 1) S 2
σ2
Tiene distribución ji cuadrado con n - 1 grados de libertad.
39
El número de grados de libertad en toda operación estadística es igual al número de observaciones menos toda restricción
impuesta a tales observaciones. Una restricción es cualquier valor que deba calcularse en base a dichas observaciones.
La variable que sigue una distribución ji cuadrado se representa por la letra griega χ 2 y toma solamente valores no
negativos.
En la tabla C del Apéndice se tienen tabuladas las probabilidades para una variable aleatoria ji cuadrado para diferentes
grados de libertad.
Ejemplo 1.9
Un grupo de investigadores conoce que los coeficientes intelectuales de una población de niños, sigue una distribución normal
con varianza igual a 4. Seleccionan una muestra aleatoria de tamaño 17 de esta población y desean conocer la probabilidad de
que la varianza muestral sea a lo más 4.86.
Solución
En este caso: n =17, σ2 = 4 y

 (n −1)S 2
P(S 2 ≤ 4.85) = P


σ2
(n − 1) S 2
~ χ (16 )
σ2

≤

(n −1)
4.85
σ2




16
= P ÷ 2 ≤ 4.85
(
16
)
4




= P ÷ (216) ≤19.4 


Se ingresa a la Tabla C con 16 grados de libertad y la abscisa
19.4 encontrándose el valor de la probabilidad igual a 0.75, es
decir: P( S 2 ≤ 4.85) = 0.75
Propiedades
40
Si elevamos al cuadrado una variable aleatoria con distribución
N(0,1) se genera una variable ji cuadrado con un grado de libertad, es decir:
X −µ
Z = i
~ N (0,1) ⇒ Z 2 ~ ÷ 2
i
i
(1)
σ
Si se tiene n variables aleatorias independientes con distribución N(0,1), la suma de los cuadrados de dichas variables tiene distribución ji cuadrado con n grados de libertad.
2
n 2 n  Xi −µ 
 ~ ÷2
∑ Zi = ∑ 

(n )
σ

i =1
i =1
Distribución t de Student
Si la variable aleatoria X tiene función de densidad dada por:
f ( x) =
 n +1 


1
 2 
,−∞ <
n +1
n
 
Γ ðn Γ   x 2  2
 2  1+


n 


Γ
( )
x<∞
se dice que tiene distribución t de Student con n grados de
libertad.
Notación: X ~
t (n )
Y los parámetros poblacionales son la media y la varianza:
41
E(X) = 0 y
Var(X) =
n
n−2
En 1908, W.S. Goset, quien escribía bajo el seudónimo de Student, describió la distribución de la variable:
t=
X −µ
S n
Como una variable con distribución t con n-1 grados de libertad, cuando la muestra es seleccionada desde una población
normal con media µ y varianza σ2. Esta distribución permitirá
realizar inferencias relacionadas a la medias poblacionales cuando la varianza es desconocida. Se debe notar que el denominador de la variable t, contiene la desviación estándar muestral S
en lugar de σ.
En la tabla B del anexo se tienen tabuladas las probabilidades para una variable aleatoria t para diferentes grados de
libertad.
Ejemplo 1.10
Si X es una variable aleatoria con distribución t con 10 grados de
libertad se obtendrá las siguientes probabilidades:
a)
b)
c)
P(X(10) ≤ 2.228)
P(X(10) ≥ 2.228)
P(X(10) ≤ 2.228)
Solución
a)
En la fila 10 de la Tabla B se encuentra que el valor de la
probabilidad es 0.975, es decir P(X ≤ 2.228) = 0.975.
b)
P(X ≥ 2.228) = 1- P(X ≤ 2.228) = 1- 0.975 = 0.025
c)
P(X≤ 2.228) = P(-2.228≤ X ≤ 2.228) = P(X ≤ 2.228) - P(X ≤ - 2.228)
42
= P(X ≤ 2.228) – [ 1 - P(X ≤ - 2.228) ]
= 2 P(X ≤ 2.228) - 1
= 2 (0.975) –1
= 0.95
Utilizando el SPSS, ejecutar los comandos Transform/Com-
pute/escoger la función CDF.T(2.228,10)/OK.
en el Editor del SPSS:
Función de distribución
Cuantil: q = 2.228
Grados de libertad
43
Distribución F de Snedecor
Si la variable aleatoria X tiene función de densidad por
m+n
Γ

2 
f ( x) = 
m n
Γ  Γ 
 2  2
m
 
n
m
2
m
x2

m
 n x + 1
−1
m+n
2
,x >0
Se dice que X tiene distribución F con m y n grados de libertad.
Notación: X ~ F(m, n)
Ejemplo 1.11
44
Se encontrarán algunas probabilidades para ilustrar el uso de la
Tabla D del anexo.
a)
Si X tiene una distribución F con m = 9 y n = 10 grados de
libertad, encontraremos
P(X ≤ 3.14).
b)
Si tiene una distribución F con m = 7 y n = 15 grados de libertad, encontraremos
P(X ≥ 4.57).
c)
Si tiene una distribución F con m = 8 y n = 5 grados de libertad, encontraremos
P(X ≤ 6.63).
Solución
a)
En la Tabla D ubicamos la intersección de la fila correspondiente a m = 10 y la columna correspondiente n = 9 y se encuentra el cuantil 3.14 al que le corresponde una probabilidad de 0.95.
Es decir, X ~ F(10, 9)
b)
P(X ≥ 4.57) = 1- P(X < 4.57) = 1- 0.975 = 0.025
Es decir, X ~ F(15, 7)
c)
P( £ 3.14) = 0.95.
Si X ~ F(5, 8)
P(X ≥ 4.57) = 0.025
P(X ≤ 6.63) = 0.99
Utilizando el SPSS para resolver el item a) ejecutar los siguientes comandos:
Transform/Compute/escoger la función CDF.F(3.14,9,10)/
45
OK.
Se obtiene la probabilidad deseada.
Cuantil: 1 = 3.14
m=9
Distribuciones muestrales
46
n = 10
El estudio de determinadas características de una población se efectúa a través de diversas muestras que pueden extraerse de ella y
las estadísticas obtenidas de las muestras permiten estimar los
parámetros de la población. Por ello, en el proceso de hacer inferencias respecto a una población en estudio, basándonos en información muestral, es necesario conocer la relación que se establece
entre estadísticas y parámetros. Esta se realiza a través de la distribución muestral de una estadística.
Definición La distribución muestral de una estadística es la distribución de todos los posibles valores que puede tomar la estadística, calculada en base a muestras del mismo tamaño, seleccionadas aleatoriamente de una misma población.
El conocimiento de las distribuciones muestrales permite
conocer mínimamente la media y la varianza de la estadística.
En el caso de considerar poblaciones finitas y discretas, se
puede construir empíricamente una distribución de probabilidad
de la siguiente manera:
•
•
•
Se seleccionan aleatoriamente todas las muestras posibles
de tamaño n de una población finita de tamaño N.
Se calcula la estadística de interés para cada una de las
muestras.
Se organizan los valores observados de la estadística y se
obtienen sus respectivas frecuencias.
En aquellos casos en los cuales la población no es finita, se
obtiene un gran número de muestras del mismo tamaño de esta
población y así se obtiene una aproximación de la distribución
muestral.
Algunas estadísticas de importancia son la media mues-
47
tral( X ), la varianza muestral( S 2 ), la diferencia de medias muestrales en el caso de dos muestras ( X 1 − X 2 ), el cociente de varianS2
zas muestrales ( 1 S 2 ) .
2
Cabe establecer la diferencia entre la distribución poblacional de la variable, la distribución muestral de la estadística y la
distribución de la muestra observada, para lo cual se toma el siguiente ejemplo, que por razones estrictamente metodológicas,
la población es de tamaño 5.
Ejemplo 1.12
En una población conformada por 5 docentes donde la variable
en estudio es el número de años de experiencia docente ( X ).
Encontraremos:
a)
b)
la distribución poblacional de la variable.
La distribución muestral de la estadística media muestral
( X ).
c) La distribución de una de las muestras observadas.
Solución
a)
48
La distribución de la variable aleatoria años de experiencia
docente es la siguiente, donde se obtiene la media y la varianza poblacional:
DOCENTE
AÑOS DE EXPERIENCIA
DOCENTE (X)
1
x1 = 2
2
x2 = 3
3
x3 = 4
4
x4 = 5
5
x5 = 6
5
N
µ=
∑X
i =1
N
i
∑X
=
i =1
5
N
σ2 =
b)
∑ (X
i =1
i
− ì)
=4
N
∑ (X − 4)
N
2
i
=
2
i
i =1
5
=2
Distribución muestral de la estadística: media muestral ( X ).
A continuación se presenta todas las posibles muestras de
tamaño n=2 seleccionadas desde la población de tamaño N=5 y
sus respectivas medias muestrales. Las muestras que aparecen
sombreadas indican que son muestras obtenidas en base a un
muestreo con reemplazamiento. Las restantes son resultado de
un muestreo sin reemplazamiento
Segunda selección
Primera
selección
2
3
4
5
6
Muestra
x
Muestra
x
Muestra
x
Muestra
x
Muestra
x
2
(2,2)
2
(2,3)
2.5
(2,4)
3
(2,5)
3.5
(2,6)
4
3
(3,2)
2.5
(3,3)
3
(3,4)
3.5
(3,5)
4
(3,6)
4.5
4
(4,2)
3
(4,3)
3.5
(4,4)
4
(4,5)
4.5
(4,6)
5
5
(5,2)
3.5
(5,3)
4
(5,4)
4.5
(5,5)
5
(5,6)
5.5
6
(6,2)
4
(6,3)
4.5
(6,4)
5
(6,5)
5.5
(6,6)
6
Se organizaran el conjunto de todos los posibles valores obtenidos en base a las muestras de tamaño dos, considerando el muestreo con reemplazamiento y el muestreo sin reemplazamiento.
• Si el muestreo es con reemplazamiento el número total de
posibles muestras es Nn, para este ejemplo N=5 y n=2 obteniéndose 52 =25 muestras.
49
•
•
•
Se obtiene el valor ( x ) de la media muestral ( x ) para cada
una de las muestras.
En una tabla se organizan los valores ( x ) obtenidos para las
muestras de tamaño 2 y sus respectivas frecuencias.
En una tabla se organizan los valores x obtenidos para las
25 muestras de tamaño 2 y sus respectivas frecuencias.
x
Frecuencia
absoluta
x
Frecuencia
Relativa
fi
50
2.0
1
1/25
2.5
2
2/25
3.0
3
3/25
3.5
4
4/25
4.0
5
5/25
4.5
4
4/25
5.0
3
3/25
5.5
2
2/25
6.0
1
1/25
Total
25
1.00
Para el muestreo con reemplazamiento:
La media y la varianza de la media muestral x son:
8
ì
∑ x f 2 + 2(2.5) +...+ 2(5.5) + 6 100
=
=
=4
X 25
25
25
=
i =1
i i
donde la media de la distribución muestral de x tiene el mismo valor que la media poblacional.
8
σ2
X
=


∑  xi − 4 
i =1
25
2
fi
 2 − 4  + 2 2.5− 4  + ... +  6 − 4 
 =




=
2
2
2
25
25
=1
25
donde la varianza de la distribución muestral de x es igual
a la varianza poblacional dividida entre el tamaño de la muestra, es decir
σ2 2
σ 2 = X = =1
X
n 2
Los resultados obtenidos en este ejemplo conducen a señalar
que cuando el muestreo se realiza con reemplazamiento desde
una población finita:
•
•
La media de la estadística x es igual a la media de la población.
La varianza de la estadística x es igual a la varianza de la
población dividida entre el tamaño de la muestra.
x tiene media µ y varianza
c)
σ2
.
n
Distribución de la muestra
Esta distribución se refiere a la distribución de la variable X
en la muestra observada.
Si la muestra observada es el par (5,2), entonces para el número de años en la docencia tenemos:
5+ 2
= 3.5 y su varianza: s 2 =
su x =
2
∑ (x − x ) (1.5) + (− 1.5)
=
2
i =1
2
i
n
2
2
2
=2.25,
Valores con los que en la práctica estimamos la media poblacional y la varianza poblacional de la variable.
51
Para el muestreo sin reemplazamiento
El número total de posibles muestras es:
N
N!
  =
−n)!
n
!
(
N
n
 
Y para este ejemplo N=5 y n=2 se obtienen
•
•
52
()
5
5!
=
= 10
2 2!(5− 2)!
muestras.
Se obtiene el valor ( x ) de la media muestral para cada una
de las muestras.
En una tabla se organizan los valores ( x ) obtenidos para las
10 muestras de tamaño 2 y sus respectivas frecuencias.
x
Frecuencia
Absoluta
fi
Frecuencia
relativa
2.5
1
1/10
3.0
1
1/10
3.5
2
2/10
4.0
2
2/10
4.5
2
2/10
5.0
1
1/10
5.5
1
1/10
Total
10
1.00
Se deja como ejercicio obtener la media y la varianza de la
media muestra.
Distribución de la media muestral
Formalizando la presentación hecha previamente tenemos que:
Si X es una variable aleatoria con distribución normal con
2
media µ y varianza conocida σ y desde dicha población se toma
una muestra aleatoria X 1 ,..., X n de tamaño n; se prueba que la
variable estandarizada:
Z=
X −u
σ
tiene distribución N(0,1)
n
(1.1)
donde es la media muestral.
La expresión (1.1) será usada en el siguiente capítulo para
construir el intervalo de confianza y en el capítulo 4 para postular hipótesis para la media poblacional. En el siguiente ejemplo
vamos a ilustrar otro uso de la distribución muestral de la media
muestral.
Ejemplo 1.13
Se tiene conocimiento que el gasto semanal de los adolescentes
que juegan en la internet sigue una distribución normal con me-
53
dia igual a S/. 18.00 y una desviación estándar igual a S/. 6.00.
¿Cuál es la probabilidad de que una muestra aleatoria de 36 adolescentes tenga un gasto semanal promedio entre S/. 16.00 y S/.
20.00?
Solución
X:
gasto semanal de los adolescentes en la internet
X : media muestral de los gastos semanales de los adolescentes
en la internet
µ = 18 σ = 6 σ 2 =36 µ 2/n = 36/36 = 1
(
) (
)
P 16 < X < 20 = P 16 − 18 < X < 20 − 18 = 2 P(X < 2 )− 1 = 2(0.9772)-1 = 0.9544.
Puede decirse que la probabilidad de que el gasto semanal
promedio se encuentre entre S/.16 y S/. 20 es de 0.9544.
Distribución de la media muestral cuando la varianza
poblacional es desconocida
Supongamos que la variable aleatoria X tiene distribución nor2
mal con media µ y varianza σ desconocida. Si desde dicha población se toma la muestra aleatoria X 1 ,...., X n , la variable
X −u
aleatoria t = S
tiene distribución t-Student con n -1 grados de
n
libertad, donde X y S son la media muestral y la desviación
estandar muestral respectivamente.
En los siguientes capítulos la estadística:
t=
X −u
S
n
(1.2)
se usará para construir intervalos de confianza y postular
hipótesis respecto a la media poblacional, con el supuesto de que
la varianza poblacional es desconocida.
54
Distribución de la media muestral en poblaciones no normales
(muestras grandes)
En la práctica en diversas investigaciones nos enfrentamos a
aquellos casos en los cuales la variable aleatoria en estudio no
sigue una distribución normal. Puede visualizarse los datos exploratoriamente y comprobar este hecho o aplicar una prueba
que nos permita decidir con una probabilidad de error si se puede afirmar que la variable sigue una distribución normal. En el
caso de que la variable aleatoria no tenga una distribución normal, se plantea como solución: seleccionar una muestra de tamaño grande desde la población en estudio y utilizar el teorema
de límite central. Este teorema es uno de los más importantes de
la estadística y cumple un rol fundamental en las aplicaciones.
Teorema de Límite Central: Sin tener en cuenta la forma funcional de la población de donde se selecciona la muestra, la media muestral calculada en base a una muestra extraída desde una
población con media µ y varianza finita σ2, sigue una distribución
aproximadamente normal con media µ y varianza σ2/n, cuando
el tamaño de muestra es grande. Es decir, la media muestral X de
una muestra aleatoria procedente de cualquier distribución con
media µ y varianza finita σ2, se distribuye aproximadamente
como una variable normal con media µ y varianza σ2/n.
Puede expresarse este resultado de la siguiente manera:
 ó 
X ~ f (ì , ó ) ⇒ X → N  ì , 
n→∞ 
n 
2
2
Así, cuando el tamaño de muestra que se toma es suficientemente grande (mayor que 30), aún cuando no se conozca la distribución de la variable X, por el teorema del límite central, las
variables:
Z=
X −µ
σ
n
y
t =
X −µ
S
n
(1.3)
55
Tienen distribución aproximadamente normal, donde es una
muestra aleatoria de tamaño n y X es la medial muestral.
Cabe indicar que dichas estadísticas pueden usarse para
construir intervalos de confianza para la media poblacional o
realizar pruebas de hipótesis para el mismo parámetro.
Ejemplo 1.14
En una población de jóvenes alcohólicos con edades entre 16 y 21
años se conoce que el tiempo promedio de consumo de alcohol es
de 4 años con una desviación estándar de 2 años. ¿Cuál es la probabilidad de que en una muestra aleatoria de 100 jóvenes alcohólicos de esta población se obtenga un tiempo medio que fluctúe entre 2 y 6 años?.
Solución
X: tiempo ( años) de consumo de alcohol
σ=4
Z=
σ2 = 4
σ=2
X −4
X −4
2
= Z=
0. 2
100
σ2/n = 4/100 = 0.04
tiene distribución y podemos calcular la
siguiente probabilidad:


2−4 X −µ 6−4
P 2 < X < 6 = P
<
<

σ
0.2  = P (− 10 < Z < 10 ) =1.
 0.2
n


(
)
En base a una muestra aleatoria de tamaño 100, la probabilidad de promedio de años de consumo de alcohol en jóvenes entre
16 y 21 años es 1.0.
Distribución de la proporción muestral P para un tamaño de
muestra grande
En algunas situaciones el parámetro sobre el que se trata de evaluar hipótesis es la proporción de elementos con cierta caracte-
56
rística A (π)en una población. Por ejemplo, la proporción de estudiantes que llegan temprano a la clase de estadística, la proporción de estudiantes provenientes de colegios privados que postularon al proceso de admisión 2004-I a la UNMSM, la proporción
de estudiantes motivados con la carrera profesional que han escogido, etc. Estas situaciones implican el uso de la distribución de la
proporción muestral, P, a partir de la cual haremos inferencias.
Si X 1 ,...., X n es una muestra aleatoria de tamaño n desde una
población donde es la proporción de elementos con cierta característica A (en la muestra aleatoria),entonces, en muestras granπ (1 − π )
des tiene distribución aproximadamente N( π ,
), donde:
n
P=
1 n
∑ X i , X i=
n i =1
Z=
1 si el elemento posee la caracterís tica 

 . Luego, la estadística:
0 si el elemento no posee la caracterís tica 
P −π
tiene distribución aproximadamente N(0,1)
π (1 − π ) n
(1.4)
y se usará para construir intervalos de confianza y postular
hipótesis para el parámetro poblacional π.
Ejemplo 1.15
Se conoce que el 60% de los postulantes a la Universidad Nacional Mayor de San Marcos, proceden de distintas provincia del
país. Si se selecciona aleatoriamente una muestra de 150 alumnos de esta población. ¿Cuál es la probabilidad de que la proporción muestral de estudiantes que proceden de provincias se encuentre entre 0.50 y 0.70
Solución
Debido a que se cuenta con una muestra de tamaño grande puede afirmarse que la distribución de P se aproxima a una distribución normal con media p=0.60 y desviación estándar:
π (1 − π ) / n .
57
La probabilidad de que la proporción muestral se encuentre
entre 0.50 y 0.70, puede ser obtenida de la siguiente forma:


P − 0.60
0.50 − 0.60
0.70 − 0.60

P(0.50 < P < 0.70) = P
<
<
 0.60(1 − 0.60) 150

0
.
60
(
1
0
.
60
)
150
0
.
60
(
1
0
.
60
)
150
−
−


0.10
0.10 

= P −
<Z<

0.0016
0.0016 

0.10 
 0.10
= P −
<Z<

0.04 
 0.04
= P(− 2.5 < Z < 2.5)
= P(Z < 2.5) − P(Z < −2.5)
= 2 P(Z < 2.5) − 1
= 2(0.993790) − 1
= 0.98758
La probabilidad que en una muestra de 150 postulantes, el
porcentaje de postulantes que proceden de provincias esté entre
el 50% y 705 es 0.98758.
En muchos estudios educativos, es necesario comparar ciertas características en dos o más grupos de sujetos; así por ejemplo, si pensamos aplicar un nuevo método de enseñanza como
aquel que puede tener un porcentaje mayor de alumnos aprobados que otro método de enseñanza tradicional, o cuando nos
planteamos la pregunta si los niños de las distintas comunidades
rurales tienen la misma estatura.
Distribución de la diferencia de medias cuando las varianzas
poblacionales son conocidas
Si X e Y son variables aleatorias independientes con distribuciones N µ1 , σ 12 y N µ2 , σ 22 respectivamente; entonces, las medias
(
)
(
)
muestrales X 1 y X 2 , correspondientes a las muestras aleatorias
independientes X 11,..., X 1,n1 y X 21 ,..., X 2 ,n2 de tamaño n1 y n2 tie-
 σ2 
 σ2 
nen distribuciones N  µ1 , 1  y N  µ2 , 2  respectivamente.
n2 
n1 


58
Con los supuestos anteriores, la diferencia de medias mues
σ2 σ2 
trales X 1 − X 2 tiene distribución N  µ1 − µ2 , 1 + 2  y luego la
n1 n2 

variable aleatoria estandarizada,
Z=
(X
1
)
− X 2 − (µ1 − µ2 )
σ
σ2
+ 2
n1 n2
2
1
, tiene distribución
(1.5)
que también se usará para obtener intervalos de confianza y
pruebas de hipótesis para la diferencia de medias poblacionales:
µ1 − µ2 .
Ejemplo 1.16
Un psicólogo tiene conocimiento que los temas relacionados con
la inteligencia emocional influyen en las expectativas profesionales de los jóvenes. Este profesional, recibe información que una
población de jóvenes capacitados sobre este tema obtuvieron una
nota promedio de 16 y una varianza de 4, y que otra población
de jóvenes que no recibieron capacitación relacionada a este tema,
obtuvieron una nota promedio de 12 y una varianza de 3. Posteriormente selecciona dos muestras: una muestra de tamaño 10
de la población de jóvenes capacitados (muestra 1) y otra muestra de tamaño 12 de aquellos que no recibieron capacitación sobre este tema (muestra 2) y se pregunta por la probabilidad que
la diferencia entre la nota promedio de la muestra 1 con respecto
a la de la muestra 2 sea más de 5 puntos.
Solución
n = 10 ì = 16.0 ó = 4
n = 12 ì = 12.0 ó = 3
2
1
1
2
2
1
2
Z =
(X
1
2
) − (16 − 12) ~ N (0,1)
4
3
+
10 12
−X
2
59
 ( X 1 − X 2 )−(16 −12 )
P ( X 1 − X 2 > 5 )= P 


1 

= P Z >

0.65 

=1− P( Z <1.24)
=1− 0.8925
= 0.1075
4 3
+
10 12
>

5 − ( 16 −12 ) 
4 3
+
10 12


La probabilidad que la diferencia entre las notas promedios
de aquellos jóvenes que recibieron capacitación con respecto a
los que no recibieron, supere los cinco puntos es de 0.1075.
Distribución de la diferencia de medias muestrales cuando las
varianzas poblacionales son desconocidas e iguales
Si X e Y son variables aleatorias independientes con distribuciones N (µ1 , σ 2 ) y N (µ2 , σ 2 ) respectivamente; entonces, las medias
muestrales X 1 y X 2 correspondientes a las muestras aleatorias
independientes X 11,..., X 1,n y X 21,..., X 2,n2 de tamaño n1 y n2 tienen
distribuciones de tamaño n1 y n2, tienen las siguientes distribu1

σ2 
ciones N  µ1,  y N  µ2 , σ


n1 
n2

2

estandarizada Z =
(X
1
 . Luego, la variable aleatoria
X1y X 2



)
− X 2 − (µ1 − µ2 )
σ
σ2
+
n1 n2
2
, tiene distribución N (0,1) .
Como la varianza poblacional es desconocida, tiene que ser
estimada y en lugar de la variable estandarizada Z, se tiene la
variable aleatoria:
t=
60
( X 1 − X 2 ) − (µ1 − µ2 )
 1
1 
S p2  + 


 n1 n2 
(1.6)
con
cuya distribución es t-student con (n1 + n2 − 2 ) y se denota
( n +n −2 ) , donde
1
2
t
S p2 =
(n − 1)S + (n − 1)S
n +n −2
2
1
1
1
1
2
2
es el estimador de la varianza pobla-
2
cional σ2.
Ejemplo 1.17
Un psicólogo tiene conocimiento que los temas relacionados a la
inteligencia emocional influyen en las expectativas profesionales de los jóvenes. Este profesional, recibe información que una
población de jóvenes capacitados sobre este tema obtuvieron una
nota promedio de 18, y que otra población de jóvenes que no recibieron capacitación relacionada a este tema, obtuvieron una
nota promedio de 11 y desconoce los valores de las varianzas,
pero considera razonable suponer que son iguales. Selecciona
muestras de tamaño 14 de cada una de las poblaciones y en las
muestras obtiene s12 = 1.928 s22 = 2.864 . El psicólogo desea determinar la probabilidad que la diferencia entre las notas promedios sea menor que 6.
Solución
Se cuenta con la siguiente información:
n1 = n2 = 14 s12 = 1.928 s22 = 2.864 µ1 = 18 µ2 = 11 σ 12 = σ 22
desconocidos
y se obtiene: S
t
=
t
=
p
( 13)1.928 + (13 ) 2.864
=
26
( X 1 − X 2 )−(18 −11)
(1.5479)
( X 1 − X 2 )− 7
0.5851
~
t 14 +14 − 2
~
1 1
+
14 14
t 26






= 1.5479






61
P X 1 − X 2 < 6  =




  X − X  − 18 −11
1
2
P 
1 1

+
 1.5479

14 14

(
)
−1 

= P t(26) <

0
.
5851


= P(t(26) < −1.709)
=1− P(t(26) <1.709)
=1− 0.95
= 0.05.
<
6−7
1 1
+
1.5479
14 14









La probabilidad que la diferencia entre las notas promedios
de aquellos jóvenes que recibieron capacitación con respecto a
los que no recibieron, sea inferior a 6 puntos es de 0.05.
Distribución de la diferencia de medias cuando las varianzas
poblacionales son desconocidas y diferentes
Si X 1 e X 2 son variables aleatorias independientes con distribuciones N µ1 , σ 12 y N (µ2 , σ 22 ) respectivamente, entonces, las medias muestrales X 1 y X 2 , correspondientes a muestras de tama-
(
)
 σ2 
ño n 1 y n 2, tienen las siguientes distribuciones N  µ1 , 1  y
n1 

2
 σ 
N  µ2 , 2  y la estadística

t=
n2 
( X1 − X 2 )
 S12 S22 
 + 


 n1 n2  tiene distribución
t(k ) , donde:
(1.7)
los grados de libertad de la estadística son
2
 S12   S22 
 n1  +  n2 

 

k=
2
 S22 
 S12 
 n 
 n
1
2

+
n1 + 1
n2 + 1
62
2
−2
.
Si k ≥ 30 , la estadística tiene distribución aproximadamente
normal. Si las muestras son suficientemente grande ( n1 ≥ 30 y
n2 ≥ 30 ) e independientes, la estadística Z =
(X
tribución aproximadamente normal estándar.
1
− X2
2
1
) tiene dis-
2
2
S
S
+
n1 n2
Estos resultados se usarán posteriormente para abordar el
tópico de pruebas de hipótesis.
Distribución de la diferencia de dos proporciones muestrales
En las poblaciones 1 y 2, con respectivas proporciones poblacionales π 1 y π 2 ( de estudiantes, profesores, etc.,para ser más genéricos, de «unidades»), con determinados atributos. Los parámetros que son las proporciones poblacionales tienen como estiA y
B
madores en cada una de las muestras: P1 =
P2 = , donde
n1
n1
es el número de elementos con el atributo de interés en la primera muestra y es el número de elementos con el mismo atributo en
la segunda muestra. Cuando las muestras son suficientemente
grandes, la estadística
( P1 − P2 ) − (π 1 − π 2 ) tiene distribución aproximadamente N (0,1)
1 1
P (1 − P ) + 
 n1 n2 
donde P =
n1P1 + n2 P2
.
n1 + n2
Ejemplo 1.18
Se conoce que el 50% de profesores de educación superior de la
Región Sur y el 33% de profesores de educación superior de la
Región Norte acreditan tener una maestría. De cada una de estas
63
poblaciones se seleccionan muestras de tamaño 100 (no necesariamente las muestras deben ser del mismo tamaño). ¿Cuál es la probabilidad que la diferencia entre las proporciones muestrales
sea inferior al 30%?.
Solución
•
•
•
•
•
Población 1
profesores de la Región Sur
mues-
tra de tamaño 100
Población 2
profesores de la Región Norte
muestra de tamaño 100
Característica de interés: estudios de maestría.
Proporción de profesores con estudios de maestría en la población 1
0.50
Proporción de profesores con estudios de maestría en la población 2
0.33
Se supone que P1 − P2 , sigue aproximadamente una distribución normal con media
µ p1 − p2 = π 1 − π 2 = 0.50 − 0.33 = 0.17
y varianza
σ 2p1 − p2 =
y Z=
0.50(1 − 0.50) 0.33(1 − 0.33)
+
= 0.004711
100
100
( P1 − P2 ) − 0.17

→ N (0,1)
n1=100
0.004711
n2 =100
La probabilidad buscada es:
 ( P − P ) − 0.17 0.30 − 0.17 
<
P (P1 − P2 < 0.30) = P  1 2

0.004711
0.004711 

= P (Z < 1.8940 )
= 0.9706
64
1.8940
Distribución muestral del cociente de varianzas
Si X 1 e X 2 son variables aleatorias independientes con distribuciones N µ1 , σ 12 y N µ2 , σ 22 respectivamente, la estadística F se
construye en base al cociente entre dos estadísticas ji cuadrados.
(
2
( n1 −1)S1
2
ó1
~
)
÷
(
2
( n1 −1 )
2
( n1 −1) S1
F =
2
( n2 −1) S 2
2
ó2
)
2
ó1
2
( n2 −1) S 2
2
ó2
~
÷
n −1
1
n − 1 ~ f (n1 − 1, n 2 − 1)
2
2
( n 2 −1 )
S2
N (µ2 , σ 22 ) La estadística F = 12 tienen distribución F-SneS2
decor con (n1 − 1) y (n2 − 1) grados de libertad.
2
2
S1 ó 1
Es decir, F =
~ f ( n1 −1, n2 −1)
2
2
S2 ó 2
(1.9)
65
Función de densidad de probabilidad F
Ejemplo 1.19
Un asesor supone que la variabilidad en el número diario de horas de estudio es la misma en alumnos del último año de la carrera profesional de lingüística y los alumnos del último de bibliotecología. El asesor selecciona una muestra aleatoria de 16 estudiantes del último año de lingüística independiente de una muestra de 21 estudiantes de bibliotecología y se quiere conocer la
probabilidad de que el cociente entre las varianzas muestrales
sea inferior a 1.84. Suponga varianzas poblacionales iguales.
Solución
(n −1)S 2 (15)S 2
1 ~ ÷2
1
1 =
(16−1)
σ2
σ2
(n2 −1)S 22 (20)S22 2
~÷
=
(21−1)
σ2
σ2
F=
66
(n −1)S 2
1
1
2
σ
n −1
1
(n −1)S 2
2
2
σ2
n −1
2
=
(15)S 2
1 15
2
σ
(20)S 2
2
σ2
S2
= 1
S2
20 2
En la tabla F_Snedecor con 15 y 20 grados de libertad para

 S2
P 12 < 1.84  se encuentra el valor 0.90. Es decir:

 S2
2

S
P 12 < 1.84  = P ( F(15, 20) < 1.84) = 0.90 .

 S2
La probabilidad de que el cociente entre las varianzas muestrales sea inferior a 1.84 es 0.90.
f(15,20)
0.90
1.84
Ejercicios
1.1. Se conoce que 1000 estudiantes universitarios fueron clasificados de acuerdo con los puntajes que obtuvieron en el examen de ingreso a la universidad y el colegio de procedencia.
La información es la siguiente:
Puntaje
Colegio de Procedencia
Total
Estatal
Privado
150 o menos
De 151-190
191 o más
150
150
190
50
250
210
200
400
400
Total
490
510
1000
67
a)
b)
c)
d)
e)
Calcular la probabilidad que un estudiante elegido al azar
haya obtenido un puntaje entre 151 y 190.
Calcular la probabilidad que un estudiante elegido al
azar haya obtenido un puntaje de 190 o menos.
Calcular la probabilidad que un estudiante elegido al
azar proceda de un colegio estatal.
Calcular la probabilidad que un estudiante elegido al
azar que haya obtenido un puntaje de 191 o más y proceda de un colegio privado.
Calcular la probabilidad que un estudiante elegido al
azar que haya obtenido un puntaje de 150 o menos y
proceda de un colegio estatal.
1.2 Usted es un inspector de escuelas públicas y realiza un experimento para investigar si la habilidad en lectura de estudiantes de primer año de secundaria ha mejorado o no. Las
notas nacionales sobre la habilidad en lectura, para los estudiantes de primer año de secundaria muestran una distribución normal con media de 80 palabras por minuto y una desviación estándar igual a 12 palabras por minuto. En base a
una muestra aletoria de 185 estudiantes de esta población:
a) Determine la probabilidad de que la media muestral sea
inferior a 82 palabras por minuto.
b) Determine la probabilidad de que la varianza muestral
sea superior a 100.
1.3 Años de experiencia han demostrado que un examen de admisión a la Facultad de Educación de una Universidad, los
estudiantes obtienen en media 140 puntos con una desviación estándar de 10 puntos. En base a una muestra aleatoria
de 25 postulantes a la Facultad de Educación se desea determinar las siguientes probabilidades:
a)
b)
c)
68
(
)
P (138 < X < 142)
P (X > 143)
P X < 145
1.4 Hace tres años el ministro de Educación afirmó que históricamente la proporción de alumnos que estudian en zonas rurales y abandonan sus estudios al culminar el tercer año de primaria es de 0.30. En los últimos dos años el gobierno ha realizado inversiones en infraestructura y docencia en dichas zonas rurales con la esperanza de revertir el resultado planteado por el ministro. Con el fin de evaluar los cambios, después
de dos años se tomo una muestra aleatoria de 500 estudiantes. Determine la probabilidad que la proporción muestral de
alumnos que estudian en zonas rurales abandonen sus estudios al culminar el tercer año de primaria sea inferior a 0.28.
1.5 Un investigador en el campo educativo sostiene que el módulo didáctico empelado en la enseñanza de las Matemáticas es uno de los factores que influyen y determina en el proceso de enseñanza-aprendizaje y por lo tanto, el módulo
adoptado incidirá en el rendimiento académico de los estudiantes. Se decide realizar el siguiente experimento: Durante un semestre se llevó a cabo el trabajo lectivo en dos grupos independientes de estudiantes de la misma carrera en la
misma Universidad, empleando dos métodos (A y B) de características bien diferenciadas. Al final del curso se aplicó
el mismo examen a todos los estudiantes que obtuvieron las
siguientes notas.
Suponiendo que las muestras provienen de poblaciones norMétodo A
15
16
15
13
13
16
16
Método B
13
14
14
11
12
14
13
14
17
males con media µ1 = 15 y varianza σ 12 = 4 ; con media µ1 = 13 y
varianza σ 22 = 4 , respectivamente. Determine las siguientes probabilidades:
a)
(
P X1 − X 2 > 0
)
69
(
b)
P X1 − X 2 < 2
c)
 S2

P  12 < 2 
 S2

)
1.6 Para determinar el efecto que tiene sobre el desarrollo psicológico de los escolares el hecho de que tiene que viajar al
colegio en ómnibus de servicio publico, se tomó una prueba
de ansiedad a una muestra de 40 escolares que usan este sistema de transporte y a otra muestra de 30 escolares que van
caminando al colegio. Se sabe que la media de la población 1
es de 144 puntos y la media de la población 2 es de 139 puntos, así como las varianzas poblacionales 9 y 6 respectivamente. Suponga que las distribuciones se distribuyen normalmente.
a) ¿Cuál es la probabilidad que la media de la muestra 1
sea inferior a la media de la muestra 2?.
b) ¿Cuál es la probabilidad que el cociente de la varianza
de la muestra 1 entre la varianza de la muestra 2 sea
inferior?
70