Download 02 Capitulo 2

Document related concepts

Estimador wikipedia , lookup

Estimación estadística wikipedia , lookup

Intervalo de confianza wikipedia , lookup

Error estándar wikipedia , lookup

Estadístico muestral wikipedia , lookup

Transcript
Capítulo II
Estimación de parámetros
Estimación puntual de parámetros
Explicaremos el tópico de la estimación puntual de parámetros,
usando el siguiente ejemplo.
La Tabla Nº 2.1 contiene información de los salarios anuales
y participación en un curso de gerencia educativa, de una muestra aleatoria de directores de colegios privados.
Tabla Nº 2.1: Salario anual y participación en el curso de gerencia
educativa de una muestra aleatoria de 30 directores de colegios privados
Salario anual
( soles)
9818,86
10652,78
9928,70
9978,98
9524,32
11184,80
9818,46
10280,88
10191,54
11021,94
9184,52
11453,68
11137,76
10312,94
11237,64
Asistió al curso
Salario anual
( soles)
Asistió al curso
Sí
Sí
Sí
Sí
No
Sí
Sí
Sí
Sí
Sí
Sí
No
Sí
No
No
10353,20
10508,26
8996,00
10386,52
10594,60
9024,18
10350,60
10878,36
10032,84
10594,72
10048,26
10558,78
10195,88
11172,18
11461,82
Sí
No
Sí
Sí
Sí
Sí
Sí
No
No
No
No
No
Sí
Sí
No
[73]
71
Se utiliza la notación x1 , x2 , etc., para indicar el salario anual
del primer director, del segundo, y así sucesivamente.
Por ejemplo, para estimar µ, la media de la población del salario anual de los directores y, σ, la desviación estándar del salario anual de los directores, se toman los datos de la Tabla Nº 2.1
para calcular los valores de los correspondientes estadísticos: la
media de la muestra X y la desviación estándar de la muestra S.
Así, tenemos que en la muestra observada, la media del salario
anual de los directores es:
∑x
310884
i
=
= 10362.80 ,
n
30
y la desviación estándar:
x=
s=
∑ (x − x ) =
i
n −1
448288.6381
= 669.54
29
Por otro lado, si en dicha muestra se calcula la proporción de
los directores que asistieron al curso de gerencia educativa, podemos estimar la proporción de directores en la población, π, que
terminaron el curso de gerencia educativa. La tabla Nº 2.1 indica
que 19 de los 30 directores de la muestra terminaron el curso, entonces la proporción en la muestra, representada por p, es:
19
= 0,63 ; que se usa para estimar el parámetro π de la
30
población.
p=
Al hacer los cálculos anteriores hemos efectuado el procedimiento estadístico denominado estimación puntual. Usamos los
datos de la muestra para calcular un valor de un estadístico de la
muestra que sirva como estimación de un parámetro de la población.
En la notación de la estimación puntual, se dice que X es el
estimador puntual de la media poblacional µ, S es el estimador
puntual de la desviación estándar poblacional σ, y que P es el estimador puntual de la proporción π poblacional. A los valores nu-
72
méricos de X , S o P, obtenidos en una determinada muestra se
les llaman estimaciones puntuales del parámetro y los hemos denotado con: X , s, p.
A continuación y para cualquier otro caso se resume la notación:
Parámetros
µ: Promedio o media
poblacional
Estimadores
(Funciones)
Estimación
X : Promedio o media
muestral
Valor numérico
obtenido para X
x=
π: Proporción poblacional
P: Proporción muestral
∑x
i
n
p: valor numérico de
la proporción muestra
∑ (x − x )
2
σ: Desviación estándar
poblacional
S: Desviación
estándar muestral
s=
i
n −1
valor de la desviación
estándar
X 1 , X 2 , … X n , es una muestra aleatoria desde la población
donde la variable aleatoria X tiene esperanza E (X ) = µ , y varianza σ 2 = E (X − µ )2 ; x1 , x2 , …, xn son valores observados de la
muestra aleatoria.
Así, para la muestra de 30 directores, la estimación puntual
de µ es de x = 10362.80 soles, la de σ es de 669.54 soles y la de P
es 0.63. La Tabla Nº 2.2 contiene un resumen de los resultados de
la muestra y compara las estimaciones puntuales con los valores
reales de los parámetros de la población.
Como se observa a continuación, ninguna de las estimaciones puntuales son exactamente iguales a los parámetros poblacionales correspondientes. Se esperaba esta variación porque se está
usando sólo una muestra y no la información de toda la población
para obtener la estimación.
73
Tabla Nº 2.2: Resumen de estimaciones puntuales obtenidas a partir de una
muestra Aleatoria simple de 30 directores de colegios
Parámetro de la
población
puntual
Valor del parámetro
µ: Promedio poblacional
Estimador
(en soles)
Estimación
puntual
11 000
X : Promedio
muestral del
salario anual
x = 10 362.8
σ: Desviación estándar
700
S: Desviación
estándar muestral
del salario anual
s = 669.54
π: Proporción poblacional
0.60
P: Proporción muestral
p = 0.63
del salario anual
poblacional del salario
anual
de directores que
terminaron el curso
de directores que
terminaron el curso
Error de muestreo. El valor absoluto de la diferencia entre
estimador insesgado y el parámetro poblacional correspondiente
se llama error de muestreo. Para la media muestral, la desviación
estándar y la proporción muestral, los errores de muestreo son
X − µ , S − σ y P − π , respectivamente. Por tanto, para la muestra de directores de colegios, los errores de muestreo son
x − µ = 10362.80 − 11000 = 637.20 soles, s − σ = 669.5 − 700 = 30.46
soles para la desviación estándar muestral y
P − π = 0.63 − 0.60 = 0.03 para la proporción muestral.
En este caso pudimos calcular los errores de muestreo porque hemos supuesto que conocemos los parámetros poblacionales. Sin embargo, en una aplicación real de muestreo no podemos
calcular de manera exacta el error de muestreo, porque no se conoce el valor del parámetro poblacional.
Propiedades de los estimadores puntuales
En la sección anterior hemos mostrado cómo se pueden usar las
estadísticas o estimadores: la media de la muestra X , la desviación estándar muestral S y la proporción muestral P como estima-
74
dores puntuales de sus correspondientes parámetros poblacionales, µ , σ y π . Resulta intuitivamente atractivo que cada uno de
esos estadísticos de muestra sea estimador puntual de su parámetro poblacional correspondiente. Sin embargo, antes de emplear
algún estadístico de muestra como estimador puntual, se debe
comprobar si tiene ciertas propiedades asociadas con los buenos
estimadores puntuales. En esta sección describiremos de manera
sucinta algunas propiedades de los buenos estimadores puntuales: insesgamiento, eficiencia y consistencia.
En vista que se pueden emplear diversas estadísticas como
estimadores puntuales de distintos parámetros poblacionales, en
esta sección usaremos la siguiente notación general:
θ : parámetro poblacional de interés
θˆ : estadístico de muestra o estimador puntual de θ .
La notación θ es la letra griega theta, y la notación θˆ se llama
"theta sombrero". En general, θ representa cualquier parámetro
de la población, como por ejemplo la media poblacional, la desviación estándar poblacional, la proporción poblacional, etc., θˆ
representa la estadística o estimador correspondiente, como la
media muestral, la desviación estándar muestral y la proporción
muestral.
Estimador insesgado
Si el valor esperado de la estadística es igual al parámetro poblacional que se estima, se dice que esa estadística es un estimador
insesgado del parámetro poblacional.
La estadística θˆ es un estimador insesgado del parámetro
poblacional θ , si:
()
()
E θˆ = θ ,
donde E θˆ es el valor esperado de la estadística θˆ .
Al describir las distribuciones muestrales de la media y la
proporción muestrales, dijimos que E X = µ y E (P ) = π . Enton-
( )
75
X como P son estimadores insesgados de sus parámetros poblacionales correspondientes, µ y π . También se pue-
ces, tanto
( )
2
2
de desmostrar que E S = σ , es decir, S 2 es un estimador inses-
gado de la varianza poblacional σ 2 , donde S 2 =
∑ Xi .
X =
n
∑ (X
i
−X
n −1
)
2
y
Estimador eficiente
Suponga que en una muestra aleatoria simple de n elementos se
tiene dos estimadores puntuales insesgados, θˆ1 y θˆ2 del mismo
parámetro poblacional θ , entonces, preferiremos usar el estimador puntual con la menor desviación estándar, porque tiende
a proporcionar una estimación más cercanas al parámetro poblacional.
() ( )
()
( )
Si E θˆ1 = E θˆ2 = θ y Var θˆ1 < Var θˆ2 → θˆ1 es más eficiente que θˆ2 . Se dice que θˆ1 es un estimador puntual insesgado
con menor desviación estándar y tiene mayor eficiencia relativa
que el estimador θˆ2 .
Estimador consistente
Una tercera propiedad asociada con los buenos estimadores puntuales es la consistencia. Hablando en términos generales, un estimador puntual es consistente si sus valores tienden a acercarse al
parámetro de la población conforme se incrementa el tamaño de
la muestra. En otras palabras, un tamaño de muestra grande tiende a proporcionar un mejor estimador puntual que un tamaño
pequeño. Observe que en el capítulo anterior se vio que la desviación estándar de la media muestral X , fue σ X =
σ
. Como σ X
n
se relaciona con el tamaño de la muestra, de tal manera que las
76
muestras mayores dan menores valores de σ X , llegamos a la conclusión que un tamaño de muestra mayor tiende a producir estimaciones puntuales más cercanas a la media de la población µ. En
este sentido, se dice que la media muestral, X , es un estimador
consistente de la media poblacional µ. Con el mismo razonamiento podemos llegar a la conclusión que la proporción muestral P es
un estimador consistente de la proporción poblacional π y S es un
estimador consistente de σ.
Estimación por intervalos en poblacones normales
Introducción
Aunque X es un buen estimador puntual de µ, es obvio señalar
que hay una discrepancia (error) entre X y µ,; entonces para confiar en X como estimador de µ, se debe conocer el error e = X − µ
y el riesgo de error; vale decir hay que encontrar la precisión del
estimador.
En este caso, la explicación para los estimadores se refiere a
los estimadores puntuales y el concepto se denomina estimación
puntual; es decir, dado un parámetro, por ejemplo µ, se estima
con un valor de X , x . Una deficiencia de los estimadores puntuales es que no están vinculados a un juicio de probabilidad y que no
se puede establecer la probabilidad que hay de que X sea igual a µ.
Otra manera de estimar µ, es que éste se encuentre entre dos
valores a y b, a lo que se llama estimación por intervalo.
Por ejemplo, se dirá que la calificación media de las notas del
curso de estadística está entre 15 y 18 puntos, de modo que
15 ≤ µ ≤ 18 .
La estimación por intervalos consiste en atribuir al parámetro que se desee estimar no un valor concreto sino un rango de
valores entre los que se espera que puede encontrarse el verdadero valor del parámetro con una probabilidad alta y conocida.
El rango de valores entre los cuales con determinada probabilidad se encuentra el parámetro, se denomina intervalo confi-
77
dencial y tiene por limites confidenciales a los valores LI (Límite
Inferior) y LS (Límite Superior).
Se llama nivel de confianza (1 − α ) a la probabilidad que el
intervalo construido incluya el verdadero valor del parámetro, por
ejemplo a µ.
Para construir intervalos de confianza, necesitamos saber la
distribución teórica de la estadística utilizada como estimador.
Conocida esta distribución podemos conocer la probabilidad asociada a cada uno de sus valores.
A continuación presentaremos la metodología para encontrar
los intervalos de confianza para algunos parámetros.
Intervalos de confianza para la media con varianza conocida
Consideremos una población con distribución normal donde está
definida una variable aleatoria X con media desconocida µ y varianza σ 2 conocida, cuya notación es N (0,1). Encontraremos un
intervalo de confianza para la media poblacional µ.
En el capítulo anterior hemos visto, que para una muestra aleatoria, X 1 ,..., X n , tomada de la población anterior, la variable aleatoria media muestra, X , se distribuye normalmente con media µ
y varianza
X −µ
σ2
. Por tanto, la variable estandarizada Z =
se
σ
/ n
n
distribuye N (0,1).
Para α > 0, es posible hallar el percentil z −α de la distribu(1
)
2
ción normal, para el cual:
P(− z(1−α / 2 ) ≤ Z ≤ z(1−α / 2 ) ) = 1 − α . Luego se tiene que:
− z(1−α / 2 ) ≤
X −µ
≤ z(1−α / 2 ) .
σ/ n
Así, el intervalo para µ con un nivel de confianza (1 − α ) es:
X − z(1−α / 2 )
78
σ
σ
≤ µ ≤ X + z(1−α / 2 )
.
n
n
Luego, un intervalo de confianza al nivel (1 − α ) , para la
media poblacional µ, cuando ya se observó la muestra de tamaño n es:
α
2
α
2
z(1−α
x − z(1−α / 2 )
2
)
z(1−α
2
)
σ
σ
≤ µ ≤ x + z1−(α / 2 )
,
n
n
(2.1)
Por ejemplo, al nivel de confianza del 95% ( α = 0,05 ), un intervalo de confianza para µ es:
x − 1.96
σ
σ
≤ µ ≤ x + 1.96
.
n
n
Al nivel de confianza del 99% ( α = 0,01 ), el intervalo de confianza para µ es:
x − 2.58
σ
σ
≤ µ ≤ x + 2.58
n
n
Observemos que cuando se observa la muestra los estimadores se reemplazan por las respectivas estimaciones.
Ejemplo 2.1
Una muestra aleatoria de 100 estudiantes de Administración Educativa respondió a una prueba de inteligencia espacial. En esa
muestra se obtuvo una media de 80 puntos y se conoció que en la
población la desviación típica era 1 punto. Obtendremos un intervalo de confianza para hallar la verdadera inteligencia espacial
79
media de los estudiantes de Administración Educativa, con un
nivel de confianza de 0.99.
Solución
Para α = 0.01 , en la tabla normal se obtiene z(1−α / 2 ) = zteórico = 2.58.
Se sabe que σ = 1 y x = 80 .
Reemplazando en (2.1) tenemos:
x − 2.58
σ
σ
≤ µ ≤ x + 2.58
n
n
(1)
80 − 2.58
100
≤ µ ≤ 80 + 2.58
(1)
100
80 − 0.258 ≤ µ ≤ 80 + 0.258
79.74 ≤ µ ≤ 80.26
Luego, la verdadera inteligencia espacial media de los estudiantes de Administración Educativa se encontrará entre 79.74 y
80.26, con un nivel de confianza del 99%.
Intervalo de confianza para la media poblacional cuando la varianza es
desconocida(muestras pequeñas)
En poblaciones normales con varianza desconocida, el intervalo
para estimar µ , al nivel de confianza de (1 − α ) , es:
X − t(1−α / 2 )
S
S
≤ µ ≤ X + t(1−α / 2 )
,
n
n
donde: t(1−α / 2 ) = tteórico es la abscisa de la distribución t-Student con
n − 1 grados de libertad, P[t(n −1) < t(1−α / 2 ) ] = 1 −
Ejemplo 2.2
80
α
y
2 S=
∑ (X
i
−X
n −1
)
2
.
Una muestra aleatoria de 20 estudiantes de la Facultad de Educación responden a una prueba de inteligencia espacial, obteniéndose una media de 70 y una desviación típica de 1 ¿Entre qué límites se hallará la verdadera inteligencia espacial media de los
estudiantes de Educación, con un nivel de confianza 0.95?. Suponga
que los puntajes medios de la prueba de inteligencia espacial se
distribuyen normalmente.
Solución
Si α / 2 = 0.025 en la tabla t-Student se encuentra: t(1−α / 2 ) = tteórico =
t( 0.975,19 ) = 2.091 y en la muestra observada se tiene: s = 1 x = 70 .
Luego, un intervalo de confianza del 95% para µ es:
x − t(1−α / 2 )
70 − 2.091
s
s
≤ µ ≤ x + t(1−α / 2 )
n
n
(2.2)
1
1
≤ µ ≤ 70 + 2.091
20
20
70 − 0.4676 ≤ µ ≤ 70 + 0.4676
69.53 ≤ µ ≤ 70.47
Luego, la verdadera inteligencia espacial media de los estudiantes de Educación se encuentra entre 69.53 y 70.47, con un nivel de confianza del 95%.
Intervalos de confianza para la media con varianza
desconocida en muestras grandes (cualquier distribución)
Cuando el tamaño de muestra que se toma es suficientemente grande (mayor que 30), aún cuando no se conozca la distribución de la
variable X , por el teorema del límite central:
Z=
X −µ
σ
n
y
t =
X −µ
S
n
81
tienen distribución aproximadamente normal y pueden usarse
para construir los intervalos de confianza referentes a la media
poblacional.
El intervalo de confianza al nivel (1 − α ) para la media poblacional µ, con σ desconocido y en muestras grandes es:
X − z(1−α / 2 )
S
S
≤ µ ≤ X + z(1−α / 2 )
.
n
n
Ejemplo 2.3
Para estimar el promedio de los salarios docentes de una universidad, se tomó una muestra aleatoria de 50 docentes, donde se
encontró que la media de los sueldos es 840.1 soles y la varianza
es 122.44 (soles)2.
Obtendremos un intervalo de confianza del 95% para estimar la media de los salarios de todos los docentes de esa universidad.
Solución
x = 840.1 soles,
n = 50
s = 122.44 = 11.07 soles.
A pesar que no se conoce la distribución poblacional de los
salarios, como la muestra es grande nos basamos en el teorema
del límite central. Así, para α = 0.05 el valor de z(1−α / 2 ) = 1.96.
Luego, un intervalo para µ, al nivel de confianza del 95% es:
x − z(1−α / 2 )
840.1 − 1.96
s
s
≤ µ ≤ x + z(1−α / 2 )
n
n
(2.3)
11.07
11.07
≤ µ ≤ 840.1 + 1.96
50
50
837.03 ≤ µ ≤ 843.17
El intervalo de confianza al nivel del 95% para la media de
82
los salarios de todos los docentes de esa universidad, es (837.03soles, 843.17 soles).
Ejemplo 2.4
Se diseñó un estudio de muestreo para estimar la deuda de tarjetas de crédito anual de los docentes universitarios peruanos. Una
muestra de 85 clientes docentes universitarios proporcionó los
balances de tarjetas de crédito que aparecen en la tabla siguiente.
Se va a construir un intervalo de confianza de 95% para la media
Tabla Nº 2.3. Balances de tarjeta de crédito en dólares anuales
para una muestra de 85 clientes docentes universitarios
9619
5994
3344
7888
7581
9980
5364
4652
13627
3091
12545
8718
8348
5376
968
943
7959
8452
7348
5998
4714
8762
2563
4935
381
7530
4334
1407
6787
5938
2998
3678
4911
6644
5071
5266
1686
3581
1920
7644
9536
10658
1962
5625
3780
11169
4459
3910
4920
5619
3478
7979
8047
7503
5047
9032
6185
3258
8083
1582
6921
13236
1141
8660
2153
5759
4447
7577
7511
8003
8047
609
4667
14442
6795
3924
414
5219
4447
5915
3470
7636
6416
6550
7164
poblacional del balance promedio poblacional de tarjetas de crédito por docente universitario.
Los cálculos para obtener la media y desviación estándar son
muy tediosos, por lo que nos auxiliaremos en el Software SPSS.
Los interesados en mayores detalles pueden remitirse a la biblio83
grafía: Estadística Descriptiva con soporte en SPSS y MATLAB
(Gómez et al., 2005).
Solución
a)
b)
Iniciar la sesión y activar SPSS.
Crear el archivo de datos con la variable balance, guardar y
ejecutar los siguientes comandos:
ANALIZE / DESCRIPTIVE STATISTICS / DESCRIPTIVES
/ Seleccionar la variable BALANCE / OPTIONS / activar
MEAN Y STD DEVIATION / CONTINUE / Y OK para ejecutar.
El output del SPSS es:
Mean
Std.
Deviation
5900
3058
donde la media y la desviación estándar en la muestra son:
x = 5900 y s = 3058 dólares.
El valor del cuantil z(1−α 2 ) de la distribución normal
z α = z0,975 = zteórico = 1.96 .
(1− )
2
Un intervalo para µ al nivel de confianza del 95% es:
x − z1−(α / 2 )
s
s
≤ µ ≤ x + z(1−α / 2 )
n
n
5900 − 1.96
3058
3058
≤ µ ≤ 5900 + 1.96
85
85
5900 − 650.78 ≤ µ ≤ 5900 + 650.78
5249.22 ≤ µ ≤ 6550.78
La media poblacional del valor de las tarjetas de crédito para
84
los docentes universitarios peruanos está entre 5249.22 y 6550.78
dólares anuales, con un nivel de confianza del 95%.
Intervalo de confianza para la proporción poblacional
Para estimar la proporción poblacional π, se usa el siguiente reπ −P
sultado: Por el capítulo 1 tenemos que P (1 − P ) ~ N (0,1) , a parn
tir del cual se construye el siguiente intervalo de confianza al nivel (1 − α ) , para la proporción poblacional π:
P − z(1−α / 2 )
P (1 − P )
P (1 − P )
≤ π ≤ P + z(1−α / 2 )
n
n
donde:
P es el estimador del parámetro proporción en la población, π;
z(1−α / 2 ) es el percentil de la distribución normal.
Ejemplo 2.5
En una encuesta de opinión, 320 estudiantes entrevistados de la
Facultad de Educación declararon estar a favor del candidato del
partido político de gobierno a la Presidencia de la República.
a. Hallar un intervalo de confianza, al nivel del 95% para estimar la proporción a favor.
b. Hallar un intervalo de confianza, al nivel del 99% para estimar la proporción a favor.
La muestra total fue de 400 estudiantes.
Solución
A un nivel de confianza del 95%, z(1−α / 2 ) = 1.96 .
La proporción de estudiantes que votan por el partido políti-
85
co en la muestra es p =
a 320
=
= 0.80 .
n 400
Un intervalo de confianza al nivel del 95%, para la proporción poblacional π es:
p − Z (1−α / 2 )
p (1 − p )
p (1 − p )
≤ π ≤ p + Z (1−α / 2 )
n
n
(2.4)
0.80(0.20 )
0.80(0.20 )
≤ π ≤ 0.80 + 1.96
400
400
0.80 − 1.96
0.7608 ≤ π ≤ 0.8392
El intervalo al nivel del 95% de confianza para la proporción
de estudiantes en la población que votan por el partido político es
( 76.08%, 83.92%).
Intervalo de confianza para la diferencia de medias de dos poblaciones
con varianzas conocidas
Si X 1 y X 2 son variables aleatorias independientes con distribu-
(
(
)
)
2
2
ciones N µ1 , σ 1 y N µ2 , σ 2 respectivamente; entonces, las me-
dias muestrales X 1 y X 2 , correspondientes a muestras aleatorias
 σ2 
de tamaño n1 y n2 , tienen las siguientes distribuciones N  µ1 , 1 
n1 

 σ2 
y N  µ2 , 2  . Luego, la variable aleatoria X 1 − X 2 es-tandarizan2 

da, Z =
(X
σ X 1− X 2 =
86
1
)
− X 2 − (µ1 − µ2 )
σ
σ2
+ 2
n1 n2
2
1
σ 12 σ 22
.
+
n1 n2
, tiene distribución N (0,1) , donde
Cabe señalar que si los tamaños de muestra son grandes, a
pesar de que las variables X 1 y X 2 no tienen distribución normal, la variable estandarizada, Z =
(X
1
)
− X 2 − (µ1 − µ2 )
tribución aproximadamente normal.
σ
σ2
+ 2
n1 n2
2
1
, tiene dis-
A partir de una muestra aleatoria de tamaño n1 para la variable X 1 y de una muestra de tamaño n2 para la variable X 2 , variables independientes, un intervalo para estimar la diferencia de
medias µ1 - µ2, al nivel de confianza del (1 − α )100% es:
x1 − x 2 − z(1−α / 2 )σ X 1 − X 2 ≤ µ1 − µ2 ≤ x1 − x 2 + z(1−α / 2 )σ X 1 − X 2 (2.5)
Ejemplo 2.6
En un sistema educativo se aplicaron dos métodos A y B para enseñar el curso de física. En un grupo de 80 estudiantes se aplicó el
método A y en el otro de 120 se aplicó el método B. Las medias de
las calificaciones obtenidas fueron 12.2 y 10.5 respectivamente.
¿Podemos admitir que los métodos de enseñanza no son diferentes y que las diferencias encontradas en las muestras se debe al
azar?. Experiencias anteriores dicen que las variables X 1 y X 2
que representan los rendimientos con los métodos A y B respectivamente, tienen distribución aproximadamente normal con desviaciones estándar σ 1 = 1.5 puntos y σ 2 = 0.5 puntos. α = 0.05 .
Construiremos un intervalo de confianza al 95% para la diferencia de los rendimientos promedio en la población.
Solución
Grupo 1
Grupo 2
n1 = 25
n2 = 20
x1 = 12.2 puntos
x 2 = 10.5 puntos
87
σ X 1− X 2
σ 12 σ 22
=
+
=
n1 n2
(15)2 + (0.5)2
25
20
= 0.09 + 0.0125 = 0.32
Basados en el teorema del límite central, el intervalo de confianza del 95% es:
x1 − x 2 − z(1−α / 2 )σ X 1 − X 2 ≤ µ1 − µ2 ≤ x1 − x 2 + z(1−α / 2 )σ X 1 − X 2 (2.6)
(12.2 − 10.5) + 1.96(0.32 ) ≤ µ1 − µ2 ≤ (12.2 − 10.5) + 1.96(0.32 )
1.7 − 0.6272 ≤ µ1 − µ2 ≤ 1.7 + 0.6272
1.0728 ≤ µ1 − µ2 ≤ 2.3272
Con una confianza del 95% la diferencia en los rendimientos
promedio de todos los estudiantes del curso de física está entre
1.07 puntos y 2.33 puntos.
Intervalo de confianza para la diferencia de medias de dos poblaciones
con varianzas desconocidas, muestras grandes (cualquier distribución)
Cuando se trata de muestras grandes con varianzas desconocidas, el intervalo de confianza al nivel (1 − α ) para la diferencia de
medias µ1 − µ2 es:
X 1 − X 2 − z(1−α / 2 ) S X 1 − X 2 ≤ µ1 − µ2 ≤ X 1 − X 2 + z(1−α / 2 ) S X 1 − X 2
donde:
S X 1− X 2 =
Ejemplo 2.7
88
S12 S22
+
.
n1 n2
En una muestra aleatoria de 36 alumnos de la maestría de
2
educación, la media de edades es x1 = 40 años y s1 = 9 años y
en otra muestra aleatoria de 49 alumnos en la maestría de ciencias
sociales, la media de edades de los alumnos es x1 = 35 años y des2
viación estándar s2 = 10 de años. Vamos a obtener el intervalo de confianza del 95% para la diferencia de medias en la población.
Solución
sX 1− X 2 =
s12 s22
9 10
+
=
+
= 0.6739
n1 n2
36 49
En muestras grandes, con el valor de y con los valores obtenidos
en la muestra se tiene:
( x1 − x2 ) − z(1−α / 2 ) s X 1 − X 2 < µ1 − µ2 < ( x1 − x 2 ) + z(1−α / 2 ) s X 1 − X 2 (2.7)
(40 − 35) − 1.96(0.6739 ) ≤ µ1 − µ2 ≤ ( 40 − 35) + 1.96(0.6739 )
3.679 ≤ µ1 − µ2 ≤ 6.321
Entonces, con un nivel de confianza del 95%, el intervalo para
la diferencia entre las medias de las edades de las dos poblaciones
de alumnos está entre 3.68 y 6.3 años.
Intervalo de confianza para la diferencia de medias de dos poblaciones
con varianzas desconocidas e iguales
(muestras pequeñas)
Como la varianza poblacional es desconocida, tiene que ser estimada y en lugar de la variable estandarizada Z, se tiene la variable aleatoria:
t=
( X 1 − X 2 ) − (µ1 − µ2 ) , cuya distribución es t-Student con
 1
1 
S p2  +


 n1 n2 
89
t
(n1 + n2 − 2 ) grados de libertad y se denota con ( n1+n2−2 ) . Como
hay n1 − 1 grados de libertad asociados con la muestra aleatoria
de la población 1, y n2 − 2 grados de libertad para la población 2,
la distribución t tendrá (n1 + n2 − 2) grados de libertad.
El estimador de la varianza poblacional es
S p2 =
(n − 1)S + (n − 1)S
n +n −2
2
1
1
1
1
2
2
.
2
2
Si S p es el estimador de σ 2 , entonces el estimador puntual
de σ X 1 − X 2 cuando σ 12 = σ 22 = σ 2 es S X X =
1− 2
1 1
S p2  +  .
 n1 n2 
Ahora se puede emplear la distribución t-Student para encontrar un intervalo de confianza para la diferencia entre las medias de las poblaciones.
Si se observa una muestra aleatoria de tamaño n1 para la variable X 1 y una muestra de tamaño n2 para la variable X 2 , donde
X 1 y X 2 son variables independientes con varianzas desconocidas, el intervalo para estimar la diferencia de medias µ1 − µ 2 , al
nivel de confianza (1 − α )100% es:
( x1 − x 2 ) − t(1−α / 2 ) s X 1 − X 2 ≤ µ1 − µ2 ≤ ( x1 − x 2 ) + t(1−α / 2 ) s X 1 − X 2 (2.8)
donde:
1 1
s X 1 − X 2 = s 2p  +  y para α > 0 , P (t( n1 +n2 −2 < tteórico ) = 1-α,
 n1 n2 
entonces en la tabla t-Student se encuentra el valor de t(1−α / 2 ) =
t(teórico) , la abscisa de la distribución t-Student con n1 + n2 − 2 grados de libertad.
Ejemplo 2.8
Con el fin de comparar los promedios de tiempo, en que los traba-
90
jadores de una determinada universidad de dos turnos diferentes
A y B, realizan una tarea, se registraron los tiempos correspondientes a 9 trabajadores de cada uno de los turnos. Para el turno A
se obtuvo:
32 min, 37min, 35min, 28min, 41min, 44min, 35min, 31min, 34min
y para el turno B: 35min, 31min, 29min, 25min, 34min, 40min,
27min, 32min, 31min.
Encontraremos un intervalo de confianza del 95% para la diferencia entre las medias de los tiempos de las tareas realizadas
por los trabajadores de los turnos A y B.
Solución
Supongamos que esos tiempos se distribuyen normalmente y que
las varianzas de los mismos son iguales. Utilizaremos el SPSS para
resolver encontrar las medias y varianzas de las muestras.
a) Iniciar la sesión y activarStatistics
SPSS.
Tiempo A
N
Mean
Std. Deviation
b)
Tiempo B
9
35.22
4.94
9
31.56
4.48
Crear el archivo de datos con las variables tiempoA y tiempoB. Después de crear la base de datos ejecutar los siguientes
comandos:
ANALIZE / DESCRIPTIVE STATISTICS / DESCRIPTIVES
/ Seleccionar las variables TIEMPOA y TIEMPOB/ OPTIONS / activar MEAN Y STD DEVIATION / CONTINUE / OK.
El output del SPSS nos muestra:
Se obtiene el valor de la varianza combinada:
s 2p =
(n1 − 1)s12 + (n2 − 1)s22
n1 + n2 − 2
=
8(4,94 ) + 8(4,48)
16
2
2
91
=
195.20 + 160.56 355.76
=
= 22.24 ,
16
16
y la estimación de la desviación estándar para la diferencia
de medias es:
1 1
1 1
s X 1 − X 2 = s 2p  +  = 22.24 +  = 4.89 = 2.21.
9 9
 n1 n2 
Con n1 + n2 − 2 = 9 + 9 − 2 = 16 grados de libertad, α = 0.05 ,
se cumple P t(16 ) < tteórico = 0.975, entonces en la tabla t-Student
(
)
se encuentra el valor de t(1−α / 2 ) = tteórico = 2.12 .
El intervalo de 95% de confianza para la diferencia de medias
poblacionales es:
( x1 − x 2 ) − t(1−α / 2 ) s X 1 − X 2 ≤ µ1 − µ2 ≤ ( x1 − x 2 ) + t(1−α / 2 ) s X 1 − X 2
(35.22 − 31.56) − (2.12)(2.21) ≤ µ1 − µ2 ≤ (35.22 − 31.56) + (2.12)(2.21)
− 1.03 ≤ µ1 − µ2 ≤ 8.35
Así, con un nivel de confianza del 95%, la diferencia de los
tiempos medios de las tareas realizadas para todos los trabajadores de los turnos A y B se encuentra entre -1.03 minutos y 8.3 minutos.
Intervalo de confianza para la diferencia entre las proporciones de dos
poblaciones
En las poblaciones 1 y 2, con respectivas proporciones poblacionales π 1 y π 2 (de estudiantes, profesores, etc., para ser más genéricos, de "unidades"), con determinados atributos; se desea encontrar un intervalo de confianza para la diferencia de proporciones
π1 − π 2 .
Los parámetros que son las proporciones poblacionales tienen como estimadores en cada una de las muestras: P1 =
92
A
y
n1
P2 =
B
, donde A es el número de elementos con el atributo de
n1
interés en la primera muestra y B es el número de elementos con
el mismo atributo en la segunda muestra. Cuando las muestras son
( P1 − P2 ) − (π 1 − π 2 )
tiene dis1 1
P (1 − P ) + 
nn1 P n+2 n P
tribución aproximadamente normal, donde P = 1 1  2 2 . Una
suficientemente grandes, la estadística
n1 + n2
n1 p1 + n2 p2
estimación común de π 1 = π 2 = π , es p =
.
n1 + n2
El intervalo de confianza (1 − α ) % para la diferencia de proporciones es:
( P1 − P2 ) − z(1−α / 2 ) S p ≤ π 1 − π 2 ≤ ( P1 − P2 ) + z(1−α / 2 ) S p ,
donde
1 1
S p = P(1 − P )  +  .
 n1 n2 
Ejemplo 2.9
Al Ministerio de Educación le interesa comparar la calidad del
trabajo que se realiza en las oficinas regionales rurales del norte y
del sur. Se seleccionan muestras aleatorias de expedientes de do-
Expedientes
Número expedientes analizados
Número de expedientes con errores
Oficina
regional norte
Oficina
regional sur
250
300
35
27
centes que trabajan en las áreas rurales norte y sur, que solicitan
traslado a áreas metropolitanas, para obtener un intervalo de confianza para la diferencia entre las proporciones de expedientes con
errores en las dos zonas rurales. A continuación se tiene el núme-
93
ro total de expedientes y el número de expedientes con errores en
cada una de las oficinas regionales.
Solución
π1: Proporción de expedientes con error en la oficina regional norte, en la población.
π2: Proporción de expedientes con error en la oficina regional sur,
en la población.
p1: Proporción de expedientes con error en la oficina regional norte, en la muestra.
p2: Proporción de expedientes con error en la oficina regional sur,
en la muestra.
p1 =
35
= 0.14
250
p2 =
27
= 0.09
300
p1 − p2 = 0.05
p=
sp =
n1 p1 + n2 p2
n1 + n2
p=
250(0.14) + 300(0.09)
= 0.1127
550
1 1
1
1 
p (1 − p )  +  = 0.1127 (0.8873) 
+
= 0.027

 250 300 
 n1 n2 
Para un nivel de confianza del 90%, en la tabla normal se
encuentra z(1−α / 2 ) = z0, 95 = 1.645 . Luego:
( p1 − p2 ) − z(1−α / 2 ) s p ≤ π 1 − π 2 ≤ ( p1 − p2 ) + z(1−α / 2 ) s p
(2.9)
( 0.14 − 0.09) − 1.645(0.0275) ≤ π 1 − π 2 ≤ ( 0.14 − 0.09) + 1.645(0.0275)
0.05 − 0.045 ≤ π 1 − π 2 ≤ 0.05 + 0.045
0.005 ≤ π 1 − π 2 ≤ 0.095
Con un nivel de confianza del 90%, la diferencia entre las tasas de errores de todos los trabajadores de las dos oficinas, se encuentra entre 0.5% y 9.5%.
Intervalo de confianza para la varianza de una población
94
En secciones anteriores describimos métodos de inferencia estadística, donde intervenían medias y proporciones poblacionales.
En esta sección ampliaremos el campo a casos donde intervienen
inferencias acerca de varianzas de la población.
En el capítulo anterior utilizamos la varianza muestral
S2 =
∑ (X
−X
n −1
i
) , como estimador puntual de la varianza pobla2
cional σ .
2
Figura Nº 3.1: Ejemplos de la Distribución Muestral de (n − 1)S 2 / σ 2
(Distribución Ji Cuadrado)
Con 2 grados de libertad
Con 5 grados de libertad
Con 10 grados de libertad
(n − 1)S 2
0
σ2
Siempre que se selecciona una muestra aleatoria simple del
tamaño n de una población normal, la expresión: (n − 1)
S2
, tiene
σ2
una distribución ji-cuadrado con n − 1 grados de libertad.
Usaremos el símbolo χα para representar el valor de la distribución Ji-cuadrado que da como resultado un área, o probabili2
Figura Nº 3.2: Distribución Ji cuadrado con
n − 1 grados de libertad
α /2
α /2
1−α
0
χα2 / 2
χ12−α / 2
95
dad, de α a la derecha del valor establecido.
2
Usando esta distribución se obtiene los percentiles χ (α / 2 ) y
χ (21−α / 2 ) de tal manera que cada una de las áreas que se indican en
la siguiente figura sean iguales a α / 2 .
Así que,

(n − 1)S 2 ≤ χ  = 1 − α
P  χα / 2 ≤
1−α / 2 
σ2


Luego, el intervalo para σ 2 , al nivel de confianza 1 − α , es:
(n − 1)S 2
≤σ
χ12−α / 2
2
(
n − 1)S 2
≤
χα2 / 2
,
donde los valores de χ son los percentiles de la distribución
chi-cuadrado con n − 1 grados de libertad, y 1 − α es el coeficiente
de confianza.
2
Ejemplo 2.10
Una muestra aleatoria de 20 estudiantes de la especialidad de biología ha rendido el examen de matemáticas, en el que ha obtenido
una media de x = 72 puntos con varianza s 2 = 16 puntos. Supondremos que las calificaciones se distribuyen normalmente y construiremos un intervalo de confianza para la varianza poblacional
de puntajes, σ 2 , con un nivel de confianza del 90%.
Solución
n = 20 ,
s 2 = 16 puntos2,
x = 72 puntos.
Para el nivel de confianza 1 − α = 0.95 , los valores de los per-
centiles de la distribución ji-cuadrado con n − 1 = 19 grados de libertad son χ 02.05 = 10.12 y χ 02.95 = 30.14 . Así:
(20 − 1)s 2
χ12−α / 2
96
≤σ2 ≤
(20 − 1)s 2
χα2 / 2
(2.10)
(20 − 1)16 ≤ σ 2 ≤ (20 − 1)16
30.14
10.12
10.09 ≤ ó 2 ≤ 30.04
Luego, con el nivel de confianza del 90%, la varianza poblacional de puntajes se encuentra entre 10.09 puntos2 y 30.04 puntos2.
Ejercicios
Para una muestra aleatoria de 6 estudiantes matriculados en el
curso de estadística se tiene los tiempos en horas semanales que
dedican a estudiar: 5 8 10 7 10 14
a. Defina la variable de interés.
b. Caracterice la media poblacional y la varianza poblacional.
c. ¿Cuál es el valor de la estimación puntual de la media de la
población? Interprete.
d. ¿Cuál es el valor de la estimación puntual de la desviación
estándar de la población?.
A una muestra aleatoria de 150 alumnos de la universidad,
se le preguntó si había estudiado el idioma inglés. 75 respondieron Sí, 55 respondieron No y 20 no opinaron.
a. ¿Cuál es el valor de la estimación puntual de la proporción
de la población que responde Sí?.
b. ¿Cuál es el valor de la estimación puntual de la proporción
de la población que respondió No?.
c. Encuentre el intervalo de confianza del 90% para la proporción poblacional que respondieron Sí.
Fuente de ingresos
Frecuencia
Propina sólo domingos
Quehaceres, dádivas y domingos
Quehaceres y dádivas, no domingos
Nada
149
219
251
165
Total
784
97
A una muestra aleatoria de 784 niños, cuyas edades fluctuaban de 9 a 14 años, se les preguntó en qué forma conseguían dinero de sus padres (Consumer Reports, enero de 1997). las respuestas fueron las siguientes:
a.
b.
c.
¿Qué proporción de niños recibe propina sólo los domingos?.
¿Qué proporción de niños recibe dinero por quehaceres y dádivas, pero no recibe los domingo?
¿Qué proporción de niños recibe dinero por quehaceres, dádivas y también domingos?
El departamento de transporte en Estados Unidos, publica
estadísticas de llegadas, antes o después del horario programado,
de los principales vuelos ( Associated Press, 8 de septiembre de
2000). Suponga que la proporción estimada de vuelos que llegan
a tiempo, para todas las aerolíneas, se basa en una muestra aleatoria de 1400 vuelos. Si 1117 llegan a tiempo, ¿cuál es la estimación
puntual de la proporción de vuelos que llegan a tiempo?.
Encuentre el intervalo de confianza del 90% para la proporción poblacional de vuelos que llegan a tiempo.
Louis Harris encuestó a una muestra aleatoria de 108 adultos
para conocer su opinión acerca de la educación (Education Week,
7 de agosto de 2000). Las respuestas fueron las siguientes:
595 adultos: la está mejorando
332 adultos: la educación permanece igual.
81 adultos: la educación está empeorando.
Encuentre la estimación puntual de los siguientes parámetros
de la población:
a. La proporción de adultos que opinan que la educación está
mejorando.
b. La proporción de adultos que piensan que la educación permanece igual.
c.
La proporción de adultos que piensan que la educación está
98
empeorando.
Para estimar la media del consumo (dólares) en el restaurante
de una gran universidad, se tomó una muestra de 49 profesores.
Suponga una desviación estándar poblacional de 5 dólares.
Si la media en la muestra fue 24.80 dólares mensuales. ¿Cuál
fue el intervalo de confianza del 95% para el consumo medio poblacional?.
En una muestra aleatoria de 20 alumnos en el curso de estadística aplicada a la educación, se encontró una media de 70 puntos y una desviación típica de 9 puntos en las calificaciones finales. Encuentre el intervalo de confianza del 90% para la media de
todas las calificaciones, suponiendo que se distribuyen normalmente.
Quince alumnos de un colegio fueron pesados, obteniéndose:
42.70 kg. 43.48 kg 49.68 kg. 42.78 kg. 43.18 kg. 42.56 kg. 42.76 kg.
42.87 kg. 42.95 kg. 43.39 kg. 42.01 kg. 43.06 kg. 41.60 kg. 43.20 kg.
43.10 kg. Suponiendo que los pesos se distribuyen normalmente,
obtenga el intervalo de confianza del 99% para la media de los
pesos de todos los estudiantes del colegio.
Los estudiantes de la Facultad de Educación de una universidad de prestigio pudieron elegir entre un curso de estadística sin laboratorio de tres horas semanales y otro curso de
estadística con laboratorio de cuatro horas semanales. El examen escrito final fue el mismo para las dos secciones. Si 12 estudiantes de la sección con laboratorio tuvieron una calificación promedio de 84 con una desviación estándar de 4, y 18 estudiantes de
la sección sin laboratorio alcanzaron una calificación promedio de
77 con una desviación estándar de 6, encuentre un intervalo de
confianza del 99% para la diferencia entre las calificaciones promedio de los dos cursos. Suponga que las poblaciones se distribuyen de manera aproximadamente normal con varianzas iguales.
En un estudio que realizó la universidad de Cornell acerca de
las diferencias salariales entre hombres y mujeres se dio a conocer
que una de las razones por las que los salarios de los hombres
sean mayores que los salarios de las mujeres es que, los hombres
99
Hombres
Mujeres
x1 = 14.9 años de trabajo
x 2 = 10.3 años de trabajo
s1 = 5.2
s2 = 3.8 años
n1 = 100
n2 = 85
tienden a acumular más años de experiencia que las mujeres (Business Wek, 28 de agosto de 2000). Se tomaron dos muestras aleatorias independientes y se encontró:
a.
b.
¿Cuál es la estimación puntual de la diferencia de medias
poblacionales de los salarios de hombres y mujeres?.
Encuentre el intervalo de confianza del 95% para la diferencia entre las dos medias poblacionales.
Un grupo de investigadores desea estimar la diferencia entre
las medias de los ingresos anuales de familias en dos zonas de
Zona 1
x1 = 15 700
s1 = 700
n1 = 8
soles
soles
Zona 2
x 2 = 14 500
soles
s2 = 14 500
soles
n2 = 12
Lima Metropolitana. En muestras aleatorias independientes de
familias residentes en las dos zonas se encontró los siguientes resultados:
a.
b.
c.
100
Encontrar la estimación puntual para la diferencia entre las
medias de los ingresos de las dos zonas
Determine un intervalo de confianza del 95% para esa diferencia?.
¿Qué suposiciones hizo para encontrar el intervalo en el
inciso b?.
Una encuesta de Gallup, en 1994, determinó que el 16% de
505 varones y 25% de 496 mujeres encuestados en una universidad, estuvieron a favor de prohibir la venta libre de cerveza, vinos y licores en el país. Encuentre un intervalo de confianza de
95% para la diferencia entre las proporciones de mujeres y varones de esa universidad que estuvieron a favor de la prohibición.
Usted es un inspector de escuelas públicas y realiza un experimento para investigar si la habilidad en lectura de los estudiantes
de primer año de secundaria ha mejorado o no. Si en una muestra
aleatoria de 185 estudiantes de esta población encuentra una habilidad media de lectura igual a 75 palabras por minuto, encuentre el
intervalo de confianza del 90% para la habilidad media en lectura
de todos los estudiantes de primer año de secundaria.
El Director Académico del centro pre universitario de la UFV
tiene la percepción que el rendimiento académico durante el primer año de estudios en la universidad, de los alumnos ingresantes a través de la institución que dirige, ha sufrido cambios en los
últimos años. Para confirmar su percepción llevó a cabo un estudio, para el que escogió una muestra aleatoria de 150 alumnos
que ingresaron el año 2004 a través del centro pre universitario y
pidió al sistema de matrícula el rendimiento de cada uno de estos
alumnos durante el año académico 2004. Para dicha muestra obtuvo de rendimiento promedio 14.5 puntos con desviación estándar 0.5 puntos. Suponga normalidad y encuentre el intervalo de
confianza del 90% para la media poblacional del rendimiento.
Caracterice con precisión los parámetros poblacionales.
Para determinar el efecto sobre el desarrollo psicológico de
los escolares que tienen que viajar a la escuela en ómnibus de servicio público, se tomó una prueba de ansiedad a un grupo de 40
escolares que usan este sistema de transporte y a 30 escolares que
en ómnibus
x1 = 145
caminando
x2 = 135
101
van caminando al colegio. Se sabe que las desviaciones estándar
en ambas poblaciones son 9 y 12 respectivamente.
Los resultados de la prueba de ansiedad son los siguientes:
Suponiendo normalidad, encuentre un intervalo de confianza del 90% para la diferencia entre las ansiedades medias. Use.
Antes de aplicar el Plan Huascarán en el distrito de Cajatambo, el rendimiento promedio de los estudiantes de primer año de
primaria era de 12 puntos. Para determinar si el Plan ha sido efectivo en el incremento del rendimiento de los estudiantes, se observaron al azar a 150 estudiantes después de aplicar el plan durante
un año académico, obteniéndose de rendimiento promedio 13.5
puntos con desviación estándar 2.1 puntos. Encuentre el intervalo
de confianza para el rendimiento promedio. Use la metodología
correspondiente para dar respuesta a la pregunta planteada y de
ser necesario suponga normalidad.
Un investigador en el campo educativo sostuvo que el módulo didáctico empleado en la enseñanza de matemáticas es uno de
los factores que influye y determina en el proceso de enseñanza
aprendizaje y por lo tanto, el módulo adoptado incide en el rendimiento académico de los estudiantes. Para verificar su hipótesis
realizó el siguiente experimento: durante un semestre se llevó a
cabo el trabajo lectivo para dos grupos de estudiantes de la misMétodo A
12
13
12
10
10
13
13
11
14
Método B
16
17
117
14
15
17
16
16
15
ma carrera en la misma universidad, empleando dos módulos (A
y B) de características bien diferenciadas. Al final del curso aplicó
el mismo examen y obtuvo las siguientes notas.
Suponiendo que las muestras provienen de poblaciones normales con varianzas iguales, construya el intervalo de confianza
del 90% para la diferencia de medias poblacionales.
102
Un grupo de 350 estudiantes fueron divididos aleatoriamente en dos subgrupos de 100 y 150 estudiantes. Los de la muestra 1
aprendieron determinado material en el cual se enuncia verbalmente el concepto de transitivitas de "más alto que", a continuación de lo cual se dieron varios ejemplos de la situación; a los estudiantes del grupo 2 se les expuso ejemplos tras de lo cual se
enunció verbalmente el concepto. Son dos las poblaciones subyacentes a las muestras y que hubieran podido participar en el experimento. Al finalizar el experimento, 62 estudiantes de la muestra
1 y 70 estudiantes de la muestra 2 dominaban el concepto de transitividad. Encuentre un intervalo de confianza del 95% para la diferencia de proporciones poblacionales. Previamente caracterice
los parámetros poblacionales.
103