Download para descargar el archivo - OCW

Document related concepts
no text concepts found
Transcript
Cátedra I Estadística II
Autor I Hebe Goldenhersch
CONTRASTE, PRUEBA, TEST O DOCIMASTA DE HIPÓTESIS
I
Objetivos
Comprender los fundamentos teóricos y la lógica subyacente de la
metodología de pruebas de hipótesis estadísticas.
Aplicar los procedimientos de pruebas de hipótesis estadísticas para diferentes parámetros poblacionales.
Conocer acerca de los errores que se pueden cometer en el proceso de
decisión basado en muestras.
Aplicar conceptos y procedimientos de la metodología en la resolución de
problemas.
Introducir los conceptos del diseño experimental mediante el desarrollo del
modelo de diseño completamente aleatorizado de un factor.
Comprender la metodología de análisis de la varianza como procedimiento
que posibilita la comparación de promedios de dos o más poblaciones.
Identificar las distintas fuentes de variación de un conjunto de datos.
Conocer los procedimientos de comparaciones múltiples para identificar las
poblaciones con promedios diferentes.
Contenidos
1.
2.
3.
4.
5.
6.
7.
8.
9.
Introducción.
Procedimiento para la prueba de hipótesis; pruebas de una y dos colas.
Errores tipo I y tipo II.
Pruebas de hipótesis para la media, proporción, varianza, diferencia de
medias, diferencia de proporciones, cociente de varianzas.
4.1. Pruebas de hipótesis referida al parámetro media poblacional.
4.1.1. Varianza poblacional conocida, poblaciones normales o
muestra mayores que 30 (cualquier distribución poblacional).
4.1.2. Varianza poblacional desconocida, poblaciones normales y no
normales.
4.2. Pruebas de hipótesis referida al parámetro proporción poblacional
(muestras grandes- np y nq > 5).
4.3. Pruebas de hipótesis referida al parámetro varianza poblacional σ2.
4.4. Pruebas estadísticas para comparación de parámetros de dos
poblaciones.
4.4.1. Muestras independientes: comparación de medias y varianzas.
4.4.2. Comparación de medias: muestras dependientes.
4.4.3. Comparación de dos proporciones, muestras independientes.
Vinculación entre pruebas de hipótesis e intervalos de confianza.
Función de potencia. Curva O. C.
Determinación del tamaño muestral cuando se fijan α y β.
Pruebas de hipótesis para las medias de K poblaciones.
8.1. Introducción.
8.2. Análisis de la varianza de un factor.
Tabla de Análisis de varianza. Variación entre y dentro de grupos.
Comparaciones múltiples.
9.1. Variación entre y dentro de grupos.
9.2. Tabla de ANAVA.
9.3. Modelo estadístico y supuestos del ANAVA.
9.4. Supuestos del modelo.
9.4.1. Supuesto de normalidad de errores.
9.4.2. Supuesto de independencia de errores.
9.4.3. Independencia entre residuos y variable de respuesta.
9.4.4. Supuesto de varianza constante para todos los grupos.
9.5. Comparaciones múltiples.
81
82
Cátedra I Estadística II
Autor I Hebe Goldenhersch
1. Introducción
Tal como lo planteamos en el capítulo anterior, abordamos ahora el segundo de los
tipos de procedimiento, de la Inferencia Estadística: la prueba de hipótesis
estadística. En inglés se denomina “test” y en su traducción al español se han
utilizado varios vocablos, que a los efectos estadísticos consideramos equivalentes:
prueba de hipótesis, contraste de hipótesis o docimasia de hipótesis (este último suena
algo extraño porque es un término muy específico utilizado en geología para pruebas
que se realizan con ciertos minerales); a veces también se utiliza en castellano la
palabra test. En este capítulo nos referiremos a la cuestión de la prueba de hipótesis
utilizando indistintamente cualquiera de esas formas.
Una vez realizada esta aclaración, comenzaremos a considerar situaciones donde se
aplica esta metodología.
En muchas oportunidades, durante el proceso de investigación científica se generan
propuestas denominadas hipótesis de trabajo.
Por ejemplo, un educador puede sospechar que “la política económica aplicada en
los últimos 10 años ha aumentado la deserción de los alumnos que concurrían al
nivel medio de enseñanza” y vinculado a esta hipótesis de trabajo, teniendo en
cuenta otros aspectos de la realidad social puede plantear la siguiente deducción:
La deserción debe haber sido mayor entre los alumnos que concurren a
las escuelas públicas.
El solo enunciado de esta deducción no agrega mucho al conocimiento. Será
necesario efectuar un enunciado conjetural capaz de ser confrontado con datos
observados de la realidad, es decir, formular lo que denominaremos una
hipótesis estadística.
Una hipótesis estadística es un enunciado provisional con respecto a una
situación del mundo real, generalmente expresada a través de relaciones
particulares de ciertas variables en estudio.
Podemos decir también que las hipótesis estadísticas son aquéllas que pueden
contrastarse con datos observados de la realidad.
En el ejemplo, se puede establecer la siguiente hipótesis estadística: en la
Provincia de Córdoba, en los últimos años, la proporción de alumnos que ha
desertado en las escuelas públicas es mayor que la proporción de alumnos que ha
desertado en las escuelas privadas.
La esencia de la comprobación de una hipótesis estriba en verificar la relación
expresada por ella a través de la experimentación u observación de hechos de la
vida real. ¿Cuál seria el camino a seguir para verificar la hipótesis planteada?
Se debería contar con un listado de todas las escuelas públicas y privadas de nivel
medio de la provincia de Córdoba; de cada listado seleccionar una muestra
aleatoria de escuelas e ir a las escuelas seleccionadas para tomar datos referidos a
la deserción de alumnos en los últimos 10 años. Una vez que se cuenta con los
datos, se debe aplicar alguna metodología estadística conveniente para verificar si
la tasa de deserción escolar ha sido diferente o similar en los tipos de escuelas
establecidos, o sea, “contrastar” la hipótesis estadística planteada.
Si la realidad no se ajusta a la hipótesis planteada, se deberá repensar el
problema y tal vez modificar la hipótesis inicial y comenzar un nuevo ciclo en la
investigación. Por medio de este procedimiento, se habrá producido un avance
científico a través del razonamiento estadístico.
Otro ejemplo simple nos llevará a clarificar la idea de efectuar una prueba de
hipótesis.
83
Supongamos que establecemos la siguiente hipótesis y su correspondiente deducción con respecto a un aula de la Facultad que está con las puertas cerradas con
llave (por ahora no se trata de una hipótesis formulada estadísticamente).
A: la habitación esta vacía (hipótesis)
B: como la puerta no se puede abrir, si se mira por el ojo de la cerradura no se
verá a nadie (deducción).
Si procedemos a mirar por el ojo de la cerradura y vemos un alumno sentado en
un banco, podemos estar seguros al decir que la hipótesis A es falsa.
Deducción no se cumple
⇒
Hipótesis falsa
Si en cambio, miramos por el ojo de la cerradura y no vemos a nadie en el aula,
no podremos decir que la hipótesis es verdadera, porque no vimos sino una parte
del aula; pero como no hemos visto a nadie, no estamos en condiciones de
“rechazar la hipótesis”; entonces diríamos:
Deducción se cumple
⇒ No podemos rechazar la hipótesis
El hecho de mirar por el ojo de la cerradura equivale a “tomar una muestra”
(observar sólo una parte del aula). Podemos asimilar esta situación con la
inferencia estadística por cuanto debemos tomar una decisión en base a una
información limitada (la muestra) respecto de la totalidad del aula (la población).
Generalmente, en una investigación, se trabaja con muestras obtenidas a partir de una
cierta población: en el ejemplo de las escuelas, se ha tomado sólo una muestra
aleatoria de las mismas. Por ello se debe tener mucho cuidado al establecer
conclusiones a partir de muestras. Si la evidencia de la muestra lleva a la decisión de
rechazar la hipótesis planteada estaremos mucho más seguros de nuestra
determinación que cuando no existan evidencias para su rechazo.
Pasaremos ahora a comentar el razonamiento que se sigue al efectuar una prueba de
hipótesis. Este razonamiento es muy similar al que se utiliza en una corte de justicia
cuando se debe tomar la decisión de declarar culpable o no culpable a una persona
acusada de haber cometido un delito.
Los actores de un juicio pueden resumirse en un acusado, un fiscal y un juez que es
quien debe tomar la decisión de declarar o no culpable al acusado.
El acusado será considerado inocente hasta tanto las pruebas presentadas por el fiscal
demuestren lo contrario.
Haciendo una analogía con el procedimiento de prueba de hipótesis, la hipótesis que
considera que el acusado es inocente, se suele denominar hipótesis nula en el lenguaje
del test de hipótesis.
Una hipótesis nula es un supuesto acerca de uno o más parámetros u otras
características de la población, que puede ser rechazado o no en base a la
evidencia muestral.
La hipótesis nula se suele simbolizar con H0.
En general, como explicáramos más arriba, la hipótesis nula no se “acepta” sino que
“se rechaza” o “no se rechaza”. Su rechazo implica la “aceptación” de la alternativa (en
el caso del juicio, el rechazo de la inocencia implica aceptación de la culpabilidad, en el
caso del aula vacía, el rechazo implica que en el aula hay alguien). Es por ello que
suele colocarse como hipótesis nula, la situación que el investigador piensa será
rechazada.
Para explicarnos mejor: si un acusado es sometido a un juicio, es porque se sospecha
de su culpabilidad, el fiscal sospecha que es culpable, por eso lo somete a juicio;
aunque no puede ser condenado hasta no probar su culpabilidad. El rechazo de la
hipótesis nula implica la aceptación de la culpabilidad, su no rechazo implica que no se
pudo probar esa culpabilidad.
84
Cátedra I Estadística II
Autor I Hebe Goldenhersch
Si se hace una prueba estadística para determinar quién tiene razón en el caso del
aula vacía, es porque se sospecha que hay alguien; no sería razonable mirar
porque sí por el ojo de la cerradura en todas las aulas para ver si hay alguien;
cuando este procedimiento se lleva a cabo, es porque se sospecha en ese caso
particular que hay alguna persona, y el procedimiento estadístico la confirma
(rechazando la hipótesis nula) o no la confirma (no rechazándola).
Una hipótesis se denomina nula en el sentido que se supone que no existe una
diferencia importante entre el verdadero valor del parámetro de la población y el valor
del parámetro especificado en la hipótesis nula (supuesto de inocencia, igualdad de
tasas de deserción entre escuelas públicas y privadas). La hipótesis nula suele
expresarse con la igualdad del parámetro a cierto valor de referencia. Cuando se
tienen dos o más poblaciones, suele establecer la igualdad de los parámetros que se
quieren comparar.
En el estudio acerca de la deserción escolar la hipótesis nula establecida sería que
no existen diferencias en las proporciones de alumnos que desertaron en las
escuelas públicas y privadas, en símbolos:
H0) P1 = P2
donde P1 = proporción de alumnos que desertaron en la población de escuelas
publicas y P2 = proporción de alumnos que desertaron en la población de escuelas
privadas.
Si la hipótesis nula es falsa, deberá existir otra hipótesis que sea verdadera. Esta
hipótesis recibe el nombre de hipótesis alternativa.
La hipótesis alternativa se simboliza como H1.
En el ejemplo:
H1) P1 > P2
Veamos otro ejemplo.
El Instituto Pasteur de París y el Laboratorio Merieux bajo la rectoría de la Agencia
Nacional de Investigación contra el SIDA han elaborado una vacuna contra tal
enfermedad. En una primera etapa esta vacuna se probó en chimpancés y, como
los resultados fueron buenos, se decidió probar la misma en seres humanos. Se
seleccionaron 50 voluntarios de entre 18 y 55 años de ambos sexos. Los
voluntarios debían ser todos no infectados con el virus del SIDA y con un alto
riesgo de contraer la enfermedad (prácticamente se sabe que todos van a
enfermarse a causa de su situación de alto riesgo).
Previamente a esta experiencia, el grupo francés ensayó la inmunidad lograda en
chimpancés inoculados con la vacuna, obteniendo una respuesta favorable en un
75% de los casos. Por este motivo se decidió que la vacuna podrá ser considerada
efectiva en seres humanos cuando ella prevenga de la enfermedad a más del 80%
de los pacientes tratados.
Como dijimos que la hipótesis nula asume el rol del acusado y que este es
inocente (no efectiva) hasta que se demuestre su culpabilidad (es efectiva), la
hipótesis nula deberá expresar:
H0) P ≤ 0.80
donde P es el parámetro proporción poblacional, es decir, el parámetro del cual
hacemos un juicio provisorio. (La vacuna no es efectiva en más del 80% de los
casos).
85
Los 50 voluntarios de la muestra serán inoculados con la vacuna y se les efectuará
el seguimiento durante un año luego del cual se obtendrán las primeras
conclusiones.
La muestra de personas a las que se les dio la vacuna será la evidencia de que el
equipo de investigación llevará ante la Agencia Nacional de Investigación contra el
SIDA.
También dijimos que en el procedimiento de prueba de una hipótesis nula debe
existir lo que se denomina una hipótesis alternativa.
La hipótesis alternativa será:
H1) P > 0.80
(La vacuna es efectiva en más del 80% de los casos).
Hasta aquí hemos resuelto el primer paso a seguir en el planteamiento de hipótesis, o
sea, el establecimiento de la hipótesis nula y de la hipótesis alternativa.
Recordemos que en general, la hipótesis alternativa es la que expresa lo que el
investigador está sospechando ocurrirá (el acusado será declarado culpable, la
habitación no está vacía, le proporción de deserción en las escuelas públicas es mayor
que en las privadas, la vacuna es efectiva en más del 80% de los casos…).
Para poder tomar una decisión con respecto a rechazar o no la hipótesis nula
planteada, hay que establecer ciertas reglas de decisión.
Ahora bien, si en la muestra considerada, el 15% de las personas no contrae la
enfermedad, es muy probable que la vacuna sea declarada como no efectiva (la
proporción de efectividad es mucho menor al 80%). Por el contrario, si el 95% de
las personas no contrae la enfermedad, con seguridad ella será considerada
efectiva.
Pero, ¿qué decisión se tomará si, por ejemplo, el porcentaje de personas que no
se enferman oscila entre el 70 y el 85%?
Evidentemente, debería establecerse un criterio estadístico que especificará de manera
objetiva, a partir de qué valor de p̂ (proporción muestral), se tomará la decisión de
rechazar o no la hipótesis nula. Este criterio, conocido como medida de discrepancia
o criterio de test, se calcula sobre la base de la información aportada por la muestra.
Como consecuencia de este criterio de test adoptado se podrá establecer un valor
crítico que determinará una región de rechazo y una región de no rechazo de la
hipótesis nula. Este criterio tendrá que ver con un estimador del parámetro objeto del
test, y con un estadístico cuya distribución de probabilidad sea conocido en caso de
cumplimiento de la hipótesis nula. En general, los estimadores son los mismos que se
usaron en el Capítulo I para construir los intervalos de confianza y los estadísticos
serán muy parecidos a los utilizados en esa oportunidad; sólo que en lugar de contener
un parámetro desconocido, contendrán el valor que asume el parámetro si se cumple
la hipótesis nula.
En el ejemplo de la vacuna, el estimador para efectuar el test será la proporción
muestral p̂ de personas que quedaron inmunizadas por su acción (recordando que
p̂ , con tamaños de muestra adecuados, tiene distribución normal) y las reglas de
decisión determinarán en cuál de las dos regiones se posiciona el valor muestral,
con el auxilio del estadístico adecuado.
86
Cátedra I Estadística II
Autor I Hebe Goldenhersch
Tipos de hipótesis
A lo largo de la materia estableceremos básicamente cuatro tipos de hipótesis:
a) Hipótesis que especifiquen un valor o un intervalo de valores para algún parámetro
de una distribución poblacional.
b) Hipótesis que comparen valores de parámetros de dos o más distribuciones
poblacionales.
c) Hipótesis que determinen la forma de la distribución de la variable en una
población.
d) Hipótesis que se refieran a relaciones existentes entre variables (por ejemplo si
son o no independientes, si existe entre ellas una relación funcional, etc.).
En este capítulo estudiaremos las hipótesis de los tipos indicados en los apartados a) y
b); las indicadas en los apartados c) y d) se estudian en otros capítulos; se trata en
general de pruebas llamadas no paramétricas o de regresión, que implican métodos
diferentes a los estudiados en este capítulo.
A continuación veremos un procedimiento estandarizado para realizar pruebas de
hipótesis estadísticas. Este procedimiento para llevar a cabo una prueba de hipótesis
es el resultado de los trabajos de R. A. Fisher, J. Neyman y E. S. Pearson entre los
años 1920 y 1933.
En la mayoría de los casos, los pasos siguientes resultan adecuados:
a) Se define la hipótesis nula a probar y la correspondiente hipótesis alternativa.
b) Se define una medida de discrepancia (también denominada criterio de test) entre
los datos aportados por la o las muestras obtenidas y la hipótesis nula. Esta
medida se expresa como función del parámetro especificado en H0 y su correspondiente estimador en la muestra. De acuerdo a la terminología que definimos en el
Capítulo I, esta función es un estadístico (función de un parámetro y de su
estimador, sólo que en los estadísticos para realizar estimación por intervalos el
parámetro era desconocido y en el caso que estudiamos ahora se trata del valor
del parámetro cuando se cumple la hipótesis nula). La medida de discrepancia
debe seguir una distribución de probabilidad conocida cuando se cumple la
hipótesis nula. Esta discrepancia será grande cuando tiene asociada una probabi-
87
c)
lidad muy pequeña de ocurrir si la hipótesis nula es cierta y será pequeña cuando
la probabilidad de ocurrir en caso que la hipótesis nula sea cierta es elevada. Es
decir, el criterio de test permitirá discernir cuando la diferencia entre el estimador
y el parámetro establecido en la hipótesis nula es demasiado grande para
atribuirse meramente al azar.
Se toma la muestra, se calcula el estimador correspondiente y la medida de
discrepancia elegida. Si esta es pequeña, no se rechaza la hipótesis nula
(recordemos que la hipótesis nula no se “acepta” sino que “se rechaza” o “no se
rechaza) y si es grande, se rechazará la hipótesis nula.
Resumiendo, para decidir con respecto a la veracidad o no de la hipótesis nula
se debe elegir una medida de discrepancia y una regla para juzgar cuándo la
discrepancia es suficientemente grande como para rechazarla.
Pruebas de una y dos colas
La formulación de las hipótesis puede ser de dos tipos según cómo se exprese la
alternativa:
a) Se desconoce la dirección en que se sospecha la falsedad de la hipótesis nula y se
especifica la hipótesis alternativa como P1 ≠ P2 Se dice entonces que la prueba de
hipótesis es bilateral.
b) Se conoce de antemano que la hipótesis nula, si se rechaza, tiene una dirección
determinada y, en ese caso se plantea que P1 > P2 o que P1 < P2. La prueba es
entonces unilateral (derecha en el primer caso, izquierda en el segundo).
Es decir:
H1 θ ≠ θ0 donde θ simboliza cualquier
a) Si las hipótesis planteadas son H0: θ = θ0
parámetro de la población se trata de una prueba de hipótesis bilateral. La
hipótesis nula será rechazada cuando se obtengan tanto valores muy grandes
como muy pequeños del estadístico obtenido en la muestra. El investigador desea
rechazar la hipótesis nula cuando la evidencia indique diferencias con el valor de la
hipótesis nula en cualquier sentido.
b) Si las hipótesis planteadas son H0: θ ≤ θ0
H1: θ > θ, se está en presencia de una
prueba de hipótesis unilateral derecha. La hipótesis nula será rechazada para
valores grandes del estadístico obtenido en la muestra. Este planteo se realiza
cuando el investigador desea rechazar la hipótesis sólo cuando la evidencia indica
que el valor del parámetro es mayor que el establecido por la hipótesis nula. Si, en
cambio las hipótesis planteadas son H0: θ ≥ θ0
H1: θ < θ0 se trata de una prueba
de hipótesis unilateral izquierda. La hipótesis nula será rechazada para valores
chicos del estadístico obtenido en la muestra. Es el caso opuesto al anterior, el
investigador desea rechazar la hipótesis nula solamente si la evidencia le indica
que el valor del parámetro es inferior al planteado en la hipótesis nula1/.
3. Errores tipo I y tipo II
Al llegar a este punto, siguiendo con el ejemplo de la vacuna planteado más
arriba, debemos recordar que se está decidiendo con respecto al parámetro
proporción poblacional P a partir de la información brindada por una muestra. En
realidad, estamos “mirando por el ojo de la cerradura” y, en consecuencia, el
investigador podrá acertar o cometer un error. En realidad, los errores que pueden
1/
En algunos textos se encuentra en la hipótesis nula sólo el signo igual, en lugar de “mayor o
igual” o “menor o igual”. El razonamiento es exactamente el mismo y los resultados no difieren.
Preferimos poner el “mayor o igual” o “menor o igual” para que entre la hipótesis nula y la
alternativa se contemplen todos los valores posibles del parámetro.
88
Cátedra I Estadística II
Autor I Hebe Goldenhersch
cometerse son de dos tipos: podría rechazar la hipótesis nula diciendo que la
vacuna es efectiva cuando en realidad no lo es (es fácil imaginarse la peligrosidad
de esta aseveración en cuanto a la salud de los pacientes que creen estar
inmunizados y no toman las precauciones necesarias para no contraer la
enfermedad); o bien podría no rechazar la hipótesis nula cuando en realidad es
falsa (estaría diciendo que la vacuna no es efectiva cuando en realidad lo es. La
ciencia médica perdería la posibilidad de erradicar el SIDA cuando tenía todo a su
alcance para hacerlo).
Estos dos tipos de errores se conocen como: Error de tipo I y error de tipo II, y es
necesario que el investigador plantee la prueba de hipótesis previendo que las
probabilidades de cometer cualquiera de estos errores sean lo más bajas posibles.
El error de tipo I es aquel que se comete al rechazar una hipótesis nula
cuando ella es verdadera.
La probabilidad de cometer un error de tipo I se simboliza con la letra griega α; se
conoce también como nivel de significación de un test.
α = P (rechazar H0 / H0 es verdadera)
El error de tipo II es aquel que se comete al no rechazar una hipótesis nula
cuando en realidad es falsa.
La probabilidad de cometer un error de tipo II se simboliza con la letra griega β.
β = P (no rechazar H0 / H0 es falsa)
El siguiente cuadro resume todas las acciones que se pueden llevar a cabo en un
procedimiento de prueba de hipótesis, y cuáles serán sus consecuencias según la
hipótesis nula sea verdadera o falsa:
Decisión
Rechazar H0
No rechazar H0
Hipótesis nula verdadera
Error tipo I
P(EI) = α
Decisión correcta
P(DC)= 1 - α
Hipótesis nula falsa
Decisión correcta
P(DC)= 1 - β
Error tipo II
P(EII) = β
En lo que sigue, aprenderemos a calcular las probabilidades especificadas en esta
tabla, referidas tanto a las decisiones correctas como a los dos tipos de errores. Se
desarrollan los procedimientos para efectuar pruebas de hipótesis en diversos casos
particulares, referidos a parámetros o comparación de parámetros.
4.1. Prueba de hipótesis referida al parámetro media poblacional
Nos ocuparemos en este punto de la prueba de hipótesis referida al parámetro media
poblacional µ . El procedimiento a seguir es básicamente el mismo para todos los
demás parámetros estudiados hasta ahora (principalmente varianza poblacional σ2 y
proporción poblacional P). Las diferencias sólo se refieren a la elección del “estadístico
de prueba” bajo diferentes condiciones tales como distribución de la población,
conocimiento de varianzas, tamaños de muestra, etc. Tal como mencionáramos más
arriba, los estadísticos son muy parecidos a los utilizados en el Capítulo I para
estimación por intervalos de los parámetros.
89
4.1.1. Varianza poblacional conocida, poblaciones normales o muestra mayores que 30 (cualquier distribución poblacional)
Introduciremos el tema por medio de un ejemplo.
De acuerdo con ciertos informes de un organismo encargado del estudio del medio
ambiente, la lluvia ácida, causada por la reacción de ciertos contaminantes del aire
con el agua de lluvia, disminuye la acidez del aire, afectando las tierras de cultivo
y causando corrosión en los metales expuestos.
La lluvia pura que cae a través del aire limpio registra un valor de pH (el pH es
una medida de la acidez) de 5.7.
La sospecha que la instalación masiva de fábricas en un parque industrial cercano
a un radio urbano puede estar contaminando el ambiente, llevó a este organismo
a iniciar una investigación sobre la contaminación ambiental.
Los investigadores formularon la hipótesis que el ambiente estaba contaminado
por el aumento de la actividad fabril en la zona. En otras palabras, pensaban que
el pH de la lluvia que cae en la zona era inferior a 5.7.
Se establecieron las siguientes hipótesis:
H0) µ ≥ 5.7
H1) µ < 5.7
siendo µ el promedio de pH de la lluvia caída en la totalidad de las precipitaciones
que se dan en el lugar. (Hacemos la aclaración de que a menor pH, mayor acidez).
Ya dijimos que en el procedimiento de pruebas de hipótesis, es lógico pensar que
la evidencia para rechazar o no la hipótesis nula será proporcionada por una
muestra aleatoria extraída de la población de interés.
Como estamos tratando de probar una hipótesis referida al parámetro media
poblacional, utilizaremos como estimador para tomar la decisión a su contrapartida
en la muestra, la media muestral x .
Ya hemos visto que la media muestral es un estimador insesgado, de mínima
varianza y que tiende a distribuirse normalmente a medida que se incrementa el
tamaño de la muestra.
Gráficamente, se tiene:
µ0 = 5.7
x
Como la muestra es mayor que 30 y la varianza poblacional se supone conocida, la
distribución de la media muestral es normal.
En este caso particular, como se trata con test de hipótesis unilateral izquierdo tal
como está expresada la hipótesis alternativa, la hipótesis nula se rechazará
cuando el estimador puntual x tome valores más pequeños que 5.7. Cuanto más
alejado esté de ese valor, con mayor razón vamos a rechazar H0.
90
Cátedra I Estadística II
Autor I Hebe Goldenhersch
La región de rechazo de la hipótesis nula estará a la izquierda de la distribución
tal como se observa en la siguiente figura:
Existirá un valor de x , que denominaremos valor crítico y simbolizaremos con
que separará la región de rechazo de H0 de la región de no rechazo.
x*
La probabilidad de rechazar la hipótesis nula cuando es verdadera será el área
sombreada a la izquierda de x * bajo la curva normal. Esta es la probabilidad de
cometer el error de tipo I que hemos llamado α.
A continuación calculamos el valor crítico que separará las zonas de rechazo y no
rechazo de la hipótesis nula.
Como estas zonas son áreas de la distribución normal, debemos estandarizar el
valor crítico x * que establece el límite entre las dos zonas, de acuerdo con la
probabilidad de cometer el error de tipo I que se ha fijado.
En el caso como el del ejemplo, que se trata de un test unilateral izquierdo, con
las siguientes hipótesis:
H0) µ ≥ µ0
H1) µ < µ0
la región de rechazo de la hipótesis nula estará a la izquierda de la distribución.
Estandarizando el punto crítico, bajo el supuesto que la hipótesis nula es
verdadera, se tiene:
z* =
x * −µ0
σ
n
De esta expresión se puede despejar el valor del estimador
las zonas de aceptación y rechazo de la hipótesis nula:
x * = z *.
σ
n
x*
que separará
+ µ0
Conocido el valor critico, se pueden establecer las siguientes reglas de decisión:
Si x ≤ x *
se rechaza H 0
Si x > x *
no se rechaza H 0
91
Cuando se elige una determinada prueba para una hipótesis estadística, las reglas de
decisión deben ser formuladas de manera tal que indiquen claramente cuándo los
datos experimentales son consistentes con la hipótesis nula y cuándo no lo son.
En este caso particular, donde se está hablando de probar hipótesis con respecto al
parámetro media poblacional µ, las reglas de decisión deben señalar un rango de
valores para x (media muestral) para los cuales la decisión sea rechazar H0.
La hipótesis alternativa determina la localización de la región de rechazo de H0 y el
nivel de significación α el tamaño de dicha región.
En nuestro ejemplo, para poder calcular el valor crítico, el organismo a cargo de
la investigación decide tomar una muestra de n = 40 precipitaciones. En cada una
mide el pH y obtiene un promedio x = 3.7. Supongamos, a efectos del desarrollo
de este ejemplo, que se conoce la desviación estándar poblacional y que ésta es
igual a 0.5.
Si el investigador decide aceptar equivocarse en no más del 5% de las veces al
tomar una decisión de rechazar la hipótesis nula cuando es cierta, α = 0.05.
Para determinar el valor crítico que separa las zonas de rechazo y no rechazo de
H0 se debe encontrar el valor de z que acumula el 0.05 de probabilidad. Si vamos
a la tabla de probabilidades normales, encontraremos que ese valor de z es
– 1.645.
Entonces:
x * = −1.645.
0.5
+ 5.7 = −0.13 + 5.7 = 5.57
40
Conocido este valor crítico, se pueden establecer las siguientes reglas de decisión:
Si x ≤ 5.57
se rechaza
Si x > 5.57
no se rechaza
H0
H0
Como el valor de la media muestral x = 3.7 cae en la zona de rechazo de H0, el
organismo encargado de la investigación decidirá rechazar la hipótesis nula a favor
de la hipótesis alternativa. Se concluye que el ambiente presenta un contaminante
producido por la lluvia ácida.
Existe otra manera de determinar las zonas de rechazo y de no rechazo de la
hipótesis nula, consistente en comparar directamente los valores estandarizados
con el z crítico. Por ejemplo, se tiene el valor de z* = -1.645 como z crítico. Si
llamamos z “observado” al valor de x estandarizado, las reglas de decisión serán:
Si z ≤ z*
se rechaza H0
Si z > z* no se rechaza H0
El valor de z observado es:
z=
x − µ0
σ
n
=
3.7 − 5.7
= −25
0.5
40
Como -25 < -1.645, la decisión en este caso es obviamente la misma que resultó
con el método planteado anteriormente: rechazar H0.
92
Cátedra I Estadística II
Autor I Hebe Goldenhersch
Antes de continuar con los diversos casos de pruebas de hipótesis, comentamos un elemento que se utiliza cuando los problemas se resuelven utilizando
un paquete estadístico (con la computadora) y resulta muy útil para tomar las
decisiones en las pruebas de hipótesis, nos referimos al uso del nivel crítico,
“valor p” o “valor de significación”.
A partir de las posibilidades que brinda la utilización de los paquetes estadísticos, suele
utilizarse el llamado nivel crítico “p”, que proporciona una información interesante
acerca de la verdadera probabilidad de cometer el error de tipo I cuando se realiza una
prueba de hipótesis. Su cálculo exacto es complicado y a veces imposible de realizar
“a mano”, ya que no se dispone en general de las tablas necesarias, pero los
programas de los paquetes estadísticos tienen incluidas las posibilidades de calcular
las integrales de las funciones en todos los casos, y por ello proporcionan este valor
exacto. ¿De qué se trata? El valor “p” se define como la probabilidad de obtener una
discrepancia mayor o igual que la observada en la muestra cuando se cumple H0.
Esta medida de discrepancia, en general puede definirse como:
di =
θˆ − θ
σ θˆ
Es decir, se trata del cálculo del “valor observado” del estadístico para una muestra en
particular, y tiene una distribución de probabilidad conocida2/.
La medida de discrepancia depende de la dirección de la hipótesis alternativa. Si la
prueba de hipótesis es bilateral, no se considera el signo de la desviación que se
produce entre el estimador y el parámetro especificado en la hipótesis nula.
Si la prueba es unilateral se debe tener en cuenta si la dirección de la hipótesis nula es
hacia la izquierda o hacia la derecha de la distribución de probabilidad utilizada.
Si denominamos
d̂
al valor observado de la discrepancia, se tiene:
p = P(d ≥ dˆ / H 0 )
Es decir, p es la probabilidad de obtener una discrepancia igual o mayor a la observada
en la muestra. Se trata de la probabilidad de las “colas” (si la prueba es bilateral); o
la “cola” (si es unilateral) que ocurran valores iguales o superiores al observado.
Este valor de p debe compararse con el α que el investigador está dispuesto a
aceptar. Si p es menor que α , entonces debemos rechazar la H0., de lo contrario no
podemos rechazarla. Dicho de otro modo, cuanto menor sea p, menor es la
probabilidad de aparición de una discrepancia como la observada y menor será la
credibilidad de H0.
En el ejemplo que estamos desarrollando, como se trata de un estadístico con
distribución normal, sería posible calcular el valor exacto de p (“valor de significación”). Este es:
P(z < -25) = 1 – F(25) = 1 – 1= 0
2/
Si la distribución del estadístico es normal, es posible calcular las probabilidades de cualquier
discrepancia observada, pero si tiene otra distribución, no existen tablas completas para
hacerlo. Se sugiere que usted revise las tablas de la t, la F o
χ2
y advertirá que no puede
calcular las probabilidades para cualquier valor, sino sólo para los que están tabulados.
93
Ello significa que hay una probabilidad prácticamente nula de obtener una
discrepancia como la observada (o mayor), si la
H0
fuera verdadera, esto es si el
nivel de pH fuera 5,7.
Al llegar a la conclusión que el pH no es 5.7, el investigador puede efectuar una
estimación por intervalos para averiguar cuál es el verdadero pH en la población
total de precipitaciones.
Si se construye este intervalo, se tiene:
P(3.7 − 1.96
0.5
0.5
≤ µ ≤ 3.7 + 1.96
) = 0.95
40
40
Realizando los cálculos, encontramos que el valor promedio del pH en la población
es un valor comprendido entre 3.55 y 3.85 con un 95% de confianza.
El valor del pH estimado es muy inferior al planteado en la hipótesis nula por lo
que puede concluirse que la contaminación por lluvia ácida es muy importante.
Si hubiéramos tenido en test unilateral derecho, las hipótesis planteadas habrían
sido:
H0) µ ≤ µ0
H1) µ > µ0
En esta situación, la región de rechazo de la hipótesis nula estará a la derecha de
la distribución.
También se puede plantear una hipótesis bilateral de la siguiente manera:
H0) µ = µ0
H1) µ ≠ µ0
En este caso se tienen dos zonas de rechazo de la hipótesis nula, una a la
izquierda y otra a la derecha de la distribución, cada una con una probabilidad
α /2.
Las reglas de decisión para una prueba bilateral serían:
Si x ≤ x 1 *
x ≥ x2 *
o
Si x 1 * < x < x 2 *
se rechaza
no se rechaza
H0
H0
El tamaño de cada cola de la distribución (zonas de rechazo de la hipótesis nula),
es igual a la mitad del nivel de significación α.
4.1.2. Varianza poblacional desconocida, poblaciones normales y no normales
Cuando la varianza poblacional es desconocida, como se explicó en el Capítulo I, el
estadístico con distribución normal no puede usarse. Ese caso es el más frecuente en
las aplicaciones prácticas, ya que resulta casi imposible suponer que se conoce la
varianza poblacional cuando se desconoce la media.
Si la población es normal, el estadístico adecuado para probar hipótesis acerca de la
media poblacional es:
X − µ0
S
tn −1 (1)
n
94
Cátedra I Estadística II
Autor I Hebe Goldenhersch
Si la población no es normal, ese estadístico no podría ser utilizado, ya que la t
requiere que la población sea normal. Pero, empíricamente puede comprobarse que
para muestras de tamaño 100 o mayor, si la población no es normal, la aproximación
del estadístico a la normal es buena.
Resumiendo: si la varianza poblacional es desconocida, y
•
•
la población es normal, se utiliza el estadístico t para cualquier tamaño de
muestra (por la aproximación de la t a la normal, cuando los grados de libertad
son mayores a 40 puede recurrirse a aproximaciones, interpolaciones, o a la tabla
de la normal),
la población no es normal, puede usarse el estadístico (1) con distribución
normal sólo si n > 100. De lo contrario hay que recurrir a pruebas no
paramétricas, que se presentan en otro capítulo de esta materia.
Actualmente, en la mayoría de las situaciones que el investigador debe enfrentar,
resuelve los problemas de pruebas de hipótesis con el auxilio de programas específicos
de computación. Para que Uds. se habitúen a la lectura de los resultados que
proporcionan estos programas, desarrollamos un problema donde se efectúa el test de
hipótesis para la media utilizando un programa de computación pertinente.
Veamos ahora algunos casos en que se supone población normal; no importa
cuál sea el tamaño muestral, se utiliza la distribución t (estadístico 1).
Los siguientes datos se refieren a salarios de 36 empleados de una fábrica
seleccionados aleatoriamente del archivo de empleados:
Empleado
Salario
Empleado
Salario
Empleado
Salario
1
2
3
4
5
6
7
8
9
10
11
12
735
550
590
892
398
493
458
684
781
644
526
578
13
14
15
16
17
18
19
20
21
22
23
24
694
482
456
419
671
983
659
534
419
532
507
592
25
26
27
28
29
30
31
32
33
34
35
36
594
839
604
454
441
513
801
895
945
617
539
407
De acuerdo con informaciones del INDEC (Instituto Nacional de Estadística y
Censos), el salario promedio en la ciudad de Córdoba es de 490$. ¿Se puede
pensar que esta hipótesis es consistente con el salario recibido por los empleados
de esta fábrica?
Las hipótesis planteadas son:
H0) µ = 490
H1) µ ≠ 490
En la siguiente salida de computación se observa una estadística descriptiva de la
variable en estudio donde se presenta el tamaño de la muestra n, la media
muestral, la desviación estándar muestral y el error estándar de la media
Estadísticos para una muestra
n
Salario
Media
36
609,0556
95
Desviación
estandar
Error estandar
de la media
160,73384
26,78897
( s / n ).
En la siguiente salida, el valor de prueba es el valor establecido para el parámetro
salario promedio poblacional en la hipótesis nula, o sea µ0. También se da el valor
de t observado calculado como
t=
x − µ0 609.06 − 490
=
= 4.444 .
26.79
s/ n
A continuación se da el valor de significación exacto p = 0,044. Este valor es
inferior al 0,05. Como se puede observar, la probabilidad de obtener un promedio
en la muestra de $ 609 tiene una muy baja probabilidad de ocurrir si en realidad la
hipótesis nula es verdadera. Por lo tanto, se decide rechazar la hipótesis nula. Los
empleados de esta fábrica ganan en promedio más que la media establecida para
toda la provincia de Córdoba.
Prueba para una muestra
Valor de prueba = 490
t
gl
4.444
Salario
Sig. (bilateral)
35
,044
A continuación se ve un gráfico de probabilidad normal, (ya estudiado en
Estadística I), por medio del cual se puede visualizar si la distribución de la
variable salarios es normal. Existen algunos valores atípicos de salarios bajos pero
podemos ver que la distribución es bastante normal. Si la distribución es normal,
entonces podemos utilizar el estadístico (1) con cualquier tamaño muestral
Grafico de normalidad de la
Valor Normal esperado
variable salario
1000
900
800
700
600
500
400
300
200
200
400
600
800
1000
Valor observado
Esta “visualización” de la distribución de frecuencias, para saber si la población es
o no es normal se completa con un test de hipótesis denominado de normalidad y
que se debe a Kolmogorov y Smirnov. Este test pertenece a los denominados tests
no paramétricos que se estudiarán en el Capítulo VI.
96
Cátedra I Estadística II
Autor I Hebe Goldenhersch
Las hipótesis que se plantean en esta prueba son:
H0) La distribución de los salarios es normal.
H1) La distribución de los salarios no es normal.
Los resultados de la aplicación de este test son los siguientes:
Prueba de Kolmogorov-Smirnov para una muestra
Salario
n
36
a,b
Parámetros normales
Media
Desviación típica
Diferencias más extremas
609,0556
160,73384
Absoluta
,124
Positiva
,124
Negativa
-,095
Z de Kolmogorov-Smirnov
,742
Sig. asintót. (bilateral)
,641
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.
La medida de discrepancia en este test es de 0.742 con un valor de significación p = 0.641. Como este valor p es muy elevado, (mayor que cualquier α que
tengamos en mente, existe una alta probabilidad que esta medida de discrepancia ocurra cuando se cumple la hipótesis nula; por lo cual no la rechaza, concluyendo que la distribución de los salarios en la población puede considerarse
normal.
Para determinar el verdadero valor del salario promedio de empleados de esta
fábrica se estimó el mismo por medio de un intervalo de confianza: (utilizamos el
valor z en lugar de t porque los grados de libertad son mayores que 30; hay poca
diferencia entre uno y otro, y además no se encuentran tabulados todos los
valores de t para más de 30 grados de libertad; también podría utilizarse algún t
cercano a 35 grados de libertad).
6 0 9 .0 6 ± 1 .9 6 x 2 6 .7 9
6 0 9 .0 6 ± 5 2 .5
[5 5 6 .5 6
; 6 6 1 .5 2 ]
El verdadero valor del salario promedio de los empleados de esta fábrica es un
valor comprendido en el intervalo establecido, con una confianza del 95%.
Veamos ahora otros ejemplos, también usando el estadístico (1)
Supongamos que el Departamento de Control de Calidad de una fábrica de
televisores asegura que, de acuerdo al plan implementado, los televisores no
deben fallar hasta los tres años de uso.
El Departamento de Comercialización, con el objetivo de corroborar esta afirmación, lleva a cabo una encuesta dirigida a compradores del producto con más de 3
años de antigüedad. Una de las preguntas estaba referida a cuándo requirió por
primera vez asistencia técnica por falla del aparato.
97
Las respuestas obtenidas (tiempo desde que compró el aparato hasta que registró
la primera asistencia técnica en años), en una muestra de 20 compradores, fueron
las siguientes:
2.5
3.8
3.1
2.3
2.8
3.1
3.5
4.1
4.8
3.8
3.9
3.0
2.6
3.4
4.0
4.1
3.8
2.6
3.2
3.0
En base a esta evidencia proporcionada por la muestra, el Departamento de
Comercialización desea saber si es lícito seguir publicitando que los aparatos no
registran fallas hasta después de 3 años de ser utilizados.
Las hipótesis planteadas fueron:
H0) µ ≤ 3 años
H1) µ > 3 años
El estimador adecuado para efectuar el correspondiente test de hipótesis es
también la media de la muestra que en este caso es:
x = 3.37 años
La varianza del tiempo transcurrido hasta la primera asistencia técnica fue
s2 = 0.4327 y la correspondiente desviación estándar muestral es de 0.66 años.
Como ocurre generalmente en la práctica, es imposible calcular la varianza del
tiempo transcurrido entre la compra del televisor y su primer pedido de asistencia
en la población de televisores vendidos por la empresa. Por este motivo, la única
medida de variabilidad es la correspondiente a la muestra de 20 televisores.
También en este caso nos encontramos con el problema que, en lugar de aparecer
la desviación estándar poblacional σ, nos encontramos con su estimador muestral
insesgado s. Como ya hemos visto, este estadístico se distribuye como una t de
Student con n – 1 grados de libertad.
En nuestro ejemplo, la hipótesis alternativa establecida determina una prueba
unilateral derecha por lo cual la zona de rechazo de la hipótesis nula estará en la
cola derecha de la distribución t de Student.
Gráficamente, tendremos:
El paso siguiente consiste en determinar un nivel de significación α que podría
ser 0.05.
98
Cátedra I Estadística II
Autor I Hebe Goldenhersch
Estableciendo el criterio de test como:
t=
( x * −µ0 )
s
n
De aquí se puede despejar el valor de
x*
tn −1
que es:
x * = µ0 + t
s
n
La regla de decisión será, entonces:
Si el promedio de tiempo transcurrido desde la compra del televisor hasta que se
produce su primera asistencia técnica, calculado en la muestra de 20 televisores
es mayor a x * , se rechazará la hipótesis nula; en caso contrario se concluirá que
no existe una evidencia muestral contundente para rechazarla.
En el ejemplo, se tiene una variable t con 19 grados de libertad cuyo valor que es
el que acumula el 0.95 de probabilidad, es t19;0.95 = 1.729.
Calculamos, entonces, el valor crítico:
x * = 3 + 1.729
0.66
20
= 3 + 0.26 = 3.26
La media en la muestra de televisores fue de 3.37 años. Como este valor es
superior a 3.26, se rechaza la hipótesis nula.
El valor de la media muestral cae en la zona de rechazo de la hipótesis nula por lo
cual llegamos a la conclusión de que el tiempo promedio hasta que solicita
asistencia técnica por primera vez, es superior a 3 años. Por ello, el Departamento
de Comercialización podrá seguir publicitando la duración de los productos de la
fábrica.
Cuando se rechaza la hipótesis nula, se puede estar interesado en estimar el
verdadero valor del parámetro poblacional, en este caso µ = tiempo promedio
hasta que se solicita asistencia técnica por primera vez.
Para ello se efectúa una estimación por intervalos que, en este caso, será:
s
s 

Px −t
≤ µ ≤ x +t
 = 0 .9 5
n
n 

0 .6 6
0 .6 6 

P  3 .3 7 − 2 . 0 9 3
≤ µ ≤ 3 .3 7 + 2 .0 9 3
 = 0 .9 5
4 .4 7
4 .4 7 

El valor de t es ahora el que acumula el 0.975 de probabilidad.
Efectuando convenientemente los cálculos, se tiene:
P(3.37 – 0.31 ≤ µ ≤ 3.37 + 0.31) = 0.95
3.06 ≤ µ ≤ 3.68
De acuerdo a la información proporcionada por la muestra, el tiempo promedio
hasta que se requiere asistencia técnica es un valor comprendido en este intervalo
y esto se dice con un 95% de confianza.
99
A continuación damos un ejemplo que ha sido resuelto por medio del programa de
computación (SPSS).
Los siguientes datos se refieren a la antigüedad (en años), los salarios mensuales
percibidos y el sexo de empleados de una empresa:
Antigüedad
40.00
35.00
20.00
30.00
31.00
41.00
22.00
10.00
14.00
20.00
39.00
14.00
20.00
33.00
39.00
Salario
585.00
2066.00
838.00
502.00
269.00
537.00
1279.00
470.00
475.00
568.00
549.00
541.00
739.00
1007.00
857.00
Sexo
1.00
1.00
1.00
2.00
2.00
2.00
1.00
1.00
1.00
2.00
2.00
2.00
1.00
1.00
2.00
Sexo: 1.- Varón
2.- Mujer
Estadistica descriptiva calculada en la muestra
n
Antiguedad
Media
15
Desviación típ.
Error típ.
de la media
8.575713215
2.2142396
23.600000
En esta tabla aparece la media muestral ( x ), la desviación estándar muestral (s)
y el error estándar muestral
(s / n ) .
Las hipótesis planteadas para el parámetro promedio de antigüedad son las
siguientes:
H0) µ = 25
H1) µ ≠ 25
El resultado de la prueba se presenta en la siguiente tabla:
Prueba para una muestra
Valor de prueba = 25
t
Antiguedad
gl
,803
Sig. (bilateral)
14
,435
El valor de p es 0.435. Si lo comparamos con α = 0.05, estamos en la situación de
que p > 0.05, por lo cual se toma la decisión de no rechazar la hipótesis nula.
La antigüedad promedio de todos los empleados de esa empresa es de 25 años.
100
Cátedra I Estadística II
Autor I Hebe Goldenhersch
Valor Normal esperado
Plot normal de la variable antiguedad
40
30
20
10
0
0
10
20
30
40
50
Valor observado
Prueba de Kolmogorov-Smirnov para una muestra
ANTIGUED
n
15
Parámetros normales
Media
23.60000000
Desviación típica
Diferencias más extremas
8.575713215
Absoluta
.174
Positiva
.174
Negativa
-.106
Z de Kolmogorov-Smirnov
.674
Sig. asintót. (bilateral)
.754
Antiguedad
Analizando el normal plot, se observa que los valores del gráficos oscilan bastante
cerca de la línea trazada por lo cual se puede pensar que la variable antigüedad se
distribuye normalmente. Esta situación es luego corroborada por el test de
normalidad de Kolmogorov para una muestra (p = 0.745), también mayor que
0.05.
50
40
30
20
10
0
N=
15
En el correspondiente box plot no se observa la presencia de valores atípicos.
101
A continuación realizamos una prueba de hipótesis para el parámetro salario
promedio. Las hipótesis planteadas son:
H0) µ = 500
H1) µ ≠ 500
Estadísticos para una muestra
N
Salario
Media
15
Desviación típ.
Error típ.
de la media
441,88571
114,09440
752,1333
Prueba para una muestra
Valor de prueba = 500
t
gl
2,210
Salario
Sig. (bilateral)
14
,044
En este caso, se observa un valor de p = 0.04 que si lo comparamos con α = 0.05,
al ser este menor, se toma la decisión de rechazar la hipótesis nula. El salario
promedio de los empleados de la empresa no es 500$. En este caso se debe
calcular una estimación por intervalos para ver por dónde anda el valor del salario
promedio en la población.
Valor Normal esperado
Normal plot para la variable salario
1600
1400
1200
1000
800
600
400
200
0
-200
-1000
0
1000
2000
3000
Valor observado
En el normal plot pareciera que la distribución se alejan de la normal pero si se
observa la prueba de Kolmogorov que se presenta a continuación, aparece un
p = 0.318 > 0.05, por lo cual no se rechaza la normalidad de la variable en
estudio.
102
Cátedra I Estadística II
Autor I Hebe Goldenhersch
Prueba de Kolmogorov-Smirnov para una muestra
VAR00002
n
15
Parámetros normales
Media
Desviación típica
Diferencias más extremas
752,1333
441,88571
Absoluta
,247
Positiva
,247
Negativa
-,195
Z de Kolmogorov-Smirnov
,958
Sig. asintót. (bilateral)
,318
Existe un valor atípico para la variable salario: una persona que gana 2066$.
A continuación se presentan algunas actividades para que practiquen los
conceptos aprendidos.
Actividades de Aprendizaje
Actividad 1:
El gerente de un Banco local ha informado al Directorio que las últimas
medidas económicas implementadas, que restringen el retiro de fondos de los
bancos, ha generado un movimiento mayor en los cajeros automáticos. Hasta
ahora sus clientes utilizaban los mismos a un promedio de 6 operaciones
mensuales. Seleccionando a 130 clientes de su base de datos se encontró:
Estadística descriptiva
N
x
130
8.68
Varianza
Error estándar de la media
Valor mínimo
Valor máximo
Mediana
Suma
4.12
0.18
4
14
9
1129
a) ¿Es razonable lo informado por el gerente? Trabaje con α = 0,01.
b) ¿Cuál es la verdadera cantidad promedio de extracciones mensuales que
ahora realizan sus clientes? Trabaje con (1-α) = 0,99.
Actividad 2:
La Facultad de Ciencias Económicas viene afirmando que la duración de la
carrera de Contador Público es de 8.5 años con una desviación estándar de 2.6
años. Luego de haber implementado distintas medidas a fin de mejorar este
valor, decide evaluarlas. Para ello selecciona aleatoriamente 40 legajos de
egresados en la última colación encontrando los siguientes datos:
103
Duración
Media
Error típico
Mediana
Desviación estándar
Varianza de la muestra
Curtosis
Coeficiente de asimetría
Rango
Mínimo
Máximo
Suma
N
7,007
0,242
6,940
1,534
2,352
-0,622
0,391
5,990
4,480
10,470
280,260
40,000
¿Puede la Facultad decir que las medidas implementadas han sido efectivas a
un nivel de 10%?
Actividad 3:
Los mosaicos producidos por una fábrica de la ciudad de Córdoba poseen una
resistencia media a la ruptura de 80 Kg. con una desviación estándar de 15
Kg. El gerente de producción propone un nuevo método para fabricar los
mosaicos, sosteniendo que el mismo aumenta la resistencia a la ruptura.
Para evaluar esta afirmación se someten a prueba de resistencia mosaicos
fabricados con el nuevo método, con el siguiente resultado:
Estadística descriptiva
Resumen
N
Media
Var(n-1)
E.E.
Mín.
Máx.
Mediana
Resistencia
32
107,22
223,66
2,64
68,12
131,30
107,51
a) ¿Es correcta la afirmación del gerente a un nivel del 1%?
Actividad 4:
El Balance General de una S.A., que posee 200 deudores, arroja para el rubro
Otros Créditos un total de $ 3.500.000. El directorio contrata un auditor externo
ya que considera que el saldo promedio de dicha cuenta no es el que refleja la
contabilidad. Se envían circulares a 49 deudores elegidos aleatoria- mente, los
cuales confirmaron adeudar un total de $ 870.000. Se conoce que la varianza
poblacional es 300.000 pesos2. A un nivel del 5%, ¿es confiable la cifra que
muestra el balance?
Actividad 5:
Un envasador de gaseosas dice que la cantidad promedio de bebida en sus
botellas de 1 litro es de 1.08. La Oficina de Defensa al Consumidor ha recibido
numerosos reclamos de clientes que afirman que el contenido es menor que 1
litro. Para poder responder a estas quejas, la Oficina Estatal decide llevar a
cabo una prueba de hipótesis. Explique el significado del error tipo I, eligiendo
una de las siguientes alternativas:
1.
2.
3.
4.
Concluir
Concluir
Concluir
Concluir
que
que
que
que
µ
µ
µ
µ
=
<
=
<
1
1
1
1
litro
litro
litro
litro
cuando
cuando
cuando
cuando
realmente µ ≥ 1
en realidad µ ≥ 1
realmente µ < 1
en realidad µ < 1
104
Cátedra I Estadística II
Autor I Hebe Goldenhersch
105