Download Cómo realizar "paso a paso" un contraste de hipótesis con SPSS

Document related concepts

Análisis de la varianza wikipedia , lookup

SPSS wikipedia , lookup

Prueba t de Student wikipedia , lookup

Prueba de Levene wikipedia , lookup

Análisis multivariante de la varianza wikipedia , lookup

Transcript
DOCUWEB FABIS
Dot. Núm 0702004
Cómo realizar "paso a paso" un contraste de hipótesis con
SPSS para Windows y alternativamente con EPIINFO y
EPIDAT: (II) Asociación entre una variable cuantitativa y una
categórica (comparación de medias entre dos o más grupos
independientes).
Aguayo Canela, Mariano.
Hospital Universitario Virgen Macarena (Sevilla), Servicio de Medicina Interna.
Resumen
Cuando queremos evaluar el grado de asociación o independencia entre una variable cuantitativa y
una variable categórica (y recuérdese que ésta clasifica o diferencia a los individuos en grupos, tantos
como categorías tiene dicha variable), el procedimiento estadístico inferencial recurre a comparar las
medias de la distribuciones de la variable cuantitativa en los diferentes grupos establecidos por la
variable categórica. Si ésta tiene solo dos categorías (es dicotómica), la comparación de medias entre
dos grupos independientes se lleva a cabo por el test t de Student; si tiene tres o más categorías, la
comparación de medias entre tres o más grupos independientes se realiza a través de un modelo
matemático más general, el Análisis de la Varianza (ANOVA). En ambos casos, las pruebas
estadísticas son exigentes con ciertos requisitos previos: la distribución Normal de la variable
cuantitativa en los grupos que se comparan y la homogeneidad de varianzas en las poblaciones de
las que proceden los grupos; su no cumplimiento conlleva la necesidad de recurrir a pruebas
estadísticas no paramétricas. En este documento se enseña a hacer estos análisis con el programa
SPSS para Windows, y alternativamente con los programas EPIINFO 6.0 y su versión 3.3.2
(actualizada en 2005) y con el programa EPIDAT 3.1.
0. INTRODUCCIÓN TEÓRICA.
Cuando tengamos que evaluar la asociación entre una variable categórica (o nominal) y una
variable cuantitativa, el procedimiento es analizar y comparar las medias de la distribución de
la variable cuantitativa en cada uno de los grupos que conforma la variable categórica.
Si la variable cualitativa sólo tiene dos categorías (por ejemplo la variable sexo) el
procedimiento se reduce a comparar las medias de la variable cuantitativa en esos dos
grupos (hombres y mujeres en el ejemplo). El contraste de hipótesis es la t de Student, para
comparar las medias (de la variable contínua) en dos grupos independientes, que en SPSS
está en:
Analizar > Comparar medias > Prueba t para dos muestras independientes
Si la variable categórica tiene tres o más categorías (por ejemplo la variable raza con las
siguientes mediciones: blanca, negra, otras) el procedimiento también consiste en comparar
las medias de la variable cuantitativa en cada uno de los grupos que conforma cada estrato
o categoría de la variable nominal, pero el procedimiento ya no es la t de Student sino un
modelo matemático más amplio: el Análisis de la Varianza (ANOVA de una vía), que va a
permitir no sólo saber si hay diferencias en las medias en los diferentes grupos sino explorar
Correspondencia: [email protected]
1 de 20
Aguayo Canela, Mariano
DocuWeb fabis.org
entre qué grupos concretos están o no esas diferencias (a través de los llamados “contrastes
a posteriori”). El análisis en SPSS está en:
Analizar > Comparar medias > ANOVA de un factor
Un aspecto muy importante de estos contrastes, tanto la t de Student como el ANOVA,
es que son muy exigentes sobre una serie de requisitos en la distribución de la
variable cuantitativa que está evaluando; en concreto sobre dos aspectos:
a) La variable cuantitativa debe distribuirse según la Ley Normal en cada uno de los
grupos que se comparan (CRITERIO DE “NORMALIDAD”).
b) Las varianzas de la distribución de la variable cuantitativa en las poblaciones de las
que provienen los grupos que se comparan deben ser homogéneas (CRITERIO DE
HOMOCEDASTICIDAD).
El primero es el más importante. Aunque puede asumirse que se cumple para muestras
grandes (n > 100), debe explorarse siempre, con gráficos y pruebas de normalidad.1 En
SPSS las pruebas de normalidad más completas están en la opción “EXPLORAR” y al que
se llega con la rutina:
Analizar > Estadísticos Descriptivos > Explorar
Con respecto al segundo requisito para aplicar estos contrastes (ANOVA y t de Student), es
menos exigente, y existen alternativas para hacer el contraste. Así veremos que en SPSS
hay una lectura de la prueba “asumiendo varianzas desiguales”.
Cuando estos requisitos se incumplen hay que recurrir a las PRUEBAS NO
PARAMÉTRICAS, que en SPSS están en:
Analizar > Pruebas no paramétricas > 2 muestras independientes (ó k muestras
independientes)
Vamos a trabajar con el ejemplo del estudio de obesidad e hipertensión. En esta base de
datos, la variable obesidad es categórica (obeso / no obeso) y desearíamos saber si está
relacionada con la edad de los individuos (una variable cuantitativa, cuya medida son los
años cumplidos), esto es, responder a la pregunta ¿hay diferencias en la edad de los
individuos según sean o no obesos? O de forma alternativa, ¿está relacionada la edad con
la presencia de obesidad?
1. PASOS A DAR EN SPSS PARA COMPARAR LAS MEDIAS DE
UNA
VARIABLE
(CUANTITATIVA)
EN
DOS
GRUPOS
ESTABLECIDOS POR UNA VARIABLE DICOTÓMICA.
1. Antes que nada debe explorarse la variable cuantitativa para comprobar que se
cumplen los requisitos que van a permitir aplicar las pruebas paramétricas. Para ello
recurrimos al procedimiento “EXPLORAR” en la pestaña de Analizar > Estadísticos
descriptivos:
1
Debe recordarse aquí también que en determinados casos en que una variable cuantitativa no sigue
una Ley Normal puede transformarse mediante una operación matemática (por ejemplo una
transformación logarítmica), consiguiendo entonces que su “transformada” sí cumpla el criterio de
normalidad. Merece la pena probar antes de optar por una prueba no paramétrica.
DocuWeb fabis.org
2 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación
entre una variable cuantitativa y una categórica (comparación de medias entre dos o
más grupos independientes).
fabis.org, 2007
Como puede apreciarse, se
selecciona como factor de
exploración la variable nominal,
esto es, la categórica que nos va
a permitir establecer los grupos a
comparar (en este ejemplo la
variable “Obesidad”, con sus dos
categorías posibles, “obeso” / “no
obeso”); y como variable
dependiente a explorar la
variable cuantitativa (en nuestro
caso la variable “Edad”, medida
en años cumplidos).
Gráficos también es posible obtener:
En la pestaña de “Gráficos”
elegimos la opción Gráficos con
pruebas de normalidad. Vemos
que esta ventana de Explorar >
•
Diagramas de caja (box-plot) para evaluar gráficamente la distribución de la variable
cuantitativa en los diferentes grupos que se comparan, y tener una aproximación
visual a lo que luego haremos en el contraste de hipótesis.
•
Gráficos descriptivos de la variable cuantitativa, como los de tallo y hojas
(stem&leaf) o los histogramas de frecuencias.
A continuación mostramos la salida de SPSS con las opciones marcadas anteriormente:
Explorar
PRESENCIA DE OBESIDAD
Primero se muestra un resumen de los casos (individuos) que se van a explorar o procesar.
Resumen del procesamiento de los casos
EDAD EN AÑOS
CUMPLIDOS
PRESENCIA
DE OBESIDAD
obeso
no obeso
Válidos
N
Porcentaje
33
100,0%
17
100,0%
Casos
Perdidos
N
Porcentaje
0
,0%
0
,0%
N
Total
Porcentaje
33
100,0%
17
100,0%
Luego un cuadro resumen con la estadística descriptiva de la variable cuantitativa (el dependiente
para el programa SPSS) en cada uno de los grupos establecidos por las diferentes categorías e la
variable cualitativa (el factor para el programa SPSS).
En esta salida podemos ver un aspecto muy interesante: los IC95% para la media en cada grupo, una
forma alternativa al contraste de hipótesis clásico para tomar decisiones sobre la relación entre
variables
DocuWeb fabis.org
3 de 20
Aguayo Canela, Mariano
DocuWeb fabis.org
Descriptivos
EDAD EN AÑOS
CUMPLIDOS
PRESENCIA
DE OBESIDAD
obeso
no obeso
Media
Intervalo de confianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtosis
Media
Intervalo de confianza
para la media al 95%
Estadístico
48,70
46,84
Límite inferior
Límite superior
Error típ.
0,90
9
50,55
48,60
49,00
27,280
5,223
41
59
18
10
,085
-1,067
50,24
47,69
Límite inferior
Límite superior
0,40
9
0,79
8
1,199
52,78
Media recortada al 5%
Mediana
Varianza
Desv. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtosis
50,21
49,00
24,441
4,944
42
59
17
7
,101
-,583
0,55
0
1,063
.
En nuestro ejercicio vemos que, tanto la estimación puntual de la media de la variable “edad” en
ambos grupos (48,70 vs 50,24) como sus intervalos de confianza (46,84 – 50,55 en el grupo “obeso”
vs 47,89 – 52,78 en el grupo “no obeso”) son muy “superponibles”, por lo que es altamente
improbable que las variables edad y obesidad estén relacionadas en la población (lo que conllevaría a
que las edades medias en ambos grupos fueran muy diferentes).
Seguidamente, se nos muestra las pruebas de normalidad que lleva a cabo el programa SPSS. Nos
hemos de fijar en la significación estadística de estos dos contrastes, asumiendo la normalidad de la
distribución si en ambos grupos el nivel de “p” es no significativo (esto es, p>0,05). En nuestro
ejemplo podemos asumir la normalidad de la variable cuantitativa “edad” en ambos grupos (“obesos” /
“no obesos”).
Pruebas de normalidad
a
EDAD EN AÑOS
CUMPLIDOS
Kolmogorov-Smirnov
PRESENCIA
DE OBESIDAD Estadístico
gl
Sig.
obeso
,124
33
,200*
no obeso
,145
17
,200*
Estadístico
,951
,950
Shapiro-Wilk
gl
33
17
Sig.
,142
,450
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors
Si hemos solicitado otros gráficos, la salida nos lo mostrará:
Gráfico Q-Q normal de EDAD EN AÑOS CUMPLIDOS
EDAD EN AÑOS CUMPLIDOS
Gráficos de tallo y hojas
Frequency
3,00
5,00
Stem &
4 .
4 .
Leaf
111
22333
1
Normal esperado
EDAD EN AÑOS CUMPLIDOS Stem-and-Leaf Plot for obesi=
obeso
para obesi= obeso
2
0
-1
-2
40
45
50
55
Valor observado
DocuWeb fabis.org
4 de 20
60
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación
entre una variable cuantitativa y una categórica (comparación de medias entre dos o
más grupos independientes).
Stem width:
Each leaf:
4
4
4
5
5
5
5
5
.
.
.
.
.
.
.
.
4555
77
899
0001
222333
445
77
9
60
10
1 case(s)
EDAD EN AÑOS CUMPLIDOS Stem-and-Leaf Plot for
obesi= no obeso
Frequency
Stem &
2,00
7,00
5,00
3,00
Stem width:
Each leaf:
4
4
5
5
.
.
.
.
Leaf
22
7778889
02344
779
EDAD EN AÑOS CUMPLIDOS
4,00
2,00
3,00
4,00
6,00
3,00
2,00
1,00
fabis.org, 2007
55
50
45
40
obeso
10
no obeso
PRESENCIA DE OBESIDAD
1 case(s)
Gráficos Q-Q normales
Gráfico Q-Q normal de EDAD EN AÑOS CUMPLIDOS
En el box-plot tenemos una representación gráfica
de la distribución de la variable cuantitativa (edad)
en los dos grupos establecidos por la variable
cualitativa (obesidad), y nos sirve para una
aproximación visual al contraste de hipótesis, que
planteará como hipótesis nula (H0) “que no son
diferentes las medias de edad en estos grupos”.
para obesi= no obeso
Normal esperado
2
1
0
-1
40
45
50
Valor observado
55
60
Como puede verse en nuestro ejemplo, las edades
medias en el grupo “no obeso” son ligeramente
mayores que en el grupo “obeso”, pero las
medianas son idénticas y un amplio porcentaje de
individuos (los situados dentro de cada caja, el 50%
de cada muestra) tienen unas edades muy
parecidas.
Con lo ya visto hasta ahora tenemos una
aproximación inferencial sin necesidad de recurrir al contraste. Tanto el análisis de los
intervalos de confianza de las medias como el estudio de los gráficos de caja nos permiten
una evaluación de hasta qué punto pueden estas dos variables estar relacionadas en la
población de la que proviene la muestra. Es muy probable que no estén asociadas. Pero
para completar el análisis inferencial debemos recurrir al contraste de hipótesis.
2. Cuando se cumple el criterio de NORMALIDAD puede llevarse a cabo una
evaluación inferencial, bien a través de comparar los intervalos de confianza de las medias
en ambos grupos o bien a través del contraste de hipótesis, siendo la hipótesis nula…
H0 → µ1 = µ2
En el programa SPSS este último procedimiento se encuentra en la secuencia de ventanas:
Analizar > Comparar medias > Prueba T para muestras independientes…
DocuWeb fabis.org
5 de 20
Aguayo Canela, Mariano
DocuWeb fabis.org
En el siguiente cuadro de diálogo que se abre tras
Prueba
T
para
muestras
optar
por
independientes, debemos seleccionar la variable a
contrastar –la variable cuantitativa, en nuestro
caso “edad”, y la variable de agrupación –la
variable categórica dicotómica, en nuestro ejemplo
la variable “obesidad”-, a la que habrá que “definir
grupos” activando la casilla correspondiente
(mientras tanto aparecen en la ventana unos signos
de interrogación entre paréntesis):
Si
usamos
los
“valores
especificados”
anotaremos en cada grupo los valores con los que está recogida cada categoría de la
variable categórica en nuestra base de datos (en nuestro ejemplo 1 = obeso; 2 = no obeso).2
La salida del programa es:
Prueba T
Estadísticos de grupo
EDAD EN AÑOS
CUMPLIDOS
PRESENCIA
DE OBESIDAD
obeso
no obeso
N
33
17
Media
48,70
50,24
Desviación
típ.
5,223
4,944
Error típ. de
la media
,909
1,199
Primero se muestran los estadísticos resumen en cada grupo: N (tamaño), media, desviación típica y
el error estándar de la media.
Luego el programa SPSS nos aporta información de la prueba T en un único cuadro resumen, donde
se nos ofrecen varias cosas, que no debemos confundir:
•
Una prueba de homogeneidad de varianzas (la prueba de Levene), que nos va a informar
sobre el segundo requisito para aplicar la comparación de medias mediante la prueba t de
Student: la homogeneidad de varianzas. El programa hace un contraste a través del
estadístico F de Snedecor y nos aporta una significación estadística, o valor “p” asociado a la
hipótesis nula de que “las varianzas son homogéneas” (señalado en color naranja en el
siguiente cuadro). Cuando ese valor “p” es significativo (p<0,05) debemos dudar de la
homogeneidad de varianzas.
•
Una doble salida de la comparación de medias en los dos grupos, expresada en dos
filas de la ventana:
o en la fila superior la salida es cuando se han asumido varianzas iguales en el
2
Vemos como también es posible agrupar por una variable cuantitativa estableciendo un “punto de
corte”, lo que la transformaría de facto en una variable categórica con dos niveles o estratos.
DocuWeb fabis.org
6 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación
entre una variable cuantitativa y una categórica (comparación de medias entre dos o
más grupos independientes).
o
•
fabis.org, 2007
contraste anteriormente comentado (o prueba de Levene);
en la línea inferior los resultados son los que habría que elegir cuando no se han
asumido varianzas iguales, esto es, cuando la prueba de Levene en el paso anterior
es significativa (p<0,05). El programa hace en este caso una “variante” de la t de de
Student, aplicando -para construir el estadístico de contraste- una varianza
promediada entre las varianzas de cada grupo.
La prueba T propiamente dicha, “para la igualdad de medias” nos da diversa información:
o El valor de T (t), los grados de libertad del estadístico (gl) y, lo más importante, el
valor de “p” (Sig. Bilateral) asociado al contraste (en color amarillo en el cuadro
siguiente).
o El valor de la diferencia de medias entre los dos grupos, su error típico, y el
intervalo de confianza al 95% de dicha diferencia de medias, que nos da una
información sobre cuán diferentes son las medias en la población, no sólo mediante
una estimación puntual sino también a través de un intervalo de valores que tiene una
elevada probabilidad de contener la verdadera diferencia de medias (en color celeste
en el cuadro siguiente). Esta información también es útil para comprender si las
medias son o no diferentes entre ambos grupos, aportando además datos para
conocer con cuánta precisión estamos estimando: un intervalo de confianza que
contenga el valor cero supone que no hay diferencias en las medias de ambos
grupos, y si su recorrido (rango entre el valor superior e inferior) es pequeño estamos
diciendo que esta estimación es bastante precisa.
Prueba de muestras independientes
Prueba de Levene
para la igualdad de
varianzas
F
EDAD EN AÑOS
CUMPLIDOS
Se han asumido
varianzas iguales
No se han asumido
varianzas iguales
Sig.
,273
,604
Prueba T para la igualdad de medias
t
gl
Sig. (bilateral)
Diferencia
de medias
Error típ. de
la diferencia
95% Intervalo de
confianza para la
diferencia
Inferior
Superior
-1,004
48
,320
-1,538
1,532
-4,619
1,542
-1,022
34,059
,314
-1,538
1,505
-4,596
1,520
En el ejemplo con el que estamos trabajando, la prueba de Levene no es significativa (p =
0,604), por lo que asumimos la homogeneidad de varianzas y leemos la t de Student en la
fila superior (“se han asumido varianzas iguales”): el estadístico t vale -1,004 (con 48 grados
de libertad) y el valor”p”asociado es 0,32. Conclusión: “No hay asociación entre la edad y
la obesidad, ya que la media de edad de obesos y no obesos no son estadísticamente
diferentes al nivel de significación alfa = 0,05)”.
Por otra parte, si interpretamos la diferencia de medias de edad entre ambos grupos, ésta se
situaría en la población, con una elevada confianza, entre -4,619 y +1,542 años. Es una
estimación algo imprecisa (unos cinco años arriba o abajo) y contiene el valor “cero”, que
nos hace llegar a la misma conclusión: por la variabilidad del muestreo (error aleatorio) es
posible explicar las pequeñas diferencias de medias de edad (1,53 años) encontradas en
nuestro estudio, por lo que debemos asumir la no-diferencia de medias de edad en la
población.
3. Vamos a ver ahora cómo proceder cuando no es posible aplicar una prueba t de
Student, empleando entonces una prueba no paramétrica.
Como ejemplo hagamos un segundo análisis aprovechando el estudio de obesidad e
hipertensión. En esta base de datos, la variable obesidad es categórica (obeso / no obeso) y
desearíamos saber si está o no relacionada con la presión arterial sistólica (TAS) de los
individuos (una variable cuantitativa, cuya medida son los mm de Hg en la toma de TAS),
esto es, responder a la pregunta ¿hay diferencias en la TAS de los individuos según sean o
no obesos? O de forma alternativa, ¿está relacionada la TAS con la presencia de obesidad?
DocuWeb fabis.org
7 de 20
Aguayo Canela, Mariano
DocuWeb fabis.org
Como en el ejercicio anterior, lo primero es comprobar si se dan los requisitos para aplicar
las pruebas paramétricas, basadas en la media y la varianza. Esto es, hay que explorar
cómo es la distribución de la variable “TAS” en cada grupo determinado por la variable
“obesidad”, solicitando pruebas de normalidad que nos permitan tomar una decisión.
La salida de SPSS es ahora la siguiente:
Explorar
PRESENCIA DE OBESIDAD
Resumen del procesamiento de los casos
PRESIÓN ARTERIAL
SISTÓLICA
Válidos
N
Porcentaje
33
100,0%
17
100,0%
PRESENCIA
DE OBESIDAD
obeso
no obeso
Casos
Perdidos
N
Porcentaje
0
,0%
0
,0%
N
Total
Porcentaje
33
100,0%
17
100,0%
Como siempre, primero un resumen de los casos (individuos) explorados, e inmediatamente un
cuadro con los estadísticos más importantes que recogen información de la variable cuantitativa
(dependiente para SPSS) en cada grupo de estudio según los niveles o estratos de la variable
categórica introducida como factor.
Descriptivos
PRESIÓN ARTERIAL
SISTÓLICA
PRESENCIA
DE OBESIDAD
obeso
no obeso
Media
Intervalo de confianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtosis
Media
Intervalo de confianza
para la media al 95%
Límite inferior
Límite superior
Límite inferior
Límite superior
Media recortada al 5%
Mediana
Varianza
Desv. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtosis
Estadístico
125,97
119,47
Error típ.
3,191
132,47
125,69
120,00
336,030
18,331
95
160
65
28
,398
-,682
144,94
131,15
,409
,798
6,505
158,73
144,93
150,00
719,434
26,822
100
190
90
45
-,045
-,932
,550
1,063
Como podemos ver en el cuadro resumen de estadísticos, la media de TAS en los dos grupos de
comparación (“obesos” / “no obesos”) es más elevada en el grupo de no obesos (144,95 con un IC95%
entre 131,15 y 158,73) que en el grupo de obesos (125,97 con un IC95% entre 119,47 y 132,47). La
diferencia puntual de estas medias es:
144,95 – 125,97 = 18,98
… ¡casi 19 mm de Hg más alta en no obesos!; y los IC95% de las medias en ambos grupos se
superponen en un rango muy corto (el que va desde 131,15 a 132,47). Es probable que ambas
medias sean estadísticamente diferentes y que podamos concluir que las dos variables (TAS y
Obesidad) están asociadas en la población de la que proviene la muestra.
El programa nos muestra ahora las pruebas de normalidad, para tomar una decisión sobre la
adecuación de los test paramétricos a la comparación de medias.
DocuWeb fabis.org
8 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación
entre una variable cuantitativa y una categórica (comparación de medias entre dos o
más grupos independientes).
fabis.org, 2007
Pruebas de normalidad
PRESENCIA
DE OBESIDAD
PRESIÓN ARTERIAL obeso
SISTÓLICA
no obeso
a
Kolmogorov-Smirnov
Estadístico
gl
Sig.
,203
33
,001
,163
17
,200*
Estadístico
,930
,958
Shapiro-Wilk
gl
33
17
Sig.
,036
,587
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significación de Lilliefors
Ambas pruebas de normalidad muestran que en el grupo “obeso” la variable TAS no se distribuye
según una Ley Normal, ya que la ”p” asociada a los contrastes de K-S (0,001) y S-W (0,036) da por
debajo del nivel de significación alfa prefijado (0,05). Esto nos obligará a tomar un camino diferente en
el análisis de la relación entre estas dos variables, optando por pruebas no paramétricas.
PRESIÓN ARTERIAL SISTÓLICA
Si hemos solicitado un gráfico de caja para la distribución
de la variable TAS en cada grupo de la variable obesidad,
obtendremos una imagen como la que se acompaña,
donde llama la atención una mayor dispersión de los
valores de TAS en el grupo “no obeso” y una tendencia,
así mismo, a mostrar valores más elevados de TAS en
este último grupo.
200
PRESIÓN ARTERIAL SISTÓLICA
180
160
140
Llegados a este punto, si deseamos hacer un
contraste de hipótesis para evaluar hasta qué punto
las medias de TAS son diferentes, debemos optar
por una de las Pruebas no paramétricas > (para…)
2 muestras independientes, con el casi
convencimiento de que el test va a ser
estadísticamente significativo.
120
100
80
obeso
no obeso
PRE SE NC IA DE OB ESIDA D
Una vez seleccionada la opción no paramétrica y
para dos muestras independientes, el cuadro de
diálogo del SPSS es el que sigue:
Es muy parecido a la que hemos visto en Comparar
medias > Prueba T para muestras independientes:
en las ventanas hay que seleccionar al menos una
variable a contrastar (la cuantitativa) y una variable
de agrupación (la categórica), que debe servir para
Definir grupos…
Se pueden elegir entre varios Tipo de prueba, siendo la más común la “U de MannWhitney”, señalada por defecto en el programa
SPSS. Tras aplicar, la salida es la siguiente:
Pruebas no paramétricas
Estadísticos descriptivos
N
PRESIÓN ARTERIAL
50
SISTÓLICA
PRESENCIA DE
50
OBESIDAD
DocuWeb fabis.org
Media
Desviación
típica
Mínimo Máximo
132,42
23,168
95
190
1,34
,479
1
2
9 de 20
Aguayo Canela, Mariano
DocuWeb fabis.org
Prueba de Mann-Whitney
Rangos
PRESIÓN ARTERIAL
SISTÓLICA
PRESENCIA
DE OBESIDAD
obeso
no obeso
Total
N
33
17
50
Rango
promedio
22,05
32,21
Suma de
rangos
727,50
547,50
Estadísticos de contrastea
U de Mann-Whitney
W de Wilcoxon
Z
PRESIÓN
ARTERIAL
SISTÓLICA
166,500
727,500
-2,358
Sig. asintót. (bilateral)
,018
a. Variable de agrupación: PRESENCIA DE OBESIDAD
Tras hacer un pequeño resumen de los casos procesados a través de sus estadísticos descriptivos
(tamaño muestral, media, desviación típica y valores máximo y mínimo), el programa procesa la
información contenida en la variable cuantitativa en cada grupo, y calcula varios estadísticos de
contraste. Lo que debemos interpretar es la Sig. Asintótica (bilateral), que en nuestro caso vale
0,018 y lleva a concluir que se rechaza la hipótesis nula de que “la media de TAS es similar en ambos
grupos”; o lo que es alternativamente igual, “que existe una asociación estadísticamente significativa
entre la TAS y la Obesidad)”.
2. PASOS A DAR EN SPSS PARA COMPARAR LAS MEDIAS DE
UNA VARIABLE CUANTITATIVA EN TRES O MÁS GRUPOS
ESTABLECIDOS POR UNA VARIABLE CATEGÓRICA.
Cuando la variable cualitativa tiene tres o más categorías, el análisis de asociación entre
esta variable y una cuantitativa ya no puede llevarse a cabo por el test t de Student, sino que
debe recurrirse a una técnica matemática conocida como ANALISIS DE LA VARIANZA. Esta
prueba contrasta la hipótesis H0 de que “las medias de las distribuciones de la variable
cuantitativa en todos y cada uno de los grupos independientes son iguales”:
H0 → µ1 = µ2 = µ3 … = µn
Esto es, con que exista una media diferente a las demás, el test estadístico será significativo
al nivel alfa establecido.
El ANOVA tiene las mismas exigencias que la t de Student: requiere que la variable
cuantitativa se distribuya según una Ley Normal en cada uno de los grupos a comparar, y
además exige que las varianzas sean homogéneas.
Vamos a realizar una prueba de ANOVA, para lo cual vamos a convertir la variable cuantitativa “edad”
de la base de datos OBESIDAD Y HTA en una variable categórica (“edadrec”) con tres categorías:
a) “menos de 47 años”
b) “de 47 a 52 años”
c) “más de 52 años”
Y ahora desearíamos comprobar si existe relación entre la presión arterial sistólica (TAS) y los tres
segmentos de edad establecidos por “edadrec”. Consistiría en “evaluar si las medias de TAS son
diferentes en los grupos de edad, y si fuese así en qué sentido y en qué estratos etarios”.
DocuWeb fabis.org
10 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación
entre una variable cuantitativa y una categórica (comparación de medias entre dos o
más grupos independientes).
fabis.org, 2007
Case Processing Summary
PRESIÓN ARTERIAL
SISTÓLICA
EDAD EN AÑOS
CUMPLIDOS (Banded)
Menos de 47 años
De 47 a 52 años
Más de 52 años
Valid
N
19
16
15
Percent
100,0%
100,0%
100,0%
N
Cases
Missing
Percent
0
,0%
0
,0%
0
,0%
Total
N
19
16
15
Percent
100,0%
100,0%
100,0%
1. Antes que nada debemos comprobar si se
cumple el requisito de normalidad en la distribución de la variable cuantitativa en
todos y cada uno de los estratos o grupos que establece la variable categórica.
Descriptives
Procedemos como ya hemos visto
antes, a través de Analizar >
Estadísticos
descriptivos
>
Explorar
PRESIÓN ARTERIAL
SISTÓLICA
EDAD EN AÑOS
CUMPLIDOS
(Banded)
Menos
de 47 años
La salida del programa SPSS será:
Vemos en el cuadro anterior los
estadísticos descriptivos en cada uno
de los tres grupos establecidos por la
variable
“edadrec”.
Las
medias
puntuales de TAS son 128.79, 133,38
y 136.00 mm de Hg. Los IC95% de
estas medias son algo anchos y se
superponen en gran parte de su
recorrido, por lo que es muy probable
que no existan diferencias en las
medias y que estas dos variables no se
asocien en la población de la que
proviene la muestra analizada.
De 47 a 52 años
Más de 52 años
Mean
95% Confidence
Interval for Mean
Statistic
128,79
120,09
Lower Bound
Upper Bound
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Mean
95% Confidence
Interval for Mean
137,49
126,99
120,00
325,620
18,045
110
180
70
20
1,484
2,300
133,38
120,60
Lower Bound
Upper Bound
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Mean
95% Confidence
Interval for Mean
133,75
142,00
574,917
23,977
100
160
60
48
-,281
-1,707
136,00
120,23
Lower Bound
Upper Bound
Tests of Normality
PRESIÓN ARTERIAL
SISTÓLICA
a
Statistic
,823
,850
,953
Shapiro-Wilk
df
19
16
15
Sig.
,002
,013
,574
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction
200
180
PRESIÓN ARTERIAL SISTÓLICA
Y en el gráfico de cajas puede visualizarse como las distribuciones
de la variable TAS en los tres grupos erarios establecidos por
“edadrec” es bastante similar, aunque con dispersión o
variabilidad creciente según aumenta la edad.
7
160
140
120
100
80
Menos de 47 años
De 47 a 52 años
Más de 52 años
EDAD EN AÑOS CUMPLIDOS (Banded)
DocuWeb fabis.org
,564
1,091
7,355
151,77
135,28
Con respecto a los test de normalidad,
130,00
811,429
se encuentra significación estadística
28,486
(p<0,05) en los dos contrastes de
95
190
hipótesis en uno de los grupos (el de
95
menos edad), y en el test de Shapiro35
,492
Wilk en el grupo de edad media, lo que
-,597
lleva a asumir la no-normalidad en la
distribución de la variable TAS en la población de la que provienen los individuos de la muestra.
Kolmogorov-Smirnov
Statistic
df
Sig.
,278
19
,000
,193
16
,112
,117
15
,200*
,524
1,014
5,994
146,15
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
EDAD EN AÑOS
CUMPLIDOS (Banded)
Menos de 47 años
De 47 a 52 años
Más de 52 años
Std. Error
4,140
11 de 20
,580
1,121
Aguayo Canela, Mariano
DocuWeb fabis.org
Con los datos previos ya intuímos que no van a encontrarse diferencias estadísticamente
significativas entre las medias de “TAS” al comparar los tres grupos de edad.
Por otra parte no sería demasiado correcto aplicar un ANOVA, ya que la variable
“TAS” no se distribuye como una Normal en los grupos de comparación. De todas
formas, y con carácter puramente instructivo, vamos llevar a cabo el contraste.
2. Análisis de la varianza de una vía. En la ventana correspondiente del SPSS aplicamos
Analizar > Comparar medias > ANOVA de un factor...
En la nueva ventana de diálogo seleccionamos la variable categórica que establecerá los
grupos a comparar y la trasladamos a la ventana Factor; en la ventana Dependientes
colocamos la variable cuantitativa,
en nuestro caso Presión arterial
sistólica.
En la pestaña que pone “Post
hoc...”
(contrastes
o
comparaciones
múltiples
a
posteriori) seleccionamos alguno
de los procedimientos que se nos
ofrecen. El más habitual es el de
Bonferroni
(también
el
de
Scheffé). Estos contrastes tienen
sentido sólo si el ANOVA sale
significativo o próximo a la significación estadística, ya que lo que realizan es comparaciones
de las medias en las múltiples parejas de grupos que puedan contrastarse, para intentar
averiguar dónde está la diferencia (o diferencias) que ha causado que se rechace la
hipótesis nula en la primera parte del ANOVA.
También debemos explorar los contenidos de la pestaña “Opciones...”, para solicitar una
prueba de homogeneidad de varianzas y, si lo deseamos, un resumen de los principales
descriptivos en cada grupo de comparación.
Los resultados de las pruebas solicitadas son los siguientes:
DocuWeb fabis.org
12 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación
entre una variable cuantitativa y una categórica (comparación de medias entre dos o
más grupos independientes).
fabis.org, 2007
ANOVA de un factor
Primero se nos muestra un cuadro resumen con los estadísticos descriptivos (de la variable
cuantitativa) más relevantes en cada grupo que se va a contrastar: las medias (y sus IC95%), las
desviaciones típicas y los valores máximo y mínimo.
Descriptivos
PRESIÓN ARTERIAL SISTÓLICA
N
Menos de 47
De 47 a 52
Más de 52
Total
Desviación
típica
18,045
23,977
28,486
23,168
Media
128,79
133,38
136,00
132,42
19
16
15
50
Error típico
4,140
5,994
7,355
3,277
Intervalo de confianza para
la media al 95%
Límite
Límite inferior
superior
120,09
137,49
120,60
146,15
120,23
151,77
125,84
139,00
Mínimo
110
100
95
95
Máximo
180
160
190
190
Luego, el programa SPSS nos ofrece un test para evaluar la homogeneidad de varianzas: es el mismo
que se aplicaba de rutina en el procedimiento comparación de medias en dos grupos independientes
(prueba T): el test de Levene. En nuestro ejemplo la significación estadística “p” vale 0.056, pudiendo
asumirse la homogeneidad de varianzas (aunque en el límite de la no significación).
Prueba de homogeneidad de varianzas
PRESIÓN ARTERIAL SISTÓLICA
Estadístico
de Levene
3,059
gl1
gl2
2
Sig.
,056
47
Por último, aparece la salida del ANOVA propiamente dicho, con sus diferentes componentes o
fuentes de variabilidad: la inter-grupos y la intra-grupos. Esta última representaría la variabilidad o
dispersión que no es explicada por el factor de agrupamiento (la variable categórica), y que sería
explicable sólo por el azar.
ANOVA
PRESIÓN ARTERIAL SISTÓLICA
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados
457,272
25844,908
26302,180
gl
2
47
49
Media
cuadrática
228,636
549,892
F
,416
Sig.
,662
Para llevar a cabo el contraste, se recurre al estadístico F de Snedecor, que en nuestro ejemplo vale
0.416 y tiene un valor “p” asociado de 0.662 (no significativo). Con esto concluiríamos nuestra
evaluación, diciendo que “las variables TAS y grupos de edad no muestran asociación”; o que “se
acepta la hipótesis nula de que las medias de TAS son iguales en los diferentes grupos de
edad”. En este caso no habría lugar a evaluar los contrastes a posteriori, puesto que no se han
encontrado diferencias significativas en el ANOVA. Aún así mostramos la salida de SPSS:
Pruebas post hoc
Comparaciones múltiples
Variable dependiente: PRESIÓN ARTERIAL SISTÓLICA
Bonferroni
(I) EDAD EN AÑOS
CUMPLIDOS
(Categorizada)
Menos de 47
De 47 a 52
Más de 52
DocuWeb fabis.org
(J) EDAD EN AÑOS
CUMPLIDOS
(Categorizada)
De 47 a 52
Más de 52
Menos de 47
Más de 52
Menos de 47
De 47 a 52
Diferencia de
medias (I-J)
-4,586
-7,211
4,586
-2,625
7,211
2,625
Error típico
7,957
8,099
7,957
8,428
8,099
8,428
Sig.
1,000
1,000
1,000
1,000
1,000
1,000
Intervalo de confianza al
95%
Límite
Límite inferior
superior
-24,34
15,17
-27,32
12,90
-15,17
24,34
-23,55
18,30
-12,90
27,32
-18,30
23,55
13 de 20
Aguayo Canela, Mariano
DocuWeb fabis.org
En el cuadro de comparaciones múltiples vemos que cada grupo de edad se compara con los otros
dos, obteniéndose en cada contraste la diferencia de medias, el IC95%, el error estándar y el
valor”p”asociado, que en todos los casos es no-significativo, como ya sabíamos que iba a suceder.
3. Pasos a dar cuando no puede aplicarse ANOVA. En nuestro ejercicio, al haberse
detectado “problemas” con la normalidad de la variable TAS en alguno de los grupos etarios,
lo correcto habría sido recurrir a una prueba no paramétrica en:
Analizar > Pruebas no paramétricas > k muestras independientesUna vez abierta
la ventana del procedimiento, vemos que es muy parecida a la del ANOVA, debiendo
seleccionarse una variable a contrastar (la cuantitativa, en el ejemplo la “Presión arterial
sistólica”) y una variable de agrupación (la categórica, en nuestro caso la “edadrec” que
corresponde a la primitiva variable “edad” que hemos recodificado en nominal, con tres
grupos o estratos), debiendo especificarle al programa SPSS el rango de valores (en
nuestro caso de 1 a 3, que son los números con los que se han codificado los tres estratos).
El tipo de prueba es por defecto el test de Kruskal-Wallis.
La salida que obtendremos, tras dar al botón de aceptar, será la siguiente (nos hemos
pasado ahora a la versión en inglés del programa SPSS 13.0):
NPar Tests (Pruebas No Paramétricas)
Primero un resumen de los estadísticos para cada variable incluida en el contraste. En nuestro
ejemplo son sólo dos, a las que SPSS considera numéricas (realmente para la segunda variable “edadrec”- no tiene sentido la estadística descriptiva llevada a cabo, pues es una variable categórica.
Descriptive Statistics
N
PRESIÓN ARTERIAL
SISTÓLICA
EDAD EN AÑOS
CUMPLIDOS (Banded)
Mean
Std. Deviation
Minimum
Maximum
50
132,42
23,168
95
190
50
1,92
,829
1
3
Luego aparece la prueba de contraste, el test de Kruskal-Wallis, con los tamaños de muestra (N) y los
rangos promedio para cada uno de los grupos a comparar. Y después, en una segunda tabla, aparece
el estadístico Chi-cuadrado, que vale 0,487, sus grados de libertad (el número de grupos -3- menos
uno), y su significación estadística (p = 0,784). Llegamos a la misma conclusión que con el ANOVA:
DocuWeb fabis.org
14 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación
entre una variable cuantitativa y una categórica (comparación de medias entre dos o
más grupos independientes).
fabis.org, 2007
“las variables contrastadas no están asociadas en la población de la que provienen la muestra
estudiada, pudiendo achacarse las pequeñas diferencias apreciadas en la presión arterial
sistólica -en los diferentes grupos de edad- al puro azar o error aleatorio del muestreo”.
Ranks
PRESIÓN ARTERIAL
SISTÓLICA
Test Statistics
EDAD EN AÑOS
CUMPLIDOS
(Banded)
Menos
de 47 años
De 47 a 52 años
Más de 52 años
Total
N
19
16
15
50
Mean Rank
23,71
26,28
26,93
a,b
En este ejemplo sólo puede concluirse que no tenemos
pruebas para rechazar la hipótesis nula, esto es
aceptaremos la igualdad de medias en la población de la
Chi-Square
que proviene la muestra y concluiremos diciendo que
df
Asymp. Sig.
“no se han encontrado argumentos que relacionen la
a. Kruskal Wallis Test
TAS con los tres rangos de edad analizados”. Por otra
b. Grouping Variable: EDAD EN
parte, si hubiésemos detectado diferencias hemos de
AÑOS CUMPLIDOS (Banded)
aclarar que con este tipo de contrastes no paramétricos
no es posible realizar contrastes a posteriori.
PRESIÓN
ARTERIAL
SISTÓLICA
,487
2
,784
3. PASOS A DAR PARA HACER UNA COMPARACIÓN DE MEDIAS
CON EL PROGRAMA EPI-INFO.
El programa EPI-INFO permite evaluar medias en dos o más grupos con dos procedimientos
o aproximaciones diferentes:
•
•
En la versión EPI INFO 6, a través de la rutina EPITABLE, siempre que tengamos
ya calculados los estadísticos resumen (media y varianza) de la variable
cuantitativa en cada uno de los estratos o grupos establecidos por la variable
categórica.
En la versión EPI INFO 2002 o posterior, a través del programa ANALIZAR
DATOS, tras cargar el fichero que contiene los datos individuales y las variables
medidas, de forma muy parecida a lo que se ha hecho en el programa SPSS.
1. Si tenemos los estadísticos resumen de la variable cuantitativa en todos y cada uno
de los grupos establecidos por la variable categórica o, simplemente, en los grupos
independientes que van a compararse, el programa EPI INFO 6.0 nos permite una
doble aproximación inferencial: la comparación de los intervalos de confianza de las
medias en cada grupo y el contraste de hipótesis que parte de la hipótesis nula de que las
medias de los diferentes grupos son iguales.
Vamos a trabajar con el mismo ejemplo que en el apartado 1 paso 3, esto es, vamos a
comparar las medias de “TAS” entre los dos grupos establecidos por la variable “Obesidad”
(“obesos” / “no obesos”). Pero en este caso ya tenemos calculados sus índices resumen: la
media, la varianza y el tamaño muestral.
¿Existe asociación?
N
Obesidad
Presión arterial sistólica
Media
Varianza
Desv. Estándar
Obeso
No obeso
125,97
144,94
DocuWeb fabis.org
33
17
336,030
719,434
18,331
26,822
15 de 20
Aguayo Canela, Mariano
1.1.
DocuWeb fabis.org
En primer lugar vamos a calcular los intervalos de confianza de la media de
TAS en ambos grupos. Esta es una primera aproximación inferencial. Abrimos en
EPITABLE la opción Describe > Mean
Y ahora debemos introducir los datos que nos pide la calculadora: la media, la desviación
estándar y el tamaño de la muestra, para cada grupo (“obesos” y “no obesos”). Mostramos a
continuación la salida para el grupo “obesos”:
El intervalo de confianza al 95% que nos da el programa EPI INFO (119,72 – 132,22) es ligeramente
más pequeño que el que aportaba el programa SPSS para la misma media (119,47 – 132,47). De
forma similar se haría el cálculo en el otro grupo (“no obesos”), y con ambos intervalos de confianza
deberíamos tomar la decisión de… “hasta qué punto ambas medias en la población serían diferentes”.
1.2.
En segundo lugar, procedamos a comparar las medias de TAS en los dos
grupos. Esta es la aproximación inferencial más clásica, a través del contraste
de hipótesis. En la calculadora estadística EPITABLE se realiza a través de la
opción Compare > Means
Una vez abierta la ventana de diálogo, nos pide cuantas muestras o grupos vamos a
comparar (¿how many samples?). En nuestro ejemplo son solo dos (“obesos” y “no
obesos”), por lo que señalamos 2 y aceptamos. El programa nos ofrece una nueva ventana
DocuWeb fabis.org
16 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación
entre una variable cuantitativa y una categórica (comparación de medias entre dos o
más grupos independientes).
fabis.org, 2007
para hacer un ANOVA para dos grupos, debiendo introducir para cada uno de los grupos la
media, la varianza y el tamaño.
Al aceptar (Calculate) el programa nos ofrece la salida de un Análisis de la Varianza (ANOVA), con la
variabilidad intergrupos (Variance between samples), la varianza residual (Residual variance), el
estadístico de contraste de Snedecor (F Statistic) y el valor ”p” asociado (p value), que en nuestro
ejemplo vale 0,004749. Al ser menor del nivel de significación habitualmente prefijado (0,05),
concluimos que “las medias de presión arterial sistólica son diferentes en obesos y no
3
obesos”.
2. Cuando tengamos a base de datos completa, con datos individuales, es posible
recurrir a su explotación de forma similar a como lo hace el programa SPSS, ya que
EPI INFO 2000 -y versiones posteriores- es capaz de reconocer e importar archivos en
formato DBase (.dbf), Excel (.xls) o Access (.mdb), entre otros.
Vamos a resumir aquí los pasos para evaluar la relación entre obesidad y edad con el
subprograma ANALIZAR DATOS del programa EPI INFO en su versión 3.3.2 (2005).
Tras leer el fichero que contiene los datos, en la ventana Analysis buscamos Estadísticas
básicas, y marcamos Medias. Se abrirá un cuadro de diálogo donde es posible seleccionar
la variable cuantitativa en la ventana “Medias de”, y la variable categórica -que establece
los grupos de comparación- en la ventana “Tabulado por valores de”. Así mismo es posible
establecer ciertas Preferencias en la salida del análisis.
Hechas estas selecciones se oprime el botón
Aceptar, y la salida que se muestra es un análisis
estadístico completo: primero un resumen de los
estadísticos básicos en los grupos que se comparan
(n, media, varianza, desviación típica, mediana,
máximo mínimo, moda, y percentiles 25% y 75%).
Luego aparece la salida del ANOVA (test
paramétrico
para
comparación
de
medias)
aclarándonos que debe emplearse sólo para datos
normalmente distribuidos. En este ejemplo, como se
3
Recuérdese que este contraste lo hicimos en SPSS con una prueba no paramétrica (la U de MannWhitney), porque la evaluación de la normalidad de la distribución de la variable “presión arterial
sistólica” resultó crítica y asumimos que no deberíamos emplear la prueba de comparación de medias
t de Student. El resultado fue parecido (p = 0,018) y la decisión la misma. Con el programa EPITABLE
corremos el riesgo de aplicar incorrectamente una prueba paramétrica si no hemos evaluado
previamente los requisitos para llevarla a cabo.
DocuWeb fabis.org
17 de 20
Aguayo Canela, Mariano
DocuWeb fabis.org
trata de comparar dos grupos, aparte del ANOVA hace un test T de Student, que puede comprobarse
que arroja un valor idéntico al obtenido en el punto 1 paso 1 de este mismo documento, con una
probabilidad ”p” asociada al contraste de 0,32 (no significativo).
Si en la opción Preferencias hubiésemos marcado Estadísticas Avanzado, seguidamente se nos
muestra el test de Bartlett para comprobar la homogeneidad de varianzas poblacionales (en este caso
no es significativo, por lo que se asume la igualdad), y el test no paramétrico de MannWhitney/Wilconxon para dos grupos.
4. PASOS A DAR PARA HACER UNA COMPARACIÓN DE DOS
MEDIAS CON EL PROGRAMA EPIDAT 3.1.
El programa EPIDAT trabaja con datos agrupados de forma similar a la calculadora
EPITABLE de EPI INFO 6.0, pero en este caso restringido a comparar sólo dos muestras o
grupos. Conociendo, por tanto, los valores resumen (medias y varianzas) de las
distribuciones de la variable cuantitativa en los grupos que van a contrastarse, se procede a
seleccionar en la pantalla inicial del programa EPIDAT 3.1:
Métodos > Inferencia sobre parámetros > Dos poblaciones > Muestras independientes
Enseguida se abre una ventana donde debemos introducir datos: la media, la varianza y el
tamaño (n) de cada grupo que se desea contrastar. El nivel de confianza (%) viene prefijado
en el 95%, pero puede modificarse.
DocuWeb fabis.org
18 de 20
Contraste de hipótesis con SPSS y alternativamente con EPIINFO y EPIDAT(II): Asociación
entre una variable cuantitativa y una categórica (comparación de medias entre dos o
más grupos independientes).
fabis.org, 2007
Tras entrar los datos solicitados se oprime en la barra de herramientas situada arriba el
icono que parece una pequeña calculadora de bolsillo, obteniéndose la siguiente salida:
Comparación de dos medias. Muestras independientes
Nivel de confianza: 95,0%
-------------------Media
Desviación estándar
Tamaño de muestra
Muestra 1
---------48,697
5,223
33
Muestra 2
---------50,235
4,944
17
Prueba de comparación de varianzas
Estadístico F
-----------------1,1160
gl numerador
--------------32
Diferencia de medias
-------------------1,538
Varianzas
---------Iguales
Distintas
Prueba de comparación de medias
Varianzas
Estadístico t
------------------ -----------------Iguales
1,0039
Distintas
1,0220
gl denominador
--------------16
Valor p
------0,8408
IC (95,0%)
----------------------1,542
4,618
-1,520
4,596
gl
------48
34
Valor p
------0,3205
0,3140
Vemos como este programa también realiza una prueba previa para comprobar la igualdad de las
varianzas, y luego aporta dos aproximaciones: la diferencia de medias entre ambos grupos y su
intervalo de confianza, y la prueba de comparación de medias t de Student. Los resultados son
idénticos a los obtenidos con el programa SPSS. De forma similar nos ofrece dos opciones de lectura,
según sean o no homogéneas las varianzas poblacionales.
DocuWeb fabis.org
19 de 20
Aguayo Canela, Mariano
DocuWeb fabis.org
Anexo.
Tabla de datos del estudio sobre Hipertensión y Obesidad.
EDAD
41
41
41
42
42
42
42
43
43
43
44
45
45
45
47
47
47
47
47
48
48
48
48
49
49
49
50
50
50
50
51
52
52
52
52
53
53
53
53
54
54
54
54
55
57
57
57
57
59
59
PAS
120
140
110
120
120
140
180
120
120
140
110
120
120
122
130
120
155
110
150
110
150
160
160
110
150
139
145
100
120
160
120
100
100
150
160
125
115
110
170
100
120
120
190
135
95
150
130
180
150
150
PAD
SEXO
70
80
80
85
86
90
110
70
86
90
80
70
80
80
80
80
80
80
85
70
100
102
110
70
90
90
70
70
85
100
80
60
70
80
100
75
75
78
100
60
80
80
120
80
70
75
80
95
80
80
1= HOMBRE
2= MUJER
DocuWeb fabis.org
OBESIDAD
2
1
2
2
1
1
2
1
2
1
1
1
1
1
2
1
2
1
2
2
2
2
2
1
1
2
1
2
1
1
1
2
2
2
1
2
1
2
2
1
1
1
2
1
1
1
1
2
1
1
1
1
1
1
2
1
2
1
1
1
1
1
1
1
1
1
2
2
2
2
2
1
2
1
1
2
1
1
2
1
1
1
1
2
1
1
1
1
2
2
1
1
2
1
1
1
2
2
1
2
1= OBESO
2= NO OBESO
20 de 20