Download Potencia y tamaño,No te la juegues,Otra vuelta de tuerca,La tabla

Document related concepts
no text concepts found
Transcript
Potencia y tamaño
Dos cualidades relacionadas. Y muy envidiables. Sobre todo cuando
hablamos de estudios científicos (¿qué pensabais?). Aunque hay más factores
implicados, como vamos a ver dentro de unos momentos.
Supongamos que estamos midiendo la media de una variable en dos
poblaciones para ver si existen diferencias entre las dos. Ya sabemos que,
simplemente por azar de muestreo, los resultados de las dos muestras van a
ser diferentes pero, ¿justifica la diferencia el poder decir que realmente
son distintas?.
Para esto realizamos el contraste de hipótesis con el estadístico
apropiado. En nuestro caso, supongamos que utilizamos una t de Student.
Calculamos el valor de nuestra t y estimamos su probabilidad. La t, como la
mayoría de los estadísticos, sigue una distribución de frecuencias o
probabilidades específica. Estas distribuciones suelen ser acampanadas, más
o menos simétricas y centradas alrededor de un valor. De esta forma, los
valores más cercanos al central tienen una mayor probabilidad de ocurrir,
mientras que los más extremos son menos probables. Por convenio, suele
decirse que cuando esta probabilidad es menor del 5% consideramos el suceso
o parámetro medido poco probable.
Pero claro, poco probable no es sinónimo de imposible. Puede ocurrir
que, por azar, hayamos obtenido una muestra que no está centrada sobre el
mismo valor que la población de referencia, por lo que el valor ocurre a
pesar de su poca probabilidad en esa población.
Y esto es importante porque puede llevarnos a errores en nuestras
conclusiones. Recordáis que cuando obtenemos los dos valores a comparar
establecemos la hipótesis nula (H0) de que los dos valores son iguales y de
que la diferencia es debida al azar por el error de muestreo. Entonces, si
conocemos su distribución de frecuencias, podemos calcular la probabilidad
de esa diferencia de ocurrir por casualidad y, si es menor del 5%, decir
que es poco probable que sea casual y que rechazamos H0: la diferencia no
se debe al azar y hay un efecto o diferencia real.
Pero claro, poco probable no es imposible. Si hemos tenido la mala
suerte de elegir una muestra sesgada respecto a la población, podremos
rechazar la hipótesis nula sin que exista tal efecto y cometer un error de
tipo 1.
Al contrario, si la probabilidad es mayor del 5% no nos veremos capaces
de rechazar H0 y diremos que la diferencia se debe al azar. Pero aquí hay
un pequeño matiz de concepto que tiene su importancia. La hipótesis nula
solo es falsable. Esto quiere decir que podemos rechazarla, pero no
afirmarla. Si cuando no podemos rechazarla la aceptamos como buena corremos
el error de no detectar una tendencia o efecto que, en realidad, sí existe.
Este es el error de tipo 2.
Como en general interesa aceptar teorías con la mayor seguridad posible,
lo habitual es aceptar probabilidades de error 1 bajas, habitualmente del
5%. Este es el valor conocido como alfa. Pero ambos errores están
relacionados, por lo que una alfa muy baja nos condiciona a aceptar una
probabilidad de error de tipo 2, o beta, más alto, generalmente de un 20%.
El valor recíproco a beta es lo que se conoce como potencia del estudio
(1-beta). Esta potencia es la probabilidad de detectar un efecto siempre
que éste exista o, lo que es lo mismo, la probabilidad de no cometer un
error de tipo 2.
Para entender los factores que afectan la potencia del estudio, me vais
a permitir que os castigue con una pequeña ecuación:
SE representa el error estándar. Al estar en el numerador implica que
cuanto menor sea (más sutil sea la diferencia) menor será la potencia del
estudio para detectar el efecto. Lo mismo ocurre con el tamaño de la
muestra (n) y con alfa: cuanto mayor sea la muestra y cuanto mayor el nivel
de significación con el que nos conformemos (con mayor riesgo de error de
tipo 1), mayor será la potencia del estudio. Por último, s es la desviación
estándar: cuanta más variabilidad haya en la población, menor será la
potencia del estudio.
La utilidad de la ecuación anterior radica en que podemos despejar el
tamaño de la muestra para obtener la siguiente:
Con esta podemos calcular el tamaño muestral necesario para la potencia
del estudio que elijamos. Beta suele establecerse en 0,8 (80%). SE y s
suelen obtenerse de estudios piloto o de datos o normativas previas y, si
no existen, los marca el investigador. Por último, ya hemos dicho que alfa
suele establecerse en 0,05 (5%), aunque si tenemos mucho miedo de cometer
un error de tipo 1 podemos establecerla en 0,01.
Para terminar, me gustaría llamar vuestra atención sobre la relación
entre n y alfa en la primera ecuación. Pensad que la potencia no varía si
aumentamos el tamaño de la muestra y disminuimos simultáneamente el nivel
de significación. Esto nos lleva a la situación de que, en ocasiones,
obtener significación estadística es solo cuestión de aumentar el tamaño
muestral lo suficiente. Por eso es fundamental valorar el impacto clínico
de los resultados y no solo el valor de p. Pero esa es otra historia…
No te la juegues
¿Habéis estado en Las Vegas?. Es una ciudad curiosa de ver. Una vez.
Dos, como mucho. Los casinos son algo asombroso, con todo el mundo jugando
como locos con la ilusión de hacerse ricos con poco esfuerzo.
Pero, ¿quién pensáis que paga todo lo que veis en Las Vegas?.
Efectivamente, los que juegan. La banca nunca pierde. Hacedme caso, no os
juguéis la pasta en un casino porque la probabilidad de ganar es más bien
escasa y, aún en el caso de que ganéis, lo más probable es que sea poca
cantidad. Claro que esto puede no ser verdad si apostáis grandes
cantidades, pero si tenéis tanto dinero tampoco tendréis necesidad de
apostar para haceros ricos.
Vamos a ver con un ejemplo lo difícil que es hacerse millonario por este
método. Tomemos como ejemplo una de las jugadas a las que se puede apostar
con la ruleta: la apuesta de la calle o de tres números. Para los que no
hayáis jugado nunca, nuestra ruleta tiene 38 números.
En esta jugada colocamos nuestras fichas en tres números de una de las
filas y la ruleta se pone a girar. Supongamos que apostamos un euro en cada
jugada. La apuesta de la calle se paga 11 a uno, lo que quiere decir que si
la bola cae en uno de nuestros tres números nos devuelven nuestro euro y
otros 11 más. Pero si la bola cae en otro de los 38 números, perderemos
nuestro euro.
Así que la probabilidad de acertar será p = 3/38 y la de perder q =
35/38. Pensemos primero cuál será la ganancia neta teórica de cada jugada:
será la suma de la probabilidad de ganar por 11 euros menos la probabilidad
de perder por uno:
Ganancia media = (3/38 x 11) – 35/38 = -0,0526 €
Esto quiere decir que, por término medio, en cada jugada perderemos algo
más de cinco céntimos. ¿Y si jugamos 300 veces seguidas?. ¿Podremos
hacernos ricos entonces?.
Pues tampoco, porque la ganancia esperada será la ganancia media de cada
jugada por el número total de jugadas, o sea, -0,0526 x 300 = -15,78 €.
Entonces, ¿por qué coño juega la gente, si cuánto más se juega mayor es la
cantidad que se espera perder?. Pues precisamente porque es una cantidad
esperada, pero el número de veces que se gana o pierde sigue una
distribución de frecuencias binomial, así que habrá afortunados que pierdan
menos o, incluso, que ganen dinero, pero también desgraciados que perderán
mucho más de lo esperado.
La siguiente pregunta que os estaréis haciendo es qué probabilidades
tenemos de ganar si jugamos las trescientas veces seguidas. Vamos a
calcularlo.
Llamemos W al número de veces que ganamos y G a nuestra ganancia neta
después de las 300 jugadas. La ganancia neta será el número de veces que
ganemos multiplicado por 11 (recordad que se paga 11 a uno) menos el número
de veces que no ganemos (perderemos un euro). Por otro lado, el número de
veces que perderemos será el número total de jugadas menos el número de
jugadas en las que ganemos. Así:
G = 11 W + (-1)(300 – W) -> 12 W – 300
Si queremos ganar, nuestra ganancia neta G debe ser mayor que cero. Si
lo ponemos en la ecuación anterior:
12W – 300 > 0
Nos queda
W > 300/12
W > 25
Esto quiere decir que, para no perder dinero, tendremos que ganar un
mínimo de 25 veces de las 300 que juguemos. ¿Y 25 son muchas o pocas?. A
mí, la verdad, me parecen un montón, pero calculemos la probabilidad.
Ya hemos dicho que el modelo de la ruleta sigue la distribución de
probabilidad binomial:
Donde n es el número de jugadas, k es el número de éxitos, p la
probabilidad de ganar y q o (1-p) la de perder. Si sustituimos las letras
de la ecuación por nuestros datos (n=300, p=3/38 y k=25) podemos calcular
cuál es la probabilidad de ganar, al menos 25 veces. El problema es que los
números se vuelven tan grandes que es muy difícil manejarlos, así que os
aconsejo que utilicéis un programa estadístico o alguna de las calculadoras
disponibles en Internet. Yo lo he hecho y me sale una probabilidad del 42%.
¡Qué bien!, pensaréis alguno. Un 42% de probabilidades de ganar no está
tan mal. Pero pensad un momento que lo que no está mal, para el casino al
menos, es el 58% de probabilidades que tenemos de perder. Y, además, el 42%
es la probabilidad de ganar en general. Si calculáis el número de jugadas
que hay que ganar para obtener una ganancia neta de 100 euros veréis que es
de más de 34 y, si calculáis la probabilidad, veréis que baja hasta un
2,2%.
Seguid mi consejo: gastaos el dinero en otra cosa.
Para finalizar esta entrada tan lúdica solo comentaros que, si no
disponéis de una calculadora de probabilidad binomial, podéis calcular una
aproximación utilizando una distribución normal. Habría que calcular la
ganancia media y su error estándar y, con ambos y la ganancia deseada,
calcular el valor z estandarizado para estimar su probabilidad. Pero esa es
otra historia…
Otra vuelta de tuerca
¿Habéis leído la novela de Henry James?. Os la recomiendo. Todo un
clásico del terror, con sus institutrices malas y muertas que se aparecen
como fantasmas y las turbias relaciones personales de fondo. Pero yo hoy no
voy a contaros ninguna novela de terror, sino que voy a dar otra vuelta de
tuerca al tema de las pruebas diagnósticas, aunque a algunos incluso les da
más miedo que una película de John Carpenter.
Ya sabemos que ninguna prueba diagnóstica es perfecta. Todas se
equivocan en alguna ocasión, ya sea diagnosticando a un sano como enfermo
(falso positivo, FP) o dando resultado negativo en alguien que tiene la
enfermedad (falso negativo, FN). Por eso se han tenido que ir inventando
parámetros que caractericen la prueba y nos den una idea de su desempeño en
nuestra práctica clínica diaria.
Los más conocidos son sensibilidad (S) y especificidad (E). Sabemos que
son características intrínsecas a la prueba y que nos informan de la
capacidad de la prueba diagnóstica para clasificar correctamente a los
enfermos (la S) y a los sanos (la E). El problema es que nosotros
necesitamos saber la probabilidad de estar o no enfermo condicionada a
haber obtenido un resultado positivo o negativo de la prueba. Estas
probabilidades condicionadas por el resultado de la prueba es la que nos
dan los valores predictivos positivo y negativo.
Con estos pares de valores podemos caracterizar el valor de la prueba,
pero a todos nos gustaría más definir el valor de una prueba diagnóstica
con un solo número. Podríamos usar los cocientes de probabilidades, tanto
el positivo como el negativo, que nos dan una idea de cuánto más probable
es padecer o no la enfermedad, pero sobre estos cocientes pesa una antigua
maldición: son poco conocidos y peor entendidos por los clínicos.
Por este motivo se han intentado desarrollar otros indicadores para
caracterizar la validez de las pruebas diagnósticas. Uno de ellos sería la
denominada exactitud o precisión de la prueba, que refleja la probabilidad
de que la prueba haya hecho un diagnóstico correcto.
Para calcularlo construimos un cociente situando en el numerador todos
los valores verdaderos posibles (positivos y negativos) y en el denominador
todos los resultados posibles, según la siguiente fórmula:
Este indicador nos da una idea de en qué proporción de casos la prueba
diagnóstica no se equivoca, pero puede ser difícil trasladar su valor a un
concepto clínico tangible.
Otro parámetro para medir la efectividad global de la prueba es el
índice de Youden, que suma los mal clasificados por la prueba diagnóstica
según la siguiente fórmula:
Índice de Youden = S + E -1
Como medida para el desempeño global de la prueba no está mal, pero no
se aconseja utilizar como parámetro aislado para valorar una prueba
diagnóstica.
Algunos autores dan un paso más allá e intentan desarrollar parámetros
que funcionen de forma análoga al número necesario a tratar (NNT) de los
estudios de tratamiento. Así, se han desarrollado dos parámetros.
El primero es el número necesario para diagnosticar (NND). Si el NNT es
el inverso de los que mejoran con tratamiento menos los que mejoran con el
control, hagamos un NND y pongamos en el denominador los enfermos con
resultado positivo menos los sanos con resultado positivo.
Los enfermos positivos nos los da la S de la prueba y los sanos
positivos el complementario de la E. Luego:
NND = 1 / S – (1-E)
Si simplificamos el denominador quitando el paréntesis, nos queda:
NND = 1 / S + E -1
Que, efectivamente, es el inverso del índice de Youden que vimos antes:
NND = 1 / Í. Youden
El segundo parámetro sería el número de pacientes para diagnosticar mal
a uno (NNMD). Para calcularlo, en el denominador pondríamos el
complementario del índice de exactitud que vimos al principio:
NNMD = 1 / 1 – Í. exactitud
Si sustituimos el valor del índice por su valor y simplificamos la
ecuación, nos quedaría:
donde Pr es la prevalencia de la enfermedad (la probabilidad preprueba).
Este parámetro nos da el número de pruebas diagnósticas que tenemos que
hacer para equivocarnos una vez, por lo que la prueba será mejor cuanto
mayor sea este índice. Al igual que el anterior, ambos conceptos son mucho
más aprehensibles para el clínico, aunque los dos tienen el mismo
inconveniente: equiparan los FP y FN con el mismo nivel de importancia, lo
que no siempre se ajusta al contexto clínico en el que aplicamos la prueba
diagnóstica.
Y estos son los parámetros que yo conozco, aunque seguro que hay más y,
si no, los inventarán pronto. No me gustaría terminar sin hacer una
aclaración sobre el índice de Youden, al que apenas hemos dedicado tiempo.
Este índice no solo es importante para valorar el desempeño global de una
prueba diagnóstica. Es también una herramienta útil para decidir cuál es el
mejor punto de corte en una curva ROC, ya que su valor máximo indica el
punto de la curva que está más lejos de la diagonal. Pero esa es otra
historia…
La tabla
Existen gran cantidad de tablas. Y tienen un gran papel a lo largo de
nuestra vida. Quizás la que primero nos asalta en nuestra más tierna
infancia es la tabla de multiplicar. ¿Quién no recuerda con nostalgia, al
menos los más mayorcitos, como repetíamos como loros aquello del dos por
uno es dos, dos por… hasta que lo aprendíamos de memoria?. Pero no hicimos
más que dominar las múltiples tablas de multiplicar cuando nos topamos con
la tabla periódica de los elementos. Otra vez a aprender de memoria, esta
vez ayudados de reglas nemotécnicas imposiblemente idiotas sobre Indios que
Ganaban Buena Altura y no sé qué.
Pero es con los años cuando llega una de las peores de todas: la tabla
de composición de alimentos, con su celda llena de calorías. Esta tabla nos
persigue hasta en sueños. Y todo porque comer mucho tiene gran número de
inconvenientes, demostrados la mayor parte de ellos gracias a la ayuda de
otro tipo de tabla: la tabla de contingencia.
Las tablas de contingencia son usadas muy frecuentemente en
Epidemiología para analizar la relación entre dos o más variables. Están
formadas por filas y columnas. En las filas se suelen colocar los grupos
por nivel de exposición al factor de estudio y en las columnas las
diferentes categorías que tienen que ver con el estado de enfermedad o daño
que investigamos. Filas y columnas se cruzan para formar celdas donde se
representa la frecuencia de esa determinada combinación de variables.
Lo más habitual es que se representen dos variables (nuestra querida
tabla 2×2), una dependiente y otra independiente, pero esto no siempre es
así. Puede haber más de dos variables y, en ocasiones, puede no existir una
dirección de dependencia entre las variables antes de realizar el análisis.
Las tablas 2×2 simples permiten analizar la relación entre dos variables
dicotómicas. Según su contenido y el diseño del estudio al que pertenezcan,
sus celdas pueden tener significados ligeramente diferentes, lo mismo que
ocurre con las medidas que podemos calcular a partir de los datos de la
tabla.
Las
primeras
serían las tablas de
estudios
transversales.
En
este
tipo
de
estudios
se
representa
una
especie de foto fija
de nuestra muestra
que nos permite
estudiar la relación
entre las variables.
Son, pues, estudios
de prevalencia y, aunque los datos se recojan a lo largo de un periodo de
tiempo, los resultados representan esa foto fija a la que ya nos hemos
referido. En las columnas se coloca la variable dependiente (enfermedad o
daño producido) y en las filas la independiente (el grado de exposición),
con lo que podemos calcular una serie de medidas de frecuencia, de
asociación y de significación estadística.
Las medidas de frecuencia son la prevalencia de enfermedad entre
expuestos (EXP) y no expuestos (NEXP) y la prevalencia de exposición entre
enfermos (ENF) y no enfermos (NENF). Estas prevalencias representan el
número de personas enfermas, sanas, expuestas y no expuestas en relación
con el total de cada grupo, por lo que son tasas estimadas en un momento
puntual.
Las medidas de asociación son las razones de las prevalencias que
acabamos de mencionar según enfermedad y exposición y la odds ratio, que
nos dice cuánto más probable es que se produzca la enfermedad respecto a
que no se produzca en EXP frente a NEXP. Un valor de estas medidas mayor de
uno indica que el factor es de riesgo para que se produzca la enfermedad.
Si vale de cero a uno querrá decir que el factor es de protección. Y si
vale uno, pues que ni carne ni pescado.
Por último, como en todos los tipos de tablas que vamos a mencionar, se
pueden calcular medidas de asociación estadística, fundamentalmente la chicuadrado con o sin corrección, la prueba exacta de Fisher y el valor de la
p, uni o bilateral.
Muy parecidas a estas que hemos visto son las tablas de los estudios de
casos y controles. En estos se trata de ver si diferentes grados de la
exposición explican diferentes grados de enfermedad. En la columnas se
colocan los casos y los controles y en las filas los EXP y NEXP.
Las medidas de
frecuencia
que
podemos calcular son
la proporción de
casos
expuestos
(respecto al total
de
casos)
y
la
proporción
de
controles expuestos
(respecto al total
de
controles).
Lógicamente, podemos
calcular también las
proporciones de NEXP calculando los complementarios de los anteriores.
La medida de asociación fundamental es la odds ratio, que ya conocemos y
en la que no nos vamos a detener mucho. Ya sabéis que, de forma
simplificada, podemos calcularla como el cociente de los productos cruzados
de la tabla y que nos indica cuánto es más probable contraer la enfermedad
en EXP que en NEXP. La otra medida sería la fracción atribuible en los
expuestos (FAExp), que nos indica el número de enfermos que son debidos a
la acción directa de la exposición.
Podemos, en este tipo de tablas, calcular, además, una medida
impacto: la fracción atribuible en la población (FAPob), que sería
impacto potencial que tendría sobre la población el eliminar el factor
exposición. Si es un factor de riesgo sería un impacto positivo y, a
inversa, si es protector, negativo.
de
el
de
la
Comentar que las medidas de significación estadística dependerán de que
los datos sean pareados (utilizaremos la prueba de McNemar) o no pareados
(chi-cuadrado, prueba exacta de Fisher y valor de p).
El tercer tipo de tablas de contingencia es el que corresponde a los
estudios de cohortes, aunque la estructura difiere un poco si son estudios
de casos nuevos producidos durante todo el periodo de estudio (incidencia
acumulada) o si consideran el periodo de tiempo del estudio, el momento de
aparición de la enfermedad y el diferente seguimiento de los grupos (tasa
de incidencia o densidad de incidencia).
Las tablas de los estudios de incidencia acumulada (IA) son similares a
las que hemos visto hasta ahora. En las columnas se representa el estado de
enfermedad y en las filas el de exposición. Por otra parte, las de densidad
o tasa de incidencia (TI) representan en una de las columnas el número de
enfermos y en la otra el seguimiento en personas-año, de forma que los que
tienen un seguimiento más prolongado tienen un mayor peso a la hora de
calcular las medidas de frecuencia, asociación, etc.
Las medidas de frecuencia serían
los riesgos en EXP (Re) y en NEXP
(Ro) para los casos de IA y las
tasas de incidencia en EXP (TIe) y
NEXP (TIo) en los de TI.
Los cocientes de las medidas anteriores nos permiten calcular las
medidas de asociación: riesgos relativos (RR), reducción absoluta de riesgo
(RAR) y reducción relativa de riesgo (RRR) para los estudios de IA y
reducciones absolutas y relativas de las TI para los estudios de densidad.
Podemos calcular también la FAExp como hacíamos con los estudios de casos y
controles, al igual que la FAPob como medida de impacto.
En teoría pueden calcularse también las odds ratios, pero suelen ser
menos utilizadas en este tipo de tablas. En cualquier caso, ya sabemos que
odds ratio y RR se parecerán cuando la prevalencia de la enfermedad sea
baja.
Para terminar con este tipo de tablas, podemos calcular las medidas de
asociación estadística: chi-cuadrado, Fisher y p para estudios de IA y
otras pruebas de asociación para los estudios de densidad de incidencia.
Como siempre, todos estos cálculos pueden realizarse a mano, aunque os
recomiendo utilizar calculadoras, como la disponible en la Red CASPe. Es
más sencillo, más rápido y, además, nos proporcionan todos estos parámetros
con sus correspondientes intervalos de confianza, con lo que podemos
estimar también su precisión.
Y con esto hemos llegado al final. Existen más tipos de tablas, con
múltiples niveles por tratar más de dos variables, estratificadas según
diferentes factores, etc. Pero esa es otra historia…
Gestión de residuos
Vivimos casi en una economía de subsistencia. No se tira nada. Y lo que
no hay más remedio que tirar, se recicla. Sí, el reciclaje es una buena
práctica, con sus ventajas económicas y ecológicas. Y es que los residuos
son siempre aprovechables.
Pero además de no tirarse, en el campo de la estadística y de la
epidemiología los residuos son muy importantes para interpretar los datos a
partir de los que proceden. ¿Alguien no lo cree?. Imaginemos un ejemplo
absurdo pero muy ilustrativo.
Supongamos que queremos saber qué tipo de pescado gusta más en la Europa
Mediterránea. La razón para querer saber esto debe ser tan estúpida que
todavía no se me ha ocurrido, pero hacemos una encuesta entre 5.281
habitantes de cuatro países del Sur de Europa.
Lo más útil y sencillo es lo que suele hacerse siempre en primer lugar:
construir una tabla de contingencia con las frecuencias de los resultados,
tal como la que os muestro a continuación.
Las tablas de contingencia suelen utilizarse para estudiar la asociación
o relación entre dos variables cualitativas. En nuestro caso sería pescado
favorito y lugar de residencia. Normalmente se intenta explicar una
variable (la dependiente) en función de la otra (la independiente). En
nuestro ejemplo queremos ver si la nacionalidad del encuestado influye
sobre sus gustos alimentarios.
La tabla de valores totales ya es informativa. Por ejemplo, vemos que el
mero y el pez espada gustan bastante más que la merluza, que a los
italianos les gusta el atún menos que a los españoles, etc. Sin embargo, en
tablas grandes como la nuestra puede ser laborioso y difícil sacar muchas
conclusiones con los totales. Por eso, una alternativa útil es construir la
tabla con los porcentajes de filas, columnas o de todas las celdas, como la
que veis a continuación.
Resulta útil comparar los porcentajes de las columnas entre si para ver
el efecto de una variable independiente (la nacionalidad, en nuestro
ejemplo) con la dependiente (el pescado preferido). Por otra parte, los
porcentajes de las filas nos muestran la distribución de frecuencias de la
variable dependiente según las categorías de la independiente (el país en
nuestro ejemplo). Pero, de los dos, los más interesantes son los
porcentajes de columna: si son muy distintos entre las distintas categorías
de la variable independiente (los países) nos hará sospechar que pueda
haber asociación estadística entre las variables.
En nuestro ejemplo, los porcentajes dentro de cada columna son muy
diferentes, así que sospechamos que no gustan los mismos peces en todos los
países. Claro que esto hay que cuantificarlo de forma objetiva para saber
que el resultado no es fruto de la casualidad. ¿Cómo?. Utilizando los
residuos, que en seguida veremos qué son y cómo obtenerlos.
Lo primero que tenemos que hacer es construir una tabla con los valores
esperados si el gusto por el pescado no se influyese por el país de origen.
Esto es necesario porque buena parte de los estadísticos de asociación y de
significación se basan en la comparación entre frecuencias observadas y
frecuencias esperadas. Para calcular la frecuencia esperada de cada celda
si las variables no tuviesen relación multiplicamos el marginal de la fila
(el total de esa fila) por el marginal de la columna y lo dividimos por el
total de la tabla. Obtenemos así la tabla de valores observados y esperados
que os muestro a continuación.
En el caso de que las variables no estén relacionadas los valores
observados y esperados serán prácticamente los mismos, con las pequeñas
diferencias debidas al error de muestreo que nos produce el azar. Si las
diferencias son grandes, probablemente haya alguna relación entre las dos
variables que las expliquen. Y a la hora de valorar estas diferencias es
donde entran en juego nuestros residuos.
El residuo no es más que la diferencia entre el valor esperado y el
observado. Ya hemos dicho que cuando el residuo se aleja del cero puede
haber significación pero, ¿cuánto se tiene que alejar?.
Podemos transformar los residuos dividiéndolos por la raíz cuadrada del
valor esperado. Obtenemos así el residuo estandarizado o residuo de
Pearson. A su vez, los residuos de Pearson pueden dividirse por la
desviación estándar de los residuos, obteniendo así los residuos ajustados.
Construimos ahora la tabla de residuos que veis al lado.
La gran utilidad del residuo ajustado es que es un valor estandarizado,
así que podemos comparar los de las diferentes celdas. Además, el residuo
ajustado sigue una distribución de frecuencias normal estándar (de media
cero y desviación típica uno), por lo que podemos usar un programa
informático o una tabla de probabilidades para conocer la probabilidad de
que el valor del residuo no se deba al azar. En una distribución normal, el
95% de los valores están entre la media más menos dos desviaciones típicas,
aproximadamente. Así que si el valor del residuo ajustado es mayor de 2 o
menor de menos dos, la probabilidad de que esta diferencia se deba al azar
será menor del 5% y diremos que ese residuo es significativo. Por ejemplo,
en nuestra tabla vemos que a los franceses les gusta el besugo más de lo
que sería esperable si el país no influyese, al mismo tiempo que aborrecen
el atún.
Estos residuos ajustados nos permiten valorar la significación de cada
celda, pero si queremos saber si hay una asociación global tenemos que
sumarlos todos. Y es que la suma de los residuos ajustados sigue también
una distribución de frecuencias, pero esta vez una chi-cuadrado con
(filas-1) x (columnas-1) grados de libertad. Si calculamos el valor para
nuestra tabla obtendremos una chi2=368,3921, con una p<0,001, con lo que
podremos concluir que existe una relación estadísticamente significativa
entre las dos variables.
Como veis, los residuos son muy útiles, y no solo para calcular la chi,
sino también muchos otros estadísticos. Sin embargo, los epidemiólogos
prefieren utilizar otro tipo de medidas de asociación con las tablas de
contingencia. Y esto es así porque la chi-cuadrado no varía de cero a uno,
con lo que nos dice si existe significación estadística pero no nos da
ninguna información sobre la fuerza de la asociación. Para eso necesitamos
otros parámetros que sí oscilan de cero a uno, como el riesgo relativo y la
odds ratio. Pero esa es otra historia…