Download Gestión de residuos - Ciencia sin seso…locura doble

Document related concepts
no text concepts found
Transcript
Gestión de residuos
Vivimos casi en una economía de subsistencia. No se tira nada. Y lo que
no hay más remedio que tirar, se recicla. Sí, el reciclaje es una buena
práctica, con sus ventajas económicas y ecológicas. Y es que los residuos
son siempre aprovechables.
Pero además de no tirarse, en el campo de la estadística y de la
epidemiología los residuos son muy importantes para interpretar los datos a
partir de los que proceden. ¿Alguien no lo cree?. Imaginemos un ejemplo
absurdo pero muy ilustrativo.
Supongamos que queremos saber qué tipo de pescado gusta más en la Europa
Mediterránea. La razón para querer saber esto debe ser tan estúpida que
todavía no se me ha ocurrido, pero hacemos una encuesta entre 5.281
habitantes de cuatro países del Sur de Europa.
Lo más útil y sencillo es lo que suele hacerse siempre en primer lugar:
construir una tabla de contingencia con las frecuencias de los resultados,
tal como la que os muestro a continuación.
Las tablas de contingencia suelen utilizarse para estudiar la asociación
o relación entre dos variables cualitativas. En nuestro caso sería pescado
favorito y lugar de residencia. Normalmente se intenta explicar una
variable (la dependiente) en función de la otra (la independiente). En
nuestro ejemplo queremos ver si la nacionalidad del encuestado influye
sobre sus gustos alimentarios.
La tabla de valores totales ya es informativa. Por ejemplo, vemos que el
mero y el pez espada gustan bastante más que la merluza, que a los
italianos les gusta el atún menos que a los españoles, etc. Sin embargo, en
tablas grandes como la nuestra puede ser laborioso y difícil sacar muchas
conclusiones con los totales. Por eso, una alternativa útil es construir la
tabla con los porcentajes de filas, columnas o de todas las celdas, como la
que veis a continuación.
Resulta útil comparar los porcentajes de las columnas entre si para ver
el efecto de una variable independiente (la nacionalidad, en nuestro
ejemplo) con la dependiente (el pescado preferido). Por otra parte, los
porcentajes de las filas nos muestran la distribución de frecuencias de la
variable dependiente según las categorías de la independiente (el país en
nuestro ejemplo). Pero, de los dos, los más interesantes son los
porcentajes de columna: si son muy distintos entre las distintas categorías
de la variable independiente (los países) nos hará sospechar que pueda
haber asociación estadística entre las variables.
En nuestro ejemplo, los porcentajes dentro de cada columna son muy
diferentes, así que sospechamos que no gustan los mismos peces en todos los
países. Claro que esto hay que cuantificarlo de forma objetiva para saber
que el resultado no es fruto de la casualidad. ¿Cómo?. Utilizando los
residuos, que en seguida veremos qué son y cómo obtenerlos.
Lo primero que tenemos que hacer es construir una tabla con los valores
esperados si el gusto por el pescado no se influyese por el país de origen.
Esto es necesario porque buena parte de los estadísticos de asociación y de
significación se basan en la comparación entre frecuencias observadas y
frecuencias esperadas. Para calcular la frecuencia esperada de cada celda
si las variables no tuviesen relación multiplicamos el marginal de la fila
(el total de esa fila) por el marginal de la columna y lo dividimos por el
total de la tabla. Obtenemos así la tabla de valores observados y esperados
que os muestro a continuación.
En el caso de que las variables no estén relacionadas los valores
observados y esperados serán prácticamente los mismos, con las pequeñas
diferencias debidas al error de muestreo que nos produce el azar. Si las
diferencias son grandes, probablemente haya alguna relación entre las dos
variables que las expliquen. Y a la hora de valorar estas diferencias es
donde entran en juego nuestros residuos.
El residuo no es más que la diferencia entre el valor esperado y el
observado. Ya hemos dicho que cuando el residuo se aleja del cero puede
haber significación pero, ¿cuánto se tiene que alejar?.
Podemos transformar los residuos dividiéndolos por la raíz cuadrada del
valor esperado. Obtenemos así el residuo estandarizado o residuo de
Pearson. A su vez, los residuos de Pearson pueden dividirse por la
desviación estándar de los residuos, obteniendo así los residuos ajustados.
Construimos ahora la tabla de residuos que veis al lado.
La gran utilidad del residuo ajustado es que es un valor estandarizado,
así que podemos comparar los de las diferentes celdas. Además, el residuo
ajustado sigue una distribución de frecuencias normal estándar (de media
cero y desviación típica uno), por lo que podemos usar un programa
informático o una tabla de probabilidades para conocer la probabilidad de
que el valor del residuo no se deba al azar. En una distribución normal, el
95% de los valores están entre la media más menos dos desviaciones típicas,
aproximadamente. Así que si el valor del residuo ajustado es mayor de 2 o
menor de menos dos, la probabilidad de que esta diferencia se deba al azar
será menor del 5% y diremos que ese residuo es significativo. Por ejemplo,
en nuestra tabla vemos que a los franceses les gusta el besugo más de lo
que sería esperable si el país no influyese, al mismo tiempo que aborrecen
el atún.
Estos residuos ajustados nos permiten valorar la significación de cada
celda, pero si queremos saber si hay una asociación global tenemos que
sumarlos todos. Y es que la suma de los residuos ajustados sigue también
una distribución de frecuencias, pero esta vez una chi-cuadrado con
(filas-1) x (columnas-1) grados de libertad. Si calculamos el valor para
nuestra tabla obtendremos una chi2=368,3921, con una p<0,001, con lo que
podremos concluir que existe una relación estadísticamente significativa
entre las dos variables.
Como veis, los residuos son muy útiles, y no solo para calcular la chi,
sino también muchos otros estadísticos. Sin embargo, los epidemiólogos
prefieren utilizar otro tipo de medidas de asociación con las tablas de
contingencia. Y esto es así porque la chi-cuadrado no varía de cero a uno,
con lo que nos dice si existe significación estadística pero no nos da
ninguna información sobre la fuerza de la asociación. Para eso necesitamos
otros parámetros que sí oscilan de cero a uno, como el riesgo relativo y la
odds ratio. Pero esa es otra historia…