Download No te dejes llevar por los extremos,No todas las desviaciones son

Document related concepts

Desviación típica wikipedia , lookup

Corrección de Bessel wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Varianza wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Transcript
No te dejes llevar por los
extremos
Ya vimos en una entrada anterior que los valores extremos de una
distribución, los llamados outliers, pueden sesgar las estimaciones de los
estadísticos que calculamos en nuestra muestra.
Un ejemplo típico es el de la media aritmética, que se desplaza en la
dirección de los valores extremos, si los hay, tanto más cuanto más
extremos sean los valores. Vimos que, para evitar este inconveniente,
existían una serie de familiares de la media aritmética que se consideraban
robustos o, lo que es lo mismo, que eran menos sensibles a la presencia de
outliers. De todos estos, el más conocido es la mediana, aunque existen
algunos más, como la media recortada, la winsorizada, la ponderada, la
geométrica, etc.
Pues bien, algo parecido a lo que le pasa a la media ocurre también con
la desviación típica, el estadístico de escala o dispersión utilizado con
más frecuencia. La desviación típica o estándar también se ve sesgada por
la presencia de valores extremos, obteniendo valores que son poco
representativos de la dispersión real de la distribución.
Veamos el ejemplo que utilizábamos al hablar de los estimadores robustos
de la media. Supongamos que medimos los valores de colesterol sérico en un
grupo de personas y nos encontramos los siguientes valores (en mg/dl): 166,
143, 154, 168, 435, 159, 185, 155, 167, 152, 152, 168, 177, 171, 183, 426,
163, 170, 152 y 155. Como vemos, existen dos valores extremos (426 y 435
mg/dl) que nos sesgarán los estadísticos habituales que son la media y la
desviación típica. En nuestro caso, podemos calcular la desviación típica y
ver que su valor es de 83 mg/dl, claramente poco ajustado a la desviación
de la mayoría de los valores respecto a cualquiera de las medidas de
centralización robustas que podamos elegir.
¿Qué hacemos en este caso? Pues utilizar cualquiera de los estimadores
robustos de la desviación, que hay varios. Algunos de ellos surgen a partir
de los estimadores robustos de la media. Veamos algunos.
El primero, que surge a partir de la mediana, es la desviación absoluta
mediana (DAM). Si recordáis, la desviación típica es la suma de las
diferencias de cada valor con la media, elevadas al cuadrado, y dividida
por el número de elementos, n (o por n-1 si lo que queremos es obtener un
estimador no sesgado de la desviación típica poblacional). Pues bien, de
modo similar, podemos calcular la mediana de las desviaciones absolutas de
cada valor con la mediana de la muestra, según la siguiente fórmula
DAM = Mediana {|Xi – Me|}, para i=1 hasta n.
Podemos calcularla en nuestro ejemplo y vemos que vale 17,05 mg/dl,
bastante más ajustado que la desviación típica clásica.
El segundo se calcula a partir de la media recortada. Esta, como su
nombre indica, se calcula recortando un determinado porcentaje de la
distribución, por sus extremos (la distribución tiene que estar ordenada de
menor a mayor). Por ejemplo para calcular la media recortada al 20% de
nuestro ejemplo quitaríamos un 10% por cada lado (dos elementos por cada
lado: 143, 152, 426 y 435) y calcularíamos la media aritmética con los
restantes. Pues bien, podemos calcular la desviación de la forma clásica
con los elementos recortados, obteniendo el valor de 10,5 mg/dl.
Por último, en tercer lugar podríamos hacerlo siguiendo el razonamiento
que se utiliza para calcular la media winsorizada. En este caso, en vez de
eliminar los valores, los sustituiríamos por los valores más próximos sin
eliminar. Una vez winsorizada la distribución, calculamos la desviación
típica con los nuevos valores de la forma habitual. Su valor es de 9,3
mg/dl, similar a la anterior.
¿Cuál utilizamos de las tres?. Pues nos interesa utilizar una que se
comporte de forma eficiente cuando la distribución sea normal (en estos
casos la mejor es la desviación típica clásica) pero que no sea muy
sensible cuando la distribución se aparte de la normal. En este sentido, la
mejor es la desviación absoluta mediana, seguida de la desviación típica
winsorizada muestral.
Un último consejo antes de finalizar. No os pongáis a calcular estas
medidas a mano, ya que puede resultar muy laborioso, Los programas de
estadística hacen los cálculos por nosotros sin el menor esfuerzo.
Y aquí terminamos. No hemos hablado nada de otros estimadores de la
familia de los M-estimadores, como la varianza media biponderada o la
varianza media de porcentaje ajustado. Estas medias son mucho más difíciles
de comprender desde el punto de vista matemático, aunque son muy fáciles de
calcular con el paquete informático adecuado. Pero esa es otra historia…
No todas las desviaciones son
perversas
Incluso me atrevería a decir que hay desviaciones muy necesarias. Pero
que nadie se entusiasme antes de tiempo. Aunque haya podido parecer otra
cosa, vamos a hablar de cómo varían los valores de una variable
cuantitativa en una distribución.
Cuando obtenemos los datos de un parámetro determinado en una muestra y
queremos dar una idea resumida de cómo se comporta, lo primero que se nos
ocurre es calcular una medida que la represente, así que echamos mano de la
media, la mediana o cualquier otra medida de centralización.
Sin embargo, el cálculo del valor central da poca información si no lo
acompañamos de otro que nos informe sobre la heterogeneidad de los
resultados dentro de la distribución. Para cuantificar el grado de
variación, los matemáticos, con muy poca imaginación, han inventado una
cosa que llaman la varianza.
Para calcularla se restaría la media al valor de cada individuo con la
idea de sumar todas estas restas y dividirlas entre el número de
mediciones. Es como calcular la media de las diferencias de cada uno
respecto al valor central de la distribución. Pero surge un pequeño
problema: como los valores están por encima y por debajo de la media (por
obligación, que para eso es la media), las diferencias positivas y
negativas se anularían al sumarlas, con lo que obtendríamos un valor
próximo a cero si la distribución es simétrica aunque el grado de variación
fuese grande. Para evitar esto lo que se hace es elevar las restas al
cuadrado antes de sumarlas, con lo que desaparecen los signos negativos y
la suma siempre da un valor relacionado con la amplitud de las diferencias.
Esto es lo que se conoce como varianza.
Por ejemplo, supongamos que medimos la presión arterial sistólica a 200
escolares seleccionados al azar y obtenemos una media de 100 mmHg. Nos
ponemos a restar de cada valor la media, lo elevamos al cuadrado, sumamos
todos los cuadrados y dividimos el resultado por 200 (el número de
determinaciones). Obtenemos así la varianza, por ejemplo: 100 mmHg2. Y yo me
pregunto, ¿qué leches es un milímetro de mercurio al cuadrado?. La varianza
medirá bien la dispersión, pero no me negaréis que es un poco difícil de
interpretar. Una vez más, algún genio matemático acude al rescate y
discurre la solución: hacemos la raíz cuadrada de la varianza y así
recuperamos las unidades originales de la variable. Acabamos de
encontrarnos con la más famosa de las desviaciones: la desviación típica o
estándar. En nuestro caso sería de 10 mmHg. Si consideramos las dos medidas
nos hacemos idea de que la mayor parte de los escolares tendrán
probablemente tensiones próximas a la media. Si hubiésemos obtenido una
desviación típica de 50 mmHg pensaríamos que hay mucha variación individual
de los datos de presión arterial, aunque la media de la muestra fuese la
misma.
Un detalle para los puristas. La suma del cuadrado de las diferencias
suele dividirse por el número de casos menos uno (n-1) en lugar de por el
número de casos (n), que podría parecer más lógico. ¿Y por qué?. Capricho
de los matemáticos. Por alguna arcana razón se consigue que el valor
obtenido esté más próximo al valor de la población del que procede la
muestra.
Ya tenemos, por tanto, los dos valores que nos definen nuestra
distribución. Y lo bueno es que, no solo nos dan una idea del valor central
y de la dispersión, sino de la probabilidad de encontrar un individuo de la
muestra con un determinado valor. Sabemos que el 95% tendrán un valor
comprendido entre la media ± 2 veces la desviación típica (1,96 veces, para
ser exactos) y el 99% entre la media ± 2,5 veces la desviación (2,58 veces,
en realidad).
Esto suena peligrosamente parecido a los intervalos de confianza del 95%
y 99%, pero no debemos confundirlos. Si repetimos el experimento de la
tensión en escolares un número muy grande de veces, obtendremos una media
ligeramente diferente cada vez. Podríamos calcular la media de los
resultados de cada experimento y la desviación estándar de ese grupo de
medias. Esa desviación estándar es lo que conocemos como el error estándar,
y nos sirve para calcular los intervalos de confianza dentro de los cuales
está el valor de la población de la que procede la muestra y que no podemos
medir directamente ni conocer con exactitud. Por lo tanto, la desviación
estándar nos informa de la dispersión de los datos en la muestra, mientras
que el error estándar nos da idea de la precisión con que podemos estimar
el verdadero valor de la variable que hemos medido en la población de la
que procede la muestra.
Una última reflexión acerca de la desviación estándar. Aunque el valor
de la variable en el 95% de la población esté en el intervalo formado por
la media ± 2 veces la desviación típica, esta medida solo tiene sentido
realizarla si la distribución es razonablemente simétrica. En caso de
distribuciones con un sesgo importante la desviación típica pierde gran
parte de su sentido y debemos utilizar otras medidas de dispersión, pero
esa es otra historia…