Download El juego de las potencias,No todas las desviaciones son perversas

Document related concepts

Desviación típica wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Varianza wikipedia , lookup

Corrección de Bessel wikipedia , lookup

Transcript
El juego de las potencias
Los números son una cosa muy curiosa. Parece increíble a veces lo que se
puede conseguir haciendo operaciones con algunos de ellos. Incluso puedes
obtener otros números diferentes que expresan cosas distintas. Este es el
caso del proceso mediante el cual podemos tomar los valores de una
distribución y, a partir de la media aritmética (una medida de
centralización) calcular cómo se separan de ella el resto de los valores e
ir elevándolos a potencias sucesivas para obtener medidas de dispersión e,
incluso, de simetría. Ya sé que parece mentira, pero os juro que es verdad.
Lo acabo de leer en un libro bastante gordo. Os cuento cómo…
Una vez que tenemos la media aritmética podemos calcular el promedio de
separación de cada valor respecto a ella. Restamos a cada valor la media y
lo dividimos por el total de valores (es como calcular la media aritmética
de las desviaciones de cada valor respecto a la media de la distribución).
Pero hay un pequeño problema: como la media siempre está en medio (de ahí
su nombre), las diferencias de los valores mayores (que serán positivas) se
anularán con las de los valores menores (que serán negativas) y el
resultado será siempre cero. Es lógico, y es una propiedad intrínseca de la
media, que se aleja de todos una cantidad promedio igual. Como no podemos
cambiar este carácter de la media, lo que sí podemos hacer es calcular el
valor absoluto de cada resta antes de sumarlas. Calculamos así la
desviación media, que es el promedio de los valores absolutos de las
desviaciones de los valores con respecto a la media aritmética.
Y aquí empieza el juego de las potencias. Si en lugar de hacer el valor
absoluto de las rectas las elevamos al cuadrado antes de sumarlas podemos
calcular la varianza, que es la media de las desviaciones al cuadrado con
respecto a la media aritmética. Ya sabemos que si hacemos la raíz cuadrada
de la varianza (para recuperar las unidades originales de la variable)
obtenemos la desviación estándar, que es la reina de las medidas de
dispersión.
¿Y si elevamos las diferencias al cubo en lugar de al cuadrado?. Pues
calcularemos el promedio del cubo de las desviaciones de los valores con
respecto a la media. Si pensamos un poco en seguida nos daremos cuenta de
que al elevar al cubo no perdemos los signos negativos. De esta forma, si
hay predominio de valores menores (la distribución está sesgada hacia la
izquierda) el resultado será negativo y, por el contrario, si predominan
los valores mayores, positivo (la distribución estará sesgada hacia la
derecha). Un último detalle: para poder comparar este índice de simetría
con otras distribuciones debemos estandarizarlo dividiéndolo por el cubo de
la desviación típica, según la fórmula que os pongo en el recuadro adjunto.
La verdad es que, viéndola, acojona un poco, pero no os preocupéis, los
programas de estadística pueden con esto y con cosas peores.
Y como ejemplo de cosa peor, ¿qué pasa si elevamos las restas a la
cuarta potencia en lugar de al cubo?. Pues calcularemos el promedio de la
cuarta potencia de las desviaciones de los valores con respecto a la media.
Si nos paramos a pensar un segundo, rápidamente entenderemos su utilidad.
Si todos los valores están muy cerca de la media, al multiplicarlos por sí
mismos cuatro veces (elevarlos a la cuarta potencia) se harán más pequeños
que si están muy alejados de la media. Así, si hay muchos valores cerca de
la media (la curva de la distribución será más puntiaguda) el valor será
menor que si los valores están más dispersos. Este parámetro puede
estandarizarse dividiéndolo por la cuarta potencia de la desviación
estándar para obtener el apuntamiento o curtosis, lo que me da pie a
introducir tres palabros más: si la distribución es muy puntiaguda se
denominará leptocúrtica, si los valores están dispersos por los extremos la
llamaremos platicúrtica y, si ni una cosa ni la otra, mesocúrtica.
¿Y si elevamos las restas a la quinta potencia?. Pues no sé deciros qué
ocurriría. Afortunadamente, y hasta donde yo sé, a nadie se le ha ocurrido
todavía semejante ordinariez.
Todo este cálculo de medidas de centralización, dispersión y simetría
puede parecer el delirio de alguien con muy poco trabajo, pero no os
engañéis: son muy importantes, no solo para resumir de forma adecuada una
distribución, sino para determinar el tipo de prueba estadística que
debemos utilizar cuando queramos hacer un contraste de hipótesis. Pero esa
es otra historia…
No todas las desviaciones son
perversas
Incluso me atrevería a decir que hay desviaciones muy necesarias. Pero
que nadie se entusiasme antes de tiempo. Aunque haya podido parecer otra
cosa, vamos a hablar de cómo varían los valores de una variable
cuantitativa en una distribución.
Cuando obtenemos los datos de un parámetro determinado en una muestra y
queremos dar una idea resumida de cómo se comporta, lo primero que se nos
ocurre es calcular una medida que la represente, así que echamos mano de la
media, la mediana o cualquier otra medida de centralización.
Sin embargo, el cálculo del valor central da poca información si no lo
acompañamos de otro que nos informe sobre la heterogeneidad de los
resultados dentro de la distribución. Para cuantificar el grado de
variación, los matemáticos, con muy poca imaginación, han inventado una
cosa que llaman la varianza.
Para calcularla se restaría la media al valor de cada individuo con la
idea de sumar todas estas restas y dividirlas entre el número de
mediciones. Es como calcular la media de las diferencias de cada uno
respecto al valor central de la distribución. Pero surge un pequeño
problema: como los valores están por encima y por debajo de la media (por
obligación, que para eso es la media), las diferencias positivas y
negativas se anularían al sumarlas, con lo que obtendríamos un valor
próximo a cero si la distribución es simétrica aunque el grado de variación
fuese grande. Para evitar esto lo que se hace es elevar las restas al
cuadrado antes de sumarlas, con lo que desaparecen los signos negativos y
la suma siempre da un valor relacionado con la amplitud de las diferencias.
Esto es lo que se conoce como varianza.
Por ejemplo, supongamos que medimos la presión arterial sistólica a 200
escolares seleccionados al azar y obtenemos una media de 100 mmHg. Nos
ponemos a restar de cada valor la media, lo elevamos al cuadrado, sumamos
todos los cuadrados y dividimos el resultado por 200 (el número de
determinaciones). Obtenemos así la varianza, por ejemplo: 100 mmHg2. Y yo me
pregunto, ¿qué leches es un milímetro de mercurio al cuadrado?. La varianza
medirá bien la dispersión, pero no me negaréis que es un poco difícil de
interpretar. Una vez más, algún genio matemático acude al rescate y
discurre la solución: hacemos la raíz cuadrada de la varianza y así
recuperamos las unidades originales de la variable. Acabamos de
encontrarnos con la más famosa de las desviaciones: la desviación típica o
estándar. En nuestro caso sería de 10 mmHg. Si consideramos las dos medidas
nos hacemos idea de que la mayor parte de los escolares tendrán
probablemente tensiones próximas a la media. Si hubiésemos obtenido una
desviación típica de 50 mmHg pensaríamos que hay mucha variación individual
de los datos de presión arterial, aunque la media de la muestra fuese la
misma.
Un detalle para los puristas. La suma del cuadrado de las diferencias
suele dividirse por el número de casos menos uno (n-1) en lugar de por el
número de casos (n), que podría parecer más lógico. ¿Y por qué?. Capricho
de los matemáticos. Por alguna arcana razón se consigue que el valor
obtenido esté más próximo al valor de la población del que procede la
muestra.
Ya tenemos, por tanto, los dos valores que nos definen nuestra
distribución. Y lo bueno es que, no solo nos dan una idea del valor central
y de la dispersión, sino de la probabilidad de encontrar un individuo de la
muestra con un determinado valor. Sabemos que el 95% tendrán un valor
comprendido entre la media ± 2 veces la desviación típica (1,96 veces, para
ser exactos) y el 99% entre la media ± 2,5 veces la desviación (2,58 veces,
en realidad).
Esto suena peligrosamente parecido a los intervalos de confianza del 95%
y 99%, pero no debemos confundirlos. Si repetimos el experimento de la
tensión en escolares un número muy grande de veces, obtendremos una media
ligeramente diferente cada vez. Podríamos calcular la media de los
resultados de cada experimento y la desviación estándar de ese grupo de
medias. Esa desviación estándar es lo que conocemos como el error estándar,
y nos sirve para calcular los intervalos de confianza dentro de los cuales
está el valor de la población de la que procede la muestra y que no podemos
medir directamente ni conocer con exactitud. Por lo tanto, la desviación
estándar nos informa de la dispersión de los datos en la muestra, mientras
que el error estándar nos da idea de la precisión con que podemos estimar
el verdadero valor de la variable que hemos medido en la población de la
que procede la muestra.
Una última reflexión acerca de la desviación estándar. Aunque el valor
de la variable en el 95% de la población esté en el intervalo formado por
la media ± 2 veces la desviación típica, esta medida solo tiene sentido
realizarla si la distribución es razonablemente simétrica. En caso de
distribuciones con un sesgo importante la desviación típica pierde gran
parte de su sentido y debemos utilizar otras medidas de dispersión, pero
esa es otra historia…