Download ¿Por qué sobra uno?,No todas las desviaciones son perversas

Document related concepts

Corrección de Bessel wikipedia , lookup

Desviación típica wikipedia , lookup

Error cuadrático medio wikipedia , lookup

Error estándar wikipedia , lookup

Varianza wikipedia , lookup

Transcript
¿Por qué sobra uno?
Hoy vamos a hablar sobre uno de esos misterios de la estadística que
muchos desconocen por qué son cómo son. Me refiero a si dividir entre n (el
tamaño muestral) o entre n-1 para calcular las medidas de centralización y
dispersión de una muestra, concretamente su media (m) y su desviación
estándar (s).
La media sabemos todos lo que es. Su propio nombre lo dice, es el
promedio de valores de una distribución de datos. Para calcularla sumamos
todos los valores de la distribución y dividimos entre el total de
elementos, o sea, entre n. Aquí no hay duda, dividimos entre n y obtenemos
la medida de centralización más utilizada.
Por su parte, la desviación estándar, es una medida de la desviación
media de cada valor respecto a la media de la distribución. Para obtenerla
calculamos las diferencias de cada elemento con la media, las elevamos al
cuadrado para que las negativas no se anulen con las positivas, las
sumamos, las dividimos entre n y, por último, obtenemos la raíz cuadrada.
Al ser la media de cada desviación, habrá que dividir las sumas de las
desviaciones entre el total de elementos, n, como hacíamos con la media,
según la conocida fórmula de la desviación estándar.
Sin embargo, en muchas ocasiones vemos que, para calcular la desviación
estándar, dividimos entre n-1. ¿Por qué nos sobra un elemento?. Veámoslo.
Nosotros habitualmente trabajamos
con muestras, de las que obtenemos
sus medidas de centralización y
dispersión. Sin embargo, lo que a
nosotros nos interesaría saber en
realidad es el valor de los
parámetros en la población de la que
procede la muestra. Por desgracia, no
podemos calcular estos parámetros
directamente, pero sí que podemos
estimarlos
a
partir
de
los
estadísticos de la muestra. Así,
queremos saber si la media de la
muestra, m, es un buen estimador de
la media de la población, µ. Además,
queremos saber si la desviación
estándar de la muestra, s, es un buen
estimador de la desviación de la
población, que llamaremos σ.
Vamos a hacer un experimento para ver si m y s son buenos estimadores de
µ y σ. Para ello vamos a utilizar el programa R. Os dejo el listado de
comandos (script) en la figura adjunta por si queréis reproducirlo conmigo.
Primero generamos una población de 1000 individuos con una distribución
normal con media de 50 y desviación estándar de 15 (µ = 50 y σ = 15). Una
vez hecho, vamos a ver primero qué pasa con la media.
Si obtenemos una muestra de 25 elementos de la población y calculamos su
media, esta se parecerá a la de la población (siempre que la muestra sea
representativa de la población), pero puede haber diferencia debidas al
azar. Para soslayar estas diferencias, obtenemos 50 muestras diferentes,
con sus 50 medias. Estas medias siguen una distribución normal (la llamada
distribución de muestreo), cuya media es la media de todas las que hemos
obtenido de las muestras. Si extraemos 50 muestras con R y hallamos la
media de sus medias, vemos que esta vale 49,6, lo que es casi igual a 50.
Vemos, pues, que con las medias de las muestras podemos estimar bien el
valor de la media de la distribución.
¿Y qué pasa con la desviación estándar? Pues si hacemos lo mismo
(extraer 50 muestras, calcular su s y, por último, calcular la media de la
50 s) obtenemos una s media de 14,8. Esta s es bastante próxima al valor 15
de la población, pero se ajusta menos que el valor de la media. ¿Por qué?
La respuesta es que la media muestral es lo que se llama un estimador no
sesgado de la media poblacional, ya que el valor medio de la distribución
de muestreo es un buen estimador del parámetro en la población. Sin
embargo, con la desviación estándar no pasa lo mismo, porque es un
estimador sesgado. Esto es así porque la variación de los datos (que es a
fin de cuentas lo que mide la desviación estándar) será mayor en la
población que en la muestra, al tener la población un tamaño mayor (a mayor
tamaño, mayor posibilidad de variación). Por eso dividimos por n-1, para
que el resultado sea un poco más alto.
Si hacemos el experimento con R dividiendo entre n-1 obtenemos una
desviación estándar no sesgada de 15,1, algo más próxima que la que
obteníamos dividiendo entre n. Este estimador (dividiendo entre n-1) sería
un estimador no sesgado de la desviación estándar poblacional. Entonces,
¿cuál empleamos? Si queremos saber la desviación estándar de la muestra
podemos dividir entre n, pero si lo que queremos es una idea de cuánto vale
el valor teórico en la población, el estimador se aproximará más al valor
de σ si dividimos entre n-1.
Y aquí terminamos este galimatías. Podríamos hablar de cómo podemos
obtener no solo el estimador a partir de la distribución de muestreo, sino
también su intervalo de confianza, que nos diría entre que valores está el
parámetro de la población, con un nivel de confianza determinado. Pero esa
es otra historia…
No todas las desviaciones son
perversas
Incluso me atrevería a decir que hay desviaciones muy necesarias. Pero
que nadie se entusiasme antes de tiempo. Aunque haya podido parecer otra
cosa, vamos a hablar de cómo varían los valores de una variable
cuantitativa en una distribución.
Cuando obtenemos los datos de un parámetro determinado en una muestra y
queremos dar una idea resumida de cómo se comporta, lo primero que se nos
ocurre es calcular una medida que la represente, así que echamos mano de la
media, la mediana o cualquier otra medida de centralización.
Sin embargo, el cálculo del valor central da poca información si no lo
acompañamos de otro que nos informe sobre la heterogeneidad de los
resultados dentro de la distribución. Para cuantificar el grado de
variación, los matemáticos, con muy poca imaginación, han inventado una
cosa que llaman la varianza.
Para calcularla se restaría la media al valor de cada individuo con la
idea de sumar todas estas restas y dividirlas entre el número de
mediciones. Es como calcular la media de las diferencias de cada uno
respecto al valor central de la distribución. Pero surge un pequeño
problema: como los valores están por encima y por debajo de la media (por
obligación, que para eso es la media), las diferencias positivas y
negativas se anularían al sumarlas, con lo que obtendríamos un valor
próximo a cero si la distribución es simétrica aunque el grado de variación
fuese grande. Para evitar esto lo que se hace es elevar las restas al
cuadrado antes de sumarlas, con lo que desaparecen los signos negativos y
la suma siempre da un valor relacionado con la amplitud de las diferencias.
Esto es lo que se conoce como varianza.
Por ejemplo, supongamos que medimos la presión arterial sistólica a 200
escolares seleccionados al azar y obtenemos una media de 100 mmHg. Nos
ponemos a restar de cada valor la media, lo elevamos al cuadrado, sumamos
todos los cuadrados y dividimos el resultado por 200 (el número de
determinaciones). Obtenemos así la varianza, por ejemplo: 100 mmHg2. Y yo me
pregunto, ¿qué leches es un milímetro de mercurio al cuadrado?. La varianza
medirá bien la dispersión, pero no me negaréis que es un poco difícil de
interpretar. Una vez más, algún genio matemático acude al rescate y
discurre la solución: hacemos la raíz cuadrada de la varianza y así
recuperamos las unidades originales de la variable. Acabamos de
encontrarnos con la más famosa de las desviaciones: la desviación típica o
estándar. En nuestro caso sería de 10 mmHg. Si consideramos las dos medidas
nos hacemos idea de que la mayor parte de los escolares tendrán
probablemente tensiones próximas a la media. Si hubiésemos obtenido una
desviación típica de 50 mmHg pensaríamos que hay mucha variación individual
de los datos de presión arterial, aunque la media de la muestra fuese la
misma.
Un detalle para los puristas. La suma del cuadrado de las diferencias
suele dividirse por el número de casos menos uno (n-1) en lugar de por el
número de casos (n), que podría parecer más lógico. ¿Y por qué?. Capricho
de los matemáticos. Por alguna arcana razón se consigue que el valor
obtenido esté más próximo al valor de la población del que procede la
muestra.
Ya tenemos, por tanto, los dos valores que nos definen nuestra
distribución. Y lo bueno es que, no solo nos dan una idea del valor central
y de la dispersión, sino de la probabilidad de encontrar un individuo de la
muestra con un determinado valor. Sabemos que el 95% tendrán un valor
comprendido entre la media ± 2 veces la desviación típica (1,96 veces, para
ser exactos) y el 99% entre la media ± 2,5 veces la desviación (2,58 veces,
en realidad).
Esto suena peligrosamente parecido a los intervalos de confianza del 95%
y 99%, pero no debemos confundirlos. Si repetimos el experimento de la
tensión en escolares un número muy grande de veces, obtendremos una media
ligeramente diferente cada vez. Podríamos calcular la media de los
resultados de cada experimento y la desviación estándar de ese grupo de
medias. Esa desviación estándar es lo que conocemos como el error estándar,
y nos sirve para calcular los intervalos de confianza dentro de los cuales
está el valor de la población de la que procede la muestra y que no podemos
medir directamente ni conocer con exactitud. Por lo tanto, la desviación
estándar nos informa de la dispersión de los datos en la muestra, mientras
que el error estándar nos da idea de la precisión con que podemos estimar
el verdadero valor de la variable que hemos medido en la población de la
que procede la muestra.
Una última reflexión acerca de la desviación estándar. Aunque el valor
de la variable en el 95% de la población esté en el intervalo formado por
la media ± 2 veces la desviación típica, esta medida solo tiene sentido
realizarla si la distribución es razonablemente simétrica. En caso de
distribuciones con un sesgo importante la desviación típica pierde gran
parte de su sentido y debemos utilizar otras medidas de dispersión, pero
esa es otra historia…