Download ANÁLISIS E INTREPRETACIÓN DE DATOS

Document related concepts

Medidas de dispersión wikipedia , lookup

Desviación típica wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Varianza wikipedia , lookup

Desviación media wikipedia , lookup

Transcript
SESIÓN 4. MEDIDAS DE DISPERSIÓN
Las medidas de tendencia central nos sirven de
guía para encontrar los datos centrales y
representativos de un conjunto de observaciones
en un estudio estadístico. Sin embargo, ¿Qué tan
“representativos pueden llegar a ser?
Para resolver este interrogante es necesario acudir
a medidas que nos hablen sobre la variabilidad
de los datos, en otras palabras sobre qué tan
lejanos son los datos con respecto a las medidas
de tendencia central más relevantes. A estas
medidas las llamaremos medidas de dispersión o
de variabilidad
Como indicamos anteriormente las medidas de
dispersión nos dicen que tan lejanas son las
observaciones en un estudio estadístico con
respecto a las medidas de tendencia central, si
encontramos un alto valor de dispersión significa
que los datos son poco homogéneos con las
medidas de tendencia central y por lo tanto dicha
medida no es un descriptor muy adecuado. Si por
el contrario encontramos medidas de dispersión
bajas significa que el estadístico utilizado
representa muy bien a los datos debido a que en
general estos son similares en valor al estadístico
propiamente dicho (media o mediana)
A continuación listaremos las medidas que
usaremos par medir la dispersión de datos,
más adelante estudiaremos de manera más
detenida cada una de ellas:
 Rango (R)
 Desviación promedio
 Varianza ( s 2 )
 Desviación típica o estándar (s)
 Coeficiente de variación (CV)
El Rango o amplitud se define como la
diferencia entre las observaciones más
extremas de un conjunto de datos, esto es:
R  xmax  xmin
Aunque es una medida muy fácil de calcular no
es un gran indicador de dispersión debido a
que solo usa dos observaciones y a que
puede verse afectado por observaciones muy
extremas con respecto al conjunto de datos
Definiremos como desviación a la diferencia entre
cada observación con respecto a una medida de
tendencia central como la media o la mediana.
Para calcular la variabilidad que una distribución
tiene con respecto a su media (mediana), se
calcula la media de las desviaciones de las
puntuaciones respecto a la media aritmética (o
bien mediana). Pero la suma de las desviaciones
es siempre cero, así que se adoptan dos clases
de estrategias para salvar este problema. Una es
tomando las desviaciones en valor absoluto
(desviación promedio) y otra es tomando las
desviaciones al cuadrado (varianza).
Definimos la desviación promedio como la
media aritmética del valor absoluto de las
desviaciones (entre cada observación y la
medida de tendencia central –media o
mediana)
Para la desviación promedio con respecto a la
media tenemos:
1 n
xx
-Para datos sin agrupar: Dx  n 
i 1
1 n
-Para datos agrupados:
Dx   x  x ni
N
i 1
Para la desviación promedio con respecto a la
mediana tenemos:
-Para datos no agrupados:
DM ed
1 n
  x  M ed
n i 1
-Para datos agrupados:
DM ed
1

N
n
 xM
i 1
ed
ni
Sin embargo la desviación promedio no es un
medidor de dispersión muy fuerte por lo cuál
se suele usar como indicador principal de
dispersión una medida conocida como
varianza, que se define como la media de las
desviaciones cuadráticas de las
observaciones. Esto es:
Para datos no agrupados:
1
Para datos agrupados:
s 
(x  x)
n
2

n 1
2
i 1
1 n
2
s 
(
x

x
)
ni

N  1 i 1
2
La varianza tiene como inconveniente que
debido a que su cálculo se realiza elevando al
cuadrado las desviaciones tiene como
unidades las mismas de la variable pero en
orden cuadrático, por ejemplo si es una
medición de dispersión de edades en años la
varianza tendrá por unidades años al
cuadrado
Por esta razón se suele calcular la raíz
cuadrada de la varianza y a ella se le llama
Desviación estándar, esto es:
s  s2



Ambas son sensibles a la variación de cada una
de las puntuaciones, es decir, si una puntuación
cambia, cambia con ella la varianza (por lo tanto
también la desviación estándar). La razón es que
si miramos su definición, la varianza es función
de cada una de las puntuaciones.
La desviación típica tiene la propiedad de que en
el intervalo ( x  2s, x  2s) se encuentra al menos el
75% de las observaciones.
No es recomendable el uso de ellas cuando
tampoco lo sea el de la media como medida de
tendencia central
El coeficiente de variación nos permite la comparación
entre diferentes poblaciones (o muestras según el caso) y
nos sirve como un indicador de confiabilidad de las
estimaciones en la estadística inferencial según los
expertos del DANE: “Se suele considerar que el resultado
de una estimación es bueno si su coeficiente de variación
es menor del 5 %; aceptablemente práctico, entre el 5 % y
el 10%; de baja precisión si es mayor del 10 %. Y menor del
15% y no útil si es mayor del 15%”. (No útil se refiere a
usar los datos con fines netamente descriptivos)
Para calcularlo basta con dividir la desviación estándar sobre
la media aritmética, porcentualmente tenemos:

CV 
s
*100%
x
Calcular las medidas de dispersión para el
conjunto de datos: 3,5,4,3,6,5
Para este conjunto nuestra media es 4.333 y la
mediana es 5
Las medidas de dispersión serían:
R=6-3=3
Dx 
DM ed
3  4.33  5  4.33  4  4.33  3  4.33  6  4.33  5  4.33 6
 1
6
6
35  55  45  35  65  55 6

 1
6
6
s
2
2
2
2
2
2
2

3  4.33  5  4.33  4  4.33  3  4.33  6  4.33  5  4.33

6 1

7.33
 1.464
5
s  1.464  1.21
CV 
1.21
*100%  27.943%
4.33
Para este caso tenemos datos con una
dispersión medianamente alta, en otras
palabras los datos están en general alejados
de la media aritmética por una unidad (al
igual que de la mediana).
Li-1
Li
10-20
20-30
30-40
40-50
50-60
Total
xi
ni
xini
|ximedia|ni
|Ximediana|ni
ni (ximedia)^2
15
12
180
198.14
201.60
3271.61
25
5
125
32.56
34.00
212.01
35
15
525
52.33
48.00
182.53
45
8
360
107.91
105.60
1455.49
55
3
165
70.47
69.60
1655.11
43
1355
461.40
458.80
6776.74
La media sería: 31.51
La mediana: 33
Dx= 461.4/43=10.73
Dmed= 458.8/43=10.41
s2=6776.74/42=161.35
s= 161.35  12.7
CV=(12.7/31.51)*100%=40.31%
Acá vemos una altísima dispersión en los datos