Download Descargar

Document related concepts
no text concepts found
Transcript
MODULO 3. DISTRIBUCIONES
UNIVARIADAS. MEDIDAS DE
TENDENCIA CENTRAL
MEDIDAS DE TENDENCIA
CENTRAL
• Estas medidas se denominan de
«tendencia central» porque fijan su
atención en el centro de la distribución o
punto central sobre el que gravitan el
conjunto de valores de la distribución.
• La más habitual de las medidas de tendencia central es la MEDIA
ARITMÉTICA del conjunto de observaciones individualmente
obtenidas.
• Sin embargo, su uso lleva algunos presupuestos infranqueables, lo
que conlleva a que NO SIEMPRE PUEDA USARSE LA MEDIA
como indicador de «tendencia central».
• Nivel de medición cuantitativo.
• Presupone que el conjunto de los datos posibles tienen una
distribución simétrica.
• Por tanto: mirar el nivel de medición de la variable y el gráfico para
estudiar la forma de su distribución.
Concepto de Simetría:
• Supongamos que hemos representado
gráficamente una distribución de frecuencias.
• Si trazamos una perpendicular al eje de
abscisas por la media y tomamos esta
perpendicular como eje de SIMETRÍA, diremos
que una distribución es simétrica respecto a la
media si existe el mismo número de valores a
ambos lados de dicho eje, equidistantes de uno
a uno y tales que cada par de valores
equidistantes tengan la misma frecuencia. En
caso contrario, las distribuciones serán
asimétricas.
• Si no se cumplen estos supuestos deben
usarse alternativamente otros indicadores:
la MEDIANA (en caso de no contarse con
variables intervales o cuando la población
sigue una distribución bastante poco
simétrica) o la MODA o MODO.
• La mediana requiere para su uso también
de un nivel de medición mínimo, la escala
o nivel ordinal
• La MODA, por tanto, es la medida de
tendencia central apropiada cuando se
dispone de variables que tienen un nivel
de medición nominal.
NIVEL DE MEDICION
MEDIDA DE TENDENCIA CENTAL
MEDIA
INTERVAL
O
RAZON
MEDIANA
MODA
Distribución Si, la más
simétrica
adecuad
a
Si
Si
Distribución No
asimétric
a
Si, la más
adecuad
a
Si
ORDINAL
No
Si
Si
NOMINAL
No
No
Si
MEDIA (o PROMEDIO):
• la «media aritmética» de una variable
estadística es la suma de todos sus
posibles valores dividida por el total de
observaciones.
MEDIA – en tablas de datos
originales:
si los valores de una tabla son:
•x1; x2; x3; ………xi
x

x
N
i
MEDIA – en tablas de
frecuencias simples:
X i fi
x1 f1
fr
fr1
... ... ...
xk fk
frk
En este caso la media puede ser
expresada como suma ponderada de los
valores de la variable por las frecuencias
absolutas promediada por el total de
observaciones (N)
1
x  x1 fr  ......x k f k  x1 f i  .......x k f k  
n
x
n
i
fi
o.bien  xi f r
MEDIA - tablas de frecuencias con
datos agrupados en intervalos de
clase
•
En el caso de las tablas de frecuencias agrupadas en
intervalos de clase, dada la pérdida del dato original,
en estos casos la media debe ser definida como la
suma ponderada –no de los valores originales- sino de
las «marcas de clase» ponderada por sus frecuencias
relativas (ya usando la expresión simplificada).
xc * f

x 
n
i
o.bien  xc * f r
Observaciones sobre la media
• La media (o promedio), en todos los casos, es un número
comprendido entre el mínimo y el máximo de los valores
observados.
• El promedio no tiene por qué coincidir con alguno de los valores
observados en la población.
• Si la distribución de la variable no es muy dispersa (porque se
concentra en unos pocos valores) entonces el promedio es un buen
indicador de la “posición” de la distribución.
• Como medida de tendencia central, tiene el defecto de estar muy
influido por los valores extremos de la distribución. Ya que todas las
observaciones intervienen en el cálculo de la media, la aparición de
una observación extrema, hará que la media se desplace en esa
dirección.
• no es recomendable usar la media como medida central en las
distribuciones muy asimétricas;
Observaciones 2
En general, la media aritmética obtenida a partir
de las marcas de clase xc, diferirá de la media
obtenida con los valores reales, xi.
Es decir, habrá una pérdida de precisión que será
tanto mayor cuanto mayor sea la diferencia
entre los valores reales y las marcas de clase, o
sea, cuanto mayores sean las amplitudes de los
intervalos de clase ai.
• la media calculada sobre datos agrupados en
intervalos dependerá siempre de la división en
intervalos de clase.
• es muy sensible a los valores extremos de la
variable: ya que todas las observaciones
intervienen en el cálculo de la media, la
aparición de una observación extrema, hará que
la media se desplace en esa dirección. En
consecuencia, remarcaremos: 1. no es
recomendable usar la media como medida
central en las distribuciones muy asimétricas; 2.
la media calculada sobre datos agrupados en
intervalos dependerá siempre de la división en
intervalos de clase.
LA MEDIANA
• Consideramos una variable X cuyas
observaciones en una tabla estadística
han sido ordenadas de menor a mayor.
Llamaremos mediana, Mdn al primer valor
de la variable que deja por debajo de sí al
50% de las observaciones y por encima
de sí al restante 50%.
• Si la distribución es simétrica, la MEDIA
coincidirá con la MEDIANA.
MEDIANA – tablas de datos
originales
•
Si N es el número de observaciones, la mediana corresponderá a la observación [N+1]/2 en el
caso de N impar, y a una observación intermedia entre las observaciones [N/2] y [N+2]/+1 en el
caso de N par.
•
•
•
•
Ejemplo:
N=5 número de observaciones impar
1 - 3 - 7 – 15 - 24 (datos ordenados)
Por tanto, la mediana corresponde a la observación que ocupa la posición [5+1]/2 = 3 (tercera
posición en la serie ordenada). Es decir, 7.
Si N = 6 número de observaciones par
1 - 3 - 7 – 15 - 24 -35 (datos ordenados)
Por tanto, la mediana corresponde a la observación intermedia entre la observación que ocupa el
lugar [6/2] (tercera posición en la serie ordenada) y la observación [6/2]+1 (cuarta posición en la
serie ordenada). Es decir, intermedia entre los valores 7 y 15 (valores que ocupan respectivamente
las posiciones 3era y 4ta). Este valor surge de promediar los valores correspondientes a estas dos
posiciones: (7+15)/2 = 11.
Por tanto, el valor de la variable que deja por debajo de sí el 50% de las observaciones menores y
por encima de sí el 50% de las observaciones mayores es 11. La mediana es 11.
Otra forma de leer este resultado es diciendo que el 50% de las observaciones no superan el valor
11.
•
•
•
•
•
MEDIANA – tablas de frecuencias
simples
En el caso de datos agrupados en tablas, la
forma más práctica de ubicar la mediana
es guiándose por la columna de
frecuencias relativas acumuladas. La
mediana será entonces aquel valor de la
variable que acumula antes el 50% de
las observaciones.
Ejemplo
Accidentes
Laborales
fi
fr
Fi
Fr
Xi
3
3
0,15
3
0,15
4
6
0,3
9
0,45
5
0,25
14
5 = Mediana
0,7
6
4
0,2
18
0,9
7
1
0,05
19
0,95
8
1
0,05
20
20
1
1
MEDIANA – tablas de frecuencias
agrupadas en intervalos de clase
• (no lo trataremos en clase por ser bastante poco común recurrir a
esto)
• En el caso de variables continuas, las clases vienen dadas por
intervalos, y aquí la fórmula de la mediana se complica un poco más
debido a que supone una interpolación de datos.
• fórmula para interpolar:
•
N

  Fiant 
 * Ai
Mdn  Li   2
fi






donde:
Li = límite inferior del intervalo mediano
N= total de observaciones de la población
Fiant= frecuencias acumuladas en la clase anterior del intervalo mediano
fi= frecuencia absoluta simple del intervalo mediano
Ai = amplitud del intervalo mediano
• Sin embargo, sugerimos que para facilitar
la comprensión del tema se maneje con el
concepto de «intervalo mediano. De esta
manera, a igual que en las tablas de
frecuencias, bastará con identificar cual es
el intervalo que primero deja por debajo
de sí el 50 % de las observaciones más
pequeñas.
MEDIANA - Propiedades
• Como medida descriptiva, tiene la ventaja de no estar afectada por las
observaciones extremas, ya que no depende de los valores que toma la
variable, sino del orden de las mismas. Por ello es adecuado su uso en
distribuciones asimétricas.
• Es de cálculo rápido y de interpretación sencilla.
• A diferencia de la media, la mediana de una variable discreta es siempre
un valor de la variable que estudiamos (ej. La mediana de una variable
número de hijos toma siempre valores enteros).
• Es función de los intervalos escogidos.
• Puede ser calculada aunque el intervalo inferior o el superior no tenga
límites.
 En variables ordinales puede ser calculada pero sólo indica una clase
dentro de la distribución. Por ejemplo, si se analiza el nivel educativo
podría suceder que al menos el 50% tienen estudios de cuando más (por
ejemplo) secundaria, porque se alcanza este porcentaje en esta
categoría de la variable.
MODA o MODO:
• Llamaremos moda o modo a cualquier
máximo de la distribución de frecuencias,
es decir, cualquier valor de la variable que
posea una frecuencia mayor que todas
sus anteriores y todas sus posteriores.
• En el caso de variables continuas es más
correcto hablar de intervalos modales.
• ¿Cómo se reconoce la moda (las modas)
en una tabla estadística? Observando el
valor (los valores) de la variable que
tiene(n) la mayor frecuencia relativa.
¿Cómo se reconoce la moda (las modas)
en el diagrama de barras? Observando el
valor (los valores) de la variable que
presenta(n) el rectángulo más alto. La
notación habitual para el modo es: XMo.
MODA - Propiedades
• Es muy fácil de calcular ( o identificar)
• Puede no ser única (distribución unimodal,
bimodal, etc).
• Es función de los intervalos elegidos a través de
su amplitud, número y límites de los mismos.
• Aunque el primero o el último de los intervalos
no posean extremos inferior o superior
respectivamente, la moda puede ser calculada.