Download Medidas de Tendencia Central

Document related concepts

Parámetro estadístico wikipedia , lookup

Rango intercuartílico wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Desviación típica wikipedia , lookup

Asimetría estadística wikipedia , lookup

Transcript
ESTADÍSTICA
DESCRIPTIVA
Medidas de tendencia
central y de dispersión
Giorgina Piani – Zuleika Ferre
1. Tendencia Central
„
Son un conjunto de medidas estadísticas que
determinan un único valor que define el centro
de la distribución.
„
El objetivo es encontrar aquel valor único que
represente mejor al resto de los individuos en la
distribución.
„
Desafortunadamente no existe un único
procedimiento para determinar la tendencia
central
La media aritmética
„
La media de una distribución es la suma de cada valor
dividido el número de casos.
„
Es el promedio de la variable
µ = Σx = x1 + x2 + x3 +…… xn
n
n
Por tanto para una población de n= 4
3, 7, 4, 6
La media es µ = Σx = 20 = 5
n
4
Cálculo de Media para datos
agrupados
Se define Xi como punto medio del intervalo de
clase = (Límite inferior + Límite superior)/2
Media = µ = Σ xi * ni
n
La mediana
„
La mediana es aquel valor que divide a la
distribución exactamente a la mitad (50%)
„
El objetivo de la mediana es precisar
exactamente el punto medio de la distribución.
„
La mediana es útil cuando el investigador quiere
dividir a la muestra en dos grupos, por ejemplo
aquellos con alto puntaje y aquellos con bajo
puntaje.
Si los datos son impares
„ Se
deben ordenar los datos de menor a y
entonces la mediana será el punto medio
de la lista.
– Ejemplo: 3, 5, 8, 10, 11. El punto medio es 8.
„ Así
que para número impar de datos la
mediana se calcula como (n+1)/2
Si los datos son pares:
„ Se
deben ordenar los datos de menor a
mayor y encontrar la mediana calculando
el promedio de los dos valores medios.
– Ejemplo: 8, 8, 9, 10, 11, 13
– 4 y 5 son los puntos medios. (9+10)/ 2 = 9.5
„ Así
que para número par de datos la
mediana se calcula como
[(n/2) + (n/2)+1]/2
Deciles, cuartiles y percentiles
Hay otras medidas de posición (no de tendencia central)
análogas a la mediana.
„
„
„
Cuartiles: En lugar de buscar la mitad de los datos, puedo
querer determinar el valor del primer cuartil, que posee la
propiedad de que ¼ de los datos sean de menor
magnitud que la suya. (Q1, Q2, Q3)
Deciles: Divide a la distribución en 10.
Percentiles: Dividen a la distribución en 100 porciones de
tamaño igual.
Observese que por definición la mediana es equivalente al
2º cuartil, al quinto decil y al quincuagésimo percentil.
El modo
„ Es
la categoría o el valor que acumula el
mayor número de frecuencias, es decir es
el valor más común.
„ Para encontrarlo simplemente busco aquel
valor con mayor frecuencia.
„ Gráficamente, el modo es el punto más
elevado de la curva.
„ El
modo puede no existir y si existe puede
no ser único.
„ Una
distribución con un solo modo es
unimodal y la que tiene dos modos es
bimodal.
Ejemplo 3 series de números:
– 1:
– 2:
– 3:
71, 75, 83, 75, 61, 68
71, 75, 83, 74, 61, 68
71, 75, 83, 75, 83, 68
Seleccionando una medida de
tendencia central
„
„
„
Recordemos que el objetivo de las medidas de
tendencia central es encontrar aquel valor único
que mejor represente a toda la distribución.
La media es la medida preferida (esta
relacionada con la varianza y la desviación
estándar lo cual la hace adecuada para la
inferencia estadística).
Existen situaciones en las que no es posible
calcular la media o bien la misma no es
particularmente representativa.
Estadísticos a utilizar según escala
de la variable…
Tipo de escala de la
variable
Estadístico
Nominal
Modo
Ordinal
Modo
Mediana
Interval
Modo
Mediana
Media
Cuando usar la mediana
Valores extremos o distribuciones sesgadas
„
–
–
–
Unos pocos valores extremos tienen un alto impacto
provocando que la media se desplace del centro de la
distribución.
Ejemplo en Spss (base ejemplo 3.sav)
Encontramos que la media no es muy representativa de los
valores de la distribución. El valor extremo “infla” el promedio
Con valor extremo
Media = 20,3
Mediana= 11,5
–
Sin valor extremo
Media = 11,4
Mediana =11
Por tanto, conviene usar la mediana si la distribución es
sesgada, ya que los valores en la cola de la distribución
tienden a correr la media.
Cuando usar el modo
Como alternativa de la media o en combinación con ella.
Escalas nominales: Dado que las escalas nominales
1.
no miden cantidad, el modo es la única opción para
describir tedencia central
2.
Variables discretas: Son aquellas que no pueden ser
divisibles.
Ejemplo: número de hijos. Es posible calcular la media
y decir “el promedio de hijos por famila es de 2.4”
pero es mejor hablar del caso típico o modal y decir:
“el valor modal muestra que una familia tiene 2 hijos”.
1.
Describir la forma: dado que no tiene cálculos es
una forma rápida de encontrar la forma de la
distribución.
Ejemplo: si decimos que los puntajes de un examen
tienen una media de 72 y un modo de 80, tengo una
mejor foto de la distribución que si sólo menciono la
media.
La forma de la distribución
„ Dado
que la media, la mediana y el modo
están tratando de medir lo mismo
(tendencia central) es esperable que
estos 3 valores tengan cierta relación.
„ Distribución
simétrica:
– La media y la mediana coinciden en el centro
de la distribución, dividiendo a la misma en
dos mitades iguales.
– Si solamente hay un modo, está exactamente
en el centro y por tanto los 3 valores (media,
mediana y modo) coinciden.
Distribuciones sesgadas:
– La distribución no esta dividida en dos partes
iguales.
ƒ Sesgada a la derecha: El pico (frecuencia más alta)
está en el lado izquierdo. En orden de dividir a la
distribución a la mitad (50%), la mediana debe
ubicarse a la derecha del modo. La media esta
situada a la derecha de la mediana ya que es
influenciada por los valores extremos.
ƒ Sesgada a la izquierda: El pico se acumula en el
lado derecho y la cola de la distribución en el
izquierdo.
2. Dispersión o Variabilidad
„
Variabilidad tiene el mismo significado en
estadística que en el lenguaje común.
„
Nuestro objetivo es medir la variabilidad de un
conjunto de datos.
– Si todos los puntajes de la distribución fueran iguales
la variabilidad sería 0. Si hay una pequeña diferencia
entre valores, la variabilidad es pequeña y si la
diferencia entre valores es grande, entonces la
variabilidad es grande.
„
Una buena medida de variabilidad debe servir
para dos propósitos:
– Describir la distribución. Específicamente decir si los
datos están agrupados o dispersos. Cuanta distancia
espero encontrar entre los valores o entre un valor y
la media.
– La variabilidad representa el resto de la distribución.
Utilidad en estadística inferencial en donde pequeñas
muestras son utilizadas para responder preguntas de
toda la población.
Rango
„ Es
el indicador de dispersión más sencillo.
Se calcula como la diferencia entre la
primera y la última observación en una
serie ordenada de mayor a menor.
R = Xn – X1
Desviación cuartil o rango
semicuartil
„
„
„
Es la mitad de la distancia entre el primer y el
tercer cuartil en una distribución de frecuencias
Es decir: Q = (Q3 – Q1) / 2
Esta medida es poco influenciable a valores
extremos pero sigue sin mostrar una buen foto
de cómo se dispersan o agrupan los datos.
Desviación estándar y varianza
„ Es
la medida más usada y la más importante.
„ Utiliza
la media de la distribución como punto
de referencia y mide variabilidad a través de la
distancia de cada valor a la media.
„ Determina
si los valores se agrupan cercanos
a la media o lejanos.
„
Paso 1:
– Definimos Desviación como la distancia y dirección
respecto a la media. (x - µ)
– Hay dos partes en la desviación, el número y el signo
(+ o -)
– El signo indica la dirección respecto a la media: si esta
por encima (+) o por debajo (-)
„
Paso 2:
– Nuestro objetivo es tener una medida de la distancia
promedio a la media, así que debemos calcular la media
de las desviaciones.
– La suma de los (x - µ) es 0.
„
Paso 3:
– Debo “librarme” del signo, para lo cual elevo al cuadrado
cada diferencia respecto a la media.
– Utilizando la media de las desviaciones cuadradas
definimos la Varianza
– Por tanto:
Varianza
„
s2 = Σ (x - µ)2
n-1
*
Paso 4:
– Simplemente incorpora una corrección a los
cuadrados calculados anteriormente, para lo cual
definimos
ƒ Desvio estándar
s = √varianza
* Observe que la fórmula utiliza n-1 en vez de n. Este ajuste es
necesario como forma de corregir el sesgo en la varianza de la
muestra. El efecto del ajuste permite incrementar el valor que
obtenemos de manera que la varianza en la muestra sea más
precisa.
Una analogía para la media y la
desviación estándar
Supongamos que se debe decidir donde ubicar un nuevo liceo
en un pueblo. Se consideró la opción de instalarlo en el lado
sur del pueblo, pero fue desechado porque existe un gran
número de estudiantes que viven en el norte.
„ La ubicación del liceo es análogo al concepto de media. La
media se ubica en el centro de la distribución de frecuencias.
„
Para cada estudiante del pueblo, es posible medir la distancia
entre su casa y el nuevo liceo. Algunos estudiantes viven a
unas pocas cuadras, otros viven a más de 30 cuadras.
„ La distancia promedio que un estudiante debe recorrer para
llegar al liceo es análogo al concepto de desvio estándar, ya
que éste mide la distancia de un dato respecto a la media.
„
Coeficiente de variación
„
Es una medida relativa de la dispersión.
„
Es útil cuando queremos comparar la variación entre
muestras o entre poblaciones.
C.V. = S / µ * 100
Ejemplo:
Muestra 1:
Muestra 2:
S=10
S=20
Media=50
Media=200
Que sea alto o bajo depende de la variable.
Para dar una idea muy bajo <10%. Alto >30%
CV=20%
CV=10%
En SPSS
„
3 procedimientos básicos de análisis univariado:
– Tablas de frecuencia: Recomendable sobre todo para
variables nominales u ordinales - como sexo o nivel
socioeconómico- o cuando contamos con variables
intervales con un número limitado de categorías.
ƒ Analyze Î Descriptive Statistics Î Frequencies
– Estadísticos descriptivos: Medidas de resumen tales
como la media, la suma, el máximo o el mínimo, algunas
de las cuales sólo pueden aplicarse a variables intervales.
ƒ Analyze Î Descriptive Statistics Î Descriptives
– Exploración de datos: Nos permite realizar análisis más
profundos sobre las características de los datos, añadiendo
además, la posibilidad de introducir factores (variables de
corte), para la exploración de distintas poblaciones.
ƒ Analyze Î Descriptive Statistics Î Explore