Download Unidad I. Conceptos Básicos y Estadística Descriptiva

Document related concepts

Parámetro estadístico wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Desviación típica wikipedia , lookup

Asimetría estadística wikipedia , lookup

Transcript
OARI
CLASE 19/05/2015.
DESCRIPCIÓN CUANTITATIVA DE LOS
DATOS. MEDIDAS RESUMEN
Licenciatura en Gestión Ambiental 2015
Estimación de estadísticos descriptivos
Una descripción cuantitativa de datos incluye:
• Tendencia central
• Posición
• Dispersión
• Forma de la distribución
Estimación de estadísticos descriptivos
Estos estadísticos(*) pueden ser calculados a partir de
los datos originales o a partir de un histograma de
frecuencias absolutas o relativas.
* Estadísticos: valores de un atributo calculado a partir de los
datos de una muestra.
Medidas de tendencia central

Un modo de resumir un único conjunto de datos
numéricos es a través de un número que debería ser
típico para el grupo. No debería ser ni demasiado
grande, ni demasiado pequeño y debería estar cerca
del “centro” de la distribución. Por lo tanto, es un
número que pretende indicar dónde se encuentra el
centro de la distribución de un conjunto de datos,
razón por la cual se llaman MEDIDAS DE TENDENCIA
CENTRAL. Pero, ¿dónde se encuentra el “centro” de
una distribución?
Medidas de tendencia central
El centro es fácil de identificar si la distribución es simétrica, pero
es difícil si es asimétrica. Por esta razón no hay una única medida
de posición para resumir una distribución. Si la distribución es
simétrica, diferentes medidas conducirán a similares resultados. Si
la distribución es claramente asimétrica diferentes propuestas
apuntarán a distintos conceptos de “centro” y por lo tanto los
valores serán diferentes.
Medidas de tendencia central


-
-
Las medidas de tendencia central más importantes son:
 Media Aritmética o Promedio
 Mediana
 Moda
A los efectos de resumir los datos debemos preguntarnos:
¿Qué medida resumen es la más apropiada para la
distribución que presentan nuestros datos?
¿Qué propuesta permite responder mejor a las preguntas
sobre el mundo real que pretendemos responder con estos
datos?
Media Aritmética


Es la medida de posición más frecuentemente usada.
Para calcular la media aritmética o promedio de un conjunto
de observaciones se suman todos los valores y se divide por
el número total de observaciones.
Media Muestral
Media Aritmética
Media Poblacional
Media Aritmética
Media de datos agrupados
k
m1 f1  m2 f 2  ...  mk f k
x

f1  f 2  ...  f k
m  f
i
i 1
k
f
i 1
Donde: mi: punto medio de la clase i
fi: frecuencia absoluta de la clase i
k: número de intervalos de clase
i
i
Media Aritmética
Ejemplo: Cálculo de Media de datos agrupados
Punto
Medio
Frecuencia
k
mifi
0,6-0,8
0,7
6
4,2
0,8-1
0,9
9
8,1
1-1,2
1,1
1
1,1
1,2-1,4
1,3
2
2,6
1,4-1,6
1,5
5
7,5
1,6-1,8
Total
1,7
2
3,4
25
26,9
x
m  f
i
i 1
k
f
i 1
i
26,9

 1,076
25
i
Espesor de base de vasijas
10
9
8
7
6
5
4
3
2
1
0
Frecuencia absoluta (n)
Intervalos
de Clase
0,6-0,8 0,8-1 1-1,2 1,2-1,4 1,4-1,6 1,6-1,8
Intervalos de clase de espesor (cm)
Propiedades, ventajas y desventajas de la media
Ventajas:
 Emplea
en su cálculo toda la información
disponible.
 Se expresa en las mismas unidades que la variable
en estudio.
 Es el centro de gravedad de toda la distribución,
representando a todos los valores observados.
 Es un valor único.
Propiedades, ventajas y desventajas de la media


Se trata de un concepto familiar para la mayoría
de las personas.
Es útil para llevar a cabo procedimientos
estadísticos como la comparación de medias de
varios conjuntos de datos.
Propiedades, ventajas y desventajas de la media
Desventajas:
 Se ve adversamente afectada por valores extremos,
perdiendo representatividad.
 No se puede calcular para datos cualitativos.
Media ponderada y geométrica

Media Ponderada
En ocasiones no todos los valores de la variable
tienen el mismo peso. Por lo tanto la media aritmética
ponderada se utiliza cuando a cada valor de la
variable (xi) se le otorga una ponderación o peso
distinto de la frecuencia o repetición. Para poder
calcularla se tendrá que tener en cuenta las
ponderaciones de cada uno de los valores que tenga
la variable.
Media ponderada y geométrica
Actividad
Valor
Nota
Nota ponderada
Prácticos
25%
12
3
Seminarios
25%
10
2,5
Trabajo final
50%
5
2,5
Media Ponderada
8
Media ponderada y geométrica

Media Geométrica
En una cantidad finita de números (digamos 'n'
números) es la raíz n-ésima del producto de todos los
números.
Media ponderada y geométrica
Sólo es relevante la media geométrica si todos los
números son positivos. Si uno de ellos es 0, entonces el
resultado es 0. Si hay un número negativo (o una
cantidad impar de ellos) entonces la media
geométrica es, o bien negativa o bien inexistente en
los números reales.
La media geométrica es relevante cuando varias
cantidades son multiplicadas para producir un total.

Media ponderada y geométrica
Ej. Una población cuya abundancia en años consecutivos es
{100,180,210,300} ha crecido a las tasas de
180 210 300 
{1.80, 1.167, 1.429} por año.
,
,


100 180 210 
La media aritmética de la tasa de crecimiento es 1.465 (o
46.5%). Comenzando con 100 individuos, en tres años debería
haber 100*(1.465)3=314 individuos.
3
La media geométrica es
1.80*1.167*1.429 =1.443. En
tres años debería haber 100*(1.443)3=300 individuos.
Mediana


Es el valor que ocupa la posición central de un
conjunto de observaciones, una vez que han sido
ordenados en forma ascendente o descendente.
Divide al conjunto de datos en dos partes iguales.
Cálculo de la mediana

Para datos no agrupados:
 Si n es impar: posición donde se ubica la mediana es igual
a (n+1)/2. Ej:

Si n es par: (n+1)/2 no es entero, por lo tanto la mediana
será igual al promedio de las dos posiciones centrales. Ej:
Notar que (n+1)/2
NO es la Mediana sino
su localización en el
conjunto ordenado de
datos.
Cálculo de la mediana

Datos agrupados: clase mediana es la que
contiene a la observación que ocupa la posición
n/2.
N
 Fi 1
M  Li  c  2
fi
Li=
c=
N=
Fi-1=
fi=
límite inferior de la clase mediana
amplitud del intervalo
número total de datos
frecuencia absoluta acumulada de la clase
anterior a la mediana
frecuencia absoluta de la clase mediana
Cálculo de la mediana
Ejemplo: Cálculo de Mediana de datos agrupados
Intervalos
de Clase
Frecuencia
Frecuencia
Acumulada
10-19
5
5
20-29
19
24
30-39
10
34
40-49
13
47
50-59
4
51
60-69
4
55
70-79
2
57
Total
57
N
 Fi 1
M  Li  c  2
fi
28,5  24
M  29,5  10 
10
4,5
M  29,5  10 
10
 29,5  4,5  34
Ventajas y desventajas de la mediana
Ventajas:
 Fácil de calcular si el número de observaciones no
es muy grande.
 Fácil de entender.
 Puede ser usada no sólo para datos numéricos sino
además para datos ordinales, ya que para
calcularla sólo es necesario establecer un orden en
los datos.
Ventajas y desventajas de la mediana


Es una medida de posición robusta. No se afecta
por la presencia de datos outliers, salvo que
modifiquemos casi el 50% de los datos menores o
mayores de la muestra.
Si hay datos censurados en la muestra no es posible
calcular la media, sin embargo, eventualmente
puede calcularse la mediana.
Ventajas y desventajas de la mediana
Desventajas:
 No utiliza en su “cálculo” toda la información
disponible.
 No pondera cada valor por el número de veces que
se ha repetido.
 Hay que ordenar los datos antes de determinarla.
 Es insensible a la distancia de las observaciones al
centro, ya que solamente depende del orden de los
datos.
Ventajas y desventajas de la mediana
Comparación de la media y la mediana
Ventajas
Media
Mediana
Usa toda la información que
proveen los datos. Es de
manejo algebraico simple.
Representa el centro de la
distribución. Robusta a la presencia
de outliers. Útil para datos ordinales.
Desventajas Muy sensible a la presencia
de datos outliers.
Usa muy poca información de los
datos.
Moda


Observación o clase que tiene la mayor frecuencia
en un conjunto de observaciones.
Un conjunto de datos puede ser unimodal, bimodal
o multimodal.
Moda
Cálculo de la moda


Para datos no agrupados: es simplemente la
observación que más se repite.
Para datos agrupados:
1
Mo  Lim 
Cm
1   2
Donde:
Lim: límite inferior de la clase modal.
1: diferencia entre fi de la clase modal y la
anterior.
2: diferencia entre fi de la clase modal y la
posterior.
Cm: amplitud de la clase modal (clase de mayor
frecuencia).
Cálculo de la moda
Ejemplo: Cálculo de Moda de datos agrupados
Intervalo de clase
Frecuencia
0-10
2
10-20
12
20-30
22
30-40
8
40-50
6
1
Mo  Lim 
Cm
1   2
10
Mo  20,5 
*10  25
(10  12)
Ventajas y desventajas de la moda
Ventajas:
 No requiere cálculos.
 Puede usarse para datos tanto cuantitativos como
cualitativos.
 Fácil de interpretar.
 No se ve influenciada por valores extremos.
Ventajas y desventajas de la moda
Desventajas:
 Para conjuntos pequeños de datos su valor no
tiene casi utilidad.
 No utiliza toda la información disponible.
 No siempre existe, si los datos no se repiten.
 Difícil de interpretar si los datos tiene 3 o más
modas.
Relación entre la media, la mediana y la
moda
¿Qué medida de tendencia central utilizar?
Para distribuciones simétricas: media aritmética.
Para distribuciones asimétricas: mediana
Medidas de posición

Las medidas de posición dividen un conjunto
ordenado de datos en grupo con la misma
cantidad de individuos:
 Percentiles
 Deciles
 Cuartiles
 Quintiles
Medidas de posición
 Percentiles:
Son 99 valores que dividen en cien porciones iguales
el conjunto de datos ordenados. Ejemplo, el percentil
de orden 15 deja por debajo al 15% de las
observaciones y por encima queda el 85% .
Medidas de posición
Cuando los datos están agrupados en una tabla de
frecuencias, se calculan mediante la fórmula:
Li : Límite real inferior de la clase del percentil k.
n :Cantidad total de datos.
Ni-1: Frecuencia acumulada de la clase que antecede
a la clase del percentil k.
ni :Frecuencia de la clase del percentil k.
a :Longitud del intervalo de la clase del percentil k.
Medidas de posición
Los percentiles más usados son los Cuartiles y Quintiles:
Cuartiles: Son los tres valores que dividen al conjunto de datos
ordenados en cuatro porciones iguales. Son un caso particular de
los percentiles, correspondiendo a los percentiles 25, 50 y 75.
Mediana
Medidas de posición
Quintiles: Son los cuatro valores que dividen al conjunto
de datos ordenados en cinco porciones iguales, son un
caso particular de los percentiles, correspondiendo a
los percentiles 20, 40, 60, 80.
Medidas de posición
Ejemplo de
uso de
percentiles de
una
distribución
Medidas de dispersión, variación
o variabilidad.


Son valores numéricos que indican o describen la
forma en que las observaciones están dispersas o
diseminadas, con respecto al valor central.
Son importantes debido a que dos muestras de
observaciones con el mismo valor central pueden
tener una dispersión muy distinta.
Medidas de dispersión, variación
o variabilidad.
Las medidas de tendencia central sólo dan una
caracterización parcial de los datos y no son correctamente
interpretables en ausencia de medidas de dispersión.
Medidas de dispersión, variación o variabilidad.
Principales medidas de dispersión:
 Rango.
 Varianza.
 Desviación Típica.
 Coeficiente de variación.
Medidas de dispersión: Rango
Rango (amplitud o recorrido):


Está determinado por los dos valores extremos de
los datos muestrales. Es simplemente la diferencia
entre la mayor y menor observación.
Es una medida de dispersión absoluta, ya que
depende solamente de los datos y permite
conocer la máxima dispersión.
Medidas de dispersión: Rango







Es fácil de calcular.
Es extremadamente sensible a la presencia de datos
atípicos.
Ignora la mayoría de los datos.
En general aumenta cuando aumenta el tamaño de la
muestra.
Casi no se emplea debido a que depende únicamente de
dos valores.
No proporciona una medida de variabilidad de las
observaciones con respecto al centro de la distribución.
Notación: R
Medidas de dispersión: Varianza



Es un valor numérico que mide el grado de
dispersión relativa porque depende de la posición
de los datos x1,x2,…,xn con respecto a la media.
Es el promedio al cuadrado de las desviaciones de
cada observación con respecto a la media.
Notación: S2
Medidas de dispersión: Varianza

Si la varianza de un conjunto de observaciones es
grande se dice que los datos tiene una mayor
variabilidad que un conjunto de datos que tenga un
varianza menor.
Medidas de dispersión: Varianza
Para datos NO
agrupados:
n
s 
2
 xi  x 
i 1
n
k
Para
datos
agrupados
en
una distribución
de frecuencias:
s2 
n
2
 m
i 1
i
s 
2
2
x
 i
i 1
n
 x   fi
2
n
k
s2 
2
m
 i  fi
i 1
n
 x 
2
x
2
Propiedades, Ventajas y Desventajas de
la Varianza
Ventajas:
 Es útil cuando se compara la variabilidad de dos o más
conjuntos de datos.
 Utiliza toda la información disponible.
Desventajas:
 No proporciona ayuda inmediata cuando se estudia la
dispersión de un solo conjunto de datos.
 Difícil de interpretar por tener sus unidades elevadas al
cuadrado. No tiene las mismas unidades de la variable
original.
Medidas de dispersión: Desviación Estándar
o Típica



La desviación estándar mide cuan lejos se encuentran
los datos de la media muestral.
Es la raíz cuadrada de la varianza.
Notación: s
s s
2
Medidas de dispersión: Desviación Estándar
o Típica


Nos da idea de la distancia promedio de los datos a la
media, pero su interpretación requiere algún conocimiento de
la distribución de los datos.
Regla empírica: si la distribución de los datos es
aproximadamente simétrica y acampanada, entonces
- Aproximadamente el 68% de las observaciones caen en el intervalo X − s y X + s .
- Aproximadamente el 95% de las observaciones caen en el intervalo X − 2s y X + 2s .
- Prácticamente todas las observaciones caen en el intervalo X − 3s y X + 3s .
Medidas de dispersión: Desviación Estándar
o Típica
Es útil para comparar la variabilidad de dos conjuntos de
datos en los que la variable ha sido medida en las mismas
unidades.

Ventajas y Desventajas de la Desviación
Estándar o Típica
Ventajas:
 Está expresada en las mismas unidades que la
variable en estudio.
 Utiliza todas las observaciones en su cálculo.
 Fácil de interpretar.
Desventajas:
 Es una medida de dispersión muy sensible a la
presencia de datos outliers.
Medidas de dispersión: Coeficiente de
Variación



Es una medida de dispersión relativa que permite
comparar el nivel de dispersión de dos muestras de
variables estadísticas diferentes, incluso medidas en
diferente escala.
No tiene dimensiones.
Notación: CV
s
CV  100%
x
Ventajas y Desventajas del Coeficiente de
Variación
Ventajas:
 Es la única MD que permite comparar el nivel de
dispersión de dos muestras de variables diferentes.
 Emplea toda la información disponible en su
cálculo.
 Fácil de calcular.
Ventajas y Desventajas del Coeficiente de
Variación
Desventaja:
 No es una MD con respecto al centro de la
distribución de los datos.
Medidas de Forma

Son medidas numéricas que permiten determinar la
forma que tiene la curva de los datos. Por lo tanto,
sirven para corroborar lo que los gráficos muestran.
Medidas
de forma
-Asimetría
Coeficiente de Pearson
Coeficiente de Fisher
-Kurtosis o apuntamiento
Medidas de Forma: Asimetría

Permite estudiar la forma de la curva, dependiendo
de cómo se agrupan los datos.
Medidas de Forma: Asimetría
Coeficiente de Asimetría de Pearson:
 Fácil de calcular e interpretar.
 Cálculo:

3 X  Md
ASP 
s

o Interpretación:
= 0, X=Md Simétrica
ASP
> 0, X>Md Asimétrica Positiva
< 0, X<Md Asimétrica Negativa
Medidas de Forma: Asimetría
Coeficiente de Asimetría de Fisher:
 No es de fácil cálculo, pero si su interpretación.
 x  X 
n
ASF 
i 1
3
i
ns
 M
k
ASF 
i 1
Datos NO agrupados
3

3
i
 x  fi
ns3
Datos Agrupados
Medidas de Forma: Asimetría
o Interpretación:
= 0, Simétrica
ASF
> 0, Asimétrica Positiva
< 0, Asimétrica Negativa
Medidas de Forma: Kurtosis


Mide si los valores de la distribución están más o
menos concentrados alrededor de los valores
medios de la muestra (zona central de la
distribución).
Se definen tres tipos de distribución según su grado
de Kurtosis:
Medidas de Forma: Kurtosis



Mesocúrtica: grado de concentración medio
alrededor de los valores centrales de la
variable.
Leptocúrtica: grado de concentración elevado.
Platicúrtica: grado de concentración reducido.
Medidas de Forma: Kurtosis
 x  X 
n
CK 
i 1
4
i
ns
 M
k
CK 
i 1
3
4

Datos No Agrupados
4
i
 X  fi
ns
4
3
Datos Agrupados
Interpretación:
=0 Mesocúrtica
CK
>0 Leptocúrtica
<0 Platicúrtica
Referencias:






Daniel, W.W. 1993. Bioestadística. Base para el análisis de las ciencias de la salud. Ed.
Limusa, México.
Guzmán, E. 2011. Conceptos Básicos y Estadística Descriptiva. Universidad de Los
Andes, Venezuela. http://webdelprofesor.ula.ve/ingenieria/eliana/estad.
Inchausti, P. 2011. Técnicas de Análisis Cuantitativo. Material del curso dictado en
CURE-Maldonado.
Marangunich, L. 2004. Estadística descriptiva. Red de Helmintología de FAO para
América Latina y el Caribe. http://cnia.inta.gov.ar/helminto
Orellana, L. 2001. Estadística Descriptiva. Apuntes del Curso de Estadística. UBA.
http://cms.dm.uba.ar/academico/materias/2docuat2011/ estadisticaQ/
Universidad de Chile. 2008. Nociones Básicas de Estadística Utilizadas en Educación.
Departamento de Evaluación, Medición y Registro Educacional.