Download Métodos de análisis exploratorio

Document related concepts

Parámetro estadístico wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Asimetría estadística wikipedia , lookup

Media (matemáticas) wikipedia , lookup

Cuantil wikipedia , lookup

Transcript
Definiciones útiles
• Variable aleatoria: es una variable estadística que puede tomar
valores diferentes dependiendo de algún procedimiento que involucra
un elemento de incertidumbre. Es una función que asocia un valor
numérico único a cada suceso de un experimento.
• Variables aleatorias continuas: pueden tomar cualquier valor entre dos
valores específicos.
• Variables aleatorias discretas: sólo pueden tener valores específicos
pero no intermedios entre ellos.
• Distribución: frecuencia con la que se presentan diversos valores
observados. Distribución de probabilidad (v. discretas), función de densidad
de probabilidad (v. continuas).
• Muestra aleatoria: es una muestra seleccionada de manera que cada
elemento de la población tenga la misma oportunidad de ser elegido. Es
conveniente tomar muestras representativas de la población y tener
siempre presente que las conclusiones que se obtengan a partir del
análisis de los datos de una muestra son sólo probablemente correctas.

Estadístico: cualquier cantidad calculada a partir
de las observaciones de una muestra.



Dos propiedades importantes de los estadísticos:
Robustez y Resistencia.
Un estadístico es robusto si no es sensible a
suposiciones particulares respecto a la naturaleza de
los datos.
Un estadístico es resistente si no se ve influenciado
excesivamente por un número pequeño de valores
extremos.
Medidas de Tendencia Central


Sirven para describir el punto alrededor del cual se agrupan los
valores observados.
La medida de tendencia central más adecuada depende del
problema en cuestión.
 Promedio o media aritmética:
n
∑ xi
̄ = i= 1
μ̂ = X
n
Es la mejor caracterización del centro de un conjunto de datos si
éstos siguen una distribución gaussiana, si no, el promedio dará una
caracterización engañosa de su centro.
Ventajas:

Se expresa en las mismas unidades que la variable.

En su cálculo intervienen todos las observaciones.

Es el centro de gravedad de la distribución.

Es única.
Desventajas:

No es robusto ni resistente.
 Mediana → es la observación central o de enmedio
cuando los datos están ordenados según su
magnitud. Es un valor posicional. La mediana divide
un histograma en dos áreas iguales.
– Si el número de observaciones (n) es impar, la
mediana es el valor que se encuentra en la posición
X([n+1]/2)
– Si el número de observaciones (n) es par, la
mediana es el promedio de los dos valores
centrales
[X(n/2) + X(n/2+1)]/2
- La mediana se encuentra entre la media y la moda
si la distribución no es simétrica.
Moda → valor de las observaciones que se presenta
con mayor frecuencia. Valor correspondiente al punto
más alto de la curva de frecuencias. Intervalo modal.
Dos modas = bimodal; más de dos: multimodal.
Características:
 Si las tres medidas de tendencia central coinciden, la
distribución es simétrica.
 Si
no coinciden, es sesgada o asimétrica.

Sesgo (skewness): Medida de la asimetría de una distribución de
frecuencias o de probabilidad de una variable aleatoria.

Sesgo positivo: Media > Mediana > Moda.

Sesgo negativo: Media < Mediana < Moda
Si la distribución es simétrica entonces Media = Mediana y el sesgo es
cercano a cero. Si además la distribución es unimodal, Media = Mediana
= Moda.
(Checar: www.amstat.org/publications/jse/v13n2/vonhippel.html)
Cuantiles: Puntos que dividen al conjunto de observaciones en un cierto
número de partes iguales: deciles (10), percentiles (100), cuartiles (4).
Cuartiles: Dividen al conjunto en 4 partes iguales. Cuartil superior (q 0.75), es el
valor por encima del cual está el 25% de los datos. Cuartil inferior (q 0.25), es el
valor por debajo del cual está el 25% de los datos. Mediana = q0.5
Medidas de Dispersión
• Proporcionan información acerca de qué tan separadas o
apartadas están las observaciones respecto a su promedio.
• Rango o recorrido = Valor máximo – valor mínimo
• Rango intercuartil o intercuartílico:
intercuartílico
IQR = q0.75 – q0.25 , es un buen índice de la dispersión en la parte
central de un conjunto de datos. Es robusto y resistente y muy
fácil de calcular, pero tiene la desventaja de que no hace uso de
una parte sustancial de los datos.
• Se consideran como atípicos los datos que son menores que
q0.25 – 1.5*IQR o mayores que q0.75 + 1.5*IQR.
• Una aproximación para seleccionar el ancho de los intervalos de
clase de un histograma:
donde c está entre 2 y 2.6.

Varianza: Representa aproximadamente el promedio de las
distancias al cuadrado entre los datos y su media ( ):
n
2
2
σ̂ =s =



2
̄
(
x
−
X
)
∑ i
i=1
n−1
La desviación estándar (s) es la raíz cuadrada de la varianza y
tiene las mismas dimensiones físicas o unidades que los datos.
Son representativas de la dispersión del conjunto de datos solo
si la media es representativa de su centro.
Median absolute deviation (MAD):
MAD = mediana(|xi – q0.5|)

Momentos de una distribución: Se define un momento
arbitrario con respecto a la media como:
m2 es la varianza, m3 es el sesgo o asimetría (skewness) y
m4 es la curtosis o medida de la forma de la distribución.
Generalmente se utilizan las cantidades adimensionales:
Simetría
Coeficiente de asimetría (cantidad adimensional):
No es robusto ni resistente
Índice de Yule-Kendall (robusto y resistente):
Gráficas

Primer paso → Graficar los datos

Histogramas o gráficos de barras:


Ordenar los datos en forma ascendente.
Agruparlos en clases (generalmente de la misma
amplitud). Algunas formas para determinar el número de
clases:

a) k = 1 + 3.3log(n), cuando se tienen muchos datos

b) k = √n, para pocos datos

La asignación es arbitraria.

No debe haber separación ni traslape entre las clases.

El número de datos en cada clase es la frecuencia de
clase.
¿Qué información podemos obtener de un
histograma?

Simetría

Sesgo

Valor máximo (uno o varios)

Datos atípicos

Dispersión
Distribución de frecuencias
Frecuencia de clase (fi) → número de datos en cada
intervalo o clase
Frecuencia relativa → fi/n
Frecuencia acumulada → Fi = fi + fi-1
Frecuencia acumulada relativa → F i/n. Es una
estimación de la probabilidad de ocurrencia del
evento.
• Polígonos de frecuencias: unión de las frecuencias cuyas
abscisas son los puntos medios de clase. Útiles para
comparar dos o más distribuciones.
• Ojivas: Curva de frecuencias acumuladas (o acumuladas
relativas).

Desviación absoluta promedio (average absolute deviation):
dode m(X) es alguna medida de tendencia central.

Diagrama de caja-bigotes (boxplot)
En Matlab: hist, histc, pie, pie3, bar
En Matlab: stem, stem3
Para graficar vientos:
- Rosas de viento
- Feather o gráfico de astillas
En Matlab: rose

quiver
• quiver

quiver3