Download Descriptiva 1 variable

Document related concepts

Parámetro estadístico wikipedia , lookup

Histograma wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Mediana (estadística) wikipedia , lookup

Cuantil wikipedia , lookup

Transcript
I. Estadística Descriptiva de
una variable
Objetivo:
Organizar un conjunto de datos para extraer el máximo posible de
información
Herramientas:
A. Estadísticos: Media, Varianza, moda, etc
B. Representaciones gráficas: Diagrama de tallos y hojas etc
Guión
• I.1 Tipos de Variables
• I.2 Notación básica
• I.3 Estadísticos
 Medidas de dispersión
 Medidas de Centralización
• I.4 Representaciones gráficas
 I.4.1 Diagramas de cajas y bigotes
 I.4.2 Diagramas de tallos y hojas
 I.4.3 Histogramas
1 Tipos de Variables respuesta
(Carácteristicas, propiedades de una población
(muestra)
a)
Explicativas
(No Numéricas)
b)
• Discretas: Conjunto
finito de valores
(numero de
descencientes)
Cuantitativas:
(valores numéricos)
• Continuas:
Cualquier valor
en un intervalo
(longitud, altura)
2 Notación básica
Datos discretos
n = Tamaño de la muestra
x1,..... xn
= n valores de la variable respuesta
Datos agrupados
Los datos pueden venir dados en una serie de intervalos o clases
A1,......, Ak
= k clases de la variable respuesta
x1,..... xk
= k representantes de la variable respuesta
n1,....., nk
f 1,..... fk
= frecuencias absolutas de las clases
= frecuencias relativas de las clases
fi
ni
n
3 Estadisticos
3.1 Medidas de centralizacion
Buscan el mejor valor que representa los datos
(Media Muestral): Es la media arítmética de los datos
V Discreta
1
n
Datos agrupados
x
1
n
k
k
nixi
i 1
fixi
i 1
n
Xi
i 1
3.1 Medidas de centralizacion 2
Mediana Muestral m : Es el valor central de
los datos
V Discreta
Datos agrupados
Paso 1: Se escoge el intervalo mediano
Paso 2: Se interpola
P:¿Si alguien introduce un
valor falso muy grande en los datos quien es mas
sensible?
Nota 1: La mediana es mas robusta que
la media
P: ¿Cual es más facil de calcular?
Nota 2: La mediana exige un esfuerzo
computacional mas alto
3.2 Medidas de Dispersión:
V Discreta
• Mínima
• 1 Cuartil
Q1: Es el valor que deja el 25% de los datos debajo de el (La
mediana de la primera mitad de los datos)
• 2 Cuartil
Q2: Mediana
• 3 Cuartil
Q3:Es el valor que deja el 75 % de los datos debajo de el.
• Máxima
• Percentil p: Es el valor que deja el p% de los datos debajo de el.
Agrupados: Se argumenta como en el caso de la mediana
Nota 3: El cálculo de los cuartiles es ligeramente distinto en
cada software
Medidas de dispersión 2
V Discreta
• Varianza:
• Desviacion típica:
Nota 4
•
•
•
•
En diversos textos se divide por n-1. Razon N-1 grados de libertad
Los cuadrados se hacen para que si s=0 no hay dispersion
La desviación típica no es robusta
La formula sencilla se deduce del binomio de Newton
Agrupados: Se supone que existen n_i copias de x_i
como en el caso de la media
4 Representaciones gráficas
4.1 Diagrama de tallos y hojas
1. Se redondean los datos a un número conveniente de cifras significativas
2.Colocan en una tabla con dos columnas separadas por una linea de la
Siguiente forma
a) Todas las cifras menos la ultima se escriben a la izquierda de la linea
(tallo)
b) La ultima cifra se escribe a la derecha (es la hoja)
3. Cada tallo define una clase. El numero de hojas representa la frecuencia de
Dicha clase
4 Representaciones gráficas
4.2 Diagrama de cajas y bigotes (box-plot) (Simple)
1 Un rectángulo vertical (caja) que comienza en Q1 y termina en Q3 y tiene
una linea central en M
2 Dos lineas que unen la caja con el mínimo y el máximo (Bigotes)
4.2 Con Datos atípicos
Rango Intercuartílico = R.I= Q3-Q1
Límite admisible inferior
= L.I= Q1-1.5 (R.I)
Límite admisible superior
= L.S=Q3+1.5 (R.I)
Datos atipicos: Los que están fuera del intervalo (L.I, L.S)
2’ Dos lineas que unen la caja con el mínimo y el maximo en (L.I,L.S)
3. Se señalan los datos atípicos
4 Representaciones gráficas
4.3 Histogramas
Disponemos los datos agrupados en k intervalos cada uno con anchura
a_i, i=1….j. El histograma consiste en construir sobre cada intervalo un
Rectangulo cuya area represente la frecuencia (absoluta o relativa) de dicho
Intervalo. De este modo si pensamos por ejemplo en frecuencias absolutas,
la altura h_i de cada rectangulo seria
Area ni
hi
aihi
ni
ai
¿Qué observar de una
distribución?
•
•
•
•
•
Variabilidad
Datos atípicos
Simetría
Modalidad (Histogramas)
Normalidad