Download Medidas de localización o posición

Document related concepts

Parámetro estadístico wikipedia , lookup

Cuantil wikipedia , lookup

Rango intercuartílico wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Cuartil wikipedia , lookup

Transcript
Estadística I. Finanzas y contabilidad
Temario de la asignatura
•
Introducción.
•
Análisis de datos univariantes.
•
Análisis de datos bivariantes.
•
Series temporales y números índice.
•
Probabilidad.
•
Modelos probabilísticos.
•
Introducción a la inferencia estadística.
•
Contrastes de hipótesis.
1
Tema 2: Análisis de datos univariantes
1. Representaciones y gráficos.


Tablas de frecuencias.
Diagrama de barras, Pictogramas, Histograma, Polígono de
frecuencias, y Diagrama de caja.
2. Resumen numérico.



Medidas de localización.
Medidas de dispersión.
Medidas de forma.
Lecturas recomendadas:
•
Capítulos 2 a 6 del libro de Peña y Romo (1997)
2
Tema 2: Análisis de datos univariantes
Medidas de localización o posición

Moda
Mediana
Media
Cuantiles

Diagrama de caja



Medidas de dispersión



Varianza y desviación típica
Coeficiente de variación
Rango y rango intercuartílico
Lecturas recomendadas:

Capítulos 4 y 5 del libro de Peña y Romo (1997)
3
Medidas de localización o posición
MEDIDAS DESCRIPTIVAS
¿Para qué nos sirven?
¿Se pueden calcular todas con todo tipo de variables?
¿Cuáles son las más adecuadas en cada caso?
¿De qué forma podemos sacar partido a nuestra calculadora?
4
Medidas de localización o posición
LA MODA: (Cuando los datos no están agrupados en
intervalos)
Es el valor que aparece con una frecuencia mayor.
Puede haber más de una moda: bimodal-trimodal-plurimodal
7
11
10
7
2
2
7
11
5
5
7
3
4
5
8
11
8
7
7
¿Qué valor toma la moda?
5
Medidas de localización o posición
LA MODA: (Cuando los
datos están agrupados
en intervalos)
Clases
ni
[0,5)
[5,10)
[10,15)
[15,20)
[20,25)
[25,30)
11
13
6
2
1
3
Marca de clase
Podemos encontrar: La CLASE MODAL
¿En la representación gráfica?
Pero, ¿y si queremos calcular “exactamente” el valor de la MODA?
ni 1
Mo  LIi 
ni 1  ni 1
i
¿Podemos calcularla para DATOS CUALITATIVOS?
6
Medidas de localización o posición
EJERCICIO: LA MODA
Intervalo
Frecuencia absoluta
[0,5)
6
[5,10)
14
[10,15)
20
[15,20)
10
Calcular el valor “exacto” de la moda.
7
Medidas de localización o posición
LA MEDIANA: (Cuando los datos no están agrupados en intervalos)
Es la observación que ocupa el “lugar” central
7
11
10
7
2
2
7
11
5
5
7
3
4
5
8
11
8
7
7
¿Qué valor toma la mediana?
1. Ordenamos los datos de menor a mayor.
2. Tenemos en cuenta también los que se repiten.
3. La mediana, es el “CENTRO FÍSICO”
¿Cómo cambia el cálculo si N es par o impar?
8
Medidas de localización o posición
LA MEDIANA: (Cuando los datos están agrupados en intervalos)
Clases
ni
Marca de clase
[0,5)
13
2,5
Podemos encontrar:
[5,10)
11
7,5
El INTERVALO MEDIANO
[10,15)
6
12,5
[15,20)
2
17,5
[20,25)
1
22,5
[25,30)
3
27,5
Pero, ¿y si queremos calcular exactamente el valor de la MEDIANA?
N
 Ni 1
Me  LIi 1  2
ni
i
¿Podemos calcularla para DATOS CUALITATIVOS?
9
Medidas de localización o posición
(Cuando los datos no están agrupados en intervalos)
LA MEDIA ARITMÉTICA: Es el PROMEDIO de los valores de la muestra
7
11
10
7
2
2
7
11
5
5
7
3
4
5
8
11
8
7
7
¿Qué valor toma la media?
1. Sumamos los datos.
2. Los dividimos por el número total de datos (N).
N
X 
x
i 1
N
i

x 1x 2  ...  x N
N
10
Medidas de localización o posición
(Cuando los datos están agrupados en intervalos)
LA MEDIA ARITMÉTICA:
Clases
El valor de la media con
ni
M.C. (xi)
ni xi
[0,5)
13
2,5
32,5
los datos agrupados en
[5,10)
11
7,5
82,5
intervalos utiliza la
[10,15)
6
12,5
75
marca de clase.
[15,20)
2
17,5
35
[20,25)
1
22,5
22,5
[25,30)
3
27,5
82,5
330
Suma
9,17
Media
¿Podemos calcularla para DATOS CUALITATIVOS?
11
Medidas de localización o posición
(Cuando los datos están agrupados en intervalos)
La MEDIA ARITMÉTICA para datos agrupados en intervalos es
entonces:
K
X
x n
i
i 1
N
i
,siendo "K" el nº de intervalos
12
Medidas de localización o posición
LOS CUANTILES: (Cuando los datos no están agrupados en intervalos)
Nos divide en conjunto de datos en k partes.
Si por EJEMPLO tenemos diez datos (N=10), y queremos hacer cuatro partes
(k=4), necesitamos tres marcas (c1, c2 y c3)
Cuando k=4, se llaman CUARTILES; cuando k=10, DECILES;
y cuando k=100, CENTILES.
13
Medidas de localización o posición
CÁLCULO DE CUARTILES
Tenemos el siguiente conjunto de datos:
47
72
52
72
52
78
57
81
63
81
64
86
69
91
71
1.
Ordenamos los datos de menor a mayor.
2.
Calculamos c2 , que ocupa la posición correspondiente a la “mitad”,
¿con qué parámetro visto ya coincide este segundo cuartil?
3.
Ahora calculamos, la “mitad” de la primera parte: c1 .
4.
Y la “mitad” de la segunda parte: c3
14
Medidas de localización o posición
c2 = 71
47
47
52
52
52
52
57
57
63
63
64
64
69
69
71
71
c1 = 60
71
72
72
72
72
78
78
81
81
81
81
86
86
91
91
c3 = 79,5
15
Diagrama de caja
REPRESENTACIÓN GRÁFICA UTILIZANDO LOS CUARTILES
Utilizando el anterior conjunto de datos:
1.
Los cálculos:
Primer cuartil: 60
Segundo cuartil: 71
Tercer cuartil: 79,5
Media aritmética: 69,07
2. Hay datos que pueden provenir de observaciones “mal tomadas”: datos atípicos.
Box-and-Whisker Plot
Para detectarlas, calculamos:
LI=c1-1,5(c3-c1)
LS=c3+1,5(c3-c1)
47
57
67
77
87
97
16
Diagrama de caja
EJERCICIO 1: DIAGRAMA DE CAJA
56
59
59
61
67
69
73
76
76
80
83
83
84
90
94
Construir el diagrama de caja para el anterior conjunto de datos.
17
Diagrama de caja
EJERCICIO 2: DIAGRAMA DE CAJA
35
45
45
55
57
62
64
64
64
65
73
74
74
76
78
80
82
84
86
92
92
92
93
94
97
112
116
116
123
123
124
128
140
143
173
214
255
277
Construir el diagrama de caja para el anterior conjunto de datos.
18
Tema 2: Análisis de datos univariantes
Medidas de localización o posición

Moda
Mediana
Media
Cuantiles

Diagrama de caja



Medidas de dispersión



Varianza y desviación típica
Coeficiente de variación
Rango y rango intercuartílico
19
Medidas de dispersión: Varianza
PRIMER CONJUNTO DE DATOS
(Salarios anuales en € de la empresa A)
30700
32500
32900
33800
34100
34500
36000
SEGUNDO CONJUNTO DE DATOS
(Salarios anuales en € de la empresa B)
27500
31600
31700
33800
35300
34000
40600
Vamos a calcular: MEDIA y MEDIANA de
ambos conjuntos de datos:
Observa ahora las representaciones
gráficas.
Señala media y mediana.
¿Tenemos suficiente información?
20
Medidas de dispersión: Varianza
Parece que la diferencia entre ambos conjuntos de datos son las
DISTANCIAS A LA MEDIA, vamos a calcularlas.
x i- X
Empresa A
Empresa B
x i- X
30700
-2800
27500
-6000
32500
-1000
31600
-1900
32900
-600
31700
-1800
33800
300
33800
300
34100
600
34000
500
34500
1000
35300
1800
36000
2500
40600
7100
¿Cuánto suman nuestras dos nuevas columnas?
NUEVA PROPIEDAD:
 x  X   0
N
i 1
i
¿Por qué sucede esto? ¿Podemos solucionarlo de alguna manera?
21
Medidas de dispersión: Varianza
Modificamos nuestro cálculo:
Empresa A
Empresa B
30700
7840000
27500
36000000
32500
1000000
31600
3610000
32900
360000
31700
3240000
33800
90000
33800
90000
34100
360000
34000
3240000
34500
1000000
35300
250000
36000
6250000
40600
50410000
16900000
96840000
¿Qué hacemos para poder compararlas?
 x
N
i 1
i
X
N

2
 2
¿Qué indica este nuevo
parámetro?
¿Qué unidades tiene este nuevo parámetro? ¿Podemos cambiarlas?
22
Medidas de dispersión: Coeficiente de variación
Cuando la media sea distinta de “0”, podemos calcular:
CV 
Nos permite comparar, porque no tiene unidades.

X
¿Para qué nos sirve con una única base de datos?
EJERCICIO 3:
Analizamos el volumen de consultas durante el período de exámenes en 10
bibliotecas universitarias, y se comparan con las anotadas el año anterior. El %
de incremento de consultas fue:
10.2
2.9
3.1
6.8
5.9
7.3
7.0
8.2
3.7
4.3
¿Son los datos homogéneos?
23
Medidas de dispersión: Rango y rango intercuartílico
Rango: la diferencia entre el mayor y el menor de los datos.
Rango intercuartílico: la diferencia entre el tercer y el primer
cuartil.
Rango intercuartílico
Box-and-Whisker Plot
Rango
47
57
67
77
87
97
EJERCICIO 4:
Calcula estas dos medidas para los EJERCICIOS 1 y 2.
24