Download Ejemplos y ejercicios de Análisis Exploratorio de Datos

Document related concepts
no text concepts found
Transcript
2
Ejemplos y ejercicios de
ANÁLISIS EXPLORATORIO DE DATOS
2
Descripción estadı́stica de una variable.
Ejemplos y ejercicios.
2.1
Análisis Exploratorio de Datos
2
Ejemplos.
Ejemplo 2.1 Se ha medido el grupo sanguı́neo de 40 individuos y se han observado
las siguientes frecuencias absolutas para cada categorı́a: 12 para x1 = A, 11 para
x2 = B, 8 para x3 = AB y 9 para x4 = O.
a) ¿De qué tipo es la variable estudiada? Construir la tabla de frecuencias correspondiente.
b) ¿Qué porcentaje de individuos son del grupo A?
c) ¿Qué porcentaje de individuos no son del grupo O?
d) ¿Cuántos individuos no son del grupo B?
Respuestas: a) Categórica nominal.
grupo
A
B
AB
O
Total
ni
12
11
8
9
40
fi
0.3
0.275
0.2
0.225
1
b) El 30%, c) el 100 − 22.5 = 77.5%, d) 40 − 11 = 29 o bien 12 + 8 + 9 = 29.
Grado en Estadı́stica y Empresa. Curso 2009/10
Aurea Grané
Dpto. Estadı́stica, Universidad Carlos III de Madrid
Ejemplo 2.2 La siguiente tabla muestra la clasificación de 901 individuos según la
variable satisfacción en el trabajo
xi
muy insatisfecho
moderamademte insatisfecho
moderadamente satisfecho
muy satisfecho
Total
ni
62
108
319
412
901
a) ¿De qué tipo es la variable de estudio? Calcular la tabla de frecuencias correspondiente.
b) ¿Qué porcentaje de individuos están moderadamente satisfechos?
c) ¿Cuántos individuos están a lo sumo moderadamente insatisfechos? ¿Qué porcentaje representan?
d) ¿Cuántos individuos están por lo menos moderadamente satisfechos? ¿Qué
porcentaje representan?
Respuestas: a) Categórica ordinal,
2
ANÁLISIS EXPLORATORIO DE DATOS
xi
muy insatisfecho
moderamademte insatisfecho
moderadamente satisfecho
muy satisfecho
Total
3
ni
62
108
319
412
901
fi
0.07
0.12
0.35
0.46
1
Ni
62
170
489
901
Fi
0.07
0.19
0.54
1
b) El 35%, c) 170 y representan el 19%, d) 319 + 412 = 731 o bien 901 − 170 = 731,
que representan el 35 + 46 = 81% (o bien 100 − 19 = 81%).
Ejemplo 2.3 Se quiere estudiar la eficacia de un nuevo insecticida para plantas de
interior. Se seleccionan 50 plantas y se cuenta el número de hojas que han sido
atacadas después de haber tratado la planta con el nuevo producto. Los resultados
son:
Hojas atacadas
0
1
2
3
4
5
6
8
10
ni
6
10
12
8
5
4
3
1
1
Respuestas: a) Cuantitativa discreta,
ni
6
10
12
8
5
4
3
1
1
fi
0,12
0,20
0,24
0,16
0,10
0,08
0,06
0,02
0,02
Ni
6
16
28
36
41
45
48
49
50
ANÁLISIS EXPLORATORIO DE DATOS
4
b) el 16%, c) 36, d) 3 + 1 + 1 = 5 o bien 50 − 45 = 5, e) el 16 + 10 + 8 = 34% o bien
(8 + 5 + 4)/50 · 100 = 34%, f ) el 2 + 2 = 4% o bien 100 − 96 = 4%, g) el 56%.
Ejemplo 2.4 En veinte vuelos de Barcelona a Madrid se han contado el número de
asientos vacı́os en cada vuelo. Se han agrupado los datos en intervalos de longitud 4.
asientos vacı́os
0−3
4−7
8 − 11
12 − 16
ni
9
5
4
2
a) ¿De qué tipo es la variable estudiada? Construir la tabla de frecuencias correspondiente.
b) ¿En cuántos vuelos hay menos de 8 asientos vacı́os? ¿Qué porcentaje representan?
c) ¿En cuántos vuelos hay como mı́nimo 10 asientos vacı́os? ¿Qué porcentaje
representan?
Respuestas: a) Cuantitativa discreta,
a) ¿De qué tipo es la variable de estudio? Construir la tabla de frecuencias correspondiente.
b) ¿Qué porcentaje de plantas tienen sólo 3 hojas atacadas?
c) ¿Cuántas plantas tienen como máximo 3 hojas atacadas?
d) ¿Cuántas plantas tienen como mı́nimo 6 hojas atacadas?
e) ¿Qué porcentaje de plantas tienen entre 3 y 5 hojas atacadas?
f ) ¿Qué porcentaje de plantas tienen al menos 8 hojas atacadas?
g) ¿Qué porcentaje de plantas tienen a lo sumo 2 hojas atacadas?
Hojas atacadas
0
1
2
3
4
5
6
8
10
2
Fi
0,12
0,32
0,56
0,72
0,82
0,90
0,96
0,98
1
intervalos
[0, 4)
[4, 8)
[8, 12)
[12, 16]
Total
xi
2
6
10
14
ni
9
5
4
2
20
fi
0,45
0,25
0,20
0,10
1
Ni
9
14
18
20
Fi
0,45
0,70
0,90
1,00
b) En 14 vuelos, y representan el 70% de los vuelos, c) Aproximadamente en 2 + 4 ·
(10 − 8)/(12 − 8) = 4 vuelos, que representan el 4/20 · 100 = 20% de los vuelos.
2
ANÁLISIS EXPLORATORIO DE DATOS
5
Ejemplos de representaciones gráficas
2
ANÁLISIS EXPLORATORIO DE DATOS
Figura 3: Histograma y polı́gono de frecuencias. Datos del ejemplo 2.4.
Figura 1: (a) Diagrama de sectores. Datos del ejemplo 2.1, (b) Gráfico de Pareto.
Datos del ejemplo 2.2.
23%
6
900
100%
800
89%
700
78%
600
67%
500
55%
400
44%
300
33%
200
22%
100
11%
2.5
polı́gono de frecuencias
histograma
2
30%
A
B
AB
O
1.5
1
0.5
20%
28%
0
muy satisfecho
mod. satisfecho mod. insatisfecho muy insatisfecho
(a)
0%
0
4
8
12
16
(b)
Figura 2: Diagrama de barras y polı́gono de frecuencias. Datos del ejemplo 2.3.
Ejemplo 2.5 Con los siguientes datos construir un diagrama de tallo y hojas.
Datos recogidos (en cm):
11.357, 12.542, 11.384, 12.431, 14.212, 15.213, 13.300, 11.300, 17.206, 12.710,
13.455, 16.143, 12.162, 12.721, 13.420, 14.698. Respuesta:
Datos redondeados y expresados en mm:
114, 125, 114, 124, 142, 152, 133, 113, 172, 127, 135, 161, 122, 127, 134, 147.
Diagrama de tallo y hojas (datos en mm):
11
12
13
14
15
16
17
polı́gono de frecuencias
12
diagrama de barras
10
8
344
24577
345
27
2
1
2
6
Ejemplo 2.6 Un inversor tiene ahorros repartidos en 3 depósitos con 2000, 5000 y
10000 euros, respectivamente. si el primero le rinde un 5% anual, el segundo un 4%
anual y el tercero un 2% anual, ¿cuál es el tipo de interés medio que recibe?
4
2
0
1
2
3
4
5
6
7
8
9
10
Respuesta: La variable de estudio es el interés anual. Los valores que toma esta
variable son 5, 4, 2 con pesos 2000, 5000, 10000, respectivamente. El interés medio es
xP =
50000
5 · 2000 + 4 · 5000 + 2 · 10000
=
= 2.94.
2000 + 5000 + 10000
17000
Ejemplo 2.7 Calcular la mediana y la moda de los conjuntos de datos siguientes:
a) 18, 18, 19, 17, 23, 20, 21, 18
2
ANÁLISIS EXPLORATORIO DE DATOS
7
b) 20, 21, 18, 19, 18, 17, 18
Respuestas: a) Ordenados los datos en orden creciente,
17, 18, 18, 18, 19, 20, 21, 23,
el valor de la mediana es M e = (18 + 19)/2 = 18.5 y la moda es M o = 18.
2
ANÁLISIS EXPLORATORIO DE DATOS
8
Para el cálculo de la moda, buscamos primero el intervalo modal, que es el que presenta mayor ni /Li . Este inetrvalo es [100000, 250000). Aplicando la fórmula de la
moda:
5.2 · 10−5
M o = 100000 + 150000
= 195121.95,
−5
3 · 10 + 5.2 · 10−5
esto significa que el número de habitantes más frecuente en las provincias españolas
es de 195122 habitantes, aproximadamente.
b) Ordenados los datos en orden creciente,
Ejemplo 2.9 Con los datos del ejemplo 2.7, calcular la moda.
17, 18, 18, 18, 19, 20, 21,
el valor de la mediana es M e = 18 y la moda es M o = 18.
Respuestas: a) M o = 18, b) M o = 18.
Ejemplo 2.8 Con los datos del ejercicio 2.2 (habitantes de las provincias españolas)
calcular la media aritmética, la mediana y la moda.
Ejemplo 2.10 Calcular la media aritmética, la mediana, la moda, el primer y tercer
cuartiles, los percentiles 35%, 80% y 95%, la varianza y la desviación tı́pica muestrales, el rango, el rango intercuartı́lico y la MEDA con los datos del ejemplo 2.3.
intervalos
[0, 100000)
[100000, 250000)
[250000, 500000)
[500000, 750000)
[750000, 1000000)
[1000000, 2000000)
[2000000, 3000000)
[3000000, 4000000)
[4000000, 6000000)
total
xi
50000
175000
375000
600000
875000
1500000
2500000
3500000
5000000
ni
3
8
13
10
7
8
1
0
2
52
fi
0.058
0.154
0.250
0.192
0.135
0.154
0.019
0
0.038
1
Ni
3
11
24
34
41
49
50
50
52
Fi
0.058
0.212
0.462
0.654
0.789
0.943
0.962
0.962
1
ni /Li
3 · 10−5
5.3 · 10−5
5.2 · 10−5
4 · 10−5
2.8 · 10−5
0.8 · 10−5
0.1 · 10−5
0
0.1 · 10−5
x=
k
134
= 2.68,
50
Q1 = 1,
P35 = 2,
que significa que, en promedio, hay 827884.62 habitantes por provincia.
Recordemos que la distribución de esta variable es bastante asimétrica como muestra
el histograma de frecuencias de la figura 5 (véase el ejercicio 2.2), por tanto, resultará
más fiable utilizar la mediana y no la media como medida de tendencia central.
x2i ni
0
10
48
72
80
100
108
64
100
582
xi ni
0
10
24
24
20
20
18
8
10
134
M e = 2,
M o = 2.
Medidas de posición:
i=1
Para el cálculo de la mediana, buscamos primero el intervalo mediano. Puesto que
n/2 = 26, el intervalo mediano es [500000, 750000). Aplicando la fórmula de la
mediana:
26 − 24
= 550000,
M e = 500000 + 250000 ·
34 − 24
esto significa que el 50% de las provincias españolas tienen menos de 550000 habitantes.
Ni
6
16
28
36
41
45
48
49
50
Medidas de tendencia central:
tenemos que
1
43050000
= 827884.62,
x=
xi ni =
n
52
ni
6
10
12
8
5
4
3
1
1
50
hojas atacadas
0
1
2
3
4
5
6
8
10
Total
Respuestas: Utilizando la tabla de frecuencias calculada en el apartado b) del ejercicio 2.2,
Q3 = 4,
P80 = 4,
P95 = 6.
Medidas de dispersión:
s2n =
582
− 2.682 = 4.46,
50
R = 10 − 0 = 10,
sn =
√
4.46 = 2.11,
RI = 4 − 1 = 3.
La mediana de desviaciones absolutas, M EDA, se obtiene calculando la mediana de
los valores absolutos de xi − M e(X). Empezamos calculando estas diferencias:
xi − M e(X)
ni
-2
6
-1
10
0
12
1
8
2
5
3
4
4
3
6
1
8
1
2
ANÁLISIS EXPLORATORIO DE DATOS
yi = |xi − M e(X)|
0
1
2
3
4
6
8
9
ni (y)
12
10+8=18
6+5=11
4
3
1
1
Ni (y)
12
30
41
45
48
49
50
Puesto que n = 50 es par, la M EDA es la media aritmética entre el dato 25 y el
dato 26, es decir:
y(25) + y(26)
M EDA =
=1
2
Ejemplo 2.11 Calcular la media aritmética, la mediana, la moda, el primer y tercer
cuartiles, los percentiles 30% y 57%, la varianza y la desviación tı́pica muestrales, el
rango y el rango intercuartı́lico con los datos del ejemplo 2.4.
intervalo
[0, 4)
[4, 8)
[8, 12)
[12, 16)
Total
xi
2
6
10
14
ni
9
5
4
2
20
Ni
9
14
18
20
x2i ni
36
180
400
392
1008
xi ni
18
30
40
28
116
ni /Li
2.25
1.25
1
0.5
2
ANÁLISIS EXPLORATORIO DE DATOS
2.2
10
Ejercicios.
Ejercicio 2.1 Con los datos del ejemplo 2.4 trazar la curva de frecuencias relativas
acumuladas. Determinar el número de vuelos que tienen como máximo 10 asientos
vacı́os.
Respuesta: La figura 4 contiene la curva de frecuencias acumuladas. En el eje
horizontal se representan los valores que toma la variable, en este caso el número de
asientos vacı́os, y en el eje vertical se representan las frecuencias relativas acumuladas. Utilizando esta figura vemos que al valor 10 le corresponde una altura de 0.8.
Por tanto, el 80% de los vuelos tienen como máximo 10 asientos vacı́os. Puesto que
en total hay 20 vuelos, el 80% de los vuelos son 20 (0.8) = 16 vuelos. Este mismo
Figura 4: Curva de frecuencias acumuladas o polı́gono de frecuencias acumuladas.
Datos del ejemplo 2.4.
1
0.8
0.75
0.5
0.25
Medidas de tendencia central:
x=
116
= 5.8,
20
M e = 4 + (4 − 0)
M o = 0 + (4 − 0)
10 − 9
= 4.8,
14 − 9
1.25
= 4.
0 + 1.25
Medidas de posición:
4(5 − 0)
Q1 = 0 +
= 2.22,
9−0
P30 = 0 +
4(6 − 0)
= 2.67,
9−0
4(15 − 14)
Q3 = 8 +
= 9,
18 − 14
P57 = 4 +
4(11.4 − 9)
= 5.92.
14 − 9
4
1008
− 5.82 = 16.76,
20
R = 16 − 0 = 16,
sn =
√
16.76 = 4.09,
RI = 9 − 2.22 = 6.78.
8
10
12
16
cálculo puede realizarse utilizando la tabla de frecuencias del ejemplo 2.4. Recordemos
cómo era la tabla:
Intervalo
xi
ni
fi
Ni
Fi
[0, 4)
[4, 8)
[8, 12)
[12, 16]
2
6
10
14
9
5
4
2
0,45
0,25
0,20
0,10
9
14
18
20
0,45
0,70
0,90
1,00
20
1
Total
Medidas de dispersión:
s2n =
0
El número de vuelos que tienen a lo sumo 10 asientos vacı́os lo obtendremos sumando
las frecuencias observadas en el intervalo [0, 4) más las frecuencias observadas en el
intervalo [4, 8) más una parte de las frecuencias observadas en el intervalo [8, 12). Es
decir,
10 − 8
9+5+
· 4 = 16.
12 − 8
2
ANÁLISIS EXPLORATORIO DE DATOS
11
Ejercicio 2.2 Clasificadas las provincias españolas por su número de habitantes en
2001, se obtuvieron los siguientes datos:
Num. habitantes
de 1 a 100 000
de 100 000 a 250 000
de 250 000 a 500 000
de 500 000 a 750 000
de 750 000 a 1 000 000
de 1 000 000 a 2 000 000
de 2 000 000 a 3 000 000
de 3 000 000 a 4 000 000
de 4 000 000 a 6 000 000
ni
3
8
13
10
7
8
1
0
2
fi
0.058
0.154
0.250
0.192
0.135
0.154
0.019
0
0.038
Ni
3
11
24
34
41
49
50
50
52
Fi
0.058
0.212
0.462
0.654
0.789
0.943
0.962
0.962
1
[
750000
1300000
Figura 5: Histograma de frecuencias absolutas. Datos del ejercicio 2.2.
ni /Li
3 · 10−5
5.3 · 10−5
5.2 · 10−5
4 · 10−5
2.8 · 10−5
0.8 · 10−5
0.1 · 10−5
0
0.1 · 10−5
5 · 10−5
4 · 10−5
3 · 10−5
2 · 10−5
10−5
0
1
2
3
4
millones de habitantes
2 · 106
5
6
Ejercicio 2.3 Los siguientes datos corresponden a las medidas de 15 individuos sobre
la variable cuantitativa peso:
62, 74, 86, 53, 49, 71, 68, 67, 69, 70, 58, 59, 73, 74, 78.
a) Construid una tabla de frecuencias absolutas, relativas, absolutas acumuladas y
relativas acumuladas.
b) Realizad un diagrama de tallo y hojas.
Respuestas: a) Agrupamos los datos en k =
]
106
Por tanto, el número de provincias que tienen entre 800000 y 1300000 habitantes es
aproximadamente
= 0.8 × 7 + 0.3 × 8 = 8 provincias.
b) 24 provincias, que representan el 46.2%.
c) El intervalo [800000, 1300000] está situado encima de dos intervalos de clase:
800000
12
d) La figura 5 contiene el histograma de frecuencias absolutas.
Respuestas: a) La tabla de frecuencias con una columna adicional que será útil para
la construcción del histograma es la siguiente:
xi
50000
175000
375000
600000
875000
1500000
2500000
3500000
5000000
ANÁLISIS EXPLORATORIO DE DATOS
1000000 − 800000
1300000 − 1000000
×7+
×8
1000000 − 750000
2000000 − 1000000
Num. provincias
3
8
13
10
7
8
1
0
2
a) Constuir una tabla estadı́stica con las marcas de clase, las frecuencias absolutas
y las frecuencias relativas.
b) ¿Cuántas provincias tienen menos de 500 000 habitantes? ¿Qué porcentaje
representan?
c) ¿Cuántas provincias tienen entre 800 000 y 1 300 000 habitantes?
d) Construir el histograma de frecuencias absolutas.
intervalos
[0, 100000)
[100000, 250000)
[250000, 500000)
[500000, 750000)
[750000, 1000000)
[1000000, 2000000)
[2000000, 3000000)
[3000000, 4000000)
[4000000, 6000000)
2
intervalos
[49, 59)
[59, 69)
[69, 79)
[79, 89]
xi
54
64
74
84
b) El diagrama de tallo y hojas es:
ni
3
4
7
1
√
15 ≈ 4 intervalos de clase:
fi
0.2
0.267
0.467
0.067
Ni
3
7
14
15
Fi
0.2
0.467
0.934
1.001
2
ANÁLISIS EXPLORATORIO DE DATOS
4
5
6
7
8
13
2
ANÁLISIS EXPLORATORIO DE DATOS
Ejercicio 2.6 Dada la siguiente distribución en el número de hijos de cien familias,
calcular sus cuartiles.
9
389
2789
013448
6
xi
0
1
2
3
4
5
Ejercicio 2.4 Obtener las desviaciones con respecto a la media en la siguiente distribución y comprobar que su suma es cero.
intervalo
0-10
10-20
20-30
30-40
frecuencia
1
2
4
3
xi
5
15
25
35
ni
1
2
4
3
10
xi ni
5
30
100
105
240
xi − x
-19
-9
1
11
Me =
Candidato A
8
6
4
Ni
14
24
39
65
85
100
(xi − x) ni
-19
-18
4
33
0
Candidato B
7
7
5
Si la empresa da una importancia del 60% a la experiencia, del 25% a los conocimientos y del 15% a la habilidad psicotécnica, ¿cuál de los dos candidatos va a escoger?
x(50) + x(51)
= 3,
2
que coincide con Q2 . Para calcular Q1 y Q3 debemos buscar los valores n/4 y 3 n/4
en la columna de las frecuencias acumuladas:
n
= 25 ⇒ Q1 = 2,
4
3n
= 75 ⇒ Q3 = 4.
4
Ejercicio 2.7 Calcular la varianza y la desviación tı́pica de las siguientes cantidades
en metros: 3, 3, 4, 4, 5.
Respuesta:
xi
3
4
5
total
Ejercicio 2.5 Una empresa está interesada en seleccionar entre dos candidatos para
un puesto de trabajo. Las valoraciones que han obtenido en las entrevistas y pruebas
a que han sido sometidos son las siguiente:
Aspecto
experiencia
conocimientos
psicontécnico
ni
14
10
15
26
20
15
Respuesta: Puesto que n = 100 es par,
Respuesta: Primeramente construimos la tabla de frecuencias. Con la tercera
columna de la tabla calculamos la media aritmética, que es x = 240/10 = 24. En
la cuarta columna obtenemos las desviaciones respecto de la media, y en la quinta
ponderamos por la frecuencia observada en cada intervalo.
[li−1 , li )
[0, 10)
[10, 20)
[20, 30)
[30, 40]
Total
14
ni
2
2
1
5
xi ni
6
8
5
19
x2i
9
18
25
x2i ni
18
32
25
75
La media aritmética es x = 19/5 = 3.8 m, la media de cuadrados es x2 = 75/5 =
2
2
2
2
2
15 m2 , la varianza muestral
√ es sn = x − x = 15 − (3.8) = 0.56 m y la desviación
tı́pica muestral es sn = 0.56 = 0.75 m.
Puesto que hay pocos valores, los cálculos de la media y de la varianza se podı́an
haber hecho directamente:
n
x=
Respuesta: Calculamos las medias ponderadas para cada candidato, con pesos 60,
25 y 15, respectivamente para cada categorı́a. El candidato que obtenga una media
poderada mayor será el candidato escogido.
xP (A) =
8 · 60 + 6 · 25 + 4 · 15
= 6.9,
100
xP (B) =
7 · 60 + 7 · 25 + 5 · 15
= 6.7
100
1
3+3+4+4+5
= 3.8,
xi =
n
5
i=1
s2n =
1
n
n
i=1
x2i − x2 =
9 + 9 + 16 + 16 + 25
− (3.8)2 = 0.56.
5
2
ANÁLISIS EXPLORATORIO DE DATOS
15
Ejercicio 2.8 De los ocho empleados de una oficina, se han considerado las distribuciones de sus edades y sus años de antigüedad en la empresa:
Edad
Antigüedad
40
15
22
3
19
1
30
8
62
39
32
13
45
17
51
24
Calcular lor rangos de estas dos distribuciones. ¿Cuál de las dos tiene mayor grado
de dispresión?
2
ANÁLISIS EXPLORATORIO DE DATOS
16
a) Obtener el alquiler medio por apartamento, el precio más frecuente y el precio
que se situa en medio de la oferta.
b) Si una persona está dispuesta a gastarse en alquiler entre 1250 y 1350 euros al
mes, a qué porcentaje de apartamentos tiene opción?
c) Por debajo de qué precio están el 80% de los apartamentos?
d) Entre qué precios están el 50% central de los apartamentos?
Respuestas: a) Empezamos construyendo la tabla de frecuencias, y las columnas
auxiliares para realizar los cálculos:
Respuesta:
R(edad) = 62 − 19 = 43,
R(antigüedad) = 39 − 1 = 38.
Aunque el rango de la variable edad sea mayor que el rango de la variable antigüedad,
esto no significa que el grado de dispersión de edad sea también mayor. Para decidir
qué variable tiene un mayor grado de dispersión debemos calcular el coeficiente de
variación. Ası́, para la variable edad tenemos que:
n
x =
1
301
xi =
= 37.6,
n
8
i=1
12839
− (37.6)2 = 189.23,
s2n = x2 − x2 =
8
√
sn =
189.23 = 13.8,
13.8
sn
× 100 =
× 100 = 36.7%,
CV =
x
37.6
mientras que para la variable antigüedad:
n
x =
1
120
= 15,
xi =
n
8
i=1
2854
− (15)2 = 131.75,
8
√
131.75 = 11.48,
sn =
sn
11.48
CV =
× 100 =
× 100 = 76.5%.
x
15
Por tanto, la variable antigüedad tiene una mayor dispresión, a pesar de que su rango
es menor.
s2n
=
x2
− x2 =
[li−1 , li )
[700, 1000)
[1000, 1100)
[1100, 1300)
[1300, 1500)
[1500, 1800)
[1800, 2000)
[2000, 2100]
Total
xi
850
1050
1200
1400
1650
1900
2050
ni
21
27
34
14
8
11
10
125
Ni
21
48
82
96
104
115
125
fi
0.168
0.216
0.272
0.112
0.064
0.088
0.08
1
xi ni
17850
28350
40800
19600
13200
20900
20500
161200
ni /Li
0.07
0.27
0.17
0.07
0.027
0.055
0.1
El alquiler medio por apartamento lo obtendremos mediante el cálculo de la media
aritmética:
n
1
161200
x=
xi ni =
= 1289.6 euros/mes
n
125
i=1
El precio más frecuente lo obtendremos mediante el intervalo modal, o bien, si queremos ser más precisos, mediante la moda. Puesto que todos los intervalos no tienen la
misma amplitud, para saber cuál es el intervalo modal debemos fijarnos en la columna
que contiene los valores de ni /Li y no en la de las ni . Ası́ pues, el intervalo modal es
[1000, 1100), o sea que el precio más frecuente de los apartamentos está entre 1000 y
1100 euros mensuales. La siguiente fórmula permite situar el valor de la moda dentro
del intervalo modal [li−1 , li ):
M o = li−1 + Li
ni+1
Li+1
ni−1
ni+1
Li−1 + Li+1
.
En nuestro caso, el intervalo modal es [1000, 1100) y substituyendo obtenemos:
Ejercicio 2.9 Una empresa inmobiliaria ofrece apartamentos en régimen de alquiler
con los siguientes precios (en euors):
precio alquiler (mensual)
700-1000
1000-1100
1100-1300
1300-1500
1500-1800
1800-2000
2000-2100
número de apartamentos
21
27
34
14
8
11
10
M o = 1000 + 100
0.17
= 1070.83 euros/mes.
0.07 + 0.17
El precio que se situa en medio de la oferta viene dado por la mediana. El intervalo
mediano es [1100, 1300), puesto que en él se situa n/2 = 125/2 = 62.5. Utilizando la
fórmula de la mediana, obtenemos:
M e = 1100 + (1300 − 1100)
62.5 − 48
= 1185.29 euros/mes.
82 − 48
b) Primero debemos ver dentro de qué intervalos de clase se situa el intervalo de
precios que nos piden, esto es, [1250, 1350].
2
ANÁLISIS EXPLORATORIO DE DATOS
[li−1 , li )
[1100, 1300)
[1300, 1500)
xi
1200
1400
ni
34
14
Ni
82
96
17
fi
0.272
0.112
xi ni
40800
19600
ni /Li
0.17
0.07
2
ANÁLISIS EXPLORATORIO DE DATOS
18
Ejercicio 2.10 Con los datos del ejemplo 2.3, calcular los coeficientes de asimetrı́a
de Pearson y de Fisher.
Respuesta:
Observando la tabla vemos que el extremo inferior del intervalo [1250, 1350] está
dentro de [1100, 1300) y el extremo superior dentro de [1300, 1500). Ası́ pues, el
número de apartamentos con un precio entre 1250 y 1350 euros es
1300 − 1250
1350 − 1300
1
1
34 +
14 = 34 + 14 = 12,
1300 − 1100
1500 − 1300
4
4
12
que representa el 125
100 = 9.6% del total de apartamentos.
c) El precio por debajo del cual están el 80% de los apartamentos viene dado por el
percentil P80 . Este percentil está dentro del intervalo [1500, 1800), puesto que en él
se encuentra el valor 80 n/100 = 80 · 125/100 = 100. Utilizando la fórmula para el
cálculo de los percentiles, obtenemos:
P80 = 1500 + (1800 − 1500)
100 − 96
= 1650 euros/mes.
104 − 96
d) El 50% central de los apartamentos viene determinado por el primer y tercer
cuartiles.
n
125
=
= 31.25 ⇒ Q1 ∈ [1000, 1100),
4
4
31.25 − 21
= 1037.96 euros/mes.
Q1 = 1000 + (1100 − 1000)
48 − 21
3n
3 125
=
= 93.75 ⇒ Q3 ∈ [1300, 1500),
4
4
93.75 − 82
Q3 = 1300 + (1500 − 1300)
= 1467.86 euros/mes.
96 − 82
hojas atacadas
0
1
2
3
4
5
6
8
10
ni
6
10
12
8
5
4
3
1
1
50
xi − x
-2.68
-1.68
-0.68
0.32
1.32
2.32
3.32
5.32
7.32
(xi − x)3 ni
-115.49
-47.42
-3.77
0.26
11.50
49.95
109.78
150.57
392.22
547.61
En el ejemplo 2.10 hemos calculado
x = 2.68,
sn = 2.11,
M o = 2,
por tanto, el coeficiente de asimetrı́a de Pearson es:
AsP =
x − Mo
2.68 − 2
=
= 0.3223.
sn
2.11
A partir de la tabla anterior podemos obtener el coeficiente de asimetrı́a de Fisher:
1 n
(xi − x)3 ni
547.61/50
AsF = n i=1 3
=
= 1.1659.
sn
2.113
En este caso, el uso de AsP no es muy recomendable, puesto que el polı́gono de
frecuencias de esta distribución no tiene forma acampanada (véase figura 2). En
cambio, el coeficiente AsF indica que hay una mayor asimetrı́a positiva.