Download Ejemplos y ejercicios de Análisis Exploratorio de Datos
Document related concepts
no text concepts found
Transcript
2 Ejemplos y ejercicios de ANÁLISIS EXPLORATORIO DE DATOS 2 Descripción estadı́stica de una variable. Ejemplos y ejercicios. 2.1 Análisis Exploratorio de Datos 2 Ejemplos. Ejemplo 2.1 Se ha medido el grupo sanguı́neo de 40 individuos y se han observado las siguientes frecuencias absolutas para cada categorı́a: 12 para x1 = A, 11 para x2 = B, 8 para x3 = AB y 9 para x4 = O. a) ¿De qué tipo es la variable estudiada? Construir la tabla de frecuencias correspondiente. b) ¿Qué porcentaje de individuos son del grupo A? c) ¿Qué porcentaje de individuos no son del grupo O? d) ¿Cuántos individuos no son del grupo B? Respuestas: a) Categórica nominal. grupo A B AB O Total ni 12 11 8 9 40 fi 0.3 0.275 0.2 0.225 1 b) El 30%, c) el 100 − 22.5 = 77.5%, d) 40 − 11 = 29 o bien 12 + 8 + 9 = 29. Grado en Estadı́stica y Empresa. Curso 2009/10 Aurea Grané Dpto. Estadı́stica, Universidad Carlos III de Madrid Ejemplo 2.2 La siguiente tabla muestra la clasificación de 901 individuos según la variable satisfacción en el trabajo xi muy insatisfecho moderamademte insatisfecho moderadamente satisfecho muy satisfecho Total ni 62 108 319 412 901 a) ¿De qué tipo es la variable de estudio? Calcular la tabla de frecuencias correspondiente. b) ¿Qué porcentaje de individuos están moderadamente satisfechos? c) ¿Cuántos individuos están a lo sumo moderadamente insatisfechos? ¿Qué porcentaje representan? d) ¿Cuántos individuos están por lo menos moderadamente satisfechos? ¿Qué porcentaje representan? Respuestas: a) Categórica ordinal, 2 ANÁLISIS EXPLORATORIO DE DATOS xi muy insatisfecho moderamademte insatisfecho moderadamente satisfecho muy satisfecho Total 3 ni 62 108 319 412 901 fi 0.07 0.12 0.35 0.46 1 Ni 62 170 489 901 Fi 0.07 0.19 0.54 1 b) El 35%, c) 170 y representan el 19%, d) 319 + 412 = 731 o bien 901 − 170 = 731, que representan el 35 + 46 = 81% (o bien 100 − 19 = 81%). Ejemplo 2.3 Se quiere estudiar la eficacia de un nuevo insecticida para plantas de interior. Se seleccionan 50 plantas y se cuenta el número de hojas que han sido atacadas después de haber tratado la planta con el nuevo producto. Los resultados son: Hojas atacadas 0 1 2 3 4 5 6 8 10 ni 6 10 12 8 5 4 3 1 1 Respuestas: a) Cuantitativa discreta, ni 6 10 12 8 5 4 3 1 1 fi 0,12 0,20 0,24 0,16 0,10 0,08 0,06 0,02 0,02 Ni 6 16 28 36 41 45 48 49 50 ANÁLISIS EXPLORATORIO DE DATOS 4 b) el 16%, c) 36, d) 3 + 1 + 1 = 5 o bien 50 − 45 = 5, e) el 16 + 10 + 8 = 34% o bien (8 + 5 + 4)/50 · 100 = 34%, f ) el 2 + 2 = 4% o bien 100 − 96 = 4%, g) el 56%. Ejemplo 2.4 En veinte vuelos de Barcelona a Madrid se han contado el número de asientos vacı́os en cada vuelo. Se han agrupado los datos en intervalos de longitud 4. asientos vacı́os 0−3 4−7 8 − 11 12 − 16 ni 9 5 4 2 a) ¿De qué tipo es la variable estudiada? Construir la tabla de frecuencias correspondiente. b) ¿En cuántos vuelos hay menos de 8 asientos vacı́os? ¿Qué porcentaje representan? c) ¿En cuántos vuelos hay como mı́nimo 10 asientos vacı́os? ¿Qué porcentaje representan? Respuestas: a) Cuantitativa discreta, a) ¿De qué tipo es la variable de estudio? Construir la tabla de frecuencias correspondiente. b) ¿Qué porcentaje de plantas tienen sólo 3 hojas atacadas? c) ¿Cuántas plantas tienen como máximo 3 hojas atacadas? d) ¿Cuántas plantas tienen como mı́nimo 6 hojas atacadas? e) ¿Qué porcentaje de plantas tienen entre 3 y 5 hojas atacadas? f ) ¿Qué porcentaje de plantas tienen al menos 8 hojas atacadas? g) ¿Qué porcentaje de plantas tienen a lo sumo 2 hojas atacadas? Hojas atacadas 0 1 2 3 4 5 6 8 10 2 Fi 0,12 0,32 0,56 0,72 0,82 0,90 0,96 0,98 1 intervalos [0, 4) [4, 8) [8, 12) [12, 16] Total xi 2 6 10 14 ni 9 5 4 2 20 fi 0,45 0,25 0,20 0,10 1 Ni 9 14 18 20 Fi 0,45 0,70 0,90 1,00 b) En 14 vuelos, y representan el 70% de los vuelos, c) Aproximadamente en 2 + 4 · (10 − 8)/(12 − 8) = 4 vuelos, que representan el 4/20 · 100 = 20% de los vuelos. 2 ANÁLISIS EXPLORATORIO DE DATOS 5 Ejemplos de representaciones gráficas 2 ANÁLISIS EXPLORATORIO DE DATOS Figura 3: Histograma y polı́gono de frecuencias. Datos del ejemplo 2.4. Figura 1: (a) Diagrama de sectores. Datos del ejemplo 2.1, (b) Gráfico de Pareto. Datos del ejemplo 2.2. 23% 6 900 100% 800 89% 700 78% 600 67% 500 55% 400 44% 300 33% 200 22% 100 11% 2.5 polı́gono de frecuencias histograma 2 30% A B AB O 1.5 1 0.5 20% 28% 0 muy satisfecho mod. satisfecho mod. insatisfecho muy insatisfecho (a) 0% 0 4 8 12 16 (b) Figura 2: Diagrama de barras y polı́gono de frecuencias. Datos del ejemplo 2.3. Ejemplo 2.5 Con los siguientes datos construir un diagrama de tallo y hojas. Datos recogidos (en cm): 11.357, 12.542, 11.384, 12.431, 14.212, 15.213, 13.300, 11.300, 17.206, 12.710, 13.455, 16.143, 12.162, 12.721, 13.420, 14.698. Respuesta: Datos redondeados y expresados en mm: 114, 125, 114, 124, 142, 152, 133, 113, 172, 127, 135, 161, 122, 127, 134, 147. Diagrama de tallo y hojas (datos en mm): 11 12 13 14 15 16 17 polı́gono de frecuencias 12 diagrama de barras 10 8 344 24577 345 27 2 1 2 6 Ejemplo 2.6 Un inversor tiene ahorros repartidos en 3 depósitos con 2000, 5000 y 10000 euros, respectivamente. si el primero le rinde un 5% anual, el segundo un 4% anual y el tercero un 2% anual, ¿cuál es el tipo de interés medio que recibe? 4 2 0 1 2 3 4 5 6 7 8 9 10 Respuesta: La variable de estudio es el interés anual. Los valores que toma esta variable son 5, 4, 2 con pesos 2000, 5000, 10000, respectivamente. El interés medio es xP = 50000 5 · 2000 + 4 · 5000 + 2 · 10000 = = 2.94. 2000 + 5000 + 10000 17000 Ejemplo 2.7 Calcular la mediana y la moda de los conjuntos de datos siguientes: a) 18, 18, 19, 17, 23, 20, 21, 18 2 ANÁLISIS EXPLORATORIO DE DATOS 7 b) 20, 21, 18, 19, 18, 17, 18 Respuestas: a) Ordenados los datos en orden creciente, 17, 18, 18, 18, 19, 20, 21, 23, el valor de la mediana es M e = (18 + 19)/2 = 18.5 y la moda es M o = 18. 2 ANÁLISIS EXPLORATORIO DE DATOS 8 Para el cálculo de la moda, buscamos primero el intervalo modal, que es el que presenta mayor ni /Li . Este inetrvalo es [100000, 250000). Aplicando la fórmula de la moda: 5.2 · 10−5 M o = 100000 + 150000 = 195121.95, −5 3 · 10 + 5.2 · 10−5 esto significa que el número de habitantes más frecuente en las provincias españolas es de 195122 habitantes, aproximadamente. b) Ordenados los datos en orden creciente, Ejemplo 2.9 Con los datos del ejemplo 2.7, calcular la moda. 17, 18, 18, 18, 19, 20, 21, el valor de la mediana es M e = 18 y la moda es M o = 18. Respuestas: a) M o = 18, b) M o = 18. Ejemplo 2.8 Con los datos del ejercicio 2.2 (habitantes de las provincias españolas) calcular la media aritmética, la mediana y la moda. Ejemplo 2.10 Calcular la media aritmética, la mediana, la moda, el primer y tercer cuartiles, los percentiles 35%, 80% y 95%, la varianza y la desviación tı́pica muestrales, el rango, el rango intercuartı́lico y la MEDA con los datos del ejemplo 2.3. intervalos [0, 100000) [100000, 250000) [250000, 500000) [500000, 750000) [750000, 1000000) [1000000, 2000000) [2000000, 3000000) [3000000, 4000000) [4000000, 6000000) total xi 50000 175000 375000 600000 875000 1500000 2500000 3500000 5000000 ni 3 8 13 10 7 8 1 0 2 52 fi 0.058 0.154 0.250 0.192 0.135 0.154 0.019 0 0.038 1 Ni 3 11 24 34 41 49 50 50 52 Fi 0.058 0.212 0.462 0.654 0.789 0.943 0.962 0.962 1 ni /Li 3 · 10−5 5.3 · 10−5 5.2 · 10−5 4 · 10−5 2.8 · 10−5 0.8 · 10−5 0.1 · 10−5 0 0.1 · 10−5 x= k 134 = 2.68, 50 Q1 = 1, P35 = 2, que significa que, en promedio, hay 827884.62 habitantes por provincia. Recordemos que la distribución de esta variable es bastante asimétrica como muestra el histograma de frecuencias de la figura 5 (véase el ejercicio 2.2), por tanto, resultará más fiable utilizar la mediana y no la media como medida de tendencia central. x2i ni 0 10 48 72 80 100 108 64 100 582 xi ni 0 10 24 24 20 20 18 8 10 134 M e = 2, M o = 2. Medidas de posición: i=1 Para el cálculo de la mediana, buscamos primero el intervalo mediano. Puesto que n/2 = 26, el intervalo mediano es [500000, 750000). Aplicando la fórmula de la mediana: 26 − 24 = 550000, M e = 500000 + 250000 · 34 − 24 esto significa que el 50% de las provincias españolas tienen menos de 550000 habitantes. Ni 6 16 28 36 41 45 48 49 50 Medidas de tendencia central: tenemos que 1 43050000 = 827884.62, x= xi ni = n 52 ni 6 10 12 8 5 4 3 1 1 50 hojas atacadas 0 1 2 3 4 5 6 8 10 Total Respuestas: Utilizando la tabla de frecuencias calculada en el apartado b) del ejercicio 2.2, Q3 = 4, P80 = 4, P95 = 6. Medidas de dispersión: s2n = 582 − 2.682 = 4.46, 50 R = 10 − 0 = 10, sn = √ 4.46 = 2.11, RI = 4 − 1 = 3. La mediana de desviaciones absolutas, M EDA, se obtiene calculando la mediana de los valores absolutos de xi − M e(X). Empezamos calculando estas diferencias: xi − M e(X) ni -2 6 -1 10 0 12 1 8 2 5 3 4 4 3 6 1 8 1 2 ANÁLISIS EXPLORATORIO DE DATOS yi = |xi − M e(X)| 0 1 2 3 4 6 8 9 ni (y) 12 10+8=18 6+5=11 4 3 1 1 Ni (y) 12 30 41 45 48 49 50 Puesto que n = 50 es par, la M EDA es la media aritmética entre el dato 25 y el dato 26, es decir: y(25) + y(26) M EDA = =1 2 Ejemplo 2.11 Calcular la media aritmética, la mediana, la moda, el primer y tercer cuartiles, los percentiles 30% y 57%, la varianza y la desviación tı́pica muestrales, el rango y el rango intercuartı́lico con los datos del ejemplo 2.4. intervalo [0, 4) [4, 8) [8, 12) [12, 16) Total xi 2 6 10 14 ni 9 5 4 2 20 Ni 9 14 18 20 x2i ni 36 180 400 392 1008 xi ni 18 30 40 28 116 ni /Li 2.25 1.25 1 0.5 2 ANÁLISIS EXPLORATORIO DE DATOS 2.2 10 Ejercicios. Ejercicio 2.1 Con los datos del ejemplo 2.4 trazar la curva de frecuencias relativas acumuladas. Determinar el número de vuelos que tienen como máximo 10 asientos vacı́os. Respuesta: La figura 4 contiene la curva de frecuencias acumuladas. En el eje horizontal se representan los valores que toma la variable, en este caso el número de asientos vacı́os, y en el eje vertical se representan las frecuencias relativas acumuladas. Utilizando esta figura vemos que al valor 10 le corresponde una altura de 0.8. Por tanto, el 80% de los vuelos tienen como máximo 10 asientos vacı́os. Puesto que en total hay 20 vuelos, el 80% de los vuelos son 20 (0.8) = 16 vuelos. Este mismo Figura 4: Curva de frecuencias acumuladas o polı́gono de frecuencias acumuladas. Datos del ejemplo 2.4. 1 0.8 0.75 0.5 0.25 Medidas de tendencia central: x= 116 = 5.8, 20 M e = 4 + (4 − 0) M o = 0 + (4 − 0) 10 − 9 = 4.8, 14 − 9 1.25 = 4. 0 + 1.25 Medidas de posición: 4(5 − 0) Q1 = 0 + = 2.22, 9−0 P30 = 0 + 4(6 − 0) = 2.67, 9−0 4(15 − 14) Q3 = 8 + = 9, 18 − 14 P57 = 4 + 4(11.4 − 9) = 5.92. 14 − 9 4 1008 − 5.82 = 16.76, 20 R = 16 − 0 = 16, sn = √ 16.76 = 4.09, RI = 9 − 2.22 = 6.78. 8 10 12 16 cálculo puede realizarse utilizando la tabla de frecuencias del ejemplo 2.4. Recordemos cómo era la tabla: Intervalo xi ni fi Ni Fi [0, 4) [4, 8) [8, 12) [12, 16] 2 6 10 14 9 5 4 2 0,45 0,25 0,20 0,10 9 14 18 20 0,45 0,70 0,90 1,00 20 1 Total Medidas de dispersión: s2n = 0 El número de vuelos que tienen a lo sumo 10 asientos vacı́os lo obtendremos sumando las frecuencias observadas en el intervalo [0, 4) más las frecuencias observadas en el intervalo [4, 8) más una parte de las frecuencias observadas en el intervalo [8, 12). Es decir, 10 − 8 9+5+ · 4 = 16. 12 − 8 2 ANÁLISIS EXPLORATORIO DE DATOS 11 Ejercicio 2.2 Clasificadas las provincias españolas por su número de habitantes en 2001, se obtuvieron los siguientes datos: Num. habitantes de 1 a 100 000 de 100 000 a 250 000 de 250 000 a 500 000 de 500 000 a 750 000 de 750 000 a 1 000 000 de 1 000 000 a 2 000 000 de 2 000 000 a 3 000 000 de 3 000 000 a 4 000 000 de 4 000 000 a 6 000 000 ni 3 8 13 10 7 8 1 0 2 fi 0.058 0.154 0.250 0.192 0.135 0.154 0.019 0 0.038 Ni 3 11 24 34 41 49 50 50 52 Fi 0.058 0.212 0.462 0.654 0.789 0.943 0.962 0.962 1 [ 750000 1300000 Figura 5: Histograma de frecuencias absolutas. Datos del ejercicio 2.2. ni /Li 3 · 10−5 5.3 · 10−5 5.2 · 10−5 4 · 10−5 2.8 · 10−5 0.8 · 10−5 0.1 · 10−5 0 0.1 · 10−5 5 · 10−5 4 · 10−5 3 · 10−5 2 · 10−5 10−5 0 1 2 3 4 millones de habitantes 2 · 106 5 6 Ejercicio 2.3 Los siguientes datos corresponden a las medidas de 15 individuos sobre la variable cuantitativa peso: 62, 74, 86, 53, 49, 71, 68, 67, 69, 70, 58, 59, 73, 74, 78. a) Construid una tabla de frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas. b) Realizad un diagrama de tallo y hojas. Respuestas: a) Agrupamos los datos en k = ] 106 Por tanto, el número de provincias que tienen entre 800000 y 1300000 habitantes es aproximadamente = 0.8 × 7 + 0.3 × 8 = 8 provincias. b) 24 provincias, que representan el 46.2%. c) El intervalo [800000, 1300000] está situado encima de dos intervalos de clase: 800000 12 d) La figura 5 contiene el histograma de frecuencias absolutas. Respuestas: a) La tabla de frecuencias con una columna adicional que será útil para la construcción del histograma es la siguiente: xi 50000 175000 375000 600000 875000 1500000 2500000 3500000 5000000 ANÁLISIS EXPLORATORIO DE DATOS 1000000 − 800000 1300000 − 1000000 ×7+ ×8 1000000 − 750000 2000000 − 1000000 Num. provincias 3 8 13 10 7 8 1 0 2 a) Constuir una tabla estadı́stica con las marcas de clase, las frecuencias absolutas y las frecuencias relativas. b) ¿Cuántas provincias tienen menos de 500 000 habitantes? ¿Qué porcentaje representan? c) ¿Cuántas provincias tienen entre 800 000 y 1 300 000 habitantes? d) Construir el histograma de frecuencias absolutas. intervalos [0, 100000) [100000, 250000) [250000, 500000) [500000, 750000) [750000, 1000000) [1000000, 2000000) [2000000, 3000000) [3000000, 4000000) [4000000, 6000000) 2 intervalos [49, 59) [59, 69) [69, 79) [79, 89] xi 54 64 74 84 b) El diagrama de tallo y hojas es: ni 3 4 7 1 √ 15 ≈ 4 intervalos de clase: fi 0.2 0.267 0.467 0.067 Ni 3 7 14 15 Fi 0.2 0.467 0.934 1.001 2 ANÁLISIS EXPLORATORIO DE DATOS 4 5 6 7 8 13 2 ANÁLISIS EXPLORATORIO DE DATOS Ejercicio 2.6 Dada la siguiente distribución en el número de hijos de cien familias, calcular sus cuartiles. 9 389 2789 013448 6 xi 0 1 2 3 4 5 Ejercicio 2.4 Obtener las desviaciones con respecto a la media en la siguiente distribución y comprobar que su suma es cero. intervalo 0-10 10-20 20-30 30-40 frecuencia 1 2 4 3 xi 5 15 25 35 ni 1 2 4 3 10 xi ni 5 30 100 105 240 xi − x -19 -9 1 11 Me = Candidato A 8 6 4 Ni 14 24 39 65 85 100 (xi − x) ni -19 -18 4 33 0 Candidato B 7 7 5 Si la empresa da una importancia del 60% a la experiencia, del 25% a los conocimientos y del 15% a la habilidad psicotécnica, ¿cuál de los dos candidatos va a escoger? x(50) + x(51) = 3, 2 que coincide con Q2 . Para calcular Q1 y Q3 debemos buscar los valores n/4 y 3 n/4 en la columna de las frecuencias acumuladas: n = 25 ⇒ Q1 = 2, 4 3n = 75 ⇒ Q3 = 4. 4 Ejercicio 2.7 Calcular la varianza y la desviación tı́pica de las siguientes cantidades en metros: 3, 3, 4, 4, 5. Respuesta: xi 3 4 5 total Ejercicio 2.5 Una empresa está interesada en seleccionar entre dos candidatos para un puesto de trabajo. Las valoraciones que han obtenido en las entrevistas y pruebas a que han sido sometidos son las siguiente: Aspecto experiencia conocimientos psicontécnico ni 14 10 15 26 20 15 Respuesta: Puesto que n = 100 es par, Respuesta: Primeramente construimos la tabla de frecuencias. Con la tercera columna de la tabla calculamos la media aritmética, que es x = 240/10 = 24. En la cuarta columna obtenemos las desviaciones respecto de la media, y en la quinta ponderamos por la frecuencia observada en cada intervalo. [li−1 , li ) [0, 10) [10, 20) [20, 30) [30, 40] Total 14 ni 2 2 1 5 xi ni 6 8 5 19 x2i 9 18 25 x2i ni 18 32 25 75 La media aritmética es x = 19/5 = 3.8 m, la media de cuadrados es x2 = 75/5 = 2 2 2 2 2 15 m2 , la varianza muestral √ es sn = x − x = 15 − (3.8) = 0.56 m y la desviación tı́pica muestral es sn = 0.56 = 0.75 m. Puesto que hay pocos valores, los cálculos de la media y de la varianza se podı́an haber hecho directamente: n x= Respuesta: Calculamos las medias ponderadas para cada candidato, con pesos 60, 25 y 15, respectivamente para cada categorı́a. El candidato que obtenga una media poderada mayor será el candidato escogido. xP (A) = 8 · 60 + 6 · 25 + 4 · 15 = 6.9, 100 xP (B) = 7 · 60 + 7 · 25 + 5 · 15 = 6.7 100 1 3+3+4+4+5 = 3.8, xi = n 5 i=1 s2n = 1 n n i=1 x2i − x2 = 9 + 9 + 16 + 16 + 25 − (3.8)2 = 0.56. 5 2 ANÁLISIS EXPLORATORIO DE DATOS 15 Ejercicio 2.8 De los ocho empleados de una oficina, se han considerado las distribuciones de sus edades y sus años de antigüedad en la empresa: Edad Antigüedad 40 15 22 3 19 1 30 8 62 39 32 13 45 17 51 24 Calcular lor rangos de estas dos distribuciones. ¿Cuál de las dos tiene mayor grado de dispresión? 2 ANÁLISIS EXPLORATORIO DE DATOS 16 a) Obtener el alquiler medio por apartamento, el precio más frecuente y el precio que se situa en medio de la oferta. b) Si una persona está dispuesta a gastarse en alquiler entre 1250 y 1350 euros al mes, a qué porcentaje de apartamentos tiene opción? c) Por debajo de qué precio están el 80% de los apartamentos? d) Entre qué precios están el 50% central de los apartamentos? Respuestas: a) Empezamos construyendo la tabla de frecuencias, y las columnas auxiliares para realizar los cálculos: Respuesta: R(edad) = 62 − 19 = 43, R(antigüedad) = 39 − 1 = 38. Aunque el rango de la variable edad sea mayor que el rango de la variable antigüedad, esto no significa que el grado de dispersión de edad sea también mayor. Para decidir qué variable tiene un mayor grado de dispersión debemos calcular el coeficiente de variación. Ası́, para la variable edad tenemos que: n x = 1 301 xi = = 37.6, n 8 i=1 12839 − (37.6)2 = 189.23, s2n = x2 − x2 = 8 √ sn = 189.23 = 13.8, 13.8 sn × 100 = × 100 = 36.7%, CV = x 37.6 mientras que para la variable antigüedad: n x = 1 120 = 15, xi = n 8 i=1 2854 − (15)2 = 131.75, 8 √ 131.75 = 11.48, sn = sn 11.48 CV = × 100 = × 100 = 76.5%. x 15 Por tanto, la variable antigüedad tiene una mayor dispresión, a pesar de que su rango es menor. s2n = x2 − x2 = [li−1 , li ) [700, 1000) [1000, 1100) [1100, 1300) [1300, 1500) [1500, 1800) [1800, 2000) [2000, 2100] Total xi 850 1050 1200 1400 1650 1900 2050 ni 21 27 34 14 8 11 10 125 Ni 21 48 82 96 104 115 125 fi 0.168 0.216 0.272 0.112 0.064 0.088 0.08 1 xi ni 17850 28350 40800 19600 13200 20900 20500 161200 ni /Li 0.07 0.27 0.17 0.07 0.027 0.055 0.1 El alquiler medio por apartamento lo obtendremos mediante el cálculo de la media aritmética: n 1 161200 x= xi ni = = 1289.6 euros/mes n 125 i=1 El precio más frecuente lo obtendremos mediante el intervalo modal, o bien, si queremos ser más precisos, mediante la moda. Puesto que todos los intervalos no tienen la misma amplitud, para saber cuál es el intervalo modal debemos fijarnos en la columna que contiene los valores de ni /Li y no en la de las ni . Ası́ pues, el intervalo modal es [1000, 1100), o sea que el precio más frecuente de los apartamentos está entre 1000 y 1100 euros mensuales. La siguiente fórmula permite situar el valor de la moda dentro del intervalo modal [li−1 , li ): M o = li−1 + Li ni+1 Li+1 ni−1 ni+1 Li−1 + Li+1 . En nuestro caso, el intervalo modal es [1000, 1100) y substituyendo obtenemos: Ejercicio 2.9 Una empresa inmobiliaria ofrece apartamentos en régimen de alquiler con los siguientes precios (en euors): precio alquiler (mensual) 700-1000 1000-1100 1100-1300 1300-1500 1500-1800 1800-2000 2000-2100 número de apartamentos 21 27 34 14 8 11 10 M o = 1000 + 100 0.17 = 1070.83 euros/mes. 0.07 + 0.17 El precio que se situa en medio de la oferta viene dado por la mediana. El intervalo mediano es [1100, 1300), puesto que en él se situa n/2 = 125/2 = 62.5. Utilizando la fórmula de la mediana, obtenemos: M e = 1100 + (1300 − 1100) 62.5 − 48 = 1185.29 euros/mes. 82 − 48 b) Primero debemos ver dentro de qué intervalos de clase se situa el intervalo de precios que nos piden, esto es, [1250, 1350]. 2 ANÁLISIS EXPLORATORIO DE DATOS [li−1 , li ) [1100, 1300) [1300, 1500) xi 1200 1400 ni 34 14 Ni 82 96 17 fi 0.272 0.112 xi ni 40800 19600 ni /Li 0.17 0.07 2 ANÁLISIS EXPLORATORIO DE DATOS 18 Ejercicio 2.10 Con los datos del ejemplo 2.3, calcular los coeficientes de asimetrı́a de Pearson y de Fisher. Respuesta: Observando la tabla vemos que el extremo inferior del intervalo [1250, 1350] está dentro de [1100, 1300) y el extremo superior dentro de [1300, 1500). Ası́ pues, el número de apartamentos con un precio entre 1250 y 1350 euros es 1300 − 1250 1350 − 1300 1 1 34 + 14 = 34 + 14 = 12, 1300 − 1100 1500 − 1300 4 4 12 que representa el 125 100 = 9.6% del total de apartamentos. c) El precio por debajo del cual están el 80% de los apartamentos viene dado por el percentil P80 . Este percentil está dentro del intervalo [1500, 1800), puesto que en él se encuentra el valor 80 n/100 = 80 · 125/100 = 100. Utilizando la fórmula para el cálculo de los percentiles, obtenemos: P80 = 1500 + (1800 − 1500) 100 − 96 = 1650 euros/mes. 104 − 96 d) El 50% central de los apartamentos viene determinado por el primer y tercer cuartiles. n 125 = = 31.25 ⇒ Q1 ∈ [1000, 1100), 4 4 31.25 − 21 = 1037.96 euros/mes. Q1 = 1000 + (1100 − 1000) 48 − 21 3n 3 125 = = 93.75 ⇒ Q3 ∈ [1300, 1500), 4 4 93.75 − 82 Q3 = 1300 + (1500 − 1300) = 1467.86 euros/mes. 96 − 82 hojas atacadas 0 1 2 3 4 5 6 8 10 ni 6 10 12 8 5 4 3 1 1 50 xi − x -2.68 -1.68 -0.68 0.32 1.32 2.32 3.32 5.32 7.32 (xi − x)3 ni -115.49 -47.42 -3.77 0.26 11.50 49.95 109.78 150.57 392.22 547.61 En el ejemplo 2.10 hemos calculado x = 2.68, sn = 2.11, M o = 2, por tanto, el coeficiente de asimetrı́a de Pearson es: AsP = x − Mo 2.68 − 2 = = 0.3223. sn 2.11 A partir de la tabla anterior podemos obtener el coeficiente de asimetrı́a de Fisher: 1 n (xi − x)3 ni 547.61/50 AsF = n i=1 3 = = 1.1659. sn 2.113 En este caso, el uso de AsP no es muy recomendable, puesto que el polı́gono de frecuencias de esta distribución no tiene forma acampanada (véase figura 2). En cambio, el coeficiente AsF indica que hay una mayor asimetrı́a positiva.