Download Lecc 6-Dispersión Agrupados por Clases
Document related concepts
Transcript
1 Curso de Estadística Unidad de Medidas Descriptivas Lección 6: Medidas de Dispersión para Datos Agrupados por Clases Creado por: Dra. Noemí L. Ruiz Limardo, EdD © 2010 Derechos de Autor 2 Objetivos 1. Calcular las medidas de dispersión (amplitud, varianza, desviación estándar y coeficiente de variación) para datos agrupados por clases. 2. Realizar análisis estadístico con medidas de dispersión para datos agrupados por clases. 3. Interpretar los resultados obtenidos en las medidas de dispersión a la luz del conjunto de datos 3 Introducción Medidas de Dispersión para Datos Agrupados por Clases Cuando los datos están agrupados por clases no tenemos acceso directo a ellos. Al calcular las medidas de dispersión hay que considerar un valor que represente el intervalo de valores que hay en una clase. Este valor es la Marca de Clase o Punto Medio del intervalo definido por las clases, según se estudió en lecciones anteriores. En esta lección se discutirá la manera de obtener las medidas de dispersión (amplitud, varianza, desviación estándar y coeficiente de variación) cuando los datos están agrupados por clases. A. AMPLITUD, RANGO O RECORRIDO Los estadísticos utilizan diferentes técnicas para agrupar los datos por clases. Cuando los datos están agrupados por clases, como se ha mencionado en lecciones anteriores, se pierde información. En las clases no se refleja cuál es el dato menor como tampoco se refleja el dato mayor. Por lo tanto, en estos casos es imposible obtener la amplitud ya que la amplitud, como se ha definido anteriormente, es la diferencia entre el valor mayor y el menor. En algunas ocasiones, cuando se construye la distribución de frecuencias se utiliza el dato menor como límite inferior en la primera clase y el dato mayor como límite superior de la última clase. En este caso se puede obtener la amplitud de la forma usual y acostumbrada ya que observando los límites se puede conocer el dato mayor y el menor. Entonces se puede aplicar la fórmula: Amplitud = Dato Mayor - Dato Menor B. VARIANZA Cuando los datos están agrupados por valor simple, como se estudió en la lección anterior, la varianza se determina con la fórmula siguiente: n ( xi s2 x )2 fi i 1 n 1 Cuando los datos están agrupados en clases la fórmula que se utiliza es similar a la fórmula anterior, con la diferencia de que ahora se sustituye el componente que se refiere al dato xi por la marca de clase mi. La fórmula anterior se convierte en: 4 n (mi s2 x )2 fi i 1 n 1 s 2 -Representa la varianza de una muestra. x - Representa la media aritmética. n - Es la cantidad total de datos que haya en el conjunto. mi -Representa cada marca de clase. ( m1 es la marca de la primera clase, m2 es la marca de la segunda clase, hasta mn que es la marca de la última clase). f i -Representa la frecuencia que corresponde a la marca de clase mi -Este es el símbolo de sumatoria y significa que se suma la serie de valores que están definidos por el símbolo. En este caso, como i comienza en 1 ( i 1 ) y termina en n , se suman los resultados correspondientes, desde [ mn x 2 x el valor [ m1 2 f1 ] hasta el valor fn ] . La fórmula anterior podría resultar muy trabajosa ya que para poder utilizarla habría que determinar primero la media aritmética, luego las diferencias de cada valor respecto a la media de la muestra. Después, habría que cuadrar ese resultado. Luego habría que multiplicar el resultado anterior por la frecuencia correspondiente a cada dato. Finalmente, sumar los resultados anteriores y dividir ese total por (n – 1). Esto podría ser muy trabajoso. En la lección anterior se presentó otra fórmula para hallar la varianza que resulta más fácil de aplicar: fórmula del atrecho. La fórmula del atrecho para calcular la varianza es la siguiente: 5 2 n xi f i n ( xi s2 2 i 1 fi ) n i 1 n 1 Para usar esta fórmula no se necesita hallar la media aritmética. Solo se necesita tener los valores xi representados por las marcas de clase, o sea, por mi, las frecuencias fi, y n. Al usar las marcas de clase representando a los valores mi, la fórmula se convierte en: 2 n mi f i n (mi s2 2 fi ) i 1 i 1 n n 1 A continuación, con el Ejemplo – 1 se demuestra la aplicación de ambas fórmula para calcular la varianza, la fórmula que utiliza la media y la fórmula de atrecho. Se demostrará primero la fórmula que utiliza la media y luego la fórmula de atrecho. Ejemplo - 1 Una empresa farmacéutica va a probar un nuevo medicamento para diabéticos. Realiza un estudio con una muestra de 13 pacientes. El propósito del estudio es conocer los efectos del nuevo medicamento de acuerdo a la edad de los pacientes. Los resultados aparecen en la Tabla 1 a continuación. Calcule la varianza de la muestra. 6 Tabla 1: Edades de Personas Diabéticas CLASES 20- 29 30 - 39 40 - 49 50 - 59 60 - 69 70 - 79 TOTAL MARCAS DE CLASE (mi) 24.5 34.5 44.5 54.5 64.5 74.5 FRECUENCIAS (fi) 1 3 2 3 2 2 13 1. El primer paso para hallar la varianza con la primera fórmula es calcular la media para datos agrupados por clase según se explicó en la Lección – 12 con la siguiente fórmula: n mi f i x i 1 n (Recuerde que m significa la marca de clase, f es la frecuencia, x es la media aritmética, y n es el total de datos en la muestra) Para poder usar esta fórmula se necesita añadir a la Tabla 1 la columna que corresponde al producto de mi . fi , como se ilustra en la Tabla 2 a continuación. Tabla 2: Edades de Personas Diabéticas CLASES 20-29 30-39 40-49 50-59 60-69 70-79 TOTAL MARCAS DE CLASE (mi) 24.5 34.5 44.5 54.5 64.5 74.5 FRECUENCIA (fi) 1 3 2 3 2 2 13 mi . fi 24.50 103.50 89.00 163.5 129.00 149.00 658.5 7 Ahora se puede sustituir en la fórmula de media aritmética: n mi fi i 1 x n 658.5 13 50.65 Se obtuvo una media aproximada de 50.65 años. 2. Después de calcular la media, ahora se necesita añadir tres columnas más a la tabla anterior, como se ilustra en la Tabla 3 y obtener los totales que se muestran con una flecha. Tabla 3: Edades de Personas Diabéticas . CLASES mi fi mi fi 20-29 30-39 40-49 50-59 60-69 70-79 TOTAL 24.5 34.5 44.5 54.5 64.5 74.5 1 3 2 3 2 2 13 24.50 103.50 89.00 163.5 129.00 149.00 mi x -26.15 -16.15 -6.15 3.85 13.85 23.85 n ( mi x ) 2 683.82 260.82 37.82 14.82 191.82 568.82 n (mi x ) 2 f i i 1 3. Ahora se puede sustituir en la fórmula de varianza: n (mi s2 (mi x ) 2 . fi 683.82 782.46 75.64 44.46 383.64 1137.64 3107.66 x )2 fi i 1 n 1 3107.66 12 258.97 8 Se obtuvo una varianza aproximada a 258.97 unidades cuadradas. (Recuerde que esta medida no se interpreta ya que representa una unidad cuadrada-en este caso sería edad al cuadrado) Ejemplo – 2 Calcule la varianza usando la fórmula de atrecho con los datos del ejemplo Ejemplo – 1. (Se usarán los datos del ejemplo anterior para ilustrar la aplicación de la fórmula de atrecho con los mismos datos y de esa manera poder comparar ambos resultados.) Tabla 1: Edades de Personas Diabéticas CLASES 20- 29 30 - 39 40 - 49 50 - 59 60 - 69 70 - 79 TOTAL MARCAS DE CLASE (mi) 24.5 34.5 44.5 54.5 64.5 74.5 FRECUENCIAS (fi) 1 3 2 3 2 2 13 La fórmula de atrecho es; 2 n mi f i n (mi s2 2 fi ) i 1 i 1 n n 1 1. Para aplicar la fórmula de atrecho se necesita primero añadir a la Tabla 1 tres columnas, como se muestra a continuación: 9 Tabla 4: Edades de Personas Diabéticas . CLASES mi fi mi 20-29 30-39 40-49 50-59 60-69 70-79 TOTAL 24.5 34.5 44.5 54.5 64.5 74.5 1 3 2 3 2 2 13 24.50 103.50 89.00 163.5 129.00 149.00 658.5 n fi 2 mi 600.25 1190.25 1980.25 2970.25 4160.25 5550.25 2 mi f i 600.25 3570.75 3960.5 8910.75 8320.5 11100.5 36463.25 n n (mi f i ) (mi 2 fi ) i 1 i 1 2. Ahora se puede sustituir en la fórmula de atrecho: 2 n mi f i n (mi s2 2 fi ) i 1 n i 1 n 1 36463.25 433622.25 13 12 3107.693 12 (658.5) 2 36463.25 13 12 36463.25 33355.557 12 258.97 10 La varianza que se obtuvo en este grupo fue de 258.97 unidades cuadradas. Si se comparan los resultados obtenidos con ambas fórmulas (la de atrecho y la fórmula de varianza anterior), se verá que se obtienen los mismos resultados. C. DESVIACIÓN ESTÁNDAR La desviación estándar, como se ha presentado en las lecciones anteriores, es la raíz cuadrada de la varianza. La desviación estándar es un valor que representa los promedios de todas las diferencias individuales de las observaciones con respecto a la media aritmética. Esta medida se interpreta ya que está en la misma unidad de medida que los datos. Su interpretación refleja, en promedio, cuánto se desvían todos los datos en relación a la media aritmética de la muestra. Al igual que todas las medidas de dispersión, se entiende que mientras menor sea este valor más homogéneo es el conjunto de datos. Mientras más grande sea esta medida más variación hay en el grupo, por tanto, más heterogéneo es el conjunto de datos. La desviación estándar de una muestra se obtiene mediante la siguiente fórmula. s2 s O sea, sacando la raíz cuadrada de la varianza. A continuación se muestra la fórmula de desviación estándar sacando la raíz cuadrada de la fórmula de varianza mostrada anteriormente-la fórmula de atrecho. 2 n mi f i n (mi s 2 fi ) i 1 n i 1 n 1 s -Representa la desviación estándar de una muestra. n - Es la cantidad total de datos que haya en el conjunto. mi -Representa cada marca de clase. ( m1 es la marca de la primera clase, hasta m2 es la marca de la segunda clase, mn que es la marca de la última clase). 11 f i -Representa la frecuencia que corresponde a la marca de clase mi -Este es el símbolo de sumatoria y significa que se suma la serie de valores que están definidos por el símbolo. Ejemplo – 3 Calcule la desviación estándar con los datos del Ejemplo – 1 a continuación: Tabla 1: Edades de Personas Diabéticas CLASES 20- 29 30 - 39 40 - 49 50 - 59 60 - 69 70 - 79 TOTAL MARCAS DE CLASE (mi) 24.5 34.5 44.5 54.5 64.5 74.5 FRECUENCIAS (fi) 1 3 2 3 2 2 13 En el ejemplo anterior se utilizó el mismo conjunto de datos para demostrar cómo se calcula varianza. Para calcular la desviación estándar, se saca la raíz cuadrada de la varianza obtenida anteriormente, que fue 258.97 unidades cuadradas aproximadamente. s s2 258.97 16.09 Esto significa que este grupo se desvía de su media aritmética un promedio aproximado de 16.09 unidades. D. COEFICIENTE DE VARIACIÓN El coeficiente de variación representa una medida relativa que permite comparar grupos distintos. El coeficiente de variación representa un por ciento. Es una medida que relaciona la desviación estándar de una muestra con su 12 media aritmética. El coeficiente de variación dice cuál es el por ciento de variación de un grupo respecto a su media aritmética. El coeficiente de variación es un valor que no depende de la unidad de medición y siempre se encuentra entre cero y uno, inclusive, (0 ≤ cv ≤ 1), si se expresa como decimal, o entre 0% y 100%, inclusive, (0% ≤ cv ≤ 100%), si se expresa como por ciento. Mientras más cerca el coeficiente de variación se encuentre de cero, menos variación tendrá la muestra. Mientras más cerca el coeficiente de variación se encuentre de uno (o 100%) mayor variabilidad tendrá la muestra. El coeficiente de variación cuando los datos están agrupados por clases se obtiene de la misma manera que para datos crudos y que para datos agrupados por valor simple. Para calcular el coeficiente de variación se divide la desviación estándar de una muestra por su media aritmética, o sea, la fórmula es: cv cv s x s x Coeficiente de Variación Desviación estándar de la muestra Media aritmética de la muestra Cuando el coeficiente de variación se expresa como por ciento la fórmula para determinarlo se convierte en: cv s 100% x Ejemplo – 4 Calcule el coeficiente de variación del grupo representado en el Ejemplo – 1. En el ejemplo 1 se obtuvo una desviación estándar aproximada de 16.09 unidades y una media aritmética aproximada de 50.65. Se sustituye estos valores en la fórmula de coeficiente de variación, como se ilustra a continuación. cv s x 16.09 50.65 0.3176 13 Se obtuvo un coeficiente aproximado de 0.3176. Se puede convertir este decimal a por ciento multiplicando por 100 (esto equivale a rodar el punto dos lugares a la derecha), y se obtiene 31.76%. Este coeficiente indica que este grupo tiene un 31.76% de variación. Este grupo reflejó poca variación ya que el por ciento es bajo. Si en vez de usar la fórmula anterior se desea usar la fórmula convertida a por ciento, se usaría la fórmula siguiente: cv s 16.09 100% 100% (0.3176) 100% 31.76% x 5065 Observe que se obtiene el mismo resultado que con la fórmula anterior. EJERCICIOS EJERCICIO – 1 Considere la siguiente tabla para hallar: a. Amplitud b. Varianza c. Desviación estándar d. Coeficiente de variación Asuma que el límite inferior de la primera clase es el dato menor en la muestra y que el límite superior de la última clase es el dato mayor en la muestra. Tabla 5: Salario Mensual por Familia en una comunidad CLASES 1001- 1500 1501 - 2000 2001 - 2500 2501 - 3000 TOTAL MARCA DE CLASE 1250.50 1750.50 2250.50 2750.50 FRECUENCIA 2 4 3 1 10 14 EJERCICIO – 2 Una empresa que fabrica bombillas desea conocer las horas de vida que duran sus bombillas. Selecciona al azar 80 bombillas para probar su duración dejándolas encendidas todo el tiempo necesario hasta fundirse. Registran las horas de duración de la muestra. Se muestran los resultados en la tabla a continuación. Determine la varianza y la desviación estándar. Tabla 6: Durabilidad de la muestra de bombillas FRONTERAS 52.5-63.5 63.5-74.5 74.5-85.5 85.5-96.5 96.5-107.5 107.5-118.5 TOTAL FRECUENCIA 6 12 25 18 14 5 80 EJERCICIO – 3 La puntuación media de un grupo de estudiantes de Cálculo es 110 y la desviación estándar de 5. La puntuación media de un grupo de estudiantes de estadística es 106 y la desviación estándar es 4. ¿Qué clase es más variable en términos de las puntuaciones que obtienen los estudiantes? EJERCICIO – 4 Los datos a continuación representan el total de palabras por minuto que una muestra de 25 taquígrafos reflejaron en una prueba de velocidad. Use esta información para contestar las preguntas que aparecen más abajo. Tabla 7: Total de palabras por minuto que escriben los taquígrafos CLASES 54-58 59-63 64-68 69-73 74-78 79-83 84-88 TOTAL FRECUENCIA 2 5 8 0 4 5 1 25 15 A. ¿Qué medida estadística se está calculando en Excel en la pantalla a continuación? 16 B. ¿Qué medida estadística se está calculando en Excel en la pantalla a continuación? C. Interprete los resultados de esta muestra utilizando los resultados trabajados en Excel. 17 ASIGNACION ESPECIAL Utilice los datos recopilados en la asignación especial correspondiente a la Lección – 3 y calcule todas las medidas de dispersión de la muestra. Debe someter electrónicamente los procedimientos necesarios para obtener cada una de las medidas solicitadas. 18 RESPUESTAS A EJERCICIOS EJERCICIO – 1 Amplitud = 1,999 Varianza ≈ 225,000 Desviación estándar ≈ 474.34 Coeficiente de variación ≈ 0.2496 A continuación se muestra el proceso para calcular varianza, desviación estándar y coeficiente de variación: Tabla 5: Salario Mensual por Familia en una comunidad CLASES 1001- 1500 1501 - 2000 2001 - 2500 2501 - 3000 TOTAL MARCA DE CLASE (mi) 1250.50 1750.50 2250.50 2750.50 FRECUENCIAS (fi) mi . fi 2 4 3 1 10 2,501 7,002 6,751.5 2,750.5 19,005 mi 2 1,563,750.25 3,064,250.25 5,064,750.25 7,565,250.25 mi 2 fi 3,127,500.5 12,257,001 15,194,250.75 7,565,250.25 38,144,002.5 19 Varianza 2 n mi f i n (mi s2 2 fi ) i 1 n i 1 n 1 (19,005) 2 38,144,002.5 10 9 361,190,025 10 38,144,002.5 9 38,144,002.5 36,119,002.5 9 2,025,000 9 225,000 Desviación estándar: s 225,000 474.34 20 Coeficiente de variación: n cv s x cv s x mi f i x 474.34 1,900.5 i 1 n 19,005 1,900.5 10 0.2496 EJERCICIO – 2 Varianza ≈ 211.2 Desviación estándar ≈ 14.5 Tabla 6: Durabilidad de la muestra de bombillas FRONTERAS 52.5-63.5 63.5-74.5 74.5-85.5 85.5-96.5 96.5-107.5 107.5-118.5 TOTAL FRECUENCIA fi 6 12 25 18 14 5 80 mi mi . fi 58 69 80 91 102 113 348 828 2,000 1,638 1,428 565 6,807 mi 2 3,364 4,761 6,400 8,281 10,404 12,769 mi 2 fi 20,184 57,132 160,000 149,058 145,656 63,845 595,875 21 2 n mi f i n (mi s2 2 fi ) i 1 i 1 n n 1 (6,807) 2 595,875 80 79 463,35,249 80 79 595,875 579,190.61 79 16684.39 79 211.2 595,875 Fórmula de desviación estándar s 211.2 14.5 EJERCICIO – 3 El grupo de Cálculo tiene aproximadamente 5% de variación mientras que el grupo de estadística tiene aproximadamente 4%. El grupo de Cálculo tiene mayor variabilidad. 22 CVcálculo s x CVestadístic a 5 110 s x 4 106 0.045 5% 0.038 4% EJERCICIO – 4 A. Media aritmética B. Coeficiente de variación C. Los taquígrafos de esta muestra escriben un promedio de 69.6 palabras por minutos. Este grupo se desvía de su media aritmética un promedio de 9 palabras por minuto. El grupo tiene aproximadamente un 13% de variación. Esto podría representar poca variación ya que el por ciento es bajo.