Download Lecc 6-Dispersión Agrupados por Clases

Document related concepts

Desviación típica wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Varianza wikipedia , lookup

Corrección de Bessel wikipedia , lookup

Transcript
1
Curso de Estadística
Unidad de Medidas Descriptivas
Lección 6:
Medidas de Dispersión para Datos
Agrupados por Clases
Creado por: Dra. Noemí L. Ruiz Limardo,
EdD
© 2010 Derechos de Autor
2
Objetivos
1. Calcular las medidas de dispersión (amplitud, varianza,
desviación estándar y coeficiente de variación) para datos
agrupados por clases.
2. Realizar análisis estadístico con medidas de dispersión para
datos agrupados por clases.
3. Interpretar los resultados obtenidos en las medidas de
dispersión a la luz del conjunto de datos
3
Introducción
Medidas de Dispersión para Datos Agrupados por Clases
Cuando los datos están agrupados por clases no tenemos acceso directo a
ellos. Al calcular las medidas de dispersión hay que considerar un valor que
represente el intervalo de valores que hay en una clase. Este valor es la Marca
de Clase o Punto Medio del intervalo definido por las clases, según se estudió
en lecciones anteriores. En esta lección se discutirá la manera de obtener las
medidas de dispersión (amplitud, varianza, desviación estándar y coeficiente de
variación) cuando los datos están agrupados por clases.
A. AMPLITUD, RANGO O RECORRIDO
Los estadísticos utilizan diferentes técnicas para agrupar los datos por clases.
Cuando los datos están agrupados por clases, como se ha mencionado en
lecciones anteriores, se pierde información. En las clases no se refleja cuál es el
dato menor como tampoco se refleja el dato mayor. Por lo tanto, en estos
casos es imposible obtener la amplitud ya que la amplitud, como se ha definido
anteriormente, es la diferencia entre el valor mayor y el menor.
En algunas ocasiones, cuando se construye la distribución de frecuencias se
utiliza el dato menor como límite inferior en la primera clase y el dato mayor
como límite superior de la última clase. En este caso se puede obtener la
amplitud de la forma usual y acostumbrada ya que observando los límites se
puede conocer el dato mayor y el menor. Entonces se puede aplicar la fórmula:
Amplitud = Dato Mayor - Dato Menor
B. VARIANZA
Cuando los datos están agrupados por valor simple, como se estudió en la
lección anterior, la varianza se determina con la fórmula siguiente:
n
( xi
s2
x )2 fi
i 1
n 1
Cuando los datos están agrupados en clases la fórmula que se utiliza es similar
a la fórmula anterior, con la diferencia de que ahora se sustituye el componente
que se refiere al dato xi por la marca de clase mi. La fórmula anterior se
convierte en:
4
n
(mi
s2
x )2 fi
i 1
n 1
s 2 -Representa la varianza de una muestra.
x - Representa la media aritmética.
n - Es la cantidad total de datos que haya en el conjunto.
mi -Representa cada marca de clase.
( m1 es la marca de la primera clase, m2 es la marca de la segunda clase,
hasta mn que es la marca de la última clase).
f i -Representa la frecuencia que corresponde a la marca de clase mi
-Este es el símbolo de sumatoria y significa que se suma la serie de
valores que están definidos por el símbolo. En este caso, como
i comienza en 1 ( i 1 ) y termina en n , se suman los resultados
correspondientes, desde
[ mn
x
2
x
el valor [ m1
2
f1 ]
hasta el valor
fn ] .
La fórmula anterior podría resultar muy trabajosa ya que para poder utilizarla
habría que determinar primero la media aritmética, luego las diferencias de
cada valor respecto a la media de la muestra. Después, habría que cuadrar
ese resultado. Luego habría que multiplicar el resultado anterior por la
frecuencia correspondiente a cada dato. Finalmente, sumar los resultados
anteriores y dividir ese total por (n – 1). Esto podría ser muy trabajoso.
En la lección anterior se presentó otra fórmula para hallar la varianza que
resulta más fácil de aplicar: fórmula del atrecho. La fórmula del atrecho
para calcular la varianza es la siguiente:
5
2
n
xi f i
n
( xi
s2
2
i 1
fi )
n
i 1
n 1
Para usar esta fórmula no se necesita hallar la media aritmética. Solo se
necesita tener los valores xi representados por las marcas de clase, o sea, por
mi, las frecuencias fi, y n. Al usar las marcas de clase representando a los
valores mi, la fórmula se convierte en:
2
n
mi f i
n
(mi
s2
2
fi )
i 1
i 1
n
n 1
A continuación, con el Ejemplo – 1 se demuestra la aplicación de ambas fórmula
para calcular la varianza, la fórmula que utiliza la media y la fórmula de atrecho.
Se demostrará primero la fórmula que utiliza la media y luego la fórmula de
atrecho.
Ejemplo - 1
Una empresa farmacéutica va a probar un nuevo medicamento para diabéticos.
Realiza un estudio con una muestra de 13 pacientes. El propósito del estudio es
conocer los efectos del nuevo medicamento de acuerdo a la edad de los
pacientes. Los resultados aparecen en la Tabla 1 a continuación. Calcule la
varianza de la muestra.
6
Tabla 1: Edades de Personas Diabéticas
CLASES
20- 29
30 - 39
40 - 49
50 - 59
60 - 69
70 - 79
TOTAL
MARCAS DE
CLASE
(mi)
24.5
34.5
44.5
54.5
64.5
74.5
FRECUENCIAS
(fi)
1
3
2
3
2
2
13
1. El primer paso para hallar la varianza con la primera fórmula es calcular la
media para datos agrupados por clase según se explicó en la Lección –
12 con la siguiente fórmula:
n
mi f i
x
i 1
n
(Recuerde que m significa la marca de clase, f es la frecuencia,
x
es la
media aritmética, y n es el total de datos en la muestra)
Para poder usar esta fórmula se necesita añadir a la Tabla 1 la columna que
corresponde al producto de mi . fi , como se ilustra en la Tabla 2 a
continuación.
Tabla 2: Edades de Personas Diabéticas
CLASES
20-29
30-39
40-49
50-59
60-69
70-79
TOTAL
MARCAS
DE CLASE
(mi)
24.5
34.5
44.5
54.5
64.5
74.5
FRECUENCIA
(fi)
1
3
2
3
2
2
13
mi
.
fi
24.50
103.50
89.00
163.5
129.00
149.00
658.5
7
Ahora se puede sustituir en la fórmula de media aritmética:
n
mi fi
i 1
x
n
658.5
13
50.65
Se obtuvo una media aproximada de 50.65 años.
2. Después de calcular la media, ahora se necesita añadir tres columnas
más a la tabla anterior, como se ilustra en la Tabla 3 y obtener los totales
que se muestran con una flecha.
Tabla 3: Edades de Personas Diabéticas
.
CLASES
mi
fi
mi
fi
20-29
30-39
40-49
50-59
60-69
70-79
TOTAL
24.5
34.5
44.5
54.5
64.5
74.5
1
3
2
3
2
2
13
24.50
103.50
89.00
163.5
129.00
149.00
mi
x
-26.15
-16.15
-6.15
3.85
13.85
23.85
n
( mi x ) 2
683.82
260.82
37.82
14.82
191.82
568.82
n
(mi x ) 2 f i
i 1
3. Ahora se puede sustituir en la fórmula de varianza:
n
(mi
s2
(mi x ) 2 . fi
683.82
782.46
75.64
44.46
383.64
1137.64
3107.66
x )2 fi
i 1
n 1
3107.66
12
258.97
8
Se obtuvo una varianza aproximada a 258.97 unidades cuadradas.
(Recuerde que esta medida no se interpreta ya que representa una
unidad cuadrada-en este caso sería edad al cuadrado)
Ejemplo – 2
Calcule la varianza usando la fórmula de atrecho con los datos del ejemplo
Ejemplo – 1. (Se usarán los datos del ejemplo anterior para ilustrar la aplicación
de la fórmula de atrecho con los mismos datos y de esa manera poder comparar
ambos resultados.)
Tabla 1: Edades de Personas Diabéticas
CLASES
20- 29
30 - 39
40 - 49
50 - 59
60 - 69
70 - 79
TOTAL
MARCAS DE
CLASE
(mi)
24.5
34.5
44.5
54.5
64.5
74.5
FRECUENCIAS
(fi)
1
3
2
3
2
2
13
La fórmula de atrecho es;
2
n
mi f i
n
(mi
s2
2
fi )
i 1
i 1
n
n 1
1. Para aplicar la fórmula de atrecho se necesita primero añadir a la Tabla 1
tres columnas, como se muestra a continuación:
9
Tabla 4: Edades de Personas Diabéticas
.
CLASES
mi
fi
mi
20-29
30-39
40-49
50-59
60-69
70-79
TOTAL
24.5
34.5
44.5
54.5
64.5
74.5
1
3
2
3
2
2
13
24.50
103.50
89.00
163.5
129.00
149.00
658.5
n
fi
2
mi
600.25
1190.25
1980.25
2970.25
4160.25
5550.25
2
mi f i
600.25
3570.75
3960.5
8910.75
8320.5
11100.5
36463.25
n
n
(mi f i )
(mi
2
fi )
i 1
i 1
2. Ahora se puede sustituir en la fórmula de atrecho:
2
n
mi f i
n
(mi
s2
2
fi )
i 1
n
i 1
n 1
36463.25
433622.25
13
12
3107.693
12
(658.5) 2
36463.25
13
12
36463.25 33355.557
12
258.97
10
La varianza que se obtuvo en este grupo fue de 258.97 unidades cuadradas. Si
se comparan los resultados obtenidos con ambas fórmulas (la de atrecho y la
fórmula de varianza anterior), se verá que se obtienen los mismos resultados.
C. DESVIACIÓN ESTÁNDAR
La desviación estándar, como se ha presentado en las lecciones anteriores, es
la raíz cuadrada de la varianza. La desviación estándar es un valor que
representa los promedios de todas las diferencias individuales de las
observaciones con respecto a la media aritmética. Esta medida se interpreta ya
que está en la misma unidad de medida que los datos. Su interpretación refleja,
en promedio, cuánto se desvían todos los datos en relación a la media aritmética
de la muestra.
Al igual que todas las medidas de dispersión, se entiende que mientras menor
sea este valor más homogéneo es el conjunto de datos. Mientras más grande
sea esta medida más variación hay en el grupo, por tanto, más heterogéneo es
el conjunto de datos.
La desviación estándar de una muestra se obtiene mediante la siguiente
fórmula.
s2
s
O sea, sacando la raíz cuadrada de la varianza. A continuación se muestra la
fórmula de desviación estándar sacando la raíz cuadrada de la fórmula de
varianza mostrada anteriormente-la fórmula de atrecho.
2
n
mi f i
n
(mi
s
2
fi )
i 1
n
i 1
n 1
s -Representa la desviación estándar de una muestra.
n - Es la cantidad total de datos que haya en el conjunto.
mi -Representa cada marca de clase.
( m1 es la marca de la primera clase,
hasta
m2 es la marca de la segunda clase,
mn que es la marca de la última clase).
11
f i -Representa la frecuencia que corresponde a la marca de clase mi
-Este es el símbolo de sumatoria y significa que se suma la serie de
valores que están definidos por el símbolo.
Ejemplo – 3
Calcule la desviación estándar con los datos del Ejemplo – 1 a continuación:
Tabla 1: Edades de Personas Diabéticas
CLASES
20- 29
30 - 39
40 - 49
50 - 59
60 - 69
70 - 79
TOTAL
MARCAS DE
CLASE
(mi)
24.5
34.5
44.5
54.5
64.5
74.5
FRECUENCIAS
(fi)
1
3
2
3
2
2
13
En el ejemplo anterior se utilizó el mismo conjunto de datos para demostrar
cómo se calcula varianza. Para calcular la desviación estándar, se saca la raíz
cuadrada de la varianza obtenida anteriormente, que fue 258.97 unidades
cuadradas aproximadamente.
s
s2
258.97 16.09
Esto significa que este grupo se desvía de su media aritmética un promedio
aproximado de 16.09 unidades.
D. COEFICIENTE DE VARIACIÓN
El coeficiente de variación representa una medida relativa que permite
comparar grupos distintos. El coeficiente de variación representa un por ciento.
Es una medida que relaciona la desviación estándar de una muestra con su
12
media aritmética. El coeficiente de variación dice cuál es el por ciento de
variación de un grupo respecto a su media aritmética.
El coeficiente de variación es un valor que no depende de la unidad de medición
y siempre se encuentra entre cero y uno, inclusive, (0 ≤ cv ≤ 1), si se expresa
como decimal, o entre 0% y 100%, inclusive, (0% ≤ cv ≤ 100%), si se expresa
como por ciento. Mientras más cerca el coeficiente de variación se encuentre de
cero, menos variación tendrá la muestra. Mientras más cerca el coeficiente de
variación se encuentre de uno (o 100%) mayor variabilidad tendrá la muestra.
El coeficiente de variación cuando los datos están agrupados por clases se
obtiene de la misma manera que para datos crudos y que para datos agrupados
por valor simple. Para calcular el coeficiente de variación se divide la desviación
estándar de una muestra por su media aritmética, o sea, la fórmula es:
cv
cv
s
x
s
x
Coeficiente de Variación
Desviación estándar de la muestra
Media aritmética de la muestra
Cuando el coeficiente de variación se expresa como por ciento la fórmula para
determinarlo se convierte en:
cv
s
100%
x
Ejemplo – 4
Calcule el coeficiente de variación del grupo representado en el Ejemplo – 1.
En el ejemplo 1 se obtuvo una desviación estándar aproximada de 16.09
unidades y una media aritmética aproximada de 50.65. Se sustituye estos
valores en la fórmula de coeficiente de variación, como se ilustra a continuación.
cv
s
x
16.09
50.65
0.3176
13
Se obtuvo un coeficiente aproximado de 0.3176. Se puede convertir este
decimal a por ciento multiplicando por 100 (esto equivale a rodar el punto dos
lugares a la derecha), y se obtiene 31.76%.
Este coeficiente indica que este grupo tiene un 31.76% de variación. Este grupo
reflejó poca variación ya que el por ciento es bajo.
Si en vez de usar la fórmula anterior se desea usar la fórmula convertida a por
ciento, se usaría la fórmula siguiente:
cv
s
16.09
100%
100% (0.3176) 100% 31.76%
x
5065
Observe que se obtiene el mismo resultado que con la fórmula anterior.
EJERCICIOS
EJERCICIO – 1
Considere la siguiente tabla para hallar:
a. Amplitud
b. Varianza
c. Desviación estándar
d. Coeficiente de variación
Asuma que el límite inferior de la primera clase es el dato menor en la muestra y
que el límite superior de la última clase es el dato mayor en la muestra.
Tabla 5: Salario Mensual por Familia en una comunidad
CLASES
1001- 1500
1501 - 2000
2001 - 2500
2501 - 3000
TOTAL
MARCA DE
CLASE
1250.50
1750.50
2250.50
2750.50
FRECUENCIA
2
4
3
1
10
14
EJERCICIO – 2
Una empresa que fabrica bombillas desea conocer las horas de vida que duran
sus bombillas. Selecciona al azar 80 bombillas para probar su duración
dejándolas encendidas todo el tiempo necesario hasta fundirse. Registran las
horas de duración de la muestra. Se muestran los resultados en la tabla a
continuación. Determine la varianza y la desviación estándar.
Tabla 6: Durabilidad de la muestra de bombillas
FRONTERAS
52.5-63.5
63.5-74.5
74.5-85.5
85.5-96.5
96.5-107.5
107.5-118.5
TOTAL
FRECUENCIA
6
12
25
18
14
5
80
EJERCICIO – 3
La puntuación media de un grupo de estudiantes de Cálculo es 110 y la
desviación estándar de 5. La puntuación media de un grupo de estudiantes de
estadística es 106 y la desviación estándar es 4. ¿Qué clase es más variable en
términos de las puntuaciones que obtienen los estudiantes?
EJERCICIO – 4
Los datos a continuación representan el total de palabras por minuto que una
muestra de 25 taquígrafos reflejaron en una prueba de velocidad. Use esta
información para contestar las preguntas que aparecen más abajo.
Tabla 7: Total de palabras por minuto que escriben los taquígrafos
CLASES
54-58
59-63
64-68
69-73
74-78
79-83
84-88
TOTAL
FRECUENCIA
2
5
8
0
4
5
1
25
15
A. ¿Qué medida estadística se está calculando en Excel en la pantalla a
continuación?
16
B. ¿Qué medida estadística se está calculando en Excel en la pantalla a
continuación?
C. Interprete los resultados de esta muestra utilizando los resultados
trabajados en Excel.
17
ASIGNACION ESPECIAL
Utilice los datos recopilados en la asignación especial correspondiente a la
Lección – 3 y calcule todas las medidas de dispersión de la muestra. Debe
someter electrónicamente los procedimientos necesarios para obtener cada una
de las medidas solicitadas.
18
RESPUESTAS A EJERCICIOS
EJERCICIO – 1
Amplitud = 1,999
Varianza ≈ 225,000
Desviación estándar ≈ 474.34
Coeficiente de variación ≈ 0.2496
A continuación se muestra el proceso para calcular varianza, desviación
estándar y coeficiente de variación:
Tabla 5: Salario Mensual por Familia en una comunidad
CLASES
1001- 1500
1501 - 2000
2001 - 2500
2501 - 3000
TOTAL
MARCA
DE
CLASE
(mi)
1250.50
1750.50
2250.50
2750.50
FRECUENCIAS
(fi)
mi . fi
2
4
3
1
10
2,501
7,002
6,751.5
2,750.5
19,005
mi
2
1,563,750.25
3,064,250.25
5,064,750.25
7,565,250.25
mi
2
fi
3,127,500.5
12,257,001
15,194,250.75
7,565,250.25
38,144,002.5
19
Varianza
2
n
mi f i
n
(mi
s2
2
fi )
i 1
n
i 1
n 1
(19,005) 2
38,144,002.5
10
9
361,190,025
10
38,144,002.5
9
38,144,002.5 36,119,002.5
9
2,025,000
9
225,000
Desviación estándar:
s
225,000
474.34
20
Coeficiente de variación:
n
cv
s
x
cv
s
x
mi f i
x
474.34
1,900.5
i 1
n
19,005
1,900.5
10
0.2496
EJERCICIO – 2
Varianza ≈ 211.2
Desviación estándar ≈ 14.5
Tabla 6: Durabilidad de la muestra de bombillas
FRONTERAS
52.5-63.5
63.5-74.5
74.5-85.5
85.5-96.5
96.5-107.5
107.5-118.5
TOTAL
FRECUENCIA
fi
6
12
25
18
14
5
80
mi
mi . fi
58
69
80
91
102
113
348
828
2,000
1,638
1,428
565
6,807
mi
2
3,364
4,761
6,400
8,281
10,404
12,769
mi
2
fi
20,184
57,132
160,000
149,058
145,656
63,845
595,875
21
2
n
mi f i
n
(mi
s2
2
fi )
i 1
i 1
n
n 1
(6,807) 2
595,875
80
79
463,35,249
80
79
595,875 579,190.61
79
16684.39
79
211.2
595,875
Fórmula de desviación estándar
s
211.2 14.5
EJERCICIO – 3
El grupo de Cálculo tiene aproximadamente 5% de variación mientras que el
grupo de estadística tiene aproximadamente 4%. El grupo de Cálculo tiene
mayor variabilidad.
22
CVcálculo
s
x
CVestadístic a
5
110
s
x
4
106
0.045 5%
0.038
4%
EJERCICIO – 4
A. Media aritmética
B. Coeficiente de variación
C. Los taquígrafos de esta muestra escriben un promedio de 69.6 palabras
por minutos. Este grupo se desvía de su media aritmética un promedio de
9 palabras por minuto. El grupo tiene aproximadamente un 13% de
variación. Esto podría representar poca variación ya que el por ciento es
bajo.