Download Lecc 4-Dispersión Datos Crudos

Document related concepts

Desviación típica wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Varianza wikipedia , lookup

Error estándar wikipedia , lookup

Transcript
1
Curso de Estadística
Unidad de Medidas Descriptivas
Lección 4:
Medidas de Dispersión para Datos
Crudos
Creado por: Dra. Noemí L. Ruiz Limardo,
EdD
© 2010 Derechos de Autor
2
Objetivos
1. Reconocer el significado del concepto de dispersión aplicado a
un grupo de datos crudos.
2. Definir las Medidas de Dispersión: amplitud, varianza,
desviación estándar y coeficiente de variación.
3. Identificar las características de cada una de las medidas de
dispersión.
4. Calcular las medidas de dispersión para datos crudos.
5. Realizar análisis estadístico aplicando las medidas de
dispersión para datos crudos.
3
Introducción
Las Medidas de Dispersión son medidas estadísticas que indican cuánto varía
o cuánto se dispersa o desvía un grupo de datos. Se le conocen también como
Medidas de Variación o Medidas de Desviación. Sirven para cuantificar la
variabilidad de un conjunto de datos ya que miden el grado de dispersión,
desviación, o variación, que tienen las puntuaciones del grupo, entre sí, o en
relación al centro de una distribución.
En esta lección se estudiarán exclusivamente las medidas de dispersión para
muestras. Es muy difícil obtener estos parámetros para poblaciones enteras.
Antes de describir las medidas de dispersión, se explicará el concepto de
dispersión con el ejemplo a continuación.
Ejemplo – 1
Considere las siguientes tres muestras de tamaño n = 5:
Muestras
Muestra A
Muestra B
Muestra C
Valor 1
5
15
5
Valor 2
15
16
5
Valor 3
25
16
5
Valor 4
25
17
5
Valor 5
58
19
5
Observe que los valores en la MUESTRA C son iguales, por lo tanto no existe
variabilidad entre ellos. Al calcular cualquier medida que cuantifique la
variabilidad de esta muestra, el resultado sería igual a cero.
Si se comparan los valores de la MUESTRA A con los de la MUESTRA B se
puede observar que en la Muestra A los valores están más lejanos unos de
otros. Por lo tanto, si se fuese a calcular cualquier medida que cuantifique la
variabilidad en cada una de estas muestras, el resultado sería mayor para la
muestra A que para la Muestra B. En general, mientras mayor es la variabilidad
entre los datos, mayor será la medida de dispersión.
Las medidas de dispersión ayudan a determinar cuán homogéneo es un grupo
de datos. Las puntuaciones que están relativamente juntas tienen una medida
de variación más pequeña. Las puntuaciones que están más dispersas tienen
una medida de variación más grande. Menos dispersión significa que el grupo de
datos es más homogéneo. Más dispersión implica mayor heterogeneidad.
Cuando uno realiza un estudio estadístico con una muestra, uno desea
seleccionar un valor que resulte típico y pueda representar al grupo, como se
estudió en las medidas de tendencia central. De igual manera uno aspira a
4
obtener una muestra que tenga la menor variación posible porque indicaría que
el grupo es homogéneo. Si el grupo es homogéneo se fortalece la selección del
valor típico del grupo en cuanto a poder representar mejor la muestra. Así que la
información que brinda las medidas de dispersión, conjuntamente con las
medidas de tendencia central, ayuda a conocer mejor una muestra y tomar
mejores decisiones.
A continuación se describirán las medidas de dispersión que más comúnmente
se utilizan en el análisis de estadística descriptiva, que son: rango, varianza,
desviación estándar y coeficiente de variación.
A. AMPLITUD, RANGO O RECORRIDO
La Amplitud, Rango o Recorrido, es la medida que indica cuánto se dispersa
un grupo de datos, desde el valor menor hasta el valor mayor. En una lección
anterior se presentó este concepto el cual se denominó como Amplitud. El
mismo se define como la diferencia entre el valor máximo y el mínimo.
Amplitud = (Dato Mayor) – (Dato Menor)
.
La amplitud es la medida de dispersión más fácil y rápida de obtener. Sin
embargo, ofrece la desventaja de que sólo toma en consideración dos
elementos de la muestra, el mayor y el menor. El resto de los elementos no se
consideran. Por consiguiente, la misma no es muy confiable para describir la
variabilidad de la muestra.
Ejemplo – 2
Una fábrica de pinturas desea probar dos marcas de pintura de exterior para
conocer cuántos meses tarda en desvanecerse después de pintar una pared.
Utilizará esta información para poder mercadear las pinturas indicando su
durabilidad. Como le era muy oneroso el consumir muchos galones de pintura, la
fábrica decide utilizar solo seis galones de cada marca. Los resultados se
muestran en la tabla a continuación. Determine la amplitud de cada marca y
mencione cuál es la marca más consistente.
5
Tabla 1 – Durabilidad de dos marcas de pintura
Marca A
(Meses de durabilidad)
10
60
50
30
40
20
Marca B
(Meses de durabilidad)
35
45
30
35
40
25
La amplitud de la Marca A es: 60 – 10 = 50
La amplitud de la Marca B es: 45 – 25 = 20
La Marca B es más consistente que la Marca A pues la Marca A tiene una
amplitud mayor.
B. VARIANZA
La Varianza describe cuán lejos está cada dato respecto a la media aritmética
de todos los datos. Esta medida promedia la desviación de los valores respecto
a la media aritmética de la muestra.
La ventaja que ofrece la varianza sobre la amplitud es que considera todos los
elementos en la muestra mientras que la amplitud solo considera dos, el valor
mayor y el menor.
La varianza es una medida que representa una unidad cuadrada. Por ser una
unidad cuadrada, la varianza no se interpreta, pues no tendría sentido la
interpretación de un valor elevado al cuadrado. Por ejemplo, si los datos
representan salario en dólares, no tendría sentido interpretar la varianza porque
significaría dólares al cuadrado
La varianza de una muestra cuando los datos son crudos se obtiene a través de
la siguiente fórmula:
n
xi
s2
x
i 1
n 1
2
6
s2
-Representa la varianza de una muestra
x - Representa la media aritmética
n - Es la cantidad total de datos que haya en el conjunto
xi -Representa cada valor o dato de la muestra
( x1 es el dato 1,
x2 es el dato 2, hasta xn que es el último dato)
-Este es el símbolo de sumatoria y significa que se suma la serie de
valores que están definidos por el símbolo. En este caso, como
i comienza en 1 ( i 1 ) y termina en n , se suman las diferencias
correspondientes, desde el valor
xn
x
x1
x
2
hasta el valor
2
.
Los pasos al aplicar la fórmula son los siguientes:
1. Determinar la media aritmética de la muestra ( x ).
2. Calcular las desviaciones de cada dato con respecto a la media: xi x .
3. Elevar al cuadrado cada una de las diferencias obtenidas en el paso
anterior para eliminar los signos negativos. ( xi x ) 2 .
4. Se suman los cuadrados obtenidos en el paso anterior.
5. Se divide el total obtenido en el paso anterior por el total de datos menos
uno.
Este proceso se ilustra en el próximo ejemplo a continuación.
Ejemplo – 3
Considere los siguientes datos crudos que corresponden a la MUESTRA B en el
Ejemplo -1:
15 16
16
17
19
7
Primero se calcula la media aritmética:
5
xi
x
i 1
n
15 16 16 17 19
5
83
16.6
5
Para realizar los pasos 2 y 3 es recomendable organizar los datos según la
siguiente tabla:
Tabla 1: Proceso para Obtener la Varianza
DATO (xi)
xi
15
16
16
17
19
TOTAL
( xi x ) 2
(-1.6)2 = 2.56
(-0.6)2 = 0.36
(-0.6)2 = 0.36
(0.4)2 = 0.16
(2.4)2 = 5.76
9.20
x
15-16.6 = -1.6
16-16.6 = -0.6
16-16.6 = -0.6
17-16.6 = 0.4
19-16.6 = 2.4
Ahora se tienen las cantidades que se necesitan para sustituir en la fórmula:
n
xi
s2
x
i 1
n 1
2
9.2
4
2.3
La varianza de esta muestra es igual a 2.3. Recuerde que esta medida no se
interpreta.
C. DESVIACION ESTÁNDAR
La Desviación Estándar es un valor que representa los promedios de todas las
diferencias individuales de las observaciones con respecto a la media aritmética.
La misma se obtiene calculando la raíz cuadrada de la varianza.
La desviación estándar, como es la raíz cuadrada de la varianza, es una medida
que representa una unidad lineal, por lo tanto se interpreta. Su interpretación
refleja, en promedio, cuánto se desvían todos los datos en relación a la media
aritmética de la muestra.
8
Al igual que todas las medidas de dispersión, se entiende que mientras menor
sea este valor más homogéneo es el conjunto de datos.
La desviación estándar de una muestra se obtiene mediante la siguiente
fórmula.
s2
s
O sea, sacando la raíz cuadrada de la varianza:
n
xi
s
x
2
i 1
n 1
Para obtener la desviación Estándar de la muestra se debe primero obtener su
varianza y luego sacar su raíz cuadrada.
Ejemplo – 4
Considere el mismo conjunto de datos en el ejemplo anterior para obtener la
desviación estándar.
En el ejemplo anterior se obtuvo una varianza s2 = 2.3. Por lo tanto la
desviación estándar de la muestra es:
s
2.3 1.51
Este grupo se desvía de su media aritmética un promedio de 1.51 unidades.
Ejemplo – 5
Considere los datos del Ejemplo 2 de la Marca B de pintura: 35, 45, 30, 35, 40
y 25. Determine la varianza y la desviación estándar. Interprete el resultado.
1. Primero, se determina la media de este grupo:
9
5
xi
x
i 1
n
35 45 30 35 40 25
6
210
6
35
2. Luego, se determinan las diferencias de cada valor respecto a la media y
los cuadrados de estas diferencias. Para esto se construye la siguiente
tabla:
DATOS
(Meses de
durabilidad)
35
45
30
35
40
25
TOTAL
xi
x
xi
0
10
-5
0
5
-10
x
2
0
100
25
0
25
100
250
3. Se determina la varianza sustituyendo en la fórmula:
n
xi
s2
x
i 1
n 1
2
250
5
50
4. Se determina la desviación estándar sacando la raíz cuadrada de la
varianza:
s
50
7.07
Esta marca de pintura dura un promedio de 35 meses con una desviación de
7.07 meses. En promedio se puede esperar que la pintura dure 35 meses
aunque con una variación de 7 meses, o sea, puede variar 7 unidades sobre
la media (+7) y 7 unidades bajo la media (-7). Esto significa que podría durar
desde 28 meses (35 - 7) hasta 42 meses (35 + 7).
10
D. COEFICIENTE DE VARIACIÓN
Hay momentos en que se desea comparar dos muestras diferentes. Si las
muestras tienen la misma unidad de medida, se pueden comparar sus varianzas
y sus desviaciones estándar. Por ejemplo, suponga que un concesionario de
venta de autos recibe automóviles en trade-in por la venta de un auto nuevo. El
dueño del negocio (dealer) desea comparar las desviaciones estándar del millaje
que traen los vehículos que recibe. Para un año específico, encuentra que la
desviación estándar para los automóviles Buick era de 422 millas mientras que
para el Cadillac era de 350 millas. El dealer podría concluir que el Buick tenía
una variación mayor que el Cadillac. Pero, suponga que el gerente desea
comparar dos variables diferentes, como por ejemplo, total de ventas realizadas
por los vendedores de auto en un periodo de seis meses y la comisión que se
les pagó durante ese mismo periodo de tiempo. En este caso, no podría
comparar las varianzas ni las desviaciones estándar.
Para poder hacer esta comparación se necesita el Coeficiente de Variación. El
coeficiente de variación representa una medida relativa que permite comparar
grupos distintos. El coeficiente de variación representa un por ciento. Es una
medida que relaciona la desviación estándar de una muestra con su media
aritmética. El coeficiente de variación dice cuál es el por ciento de variación de
un grupo respecto a su media aritmética.
El coeficiente de variación es un valor que no depende de la unidad de medición
y siempre se encuentra entre cero y uno (0 ≤ cv ≤ 1). Mientras más cerca el
coeficiente de variación se encuentre de cero, menos variación tendrá la
muestra.
Para calcular el coeficiente de variación se divide la desviación
estándar de una muestra por su media aritmética, o sea, la fórmula es:
CV
cv
s
x
s
x
Coeficiente de Variación
Desviación estándar de la muestra
Media Aritmética de la muestra
A continuación se ilustran ejemplos donde se aplica el coeficiente de variación.
11
Ejemplo – 6
Considere los datos del Ejemplo 3 donde se calculó la media y la desviación
estándar. Se obtuvo que la media y la desviación estándar es:
x = 16.6
s = 1.51
Determine el coeficiente de variación.
El coeficiente de variación es igual a:
cv
s
x
1.51
16.6
0.0909
Se puede decir que esta muestra tiene aproximadamente un 9% de variación.
Este grupo refleja poca variación.
Ejemplo – 7
La media del número de ventas de autos en un dealer de carros durante un
término de seis meses fue 87 y su desviación estándar fue 5. La media del total
de comisiones pagadas a los vendedores de auto en ese negocio durante el
mismo término fue $5,225.00 y la desviación estándar fue $773.00. Compare las
variaciones de estas dos variables.
CVventas =
CVcomisiones =
s
x
s
x
5
87
773
5225
0.057
0.148
Como el coeficiente de variación de las comisiones fue mayor, significa que las
comisiones son más variables que las ventas.
12
EJERCICIOS
EJERCICIO-1
Considere los siguientes datos que corresponden a la MUESTRA A en el
Ejemplo-1.
5
15 25 25 58
1. Calcule la amplitud, varianza, desviación estándar y el coeficiente de
variación.
2. Compare sus resultados con los obtenidos en los ejemplos anteriores
para la MUESTRA B, e indique cual de las dos muestras presenta mayor
variabilidad.
EJERCICIO-2
El maestro de estadística quería saber cuántas horas le dedicaron los
estudiantes a estudiar para el examen final en su grupo de 15 estudiantes. Los
resultados reflejaron lo siguiente:
8, 6, 3, 0, 0, 5, 9, 2, 1, 3, 7, 10, 0, 3, 6
Para poder analizar estos resultados, el maestro utilizó el programa de Excel. A
continuación se muestran tres imágenes de las pantallas de Excel. Mirando
estas pantallas, determina cuál es la media, varianza y desviación estándar de
este grupo. Interpreta los resultados.
13
Pantalla 1:
14
Pantalla 2
15
Pantalla 3
EJERCICIO-3
La puntuación media en el examen final de inglés fue 85 y la desviación
estándar fue 5. La puntuación media en el examen final de historia fue 110 y su
desviación estándar fue 8. ¿Cuál de los exámenes reflejó mayor variación?
16
RESPUESTAS A EJERCICIOS
EJERCICIO – 1
Rango = 53
Varianza = 396.8
Desviación Estándar = 19.92
Coeficiente de Variación = 0.7781
Se observa que esta muestra presenta una mayor variabilidad que la MUESTRA
B en el Ejemplo 1. Todas las medidas de variación resultaron ser
significativamente mayores.
EJERCICIO – 2
Media = 4.2
Varianza = 11.31
Desviación estándar = 3.36
El grupo estudió un promedio de 4.2 horas. Las puntuaciones de esta muestra
se desvían de la media, en promedio, un total de 3.36 horas.
EJERCICIO – 3
El examen de historia tuvo la variación mayor. El coeficiente de variación del
examen de historia fue 7.27%, mientras que el del examen de inglés fue 5.88%.