Download Media, Mediana Varianza - Raul Jimmy Alvarez Guale

Document related concepts

Parámetro estadístico wikipedia , lookup

Cuantil wikipedia , lookup

Rango intercuartílico wikipedia , lookup

Asimetría estadística wikipedia , lookup

Valor atípico wikipedia , lookup

Transcript
Describiendo los Datos, Usando
Medidas Numéricas
3-1
Datos en Información
Descripción Gráfica, diagramas y tablas
Descripción numérica de los datos
¿Cómo compara la duración de los neumáticos de un fabricante A y
la de un fabricante B?
En forma gráfica:
Se requiere más:
Tomar una muestra y producir los histogramas
respectivos.
Medidas numéricas que resuman la
información
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall
3-2
Objetivos

Calcular e interpretar la media, mediana, y moda para un
conjunto de datos

Calcular el rango, varianza, y desviación estándar y saber
qué significan estos valores

Construír e interpretar un gráfico de caja y bigote

Calcular y explicar el coeficiente de variación y
valor estandarizado (z)
3-3
Técnicas Descriptivas
Describiendo Numéricamente los Datos
Centro y Ubicación
Otras Medidas
de Ubicación
Media
Mediana
Moda
Media Ponderada
Percentiles
Variación
Rango
Rango
Intercuartílico
Cuartiles
Varianza
Desviación
Estándar
Coeficiente
de Variación
3-4
Medidas de Centro y Ubicación
Centro y Ubicación
Media
Mediana
Moda
Media Ponderada
n
x
 xi
XW
i1
Punto medio
N

i1
N
i i
i
n
x
wx


w
wx


w
i
Punto de
equilibrio
Punto de mayor
frecuencia
W
i i
i
3-5
Media (Promedio Aritmético)



La medida más común de tendencia central
Media = Suma de valores divididos por el número de
valores
Afectado por valores extremos (atípicos)
0 1 2 3 4 5 6 7 8 9 10
Media = 3
1  2  3  4  5 15

3
5
5
0 1 2 3 4 5 6 7 8 9 10
Media = 4
1  2  3  4  10 20

4
5
5
3-6
Media (Promedio Aritmético)
(continuación)

La Media es el promedio aritmético de los
valores de los datos

Media poblacional
N = Tamaño de la Población
N
x
x1  x 2    x N


N
N
i
i1

Media muestral
n = Tamaño de la Muestra
n
x
x
i1
n
i
x1  x 2    x n

n
3-7
Mediana

En un arreglo ordenado (de menor a mayor), la
mediana es el número “medio”, es decir, el número
que parte numéricamente a la distribución por la
mitad



50% de los datos están arriba de la mediana, 50% están
debajo
Se representa como Md
La mediana no está afectada por valores extremos
0 1 2 3 4 5 6 7 8 9 10
Mediana = 3
0 1 2 3 4 5 6 7 8 9 10
Mediana = 3
3-8
Mediana
(continuación)

Para obtener la mediana, ordenar los n valores
(datos) de menor a mayor. El conjunto de datos
ordenados es llamado arreglo ordenado de
datos

Encontrar el valor en la ubicación i = (1/2)n

La ima ubicación es el Punto de la Mediana

Si i no es un entero, redondear hacia arriba

Si i es un entero, la mediana es el promedio de los
valores en las ubicaciones “i ” e “i + 1”
3-9
Mediana: Ejemplo
Arreglo ordenado de datos:
4, 4, 5, 5, 9, 11, 12, 14, 16, 19, 22, 23, 24

Observe que n = 13

Busque la ubicación = (1/2)n:
i = (1/2)(13) = 6.5

Desde que 6.5 no es un entero, redondea
hacia arriba (7)

La mediana es el valor en la 7ma ubicación:
Md = 12
3-10
Forma de una Distribución

Describir cómo los datos están distribuídos

Simetrica or asimétrica

A mayor diferencia entre la media y la mediana, mayor es la
asimetría de la distribución
Asimétrica a
la Izquierda
Simétrica
Asimétrica a
la Derecha
Media < Mediana
Media = Mediana
Mediana < Media
(Cola larga hacia la izquierda)
(Cola larga hacia la derecha)
3-11
Mediana vs Media
Arreglo ordenado de datos:
4, 4, 5, 5, 9, 11, 12, 14, 16, 19, 22, 23, 24
Se tenía: Md = 12
De otro lado, se puede verificar que la media es: 12.9. Se tiene un
sesgo hacia la derecha.
Considere que los datos corresponden a niveles de salarios
mensuales en miles de dólares. Suponga que en lugar del salario de
24 se tiene 200. La media pasa a ser 26.5, más del doble, por la
variación de un solo salario. Aún más la media es más grande que
todos los valores, excepto el más alto.
Sin embargo, se puede verificar que este cambio no afecta la
mediana que sigue siendo 12. La mediana no se ve afectada por
valores extremos, a diferencia de la media.
3-12
Moda






Una medida de ubicación
El valor que ocurre con mayor frecuencia
No está afectado por valores extremos
Usado para datos numéricos y categóricos
Podría no haber moda
Podría haber varias modas (2 modas = bimodal)
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
0 1 2 3 4 5 6
Moda = 5
No hay moda
3-13
Moda: Ejemplo



Una pizería está rediseñando su comedor, para lo cual está
interesada en los tamaños de grupos más frecuentes.
Toma una muestra de 20 grupos, en los cuales la cantidad de
individuos por grupo fue:
{2, 4, 1, 2, 3, 2, 4, 2, 3, 6, 8, 4, 2, 1, 7, 4, 2, 4, 4, 3}
Se elaboró una distribución de frecuencias:
Frecuencia
2
6
3
6
0
1
1
1
Ind.x Grupo
1
2
3
4
5
6
7
8

Se determinó los valores que ocurren con mayor frecuencia, en
este caso se tuvo dos modas: 2 y 4, cada una con una frecuencia
de 6 casos.
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall
3-14
Media Ponderada

Usado cuando los valores son agrupados por
frecuencia o importancia relativa
Ejemplo: Muestra de 26
proyectos de reparación
Días para
Culminar
Frecuencia
5
4
6
12
7
8
8
2
Media Ponderada de
Días para Culminar
XW
wx


w
i
i

(4  5)  (12  6)  (8  7)  (2  8)
4  12  8  2

164
 6.31 días
26
i
3-15
Ejemplo

Cinco casas en una colina cerca a la playa
Precios de las
casas (Dólares):
2,000,000
500,000
300,000
100,000
100,000
3-16
Estadísticos de Resumen
Precios de las
casas (Dólares):
2,000,000
500,000
300,000
100,000
100,000

Media:

Mediana: Valor medio de los datos
ordenados
Md = $ 300,000

Moda: Valor de mayor frecuencia
Moda = $ 100,000
Suma 3,000,000
($ 3,000,000/5)
 = $ 600,000
3-17
Qué medida de ubicación es la
“mejor”?

La media es generalmente usada, a menos
que existan valores extremos (atípicos)

Luego la mediana es a menudo usada,
desde que la mediana no es sensible a
valores extremos


Ejemplo: La mediana de los precios de las casas
podrían ser reportados para una región – menos
sensibles a valores extremos
La moda es buena para determinar lo más
probable a ocurrir
3-18
Resumen
Tipo de
medida
central
Media
Método de cálculo
Nivel de
medida
de los
datos
Suma de valores dividida
entre número de valores
Ratio
Intervalo
Ventajas y desventajas
•
•
•
Mediana
Valor medio de la data
ordenada de menor a
mayor
Ratio
Intervalo
Ordinal
•
•
•
Moda
Valor de mayor frecuencia
de ocurrencia en la data
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall
Ratio
Intervalo
Ordinal
Nominal
•
•
•
Centro numérico de los datos.
Suma de desviaciones respecto
de la media es cero.
Sensible a valores extremos
No sensibles a valores
extremos.
Calculado solo en base a
posición media de los valores.
No usa la información total de
los datos.
Puede no reflejar el centro de
los datos.
Puede no existir.
Pueden ser múltiples.
3-19
Percentiles y Cuartiles
En algunas aplicaciones se está interesado en describir la
locación de los datos en términos distintos a los de sus
centros.
Ejemplo:
La nota obtenida en el curso a qué percentil
de las notas del grupo corresponde.
Si esta corresponde al percentile 90th, se
tiene que la nota fue igual o superior al 90%
de las notas registradas.
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall
3-20
Otras Medidas de Ubicación
Percentiles


Cuartiles
El pmo percentil en un
arreglo ordenado de datos:
1er cuartil = 25to percentil
p% de los datos es menor o
igual que este valor
2do cuartil = 50mo percentil
(100 – p)% de los datos es
mayor que o igual a este valor
3er cuartil = 75to percentil
Mediana
(donde 0 ≤ p ≤ 100)
3-21
Percentiles

El pmo percentil en un arreglo ordenado de n valores es
el valor en la ubicación ima, donde
Índice de
Ubicación
del
Percentil

p
i
(n)
100
Si i no es un entero,
redondear hacia arriba
Si i es un entero, considerar
el promedio del imo y del
(i+1)mo valor.
Ejemplo: Encontrar el 60mo percentil en un arreglo
ordenado de 19 valores.
p
60
i
(n) 
(19)  11.4
100
100
Usar el valor de
ubicación i = 12do
3-22
Percentiles: Ejemplo


Salarios mensuales en miles de una muestra de 30 ejecutivos:
13.5
8.6
16.2
21.4
21.0
23.7
4.1
13.8
20.5
9.6
11.5
6.5
5.8
10.1
11.1
4.4
12.2
13.0
15.7
13.2
13.4
13.1
21.7
14.6
14.1
12.4
24.9
19.3
26.9
11.7
Ordenados de menor a mayor:
4.1
4.4
5.8
6.5
8.6
9.6
10.1
11.1
11.5
11.7
12.2
12.4
13.0
13.1
13.2
13.4
13.5
13.8
14.1
14.6
15.7
16.2
19.3
20.5
21.0
21.4
21.7
23.7
24.9
26.9

Determinación del índice de locación percentil i
i = (p/100)*n = (80/100)*30 = 24

Para i = 24 e i = 25 se tienen los valores 20.5 y 21.0. El percentil 80th
será: (20.5 + 21.0)/2 = 20.75.
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall
3-23
Cuartiles

Los cuartiles dividen a los datos ordenados en
cuatro grupos iguales:
25%
25%
Q1


25%
Q2
25%
Q3
Notar que el segundo cuartil (el 50mo percentil),
Q2, es la mediana
IQR (rango intercuartílico) = Q3 – Q1
3-24
Cuartiles

Ejemplo: Encontrar el primer cuartil
Datos muestrales en un arreglo ordenado: 11 12 13 16 16 17 18 21 22
(n = 9)
Q1 =
25to
percentil. Encontrar i :
25
i = 100
(9) = 2.25
Redondear a 3
dado que no es
un entero
Entonces redondear hacia arriba y usar el valor en la 3ra ubicación:
Q1 = 13
Interpretación: El 25% de los datos es menor que 13
3-25
Gráfico de Caja y Bigote
Herramienta gráfica de descripción de datos cuantitativos,
muestra:
 La mediana y los cuartiles
 Valores átipicos
Valores atípicos valores inusualmente bajos o altos en
relación al resto de valores de la data.
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall
3-26
Gráfico de Caja y Bigote

Es una presentación gráfica de los datos
usando una “caja” central y “bigotes”
extendidos
Ejemplo:
25%
25%
25%
25%
* *
Valores “Valor más pequeño”
Atípicos (Límite Inferior)
1er
Mediana 3er
Cuartil
Cuartil
“Valor más grande”
(Límite Superior)
3-27
Construcción de un Gráfico de
Caja y Bigote
* *
Valores “Valor más pequeño”
Atípicos (Límite Inferior)
El límite inferior es
Q1 – 1.5 (Q3 – Q1)




1er Mediana 3er
Cuartil
Cuartil
“Valor más grande”
(Límite Superior)
El límite superior es
Q3 + 1.5 (Q3 – Q1)
Dibujar una caja desde Q1 a Q3
Trazar una línea vertical en la mediana
Trazar líneas (bigotes) hacia el valor más pequeño y más
grande (dentro de los límites calculados)
Identificar los valores atípicos fuera de los límites calculados
3-28
Forma de un Gráfico de Caja y
Bigote

La caja y la línea central están centrados entre los
valores extremos si los datos son simétricos respecto
a la mediana

Un Gráfico de Caja y Bigote puede ser mostrado en
un formato vertical u horizontal
3-29
Forma de una Distribución y de
su Gráfico de Caja y Bigote
Asimétrica a
la Izquierda
Q1
Q2 Q3
Simétrica
Q1 Q2 Q3
Asimétrica a
la Derecha
Q1 Q2 Q3
3-30
Construcción de un Gráfico de
Caja y Bigote
1.
2.
3.
4.
5.
6.
Ordenar los valores de menor a mayor
Encontrar Q1, Q2, Q3
Dibujar la caja tal que los límites sean Q1 y Q3
Trazar una línea vertical en la mediana
Calcular el rango intercuartílico (Q3 – Q1)
Trazar líneas (bigotes) hacia el valor más pequeño
y más grande (dentro de los límites calculados)
7. Identificar los valores atípicos con un asterisco (*)
3-31
Gráfico de Caja y Bigote:
Ejemplo

Acontinuación se presenta un arreglo ordenado de datos y
su gráfico de caja y bigote:
Min
Q1
Q2
Q3
Max
0 2
2
2
3
3
4
5
6 11 27
*
0 2 3
6
11
Límite superior = Q3 + 1.5 (Q3 – Q1)
= 6 + 1.5 (6 – 2) = 12

27
27 está arriba del límite
superior, por lo tanto, es un
valor atípico
Estos datos son asimétricos a la derecha (ver gráfico)
3-32
Medidas de Variación
El presidente de la corporación solicita al gerente de producción
información sobre la producción de los últimos 5 días de las plantas A y
B. Se registran los siguientes resultados:
A
15
25
35
20
30
B
23
26
25
24
27
El gerente de producción elabora un resumen el cual presente al
presidente:
En base a la información proporcionada,
Media
Mediana
¿Qué puede concluir el presidente?
A
25
25
¿Cuál es la realidad?
B
25
25
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall
3-33
Medidas de Variación
Variación
Rango
Rango
Intercuartílico
Varianza
Desviación
Estándar
Coeficiente
de Variación
Varianza
Poblacional
Desviación
Estándar
Poblacional
Varianza
Muestral
Desviación
Estándar
Muestral
3-34
Variación

Las medidas de variación dan información
sobre la dispersión o variabilidad de los
datos

Valor pequeño


Menos variación
Valor grande

Más variación
Mismo centro,
diferente variación
3-35
Rango


Medida más simple de variación
Diferencia entre la observación más grande y la
más pequeña:
Rango = xmáximo – xmínimo
Ejemplo:
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Rango = 14 - 1 = 13
3-36
Desventajas del Rango

Ignora la distribución de los datos
7
8
9
10
11
Rango = 12 - 7 = 5

12
7
8
9
10
11
12
Rango = 12 - 7 = 5
Sensible a los valores atípicos
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Rango = 5 - 1 = 4
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Rango = 120 - 1 = 119
3-37
Rango Intercuartílico

Usando el rango intercuartílico se puede
eliminar algunos problemas de valores atípicos

No cambiará incluso si los valores más
pequeños y más grandes tomasen valores más
extremos

Rango intercuartílico =Q3 – Q1
3-38
Rango Intercuartílico: Ejemplo
Ejemplo:
X
mínimo
Q1
25%
12
Mediana
Q3
(Q2)
25%
30
25%
45
X
máximo
25%
57
70
Rango intercuartílico:
57 – 30 = 27
3-39
Medidas de Variación
Rango
Considera solo dos valores de la data
Sensible a valores extremos
Rango
Intercuartílico
Considera solo dos valores de la data
Elimina la influencia de los valores
extremos
Varianza
Considera todos los valores de la data
Unidades cuadráticas de los datos
DS
Considera todos los valores de la data
Unidades iguales a los de la data
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall
3-40
Varianza

Promedio del cuadrado de las desviaciones de
los valores respecto a la media (unidades
cuadráticas)
N

Varianza poblacional:
σ 
2
2
(x

μ)
 i
i1
N
n

Varianza muestral:
s 
2
2
(x

x
)
 i
i1
n -1
3-41
Desviación Estándar



Medida de variación más usada
Muestra la variación respecto a la media
Tiene la misma unidad de los datos

N
Desviación estándar poblacional:
σ
2
(x

μ)
 i
i 1
N
n

Desviación estándar muestral:
s
2
(x

x
)
 i
i1
n -1
3-42
Desviación Estándar
Muestral: Ejemplo
Datos muestrales (Xi) :
n=8
s
10 12 14 15 17 18 18 24
Media = x = 16
(10  x ) 2  (12  x ) 2  (14  x ) 2    (24  x ) 2
n 1

(10  16) 2  (12  16) 2  (14  16) 2    (24  16) 2
8 1

130
7

4.3095
3-43
Comparación de Desviaciones
Estándar
Misma media pero diferentes
desviaciones estándar:
Datos A
11
12
13
14
15
16
17
18
19
20 21
Media = 15.5
s = 3.338
20 21
Media = 15.5
s = 0.9258
20 21
Media = 15.5
s = 4.57
Datos B
11
12
13
14
15
16
17
18
19
Datos C
11
12
13
14
15
16
17
18
19
3-44
¿Qué datos tienen mayor variabilidad?
Datos A:
SA = 100
Datos B:
SB =
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall
1
3-45
¿Qué datos tienen mayor variabilidad?
Datos A: SA = 100
MediaA = 1,000
Datos B: SB =
MediaB = 0.01
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall
1
3-46
Media y Desviación Estándar
Interacción entre media y la DS en la descripción
de los datos y la generación de información.
Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall
3-47
Coeficiente de Variación

Muestra la variación relativa a la media.

Expresado siempre en porcentaje (%).

Especialmente relevante para comparar la variabilidad
de dos distribuciones con distintas medias.

Usado para comparar dos o más conjuntos de datos
medidos en diferentes unidades o niveles
Población
σ
CV  
μ

  100%

Muestra
 s 
  100%
CV  

x


3-48
Comparación de Coeficientes
de Variación

Acción A:
 Precio promedio del año pasado = $50
 Desviación estándar = $5
 s 
$5


CVA    *100% 
*100%  10%
$50
x 

Acción B:


Precio promedio del año pasado = $100
Desviación estándar = $5
 s 
$5


CVB    *100% 
*100%  5%
$100
x 
Ambas acciones
tienen la misma
desviación
estándar, pero la
Acción B es
menos variable
relativo a su
precio
3-49
Regla Empírica

Si la distribución de los datos tiene forma de
campana, entonces el intervalo ( μ  1σ )
contiene alrededor del 68% de los valores
de la población:
68%
μ
μ  1σ

La media y la mediana son iguales
3-50
Regla Empírica


μ  2σ contiene alrededor del 95% de los
valores de la población
μ  3σ contiene alrededor del 99.7% de los
valores de la población
95%
99.7%
μ  2σ
μ  3σ
3-51
Teorema de Tchebysheff

Sin considerar como esten distribuidos los
datos, al menos (1 - 1/k2) de los valores
caerán dentro del intervalo μ ± kσ

Ejemplos:
Dentro
Al menos
(1 - 1/12) = 0% ……..... k=1 (μ ± 1σ)
(1 - 1/22) = 75% …........ k=2 (μ ± 2σ)
(1 - 1/32) = 89% ………. k=3 (μ ± 3σ)
3-52
Valores Estandarizados

Un valor estandarizado se refiere al número de
desviaciones estándar en que el valor difiere de su
media.

Un valor estandarizado también es conocido como
valor z.

Pueden ser usados para comparar conjuntos de datos,
al menos de intervalo, incluso de escala distinta.

Serán vistos en mayor detalle en los próximos
capítulos.
3-53
Valores Estandarizados
Poblacionales
x μ
z
σ
Donde:
 x = valor original del dato
 μ = media poblacional
 σ = desviación estándar poblacional
 z = valor estandarizado
(número de desviaciones estándar en que x difiere de μ)
3-54
Valores Estandarizados
Muestrales
xx
z
s
Donde:
 x = valor original del dato
 x = media muestral
 s = desviación estándar muestral
 z = valor estandarizado
(número de desviaciones estándar en que x difiere de x )
3-55
Valor Estandarizado: Ejemplo

Los puntajes de CI en una población tienen
distribución en forma de campana con media
μ = 100 y desviación estándar σ = 15
Encontrar el valor estandarizado (z-score)
para una persona con un CI de 121.
Respuesta:
x  μ 121 100
z

 1.4
σ
15
Alguien con CI de 121 está a 1.4 desviaciones
estándar sobre la media
3-56
Usando Excel

Estadísticas Descriptivas son fáciles de
obtener de Excel

Seleccione:
Datos / Análisis de datos / Estadística
descriptiva

Diligencie el cuadro de diálogo
3-57
Usando Excel
(continuación)

Seleccionar:
Datos / Análisis de datos / Estadística descriptiva
3-58
Usando Excel
(continuación)

Diligenciar el
cuadro de diálogo

Seleccionar
“Resumen de
estadísticas”

Click en “Aceptar”
3-59
Resultado del Excel
Estadísticas descriptivas
de los precios de las
casas (usando Excel):
Precios de las
casas:
$2,000,000
500,000
300,000
100,000
100,000
3-60
Resumen

Se describió medidas de centro y ubicación

Media, mediana, moda, media ponderada

Se discutió percentiles y cuartiles

Se creó gráficos de caja y bigote

Se ilustró formas de distribución

Simétrica y asimétrica
3-61
Resumen
(continuación)

Se describió medidas de variación

Rango, rango intercuartílico, varianza,
desviación estándar, coeficiente de variación

Se discutió el teorema de Tchebysheff

Se calculó valores estandarizados
3-62