Download Slide 1 - Investigadores CIDE

Document related concepts
no text concepts found
Transcript
HAWKES LEARNING SYSTEMS
math courseware specialists
Copyright © 2010 by Hawkes Learning
Systems/Quant Systems, Inc.
All rights reserved.
Capítulo 4
Describiendo series datos de una variable
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Ch 4. Describing Data From One Variable
Sections 4.1-4.3a Measures of Location
4.1 Measures of Location
Objetivos:
• Calcular la media, mediana y moda
• Determinar la medida de centralidad más apropiada
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.1 Measures of Location
Medidas de Tendencia Central:
• Si consideramos una serie de datos como un grupo de valores
que se agrupan alrededor de un valor central, entonces el valor
central representa un punto focal para la serie,
• Desafortunadamente, la noción de valor central es un concepto
vago, que ha sido definido tanto por la manera como es calculado
como por la noción en sí misma.
• Existen varias medidas estadísticas que se utilizan para definir la
noción del centro: la media aritmética, la media truncada (trimmed
mean), la mediana y la moda
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.1 Measures of Location
math courseware specialists
La media aritmética:
• Supongan que existen n observaciones en una serie de datos,
que consisten en las observaciones x1 , x2 ,..., xn ; la media
aritmética es
1
n
 x1  x2  ...  xn  .
•La media es lo que generalmente llamamos el “promedio” de una
serie de datos.
•Para calcular la media, simplemente suma todos los valores y
divide por el numero total de valores en la serie de datos.
• La media sólo debe ser utilizada para datos cuantitativos.
• Los datos extremos (outliers) tienen un fuerte efecto en la media.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.1 Measures of Location
La media aritmética:
• Si utilizamos notación matemática, la fórmula puede ser
simplificada a
xi
n
donde xi es el i-ésimo valor de una serie de datos y sigma es la
función sumatoria.
• Existen dos símbolos asociados con la media.
•
•
1
x   x1  x2  ...  xn  the sample mean, and
n
1
   x1  x2  ...  xn  the population mean.
N
n se refiere al tamaño de la muestra y N se refiere al
• Aquí
tamaño de la población. En todo caso, los cálculos se hacen de la
misma manera.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.1 Measures of Location
Ejemplo:
Calcula la media de las siguientes alturas:
63, 68, 71, 67, 63, 72, 66, 67, 70
Solución:
607

9
Al calcular la media, redondea a una décima más de lo que digan los
datos.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.1 Measures of Location
Desviación:
• Dado un punto A y un punto x, entonces x – A representa qué
tanto x se desvía de A. Esta diferencia se llama desviación.
• La tabla de abajo muestra las desviaciones de la media del
siguiente conjunto de valores: 4, 10, 7, 15. La media de la serie de
datos es 9.
Desviaciones de la
Valores
media
xi
(xi – 9)
1
x =  4 +10 + 7 +15  = 9.
4
–5
4
10
1
7
–2
15
6
x 9=0
i
Nota que la suma de las desviaciones es cero. Esto demuestra por
qué la media es una medida de tendencia central. Si calculamos las
desviaciones con respecto a cualquier otro valor, su suma no será
cero.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.1 Measures of Location
La mediana:
• La mediana de una serie de datos es el valor mediano en un
conjunto ordenado. Es decir, el mismo número de valores se
encuentra en cada lado del valor mediano.
Ordena los
datos en
orden
ascendente
Cuenta el
número de
valores en
los datos
La mediana es la suma
de los dos valores
medianos dividido entre
dos.
La mediana es el valor
que se situa enmedio de
los datos.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.1 Measures of Location
Ejemplo:
Calcula la mediana de los siguientes sets de datos
a.
15 16 11 22 19 10 17 22
Solución:
10 11 15 16 17 19 22 22
16 +17
= 16.5
2
b.
2.6 3.3 5.0 1.8 0.7 2.2 4.1 6.1 6.7
Solución:
0.7 1.8 2.2 2.6 3.3 4.1 5.0 6.1 6.7
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.1 Measures of Location
La media ajustada:
• The media ajustada ignora un porcentaje igual de los valores
más altos y más bajos al calcular la media.
Para calcular una
media 10%
ajustada, ordena
los datos en
orden
ascendente.
Borra 10%
de los
valores más
bajos
Borra 10%
de los
valores más
altos
Calcula la media
aritmética de
los valores
restantes (80%)
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.1 Measures of Location
Ejemplo:
Considera los siguientes datos
16 18 20 21 23 23 24 32 36 42
media = 25.5
mediana = 23
Encuentra la media truncada al 10%
Solución:
Debido a que tenemos 10 observaciones, remover los 10% de los mayores
y menores valores significa remover sólamente la observación más alta y la
más baja.
10% trimmed mean = 18+20+21+23+23+24+32+36
8
=24.625
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.1 Measures of Location
Medidas resistentes:
• Las medidas estadísticas que no son afectadas por los outliers
se dice que son resistentes.
• La media no es una medida resistente.
• La media ajustada sí es una medida resistente
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.1 Measures of Location
La moda:
• La moda de un data set es el valor que ocurre de manera más
frecuente.
• La moda es la única medida de centralidad que puede ser
utilizada para datos nominales. nominal data.
• Cuando una serie de datos tiene dos modas se dice que es
bimodal.
• Cuando una serie de datos tiene más de dos modas se dice que
es multimodal.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.1 Measures of Location
Ejemplo:
Calcula la moda de cada set de datos.
a.
63 68 71 67 63 72 66 67 70
Solución:
Existen dos modas: 63 y 67. El set de datos es bimodal.
b.
51 77 54 51 68 70 54 65 51
Solución:
51 ocurre tres veces, 51 es la moda.
c.
1 5 7 3 2 0 4 6
Solución:
Cada valor aparecer solamente una vez, no hay moda.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.1 Measures of Location
La relación entre la media y la mediana:
• La distribución de los datos determina cómo se relacionan la
media, la mediana y la moda.
• Para una distribución en forma de campana, la media, la mediana
y la moda son idénticas.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.1 Measures of Location
Distribuciones sesgadas:
• No todos los datos producen distribuciones normales o en forma de
campana.
• Si la distribución de datos tiene una larga cola hacia la derecha, se
dice que está sesgada a la derecha o positivamente.
• Al contrario, si la distribución tiene una cola larga hacia la izquierda, se
dice que está sesgada a la izquierda o negativamente.
Si los datos están positívamente
sesgados, la mediana será menos
que la media.
Si los datos están negativamente
sesgados, la mediana será mayor
a la media.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.2 Selecting a Measure of Location
Escogiendo una medida de tendencia:
• El objetivo de usar estadística descriptiva es proveer medidas
que ofrezcan información resumida útil sobre los datos.
• Al seleccionar un estadístico para representar el valor central del
data set, el primer paso consiste en definir qué tipo de datos se
están analizando.
• La media aritmética es frecuentemente, aunque no siempre, la
medida más razonable de centralidad.
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.2 Selecting a Measure of Location
math courseware specialists
Seleccionando una medida de ubicación:
Nivel de medición aplicable
A la derecha se muestra una
tabla que define los niveles de
medición aplicables para cada
medida de ubicación.
Medida de
ubicación
nominal
Mediana
t-mean
No
sensible
Mediana

Moda

t-mean


Cuantitativo
intervalo
ratio










Muy
sensible

Media
ordinal
Media
Moda
Medida
de
ubicació
n
Cualitativo
A la izquierda se muestra una tabla que
define la sensibilidad ante los outliers para
cada medida de ubicación.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.2 Selecting a Measure of Location
Seleccionando una medida de tendencia central:
• La media y la mediana tienen el mismo valor cuando los datos
son simétricos.
• Cuando los datos son nominales u ordinales, no se debe calcular
la media.
•Cuando los datos tienen al menos un intervalo y no hay outliers,
la media es una opción razonable.
• Cuando los datos se presentan de manera ordinal, la mejor
opción es calcular la mediana.
• La mediana es una buena medida de tendencia central debido a
que no es sensible a outliers.
• La mediana puede ser utilizada en todos los niveles de medición
excepto el nominal.
• La moda puede ser utilizada en todos los niveles de medición,
pero no es util para datos cuantitativos.
• Si los datos son nominales sólo hay una opción: la moda.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.2 Selecting a Measure of Location
Series de tiempo y medidas de centralidad
• La gráfica de abajo muestra los precios promedio de gasolina en una
serie de años. En esta serie de tiempo no estacionaria, el valor central
está aumentando
• Una manera de capturar este movimiento es con una media móvil
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.2 Selecting a Measure of Location
math courseware specialists
Media móvil:
• El promedio o media móvil (moving average) se obtiene al
sumar observaciones consecutivas para un número de periodos y
dividiendo el resultado entre el número de periodos incluídos en el
promedio.
• La tabla muestra el precio promedio de gasolina en EEUU de
1991 a 2002 así como los promedios móviles de 2 y 3 periodos.
Year
Average
US Gas
Price
2 Period
Moving
Average
3 Period
Moving
Average
Year
Average
US Gas
Price
2 Period
Moving
Average
3 Period
Moving
Average
1991
1.09
1997
1.18
1.195
1.167
1992
1.10
1.095
1998
1.01
1.095
1.333
1993
1.07
1.085
1.087
1999
1.14
1.075
1.110
1994
1.08
1.075
1.083
2000
1.49
1.315
1.213
1995
1.11
1.095
1.087
2001
1.38
1.435
1.337
1996
1.21
1.160
1.133
2002
1.34
1.360
1.403
• La media móvil de 2 períodos para 1992:
1.09+1.10 =1.095.
2
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.2 Selecting a Measure of Location
Moving Average:
• The chart below displays the time series and the two and threeperiod moving averages.
• Noten que ambos promedios siguen la serie de tiempo de
manera bastante cercana
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Ch 4. Describing Data From One Variable
Sections 4.1-4.3b Measures of Dispersion
4.1 Measures of Location
Objetivo:
•Calcular el rango, varianza y desviación estandar.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.3 Measures of Dispersion
Midiendo la variación:
• Varias de las medidas de variación utilizan el concepto de
desviación de la media.
• Si la media es un punto focal (focal point) o base, úsala como
una base común desde la cual calcular la variación.
• La distancia que existe entre un punto y la media se llama
desviación de la media.
• La suma de las desviaciones positivas es igual a la suma de los
valores absolutos de las desviaciones negativas.
•Las desviaciones siempre sumarán cero.
• Muchas de las medidas de variación promedian las desviaciones
de alguna manera.
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.3 Measures of Dispersion
math courseware specialists
Ejemplo:
Las desviaciones de la media de un conjunto de datos se calculan
en la tabla de abajo. Nota que la suma de las desviaciones es
cero.
Data set: 3, 12, 20, 15, 0
Media = 10
Valores
Desviaciones de la media
valor – media = desviación
3
3 – 10 =
–7
12
12 – 10 =
2
20
20 – 10 =
10
15
15 – 10 =
0
0 – 10 =
5
– 10
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.3 Measures of Dispersion
math courseware specialists
Desviación absoluta de la media:
• La desviación media absoluta de la muestra (MAD) es
x -x

MAD =
.
i
n
• Calcula la distancia promedio desde la media de un conjunto de
datos.
• Si un conjunto de datos A tiene una desviación mayor a B,
entonces es razonable creer que el conjunto de datos A tiene más
variabilidad que el conjunto de datos B.
• Es una medida intuitiva de varianza.
• Su desarollo teórico se ha dificultado debido a la dificultad que
los valores absolutos imponen al cálculo.
• Es sensible a los outliers y no es una variable resistente.
HAWKES LEARNING SYSTEMS
Describing Data from One Variable
Section 4.3 Measures of Dispersion
math courseware specialists
Ejemplo:
Supongan que seis personas participan en una carrera de 1000 metros.
Sus tiempos, medidos en minutos, se muestran abajo. El tiempo medio
es de 8.333 minutos. Calcula la desviación absoluta a la media
Time in
min.
4
10
9
11
9
7
Deviation
Absolute
Deviation
4 – 8.333 = – 4.333
10 – 8.333 = 1.667
9 – 8.333 = 0.667
11 – 8.333 = 2.667
4.333
1.667
0.667
2.667
38.23 11.334 100=38.23
14.71
5.88
23.53
9 – 8.333 = 0.667
7 – 8.333 = – 1.333
0.667
1.333
5.88
11.77
11.334
100.00
Total
% of
total
4.333
Mean Absolute Deviation =11.334 =1.889 minutes.
6
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.3 Measures of Dispersion
Varianza y desviación estándar:
• La desviación estándar y la varianza son las medidas de
variabilidad más comunes.
• La desviación estándar y la varianza también proveen medidas
numéricas de cómo los datos varían alrededor de la media.
• Si los valores se encuentran comprimidos alrededor de la media,
la desviación estándar y la varianza serán relativamente
pequeñas.
• Si los valores se encuentran ampliamente dispersos alrededor de
la media, la desviación estándar y la varianza serán relativamente
altas.
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.3 Measures of Dispersion
math courseware specialists
Varianza:
• La varianza de un conjunto de datos que contiene el conjunto
completo de la población se describe por:
2
(x


i
  )2
N
Esto se llama la varianza de la población.
• La varianza de un conjunto de datos que contiene datos de la
muestra se describe por:
s
2
 (x

i
 x )2
n 1
Esto se conoce como varianza muestral
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.3 Measures of Dispersion
math courseware specialists
Ejemplo:
Dados los siguientes tiempos en minutos de 6 personas en una carrera
de 1000 metros, calcula la varianza muestral. La media muestral es
8.333
4, 10, 9, 11, 9, 7
Squared
Data
Desviaciones
% of total
Deviations
4 – 8.333 = – 4.333
18.7749
59.93
4
10
10 – 8.333 = 1.667
2.7789
8.87
9
9 – 8.333 = 0.667
0.4449
1.42
11
11 – 8.333 = 2.667
7.1129
22.70
9
9 – 8.333 = 0.667
0.4449
1.42
7
7 – 8.333 = – 1.333
1.7769
5.67
31.33
100.00
Total
x x
 i
 31.33


=
2
s =
=6.266 squared minutes.
n 1
5
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.3 Measures of Dispersion
Desviaciones estándar:
• La desviación estándar es la raíz cuadrada de la varianza.
• Existen dos medidas de varianza, así que hay dos desviaciones
estándar..
s2
• La desviación estándar muestral
s=
• La desviación estándar poblacional
  2
• Es importante recordar los símbolos anteriores eabido a que la
desviación estándar es un concepto estadístico fundamental.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.3 Measures of Dispersion
Desviación Estándar:
• La desviación estándar es la raíz cuadrada del promedio de la
desviación cuadrada.
• También puede ser usada para medir qué tan lejanos están los
valores con respecto a la media.
• Relativamente pocos valores estarán situados a más de dos
unidades de desviación de la media.
• Como la varianza, la desviación estándar es sensible a los
outliers.
• La presencia de outliers contamina la interpretación de la
desviación estandar como una desviación típica.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.3 Measures of Dispersion
Rango:
• El rango es la diferencia entre el mayor y el menor valor de una
serie de datos
Ejemplo:
Calcula el rango de la siguiente serie de datos:
4, 6, 16, 9, 24, 8, 0, 12, 1
Solución:
El valor más alto es 24 y el más bajo es 0
Rango = 24 – 0 = 24.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.4 Measures of Relative Position
Objetivos:
• Determinar los percentiles y la ubicación de datos específicos.
• Encontrar los cuartiles de datos.
• Determinar el valor-z como una medida de posición relativa.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.4 Measures of Relative Position
Percentil Pth:
• Dada una serie de datos x1, x2,…,xn, el percentil Pth es un valor
X, tal que al menos el P por ciento de los datos es menor o igual a
X y al menos (100-P) por ciento de los datos es mayor o igual a X.
• La medida más utilizada de posición relativa es el percentil.
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.4 Measures of Relative Position
math courseware specialists
Percentil Pth:
Para determinar el percentil Pth:
• Ordena los datos del menor al menor.
• Para encontrar la ubicación del percentil TPth en el conjunto
ordenado calcula
 P 
 n

100


donde n es el número de observaciones de los valores
ordenados.
• Si no es un número entero, redondea al siguiente mayor
entero.
• SI es un entero, promedia el valor en la ubicación
los valores en la ubicación
 1 con
• Recuerda,
no es el percentil, es la ubicación del percentil
en el conjunto ordenado.
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.4 Measures of Relative Position
math courseware specialists
Determinando el percentil Pth :
Ordena los
datos en
orden
ascendente.
Para encontrar el
percentil Pth, calcula,
 P 
 n 
 100 
Donde n es el número
de observaciones en los
datos ordenados.
¿Es entero?
Sí
Promedia el valor en la
ubicación
Con el valor en la
ubicación
1
No
Redondea
al siguiente
entero
Encuentra el valor
en la ubicación th
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.4 Measures of Relative Position
math courseware specialists
Ejemplo:
Encuentra el percentil 50th de la siguiente serie de datos.
3, 5, 0, 1, 9, 2, 7
Solución:
 50 
 7
 = 3.5
 100 
Debido a que la ubicación no es un entero, el valor se redondea a
4.
0, 1, 2, 3, 5, 7, 9
Por tanto, la cuarta observación en el conjunto ordenado sería la
media
El valor medio (que corresponde el percentil 50th) es 3.
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.4 Measures of Relative Position
math courseware specialists
Ejemplo:
Encuentra el 50th percentil para la siguiente serie de datos.
3, 5, 0, 1, 9, 2, 7, 6
Solución:
 50 
 8
=4
 100 
Debido a que la ubicación es un entero, promediamos el 4to y el
5to valor del conjunto ordenado.
0, 1, 2, 3, 5,6, 7, 9
3+5 = 8 =4
2
2
El 50th percentil de esta serie de datos es 4
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.4 Measures of Relative Position
Percentil:
• El percentil de un valor x está dado por:
percentile of x  number of data values  x 100
total number of data values
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.4 Measures of Relative Position
math courseware specialists
Ejemplo:
Encuentra el percentil de 45 para la siguiente serie de datos.
67, 45, 63, 58, 35, 54, 27, 66, 21, 48
Solución
Los valores menores o iguales a 45 son:
21, 27, 35, 45, 48, 54, 58, 63, 66, 67
El número de valores menores o iguales a 45 es 4.
percentile of 45 =
4
100 = 4 10 = 40.
10
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.4 Measures of Relative Position
Cuartiles:
• Los percentiles 25th, 50th y 75th se conocen como cuartiles y se
nombran Q1, Q2, y Q3.
• Los cuartiles sirven como marcadores para dividir los datos.
• Q1 separa al 25% más bajo
• Q2 representa la mediana (percentil 50th).
• Q3 marca el principio del 25% más alto
• Como los cuartiles no son más que percentiles, los construimos
de la misma manera que éstos.
HAWKES LEARNING SYSTEMS
Describing Data from One Variable
Section 4.4 Measures of Relative Position
math courseware specialists
Ejemplo:
Encuentra Q1, Q2, and Q3 para la siguiente serie de datos:
50, 50, 62, 75, 77, 82, 86, 87, 88, 88
Solución:
 25 
 10  
 = 2.5
 100 
Q = 25th percentile = 3rd data value = 62.
 50 
 10  
=5
 100 
Q = 50th percentile =
 75 
 10  
 = 7.5
 100 
Q = 75th percentile = 8th data value = 87.
1
2
3
77+82
2
= 79.5.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.4 Measures of Relative Position
Rango intercuartil:
• El rango intercuartil (interquartile range), que describe el
rango del 50% mediano de los datos, es dado por:
Rango intercuartil = Q3 – Q1.
• Para el ejemplo anterior el rango intercuartil es 87 – 62 = 25.
• Un valor es considerado un outlier si es 1.5 veces mayor que el
rango intercuartil arria del percentil 75th o 1.5 veces mayor que el
rango intercuartil más bajo que el percentil 25th.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.4 Measures of Relative Position
Box Plots:
• Un uso importante de los cuartiles es la construcción de box plots.
• Los box plots son resúmenes gráficos de datos que parecen cajas.
• Provee un método alternativo al histograma para mostrar datos.
• Un box plot es un resúmen gráfico de tendencia central, la distribución,
el sesgo y la existencia potencial de outliers en los datos.
•Abajo se presenta una box plot de la serie de datos anterior:
0 10 20 30 40 50 60 70 80 90 100 110 120 130
• El cuadro se construye a partir de 5 medidas:
• el valor mayr
• el valor menor
• el percentil 25th
•el percentil 75th
• la mediana
HAWKES LEARNING SYSTEMS
Describing Data from One Variable
Section 4.4 Measures of Relative Position
math courseware specialists
Ejemplo:
Encuentra los outliers en esta serie de datos.
12, 50, 62, 75, 77, 82, 86, 87, 88, 126
Q1 = 62, Q2 = 79.5, Q3 = 87, rango intercuartil = 25
Solución:
Mayor que el 75th percentil + 1.5 veces el rango intercuartil= 124.5
87 +1.5  25 = 124.5
Menor que el 25th percentil – 1.5 veces el rango intercuartil = 24.5
62  1.5  25 = 24.5
Los outliers de esta serie de datos son 12 y 126.
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.4 Measures of Relative Position
math courseware specialists
Valores-Z:
• El z-score transforma un valor en el número de desviaciones
estándar que lo separan de la media
z
x

Remember:
  mean
  standard deviation
• Describir el número de desviaciones estándar es un concepto
fundamental en estadística.
• Se utiliza como una técnica de estandarización.
• Si el z-score es negativo, el valor es menor a la media
• Si el z-score es positivo, el valor es mayor a la media.
• El z-score es una unidad de medida de libre.
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.4 Measures of Relative Position
math courseware specialists
Ejemplo:
Supongan que obtienen un 86 en su examen
de biología y un 94 en su examen de
psicología. La media y la desviación estándar
de los dos examenes se muestran a la
derecha.
¿Cuáles son los z-scores de los dos
exámenes? ¿En cuál fue mejor el
resultado?
Solución:
El z-score para el ex. de biología es:z =
El z-score para el ex. de psicología es:
Curso
Media
Desviació
n Estandar
Biology
74
10
Psychology
82
11
86  74
=1.2.
10
z=
94  82
= 1.09.
11
Aunque el resultado bruto en el examen de psicología es mayor que el de
biología, el desempeño en el examen de biología fue ligeramente menor
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Sections 4.5-4.10 Applying the Standard Deviation
Objectivo:
• Calcular el coeficiente de variación y usarlo para comparar la
variación de diferentes series de datos
• Calcular la media, varianza y desviación estandar de datos
agrupados.
• Utilizar la regla empírica y el Teorema de Chebyshev para
describir la variabilidad de los datos.
HAWKES LEARNING SYSTEMS
math courseware specialists
Regla Empírica:
Describing Data from One Variable
Section 4.5 Using the Standard Deviation
Si la distribución tiene forma de
campana:
Regla de una sigma: aproximadamente 68% de
los datos deben caer dentro de una desviación
estándar de la media.
Una desviación de más de una sigma se debe
esperar una vez cada tres observaciones.
Regla de dos sigmas: aproximadamente 95% de
los datos deben caer dentro de dos desviaciones
de la media.
Una desviación de más de dos sigmas se espera
una vez cada veinte observaciones.
Regla de tres sigmas: aproximadamente 99.7%
de los datos deben caer dentro de tres
desviaciones estándar de la media.
Una desviación de más de tres sigmas se espera
aprox. una vez cada 333 observaciones, un poco
menos que 0.3% de las veces.
HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.5 Using the Standard Deviation
Teorema de Chebyshev:
• La proporción de cualquier serie de datos que caiga dentro
de k desviaciones estándar de la media es al menos:
1
1 2 , for k  1.
k
1
3
1

=
= 2: Al menos
22
4 (o 75%) de los valores caen dentro
•k
de 2 desviaciones estándar de la media para cualquier serie de
datos.
1
8
1

=
= 3: Al menos
32
9 (o 88.9%) de los valores caen
•k
dentro de 3 desviaciones estándar de la media, para
cualquier serie de datos.
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.8 The Coefficient of Variation
math courseware specialists
Coeficiente de variación:
• El coeficiente de variación compara la variación en las
series de datos
• Para datos muestrales:
s
CV   100%
x
• Para una población:
CV 

 100%

• El coeficiente de variación estandariza la medida de
variación.
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.9 Analyzing Grouped Data
math courseware specialists
Encontrando la media de datos agrupados:
• Encontrar la media de datos agrupados implica encontrar el
punto medio de cada una de las clases en la distribución de
frecuencia y ponderar cada uno de estos puntos medios por
el número de observaciones en la clase.
fi  number of observations in the i group,
th
N  the total number of observations in all classes, N   fi ,
M i  midpoint of the i class, and
th
n  the number of observations in the sample.
• Para una población, la media de datos agrupados se da por:
fM


i
i
N
.
• Si los datos agrupados representan observaciones
muestrales la media se da por:
x
fM
i
n
i
.
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.9 Analyzing Grouped Data
math courseware specialists
Encontrando la varianza de datos agrupados:
fi  number of observations in the i group,
th
N  the total number of observations in all classes, N   fi ,
M i  midpoint of the i class, and
th
n  the number of observations in the sample.
• La varianza de población para datos agrupados se
representa de la siguiente manera:
2 
fM
i
2
i


fi M i 
N
2

N

fi M i
2
N
  fi M i
 
 N
• La varianza muestral por:
s 
2
fM
i
2
i
fM 



i
n 1
n
2
i
.
2

 .

HAWKES LEARNING SYSTEMS
math courseware specialists
Describing Data from One Variable
Section 4.10 Proportions
Proporciones:
• Una proporción mide la fraccion de un grupo que posee
cierta característica
• Para calcular una proporción, simplemente cuenta el
número del grupo que posee dicha característica y divide
entre el número en el grupo.
X  number that possess the characteristic
N  number in the population
n  number in the sample, then
X
the population proportion, and
N
X
pˆ 
the sample proportion.
n
• El símbolo p̂ se le llama p-hat o “p gorro”.
p
Describing Data from One Variable
HAWKES LEARNING SYSTEMS
Section 4.10 Proportions
math courseware specialists
Ejemplo:
Supongan que su clase de estadística se compone de 48
estudiantes de los cuales 4 son zurdos. ¿Qué proporción de la
clase es zurda? ¿Qué proporción es diestra?
Solución:
X
4
p
=
 .083
N 48
.083 es la proporción de personas en la clase que es zurda
X 44
p 
 .917
N 48
.917 es la proporción de personas en la clase que es diestra.