Download Bajar

Document related concepts

Parámetro estadístico wikipedia , lookup

Asimetría estadística wikipedia , lookup

Rango intercuartílico wikipedia , lookup

Cuantil wikipedia , lookup

Transcript
Capítulo 1.
Estadística
Descriptiva
1.3: Medidas de Localización
1.4: Medidas de Dispersión
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
1
Parámetros y estadísticos
•
•
Parámetro: Es una cantidad numérica calculada
sobre una población
– La altura media de los individuos de un país
– La idea es resumir toda la información que hay
en la población en unos pocos números
(parámetros).
Estadístico: Ídem (cambiar población por
muestra)
– La altura media de los que estamos en este
sala.
• Somos una muestra (¿representativa?) de
la población.
– Si un estadístico se usa para aproximar un
parámetro también se le suele llamar
estimador.
Normalmente nos interesa conocer un parámetro,
pero por la dificultad que conlleva estudiar a
*TODA* la población, calculamos un estimador
sobre una muestra y “confiamos” en que sean
próximos. Más adelante veremos como elegir
muestras para que el error sea “confiablemente”
pequeño.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
2
La media
El promedio (media) de n números
x1, x2 ,..., xn es x
n
x1  x2  ...  xn
x

n
 xi
i 1
n
Media poblacional: 
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
3
Distintos Estadísticos Descriptivos
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
4
Un brevísimo resumen sobre estadísticos
• Posición
– Dividen un conjunto ordenado de datos en
grupos con la misma cantidad de individuos.
• Cuantiles, percentiles, cuartiles,
deciles,...
• Centralización
– Indican valores con respecto a los que los
datos parecen agruparse.
• Media, mediana y moda
• Dispersión
– Indican la mayor o menor concentración de
los datos con respecto a las medidas de
centralización.
• Desviación típica, coeficiente de
variación, rango, varianza
• Forma
– Asimetría
– Apuntamiento o curtosis
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
5
Estadísticos de posición
• Se define el cuantil de orden a como un valor de la
variable por debajo del cual se encuentra una
frecuencia acumulada a.
• Casos particulares son los percentiles, cuartiles,
deciles, quintiles,...
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
6
Estadísticos de posición
• Percentil de orden k = cuantil de orden k/100
– La mediana es el percentil 50
– El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%
• Cuartiles: Dividen a la muestra en 4 grupos con
frecuencias similares.
– Primer cuartil = Percentil 25 = Cuantil 0,25
– Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
– Tercer cuartil = Percentil 75 = cuantil 0,75
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
7
• Ejemplos
El 5% de los recién nacidos tiene un peso demasiado
bajo. ¿Qué peso se considera “demasiado bajo”?
• Percentil 5 o cuantil 0,05
– ¿Qué peso es superado sólo por el 25% de los
individuos?
• Percentil 75
– El colesterol se distribuye simétricamente en la
población. Se considera patológico los valores
extremos. El 90% de los individuos son normales ¿Entre
qué valores se encuentran los individuos normales?
• Entre el percentil 5 y el 95
– ¿Entre qué valores se encuentran la mitad de los
individuos “más normales” de una población?
• Entre el cuartil 1º y 3º
–
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
8
Ejemplo
•
¿Qué peso no llega a alcanzar el 25% de los
individuos?
– Primer cuartil = percentil 25 = 60 Kg.
•
¿Qué peso es superado por el 25% de los
individuos?
– Tercer cuartil= percentil 75= 80 kg.
•
¿Entre qué valores se encuentra el 50% de los
individuos con un peso “más normal”?
– Entre el primer y tercer cuartil = entre 60
y 80 kg.
– Obsérvar que indica cómo de dispersos
están los individuos que ocupan la “parte
central” de la muestra. Ver más adelante
rango intercuartílico.
– Los diagramas de caja (‘boxplot’) sintetizan
esta información (y algo más).
50%
100
90
80
70
Estadísticos
60
PESO
Percentiles
Cap 01 Sec 1.3 y 1.4
50
25
60,00
50
70,00
40
80,00de clases para estudio individual 01-02
Prof. Heriberto75
Figueroa S. Material
9
Ejemplo
Número de años de escolarización
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Total
Frecuencia
5
5
6
12
25
68
56
73
85
461
130
175
73
194
43
45
22
30
1508
Cap 01 Sec 1.3 y 1.4
Porcentaje
,3
,3
,4
,8
1,7
4,5
3,7
4,8
5,6
30,6
8,6
11,6
4,8
12,9
2,9
3,0
1,5
2,0
100,0
Porcentaje
acumulado
,3
,7
1,1
1,9
3,5
8,0
11,7
16,6
22,2
52,8
61,4
73,0
77,9
90,7
93,6
96,6
98,0
100,0
≥20%?
Estadísticos
Número de años de es colarización
N
Válidos
1508
Perdidos
0
Media
12,90
Mediana
12,00
Moda
12
Percentiles 10
9,00
20
11,00
25
12,00
30
12,00
40
12,00
50
12,00
60
13,00
70
14,00
75
15,00
80
16,00
90
16,00
≥ 90%?
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
10
Centralización
Añaden unos cuantos casos particulares a las medidas de
posición. En este caso son medidas que buscan posiciones
(valores) con respecto a los cuales los datos muestran
tendencia a agruparse.
•
Media (‘mean’) Es la media aritmética (promedio) de los valores
de una variable. Suma de los valores dividido por el tamaño
muestral.
– Media de 2,2,3,7 es (2+2+3+7)/4=3,5
– Conveniente cuando los datos se concentran
simétricamente con respecto a ese valor. Muy sensible a
valores extremos.
– Centro de gravedad de los datos
•
Mediana (‘median’) Es un valor que divide a las observaciones
en dos grupos con el mismo número de individuos (percentil
50). Si el número de datos es par, se elige la media de los dos
datos centrales.
– Mediana de 1,2,4,5,6,6,8 es 5
– Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
– Es conveniente cuando los datos son asimétricos. No es
sensible a valores extremos.
• Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!
•
Moda (‘mode’) Es el/los valor/es donde la distribución de
frecuencia alcanza un máximo.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
11
Algunas fórmulas
• Datos sin agrupar: x1, x2, ..., xn
– Media
• Datos organizados en tabla
– si está en intervalos usar como xi las
marcas de clase. Si no ignorar la
columna de intervalos.
– Media
Variable
fr.
fr. ac.
L0 – L1
x1
n1
N1
L1 – L2
x2
n2
N2
xk
nk
Nk
...
Lk-1 – Lk
n
Cap 01 Sec 1.3 y 1.4
x

x
i
i
n
xn

x
i i
i
n
– Cuantil de orden α
» i es el menor intervalo que
tiene frecuencia acumulada
superior a α ·n
» α=0,5 es mediana
  n  N i 1
C  Li 1 
( Li  Li 1 )
ni
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
12
Altura mediana
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
13
Ejemplo con variables continuas
Peso
M.
Clase
frec
Fr.
acum.
40 – 50
45
5
5
50 – 60
55
10
15
60 – 70
65
21
36
70 - 80
75
11
47
80 - 90
85
5
52
90 - 100
95
3
55
100 – 130
115
3
58
En el histograma se identifica “unidad de
área” con “individuo”.
Para calcular la media es necesario elegir
un punto representante del intervalo: La
marca de clase.
La media se desplaza hacia los valores
extremos. No coincide con la mediana. Es
un punto donde el histograma “estaría en
equilibrio” si tuviese masa.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
14
Ejemplo (continuación)
Peso
M. Clase
Fr.
Fr. ac.
40 – 50
45
5
5
50 – 60
55
10
15
60 – 70
65
21
36
70 - 80
75
11
47
80 - 90
85
5
52
90 - 100
95
3
55
100 – 130
115
3
58
xn

x
i
n
i i

45  5  55 10    115  3
 69,3
58
0,5  58  N i 1
( Li  Li 1 )
ni

0,5  58  15
 60 
(70  60)  66,6
21
Mediana  C0,5  Li 1 
58
P75  C0,75  Li 1 
•
0,75  58  N i 1
43,5  36
( Li  Li 1 )  70 
(80  70)  76,8
ni
11
Moda = marca de clase de (60,70] = 65
– Cada libro ofrece una fórmula diferente para la moda (difícil estar al día.)
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
15
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
16
En el caso de los pesos los alumnos de ingeniería
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
17
Media de un conjunto de números
• Para un conjunto dado de números x1, x2 ,... xn,la medida
más conocida es la media o promedio aritmético del
conjunto. Como muy a menudo se piensa a los xi como
constituyentes de una muestra, el promedio aritmético
también se denomina media muestral y se denota como x .
Definición: La media muestral de un conjunto de números
n
está dada por
xi

x1  x2    xn
( x , se lee “x raya”)
x
 i 1
n
n
La suma de los valores de la variable bajo estudio dividida
por el número total de objetos de la población, se denota
 y está definida por22
N
 xi
  i 1
Cap 01 Sec 1.3 y 1.4
(  , se lee “mu”)
N
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
18
NOTA
• El símbolo x , indica que se han promediado
observaciones de un conjunto de tamaño n de una
población, x es fundamentalmente distinto de  ya que
las muestras de una población pueden tener valores
diferentes entre ellas dentro de la población. Mientras
que la media poblacional es una sola (constante). Sin
embargo si tomamos la media de todas las medias
muestrales x posibles se esperaría obtener el valor
de la media poblacional  . Esta propiedad de x hace
de este sea un estimador insesgado de 
Esta propiedad es muy importante, pues rara vez de
conoce la media  de la población
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
19
Observación práctica
• Al escribir x se recomienda usar un dígito
decimal más que el correspondiente a la
exactitud de los xi .así si las distancias de
frenado a 120 km son x1 = 125 y x2 = 131m,…
podría ser
= 127.3 m.
x
Es claro que en este caso, que el tamaño
poblacional N, es desconocido y que, en
consecuencia,  también.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
20
Ej. 1.3
Agrietamiento por corrosión
• En un estudio sobre el agrietamiento por corrosión cáustica bajo
tensiones del hierro y acero, debido a que suelen presentar fallas en
torno de los remaches en calderas de acero y en rotores de
máquinas de vapor.
• Si x = longitud de la grieta (m)
x1  16.1 x2  9.6 x3  24.9 x4  20.4 x5  12.7 x6  21.2 x7  30.2
x8  16.1 x9  9.6 x10  24.9 x11  20.4 x12  12.7 x13  21.2 x14  30.2
x15  16.1 x16  9.6 x17  24.9 x18  20.4 x19  12.7 x20  21.2 x21  30.2
0H
1L
1H
2L
2H
3L
3H
4L
4H
96
27
61
49
58
02
50
Cap 01 Sec 1.3 y 1.4
89
03 40 46 18
85
04 12 33 42
53 71 85
24
Tallo: dígito de las decenas
Hoja : dígitos de las unidades y de las décimas
Y como
 xi  444.8, la media muestral es
x
444.8
 21.18
21
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
21
Geometría de la media
x  21.18
10
20
30
40
Media corresponde geométricamente al punto de equilibrio
de los datos pensando como un sistema de pesas
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
22
Efecto de punto alejado
attach(ej0113)
ej0113<-read.table("ej01.13.txt",h=T)
dotchart(lgrieta,col=6)
stem(ej0113$lgrieta,2)
abline(v = mean(lgrieta,trim=0.00), col = 4, lty = 4)
abline(v
= mean(lgrieta,trim=0.05),
col right
= 3, lty
= 3)|
The decimal
point is 1 digit(s) to the
of the
legend(35, 10,c("media","media recortada al 5%"),col=3:4,lty=3:4)
0 | 9
1 | 00234
1 | 569
2 | 0134
2 | 55679
3 | 02
3 |
4 |
4 | 5
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
23
Propiedades de la media
(como operador)
Si x1  0, x1  0,  xn  0 , entonces x  0
ax  ax ,
a constante
x  a  x  a,
x y  x y
a constante
Luego,
Resumiendo ax  by  ax  by ,
a,b constantes
es decir, el operador raya (media) es lineal
En general
Cap 01 Sec 1.3 y 1.4
x y  x  y
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
24
Mediana
La mediana muestral, x,es el valor
medio en un conjunto de datos
arreglado en orden ascendente. Para
un número par de datos la mediana
es el promedio de los dos del medio.
Mediana poblacional: 
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
25
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
26
Mediana (Fórmula de cálculo)
~
x
La mediana muestral
se obtiene al ordenar las n
observaciones (incluyendo los valores repetidos) de menor
a mayor magnitud. Entonces se calcula
Valor único si
n es par
~
x
Promedio
de
los dos valores
medios si n es
par
 n  1


 2 
ésimo
valor ordenado
Promedio de estos dos valores ordenados:
n
 
2
ésimo
n 
y   1
2 
ésimo
~
La mediana poblacional, por su parte, se denota 
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
27
Cuantificación de hierro en la sangre
• Concentración de globulina receptora de hierro, para
una muestra de mujeres con pruebas de laboratorio
de evidente anemia por deficiencias de hierro
x1  15.2 x2  9.3 x3  7.6
x4  11.9 x5  10.4 x6  9.7
x7  20.4 x8  9.4 x9  7.6 x10  16.2 x11  9.4
x12  8.3
Lista de valores ordenados
7.6
8.3 9.3 9.4 9.4 9.7 10.4 11.5 11.9 15.2 16.2 20.4
Como n = 12 es par, se promedia n/2 = 6° valor con el 7° valor ordenado:
9.7  10.4
Mediana muestral 
 10.05
2
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
28
Mediana Poblacional
• Análogo a x como valor muestral, hay un
valor de media poblacional, hay un valor
poblacional de la mediana muestral, el que se
denota por ~ . Y del mismo modo ~
x es
estimador de ~ .
• Las relaciones entre  y ~ depende de la
forma de la distribución de una población.
Sesgo negativo
Cap 01 Sec 1.3 y 1.4
Simétrica
Sesgo positivo
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
29
Ejemplo de mediana
En un curso de 85 notas de una prueba
la mediana, es el 43avo número si las
notas son listadas en orden ascendente.
(Nota: En este caso existen 42 arriba
de la mediana y 42 abajo de la mediana).
40
41
42
43
44
45
46
57.5 57.5 60.0 60.0 60.0 62.5 62.5
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
30
Ejemplo de Media y Mediana
Sean n  5, X 1  2.3, X 2  3.2, X 3  1.8, X 4  2.5, X 5  2.7
2.3  3.2  1.8  2.5  2.7
X
 2.5
5
Para encontrar la mediana, primero se ordenan los valores
X (1)  1.8, X ( 2)  2.3, X (3)  2.5, X ( 4)  2.7, X (5)  3.2
n 1
~
Así ,
 3  X  X n 1  X (3)  2.5
(
)
2
2
Si X (5)
Cap 01 Sec 1.3 y 1.4
~
 4.2, entonces X  2.7 y X  2.5
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
31
Relaciones entre Medias y
medianas poblacionales
• Distribución poblacional
• Sensitividad
a
la
extremas (outliers)
Cap 01 Sec 1.3 y 1.4
observaciones
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
32
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
33
Tres diferentes formas de población

simétrica

Asimetría positiva
Cap 01 Sec 1.3 y 1.4

Asimetría negativa
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
34
Asimetría positiva
Ex 1.14, Concentración, Pág 31
5
Frecuencia
Frequency
X
4
3
2
X
1
0
7
9
11
13
15
17
19
Concentración
en receptor
Receptor Con
21
~
X  10.05  X 11.61
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
35
Sensitividad a los Valores Extremos
Un conjunto de datos contiene 19 familias, con 8
familias que ganan US$30,000 por año, 10 ganan
US$35,000 por año, y que 1 gana $1 millones por
año.
8(30,000)  10(35,000)  1(1,000,000) 1,590,000
X

 $83,684
19
19
~
X  $35,000
Si la distribución es altamente asimétrica, la
mediana es la mejor elección
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
36
Modo
El modo, Mo de una serie estadística es el
valor de la característica más frecuente o
dominante en la muestra. El modo
corresponde a la clase se frecuencia máxima
en la distribución de frecuencias.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
37
Ventajas
Media
Fácil de calcular,
al
(aritmética) Responde
mínimos cuadrados
principio
Inconvenientes
Fuertemente
influenciada
por los valores extremos,
de
Representa mal una población
heterogénea (polimodal).
Mediana
No influenciado por valores
extremos,
Poco sensible a las variaciones de
amplitud de las clases,
Calculable sobre caracterís-ticas
cíclicas (estaciones, etc) donde la
media tiene poca significación.
Se presta mal a los cálculos
estadísticos,
Supone datos igualmente
repartidos
Representa sólo el valor que
separa las muestras en dos
partes iguales.
Modo
No influenciado por la exis-tencia
de valores extremos,
Calculable sobre caracterís-ticas
cíclicas (estaciones, etc) donde la
media tiene poca significación.
Buen indicador de la heterogeneidad de la población.
No se preta mucho a los
cálculos estadísticos
Muy sensible a las variaciones de amplitud de las clases,
Su cálculo toma en cuenta
sólo los individuos cuyos
valores se reportan en la clase
modal.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
38
Medias recortadas
Sea n  5, X 1  2.3, X 2  3.2, X 3  1.8, X 4  2.5,
X 5  2.7
la media recortada al 20%
2.3  2.5  2.7
 2.5
X ( 20) 
3
~
X  2.5
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
39
Robustez: Medias Recortadas
• Las medias y medianas están influidas por los valores
atípicos de manera diferente, la media en gran medida
y la mediana nada en absoluto. Las medidas a las
cuales son o muy poco o nada afectadas por las
observaciones atípicas se llaman robustas. Una familia
de medidas robustas tienen sus valores entre la media
y la mediana. Se consiguen recortando los extremos
de la distribución previo el cálculo de la media, y por
este motivos se llaman medias recortadas.
• Una media recortada al 10% se obtiene recortando el
10% de los datos de las valores más grandes y el 10%
de los más pequeños.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
40
Ejemplo de Media recortada (Trimmed mean)
• Duración (en horas) de las lámpara incandescentes
• Se registró las duración en horas de 20 horas de cierto
tubo incandescente:
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
41
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
42
Otras medidas de localización
• La mediana (poblacional o muestral) divide el conjunto
(ordenado) de datos en dos partes iguales. Si se
dividen los datos en más de dos partes se pueden
obtener medidas de localización más finas.
4 Cuartiles (partes)
Quintiles = división
de cinco partes
Primer Segundo Tercer
cuartil cuartil
cuartil
2° cuartil = mediana
Cap 01 Sec 1.3 y 1.4
Decíles = división
de diez partes
Percentiles = división
de 100 partes
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
43
Datos categóricos y proporción
muestral
• Dada una muestra aleatoria de tamaño n de
una variable de valores x la proporción
muestral se define como
x
n
Donde x se enciende como la suma de los valores
de presencia, al codificar los elementos de alguna
clase con 1 ó 0 según tengan o no alguna
característica distintiva.
La proporción poblacional se denota por p
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
44
Tareas
• Ejercicios (sección 1.3 (pares(33-43)))
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
45
1.4
Medidas
de
Variabilidad
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
46
Medidas de variabilidad
• Las medidas de localización da sólo información
parcial sobre un conjunto de datos o su
distribución.
Las
distintas
muestras
o
poblaciones pueden tener medidas idénticas de
centralidad pero diferentes entre sí en otros
aspectos característicos importares. En seguida
se presentan los diagramas de puntos de tres
muestras con la misma media y mediana, pero
que difieren completamente en la cantidad de
variabilidad.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
47
Medidas de Variabilidad
1
2
3
30
40
50
50
50
Muestras de medidas con centralidad idénticas, pero distintas
variabilidades
(tienen la misma media y mediana: pero distinta variabilidad)
La variabilidad es distinta en las tres muestras
Rango muestra 1  Rango muestra 2 > Rango muestra 3
Cap 01 Sec 1.3 y 1.4
Ojo! es en realidad “=“
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
48
Medidas de Variabilidad para
Datos Muestrales
• Rango = Valor máximo – valor mínimo
(también llamado Intervalo o recorrido)
En el caso de la figura anterior el rango de la
muestra 1 es la de mayor variabilidad y la
muestra 3 es la de menor variabilidad.
Rango muestra 1 = Rango muestra 2,
pero claramente hay menos dispersión en la
segunda que en la primera muestra.
¡El rango depende mucho de los valores
extremos!
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
49
Desviaciones de la Media
• Se llaman desviaciones respecto de la media
(transformación de centramiento) al resultado de
restar media de cada una de las n observaciones de la
muestra
x1  x , x2  x ,, xn  x
Una desviación positiva si la observación es mayor
(está a la derecha de la media en el eje de medición)
que la media y es negativa si es menor que la media
1
2
3
30
Cap 01 Sec 1.3 y 1.4
40
50
Media
50
50
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
50
Propiedades de las desviaciones
de la media
• Si las magnitud de todas las
desviaciones pequeña, entonces las xi
estarán cerca de la media y hay poca
variabilidad. Si algunas de las
desviaciones son grandes entonces
alguna se las xi quedan lejos de
, lo
x
que indica una mayor variabilidad
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
51
Variabilidad o dispersión
•
Los estudiantes de Estadística reciben diferentes calificaciones en
la asignatura (variabilidad). ¿A qué puede deberse?
– Diferencias individuales en el conocimiento de la materia.
•
¿Podría haber otras razones (fuentes de variabilidad)?
•
Por ejemplo supongamos que todos los alumnos poseen el mismo nivel
de conocimiento. ¿Las notas serían las mismas en todos?
Seguramente No.
– Dormir poco el día del examen, el croissant estaba envenenado...
• Diferencias individuales en la habilidad para hacer un examen.
– El examen no es una medida perfecta del conocimiento.
• Variabilidad por error de medida.
– En alguna pregunta difícil, se duda entre varias opciones, y al azar
se elige la mala
• Variabilidad por azar, aleatoriedad.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
52
Variabilidad o dispersión
• Los estudiantes de estadística reciben diferentes
calificaciones en la asignatura (variabilidad). ¿A qué
puede deberse?
– Diferencias individuales en el conocimiento de la materia.
• ¿Podría haber otras razones (fuentes de variabilidad)?
• Por ejemplo supongamos que todos los alumnos poseen el
mismo nivel de conocimiento. ¿Las notas serían las mismas
en todos? Seguramente No.
– Dormir poco el día del examen, el croissant estaba malo...
• Diferencias individuales en la habilidad para hacer un examen.
– El examen no es una medida perfecta del conocimiento.
• Variabilidad por error de medida.
– En alguna pregunta difícil, se duda entre varias opciones, y al azar
se elige la mala
• Variabilidad por azar, aleatoriedad.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
53
Medidas de dispersión
Miden el grado de dispersión (variabilidad) de los
datos, independientemente de su causa.
•
Amplitud o Rango (‘range’):
La diferencia entre las observaciónes extremas.
– 2,1,4,3,8,4. El rango es 8-1=7
– Es muy sensible a los valores extremos.
•
Rango intercuartílico (‘interquartile range’):
– Es la distancia entre el primer y tercer cuartil.
• Rango intercuartílico = P75 - P25
– Parecida al rango, pero eliminando las observaciones más extremas
inferiores y superiores.
–
No es tan sensible a valores extremos.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
54
• Varianza S2 (‘Variance’): Mide el promedio de
las desviaciones (al cuadrado) de las
observaciones con respecto a la media.
1
S   ( xi  x ) 2
n i
2
– Es sensible a valores extremos (alejados de la
media).
– Sus unidades son el cuadrado de las de la variable.
– Si habéis oído hablar en física de porqué un
patinador gira a diferente velocidad cuando tiene los
brazos recogidos (menor dispersión), puede que os
suene el ‘coeficiente de inercia’
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
55
Desviación típica (‘standard deviation’)
Es la raíz cuadrada de la varianza
• Tiene las misma dimensionalidad
(unidades) que la variable.
• Cierta distribución que veremos más
adelante (normal o gaussiana)
quedará completamente
determinada por la media y la
desviación típica.
S S
2
50
40
30
20
– A una distancia de una desv. típica de la
media tendremos 68% observaciones.
Desv. típ. = 568,43
Media = 2023
N = 407,00
0
0
30
3.
0
90
2.
0
50
2.
0
10
2.
0
70
1.
0
30
1.
0
90
0
50
– A una distancia de dos desv. típica de la
media tendremos 95% observaciones.
10
Peso recién nacidos en partos gemelares
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
56
• Centrado en la media y a una desviación típica de
distancia tenemos más de la mitad de las
observaciones (izq.)
• A dos desviaciones típicas las tenemos a casi todas
(dcha.)
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
57
Coeficiente de variación
Es la razón entre la desviación típica y la media.
– Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media”
– También se la denomina variabilidad relativa.
S
CV 
x
– Es frecuente mostrarla en porcentajes
• Si la media es 80 y la desviación típica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa)
•
Es una cantidad adimensional. Interesante para comparar la
variabilidad de diferentes variables.
– Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan más dispersión en peso que en altura.
•
No debe usarse cuando la variable presenta valores negativos o
donde el valor 0 sea una cantidad fijada arbitrariamente
– Por ejemplo 0ºC ≠ 0ºF
•
Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su
inverso).
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
58
Dispersión en cuartos (Cuartiles)
La dispersión cuartílica fs
(Rango inter cuartílico: IQR)
fs = cuarto superior– cuarto inferior =
IQR = 3er cuartil – 1er cuartil.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
59
Cuartiles superior e inferior
Una vez ordenada las n observaciones del
conjunto de datos de menor a mayor, el
cuartil inferior (superior) es la mediana
de la mitad inferior (superior) de los datos
(largest), donde la mediana x se incluye
en ambas mitades de n es impar. Una
medida de dispersión que es resistente a
los outliers es la dispersión cuartílica
fs = cuartil superior – cuartil inferior
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
60
El tercer y primer cuartil
Después de ordenadas n observaciones de un
conjunto de datos en orden creciente, el primer
(tercer) cuartil es la mediana de de la mitad de
los datos más pequeños (mayores), donde la
mediana x se incluye en ambas mitades si n es
impar. Una medida de dispersión resistente a
las observaciones extremas es el rango
intercuartílico IQR:
fs = 3er cuartil – 1er cuartil.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
61
Observaciones atípicas (outlier)
Cualquier observación más allá 1.5fs del
cuartil más cercano es outlier. Una
observación atípica es extrema si está
más acá de 3fs del cuartil más cercano, y
es extraña de cualquier otro modo.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
62
Ejemplo de gráfico de cajas
Aislantes de alto voltaje
5.3
n = 25, pág 42
8.2
13.8
74.1
85.3
88.0
90.2 91.5
92.4
92.9
93.6
94.3 94.8
94.9 95.5
95.8
95.9
96.6
96.7
98.1 99.0 101.4 103.7 106.0 113.5
~
X = 94.8,
fs = 90.2 fs= 96.7
q = 6.5
1.5q=9.75
3q = 19.50
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
63
Rango
Diferencia
entre
los
muestrales mayor y menor.
valores
Range  Max ( X i )  Min ( X i )  X ( n )  X (1)
Muy sensible a los outliers
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
64
Varianza muestral
La Variance es una medida de dispersión de
los datos.
La varianza muestral de la muestra x1, x2, …xn
de n valores de X está dada por
x

x



i
2
s 
n 1
2
S xx

n 1
La varianza poblacional: 
Cap 01 Sec 1.3 y 1.4
2
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
65
Ejemplo de varianza muestral
• Primero, encuentre la varianza muestral:
x  61.35
• En seguida, sume los
desviaciones de la media:
cuadrados
(62.5  61.35)2  (90.0  61.35)2 
de
las
 21,531.9
• Divida por n - 1, donde n es el número de
observaciones (en este caso, 85):
21,531.9
 256.3
84
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
66
Desviación estándar
La Desviación estándar es una medida de
dispersión de los datos en las mismas
unidades de los datos originales.
La desviación estándar muestral es la
raíz cuadrada positiva de la varianza
muestral:
s s
Cap 01 Sec 1.3 y 1.4
2
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
67
Ejemplo de desviación estándar
s
s
2

256.3  16.0
x  61.35
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
68
Fórmula para s2
Una expresión alternativa
numerador de s2 es

S xx   xi  x
Cap 01 Sec 1.3 y 1.4
 
2
xi2
para
xi 



el
2
n
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
69
Fórmula para s2: Ejemplo abreviado
n
• Primero, sume los
xi  5215

valores:
i 1
n
• En seguida, sume
2
x
los cuadrados:
i  341, 487.5
i 1
• El numerador de la
varianza muestral
es igual a 85
52152
341, 487.5 
 21,531.9
85

Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
70
Propiedades de s2
Sean x1, x2,…,xn cualquier muestra y c
una constante no nula
2
s x es
donde
la varianza muestral de las x’s
2
y s y es la varianza muestral de los y’s.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
71
Ejemplo
40 52 55 60 70 75 85 90 90 92 94 95 98 100 115 125 125
X(min) = 40
Q2 = 40
~
x  90
Q2 = 72.5
X(max) = 125
Q3 = 90
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
72
Boxplots
Cuartil inferior
Outlier
extremo
Cap 01 Sec 1.3 y 1.4
Valores
adyacentes
Cuartil superior
mediana
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
73
Ejemplo 1.18: Exploración por ultrasonido de
la corrosión de fondos de estanques
contenedores de petróleo (por borras)
30 40 50 60 70 80 90 100 110120130
C1
30 40 50 60 70 80 90 100110120130
C1
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
74
Ejemplo de Boxplot
magnitud de pulso n = 25, pág 42
5.3
8.2
13.8
74.1
85.3
88.0
90.2 91.5
92.4
92.9
93.6
94.3 94.8
94.9 95.5
95.8
95.9
96.6
96.7
98.1 99.0 101.4 103.7 106.0 113.5
~
X = 94.8,
Cuartil inferior = 90.2 Cuartil superior = 96.7
fs = 6.5
1.5fs = 9.75
3fs = 19.50
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
75
Ejemplo 1.19: Degradación de cavidades
aisladoras de cerámica con el alto voltaje
0 50 100 150
Cap 01 Sec 1.3 y 1.4
Ancho de impulso
C1
0
58
1
3
7
4
* * * Outside Values * * *
8
5
8
8
8
9 H 01
9
223
9 M 444555
9 H 66
9
89
10
1
10
3
10
10
6
* * * Outside Values * * *
11
3
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
76
Ancho de impulso
Boxplot del ejemplo 19
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
77
Peso
Boxplots lado a lado (Side-By-Side)
Cap 01 Sec 1.3 y 1.4
Sexo
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
78
Ejercicios Sec 1.4 (44-61)
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
79
Asimetría o Sesgo
•
Una distribución es simétrica si
la mitad izquierda de su
distribución es la imagen
especular de su mitad derecha.
•
En las distribuciones simétricas
media y mediana coinciden. Si
sólo hay una moda también
coincide
•
La asimetría es positiva o
negativa en función de a qué lado
se encuentra la cola de la
distribución.
•
La media tiende a desplazarse
hacia las valores extremos
(colas).
•
Las discrepancias entre las
medidas de centralización son
indicación de asimetría.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
80
Estadísticos para detectar asimetría
•
Hay diferentes estadísticos que sirven
para detectar asimetría.
– Basado en diferencia entre
estadísticos de tendencia central.
– Basado en la diferencia entre el 1º y
2º cuartiles y 2º y 3º.
– Basados en desviaciones con signo
respecto a la media.
• En este se basa SPSS. No lo
calcularemos manualmente en
este curso.
•
En función del signo del estadístico
diremos que la asimetría es positiva o
negativa.
•
Distribución simétrica  asimetría nula.
•
La asimetría es adimensional.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
81
Apuntamiento o curtosis
160
La curtosis nos indica el grado de apuntamiento
(aplastamiento) de una distribución con respecto a la
distribución normal o gaussiana. Es adimensional.
140
120
100
Platicúrtica: curtosis < 0
Frecuencia
80
Mesocúrtica: curtosis = 0
60
40
Leptocúrtica: curtosis > 0
45 48 51 54 57 60 63 66 69 72 75 78 81 84
Platicúrtica
300
400
Cap 01 Sec 1.3 y 1.4
300
200
200
100
100
Frecuencia
Frecuencia
Los gráficos que veis poseen la
misma media y desviación
típica, pero con diferente grado
de apuntamiento.
En el curso serán de especial
interés las mesocúrticas y
simétricas (parecidas a la
normal).
0
3
27
16
37
32
47
42
57
52
67
62
77
72
87
82
97
92
0
108
102 138
27
37
32
45
41
53
49
61
57
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
Leptocúrtica
Mesocúrtica
69
65
77
73
85
81
82
93
89
99
Ejercicio: descriptiva con SPSS
28%
Descriptivos para Número de hijos
Límite
inferior
Límite
s uperior
Error típ.
,045
25%
n=375
25%
1,81
17%
20%
Porce ntaje
Media
Intervalo de
confianza para la
media al 95%
Estadístico
1,90
n=419
1,99
Media recortada al 5%
1,75
n=255
14%
n=215
15%
8%
n=127
10%
4%
Mediana
Varianza
Des v. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
2,00
3,114
1,765
0
8
8
n=54
5%
Cap 01 Sec 1.3 y 1.4
1,034
1,060
2%
1%
n=24 n=23 n=17
0
1
2
3
4
5
6
7 Ocho o más
Número de hijos
•
Está sombreado lo que sabemos interpretar hasta ahora.
Verifica que comprendes todo. ¿Qué unidades tiene cada
estadístico? ¿Variabilidad relativa?
•
Calcula los estadísticos que puedas basándote sólo en el
gráfico de barras.
3,00
Asimetría
Curtos is
2%
,063
,126
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
83
¿Utilidad de los Boxplot lado a lado?
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
84
¿Utilidad de los Boxplot lado a lado?
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
85
¿Utilidad de los Boxplot lado a lado?
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
86
Descomposición de Salarios de
Inicio de vida de Trabajo
Diagrama de cajas de salarios de ingreso (en miles de US$) a cargo
administrativo en un Banco, por sexo
9
Tarea 2, P-1
8
SALARIO (en mUS$)
Con el Software
Producir este gráfico
7
¿Qué pasa
con
este
punto?
6
5
4
3
Cap 01 Sec 1.3 y 1.4
Hombre
Mujer
SEXO
¿y con este?
Explique!
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
87
Histogramas y diagramas de cajas de 100
Observaciones de cuatro Distribuciones
Tarea 2, P-2
Normal
Cola corta
Cola larga
Asimétrica
¿Cómo Interpreta cada una de estas las muestras?
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
88
Tarea 2, P-5
Aberraciones
Cromosómicas por cada
100 células de 333
personas irradiadas por
la Bomba A de
Hiroshima
Comente que le indican los
diagramas de cajas respecto
de irradiados directos y los
otros.
¿Cómo se podrían comparar
estas dos muestras?
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
89
Cifras significativas y propagación del
Error
Bevington y Robinson, pág 4:
El dígito no nulo del extremo
izquierdo es el más significativo.
Si no existe punto decimal, el dígito
no nulo del extremo derecho es el
menos significativos.
Si existe un punto decimal, el dígito
del extremo derecho es el menos
significativo.
Todos los dígitos entre el extremo
derecho y el izquierdo cuentan como
significativos.
Cap 01 Sec 1.3 y 1.4
DATA
REDUCTION
AND
ERROR
ANALYSIS
FOR
THE
PHYSICAL
SCIENCES
Philip R. Bevington
D. Keith Robinson
SECOND EDITION
1992
Philip R. Bevington
D. Keith Robinson
SECOND EDITION
1992
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
90
Cifras significativas
¿Cuántas cifras significativas se deben informar?
Todos los números que siguen tienen cuatro dígitos significativos
(o cifras): 1234, 1234000. 123.4, 1001, 1000., 10.10, 0.0001010, 100.0
Es mejor escribir en notación científica con el número apropiado
de dígitos: 1.010x10-4
Para los cálculos, conservar un dígito más que el número de cifras
significativas.
La incerteza define el número de dígitos significativos
Es inadecuado informar 9.979  5.1015
Debido a la propagación del error, el número de cifras significativas
puede que no aumente con los cálculos.
En los cálculos, se puede arrastrar una cifra significativa
adicional para justificar certeza de los cálculos.
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
91
Salarios de Ingreso a la Administración por Sexo
Histograma de frecuencias de salarios de ingreso a la
administración por sexo.
HOMBRES
MUJERES
US$ 4000
Cap 01 Sec 1.3 y 1.4
US$ 5000
US$ 6000
US$ 7000
US$ 8000
Salarios de Ingreso por sexo (en miles de US$ )
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
92
Diagramas
de Cajas
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
93
Gráficos de Cajas
(Con SPSS)
SPSS permite
inusuales)
Cap 01 Sec 1.3 y 1.4
identificación
de
los
outliers
(observaciones
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
94
Tarea: Aguzar la vista
Ejercicios Cap I,
Sec II: Prob: 10, 12, 22,24
Sec III: Los ya dados
Sec IV: Nos 44, 54, 56, 58, 62
Además de los planteados
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
95
Cap 01 Sec 1.3 y 1.4
Prof. Heriberto Figueroa S. Material de clases para estudio individual 01-02
96