Download Estadística Descriptiva - MSc. Ing. Julio Rito Vargas Avilés

Document related concepts
no text concepts found
Transcript
Universidad Nacional Autónoma de Nicaragua
UNAN-Managua
Curso de Estadística
Profesor:
MSc. Julio Rito
Vargas Avilés.
UNIDAD I
Estadística Descriptiva
Estudiantes:
FAREM-Carazo
“Quien tiene un libro y no lo lee, no se diferencia de
aquel que no sabe leer”
Año académico:
II Semestre 2010
HISTORIA DE LA ESTADÍSTICA
La estadística surgió como una necesidad del Estado: el
censo y su descripción política, geográfica y económica.
En el siglo XVII y XVIII nace la probabilidad aplicada a
los juegos de azar que ejerce una fuerte influencia sobre
la estadística.
En el XIX empieza a aplicarse a cuestiones sociales. Y
actualmente se aplica a la administración, ingeniería,
biología, economía, periodismo, política, ...
2
¿Para qué sirve la estadística?
 Estadística: Ciencia que reúne, organiza, presenta, analiza e
interpreta datos para ayudar a tomar mejores decisiones.
 La Ciencia se desarrolla observando hechos, formulando leyes que
los explican y realizando experimentos para validar o rechazar
dichas leyes
 Los modelos que crea la ciencia son de tipo determinista o
aleatorio (estocástico)
 La Estadística se utiliza como tecnología al servicio de las
ciencias donde la variabilidad y la incertidumbre forman parte de su
naturaleza
 Ciencia cuyo objetivo es la obtención y el análisis de datos
mediante el uso de medios matemáticos y herramientas
informáticas.
3
Definición
La Estadística es la Ciencia de la
• Sistematización,
presentación de
recogida,
ordenación
y
los datos referentes a un
fenómeno
que
presenta
variabilidad
o
incertidumbre para su estudio metódico, con
objeto de
• Deducir las leyes que rigen esos fenómenos,
• y poder de esa forma hacer previsiones sobre los
mismos, tomar decisiones u obtener
conclusiones.
4
Objetivos de la Estadística Descriptiva
 Poner de manifiesto las características
más relevantes de los datos y sintetizarlas
en unos pocos parámetros o estadísticos
y⁄o mediante las gráficas adecuadas.
5
Método científico y estadística
Plantear
hipótesis
Diseñar
experimento
Obtener
conclusiones
Recoger datos
y analizarlos
6
Población y muestra
 Población
: es el conjunto sobre el que estamos
interesados en obtener conclusiones (hacer inferencia).
 Generalmente es demasiado grande para poder
obtenerlo.
 Muestra : es un subconjunto suyo al que tenemos acceso
y sobre el que realmente hacemos las observaciones
(mediciones)
 Debería ser “representativo”
 Esta formado por miembros “seleccionados” de la
población (individuos, unidades experimentales).
7
Tipos de variables
 Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un
número (no se pueden hacer operaciones algebraicas con ellos)

Nominales: Si sus valores no se pueden ordenar
• Sexo(M/F), Religión(Católico/Protestante/Ateo), Nacionalidad, Fumar (Sí/No)

Ordinales: Si sus valores se pueden ordenar
• Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor(nada, poco,
mucho, intenso)
 Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones
algebraicas con ellos)
 Discretas: Si toma valores enteros
• Número de hijos, Número de cigarrillos, Num. de “cumpleaños”
 Continuas: Si entre dos valores, son posibles infinitos valores intermedios.
• Altura, Peso, salario, Dosis de medicamento administrado, edad
8
 Es buena idea codificar las variables

como números para poder
procesarlas con facilidad en un
computador.
Es conveniente asignar “etiquetas” a
los valores de las variables para
recordar qué significan los códigos
numéricos.

Sexo (Cualit: Códigos arbitrarios)
•
•

Raza (Cualit: Códigos arbitrarios)
•
•
•

1 = Hombre
2 = Mujer
1 = Blanca
2 = Negra,...
3 = Mestiza
Felicidad Ordinal: Respetar un orden
al codificar.
•
•
•
1 = Muy feliz
2 = Feliz
3 = Infeliz
 Se pueden asignar códigos a
respuestas especiales como
•
•
0 = No sabe
99 = No contesta...
 Estas situaciones deberán ser
tenidas en cuentas en el análisis.
Datos perdidos („missing data‟)
9
EJEMPLO
Suponga que decide llevar a cabo un estudio del costo
de la comida en los restaurante de una gran ciudad. A
50 restaurantes citadinos se les consultó sobre el
precio promedio de sus platos y se obtuvieron los
siguientes resultados.
10
EJEMPLO
Precio del plato en 50 restaurantes citadinos
50
38
43
56
51
36
25
33
41
44
34
39
49
37
40
50
50
35
22
45
44
38
14
44
51
27
44
39
50
35
31
34
48
48
30
42
26
35
32
63
36
38
53
23
39
45
37
31
39
53
11
Precio del plato en 50 restaurantes de la ciudad
14 22 23 25 26 27 30 31 31 32
33 34 34 35 35 35 36 36 37 37
38 38 38 39 39 39 39 40 41 42
43 44 44 44 44 45 45 48 48 49
50 50 50 50 51 51 53 53 56 63
12
Gráfico de Tallo y hoja
El diagrama de tallo y hojas. Es una técnica estadística para representar un
conjunto de datos. Cada valor numérico se divide en dos partes. El o los
dígitos principales forman el tallo y los dígitos secundarios las hojas. Los
tallos están colocados a lo largo del eje vertical, y las hojas de cada
observación a lo largo del eje horizontal.
Variable Precio en gráfico Tallo-hoja
Frecuencia
1.00
5.00
21.00
13.00
8.00
1.00
Tallo y & Hoja
1
2
3
4
5
6
4
23567
011234455566778889999
0123444455889
000011336
3
Ancho del tallo: 10(decenas)
Cada hoja: 1 caso(s)
Representación gráfica de las distribuciones de
frecuencias
Histograma:
Un histograma consiste en
una serie de rectángulos cuyo
ancho es proporcional al
alcance de los datos que se
encuentran dentro de una
clase y cuya altura es
proporcional al número de
elementos que caen dentro de
la clase.
Representación gráfica de las distribuciones de
frecuencias
Polígono de frecuencias:
Para construir un polígono de
frecuencias señalamos éstas en el
eje vertical y los valores de las
variables que estamos midiendo
en el eje horizontal, del mismo
modo como lo hicimos con el
histograma.
A continuación, graficamos cada
frecuencia de clase trazando un
punto sobre su punto medio y
conectamos los resultantes puntos
sucesivos con una línea recta para
formar un polígono
Polígono de frecuencias
Representación gráfica de las distribuciones de
frecuencias
Gráfico de Curva Normal con
Histograma de frecuencias.
Muestra el comportamiento de los
datos y que tan próximo están de una
distribución normal.
En el ejemplo que nos ocupa puede
verse que hay datos por encima de
normal.
Así mismo hay datos que no alcanzan
llegar a línea normal.
Rango
Calcular el rango es determinar la longitud
numérica que existe entre el dato de menor valor y
el de mayor valor.
• Restar el dato menor del dato mayor de la
muestra y se obtiene el rango.
• Rango = Máximo - Mínimo
17
La pregunta que estamos analizando ya tiene
sus datos ordenados, ahora determinar a
simple vista cuales son los datos mayor y
menor respectivamente:
Dato Mayor(Máx)
$ 63.00
Dato Menor(Min)
$ 14.00
18
DISTRIBUCIÓN DE FRECUENCIAS
Se organiza en filas y
columnas:
Variable
Frecuencia
Columna 1: El nombre de la
variable que se está
analizando.
Columna 2: Las veces que se
repiten los datos con las
mismas características de la
variable, se le llama
frecuencia.
19
DISTRIBUCIÓN DE FRECUENCIAS
Cuando la variable es numérica,
se trata de valores y si éstos son Intervalos
más de 10 datos diferentes, es
conveniente hacer grupos para
administrarlos con eficiencia. A
cada grupo de datos se le llama
Intervalo o clase.
Frecuencia
20
DISTRIBUCIÓN DE FRECUENCIAS
Intervalos
Frecuencia
Un intervalo es como un rango,
tiene un dato mayor y un dato
menor y el estilo de
representación puede ser de
varias maneras; la más
generalizada es:
DatoMenor pero menos que DatoMayor o
21
DISTRIBUCIÓN DE FRECUENCIAS
La información en cada intervalo
debe ser única.
Intervalos
Frecuencia
14 – 18
1
19 – 23
29 – 33
2
3
5
34 – 38
39 – 43
12
8
44 – 48
8
49 – 53
9
54 – 58
59 – 63
1
1
Para determinar el número de intervalos
para una distribución, se calcula con la 24 – 28
información del valor del Rango.
C= Rango/10=49/10≈5
Un intervalo es similar al rango, el cual
tiene un dato mayor y un dato menor, solo
que la distancia entre ellos recibe el
nombre de Amplitud o ancho del intervalo
o ancho de clase y se recomienda que se
constante .
22
DISTRIBUCIÓN DE FRECUENCIAS
Se sugiere que una distribución
de frecuencias no debe tener
menos de 5 intervalos, ni más
de 15.
Si no se sigue esta convención,
la interpretación de los datos
puede ser demasiado
condensada o muy dispersa y
en ambos casos los resultados
aunque estén bien, no son
objetivos y puede afectar la
toma de decisiones.
23
DISTRIBUCIÓN DE FRECUENCIAS
Intervalos
Frecuencia
Intervalo 1
Frec. 1
Determinar el número de intervalos
Intervalo 2
que sirva a una muestra se basa en
la experiencia o sentido común de la Intervalo 3
persona que va a generar la
Intervalo 4
distribución de frecuencias.
Intervalo 5
Frec. 2
Intervalo 6
Frec. 6
Frec. 3
Frec. 4
Frec. 5
24
Tablas de frecuencia
 Exponen la información recogida en la muestra de
manera inteligente:
 Frecuencias absolutas: Contabilizan el número de
individuos de cada modalidad.
 Frecuencias relativas (porcentajes unitarios):
contabilizan el número de indiviiduos dividido por el
total.
 Frecuencias acumuladas absolutas y relativas:
Acumulan las frecuencias absolutas y relativas. Son
especialmente útiles
para calcular cuantiles (como veremos más adelante).
25
Parámetros y estadísticos

Parámetro: Es una cantidad numérica
calculada sobre una población.
 La altura media de los individuos de
un país.
 La idea es resumir toda la información
que hay en la población en unos
pocos números (parámetros).
Estadístico: Es una cantidad numérica calculada sobre una
población.
–La altura media de los que estamos en este aula.
•Somos una muestra (¿representativa?) de la población.
–Si un estadístico se usa para aproximar un parámetro también se le suele
llamar estimador.
26
Estadísticos de forma intuitiva
27
 Posición
Estadísticos
 Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles,...
 Centralización
 Indican valores con respecto a los que los datos parecen
agruparse.
• Media, mediana y moda
 Dispersión
 Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización.
• Desviación típica, varianza, coeficiente de variación, rango
 Forma
 Asimetría
 Apuntamiento o curtosis
28
Estadísticos de posición
 Se define el cuantil de orden a como un
valor de la variable por debajo del cual se
encuentra una frecuencia acumulada a.
 Casos particulares son los percentiles,
cuartiles, deciles, quintiles,...
29
 Percentil de orden k = cuantil de orden k/100
 La mediana es el percentil 50.
 El percentil de orden 15 deja por debajo al
15% de las observaciones. Por encima queda
el 85%.
 Cuartiles: Dividen a la muestra en 4 grupos con
frecuencias similares.
 Primer cuartil = Percentil 25 = Cuantil 0,25.
 Segundo cuartil = Percentil 50 = Cuantil 0,5 =
mediana.
 Tercer cuartil = Percentil 75 = cuantil 0,75.
30
CALCULO DE PERCENTILES
Precio de plato en 50 restaurantes de la ciudad
14
33
38
43
50
22
34
38
44
50
23
34
38
44
50
25
35
39
44
50
26
35
39
44
51
27
35
39
45
51
30
36
39
45
53
31
36
40
48
53
31
37
41
48
56
32
37
42
49
63
Min = 14 ; Max =63; Q1 = 34; Q3 = 45 ; Q2 = Mn = 39
Pn
 100
  f inf 
P  Li  
c
 f percentil 
Alcance intercuartil = Q3- Q1
p: percentil a calcular
n. número de datos
∑finf : suma de frec. Inferiores al percentil
Fpercentil: frecuencia del percentil
Li : limite inferior de la clase del percentil
Fa
1
3
6
11
23
31
39
48
49
50
Q1  34 
12.5  11
 34  0.125  34.125  34
12
Q2  39 
25  23
 39  0.25  39.25  39
8
Q3  44 
37.5  31
 44  0.81  44.81  45
8
OJIVA
Fr
1
0.75
0.50
0.25
0
Recorrido o
rango
intercuartílico
P25
Q1
P50
Q2
P75
Q3
P100
x
mediana
33
 Ejemplos: El 5% de los restaurantes tiene un precio
demasiado bajo. ¿Qué precio se consideran “demasiado
bajo”?
• Percentil 5 o cuantil 0,05.
p5  19 
2.5  1
 19  0.75  19.75  $20
2
 ¿Qué precio es superado sólo por el 25% de restaurantes?
• Percentil 75.
37.5  31
Q3  44 
8
 44  0.81  44.81  45
 El 90% de los precios son normales. ¿Entre qué valores se
encuentran los precios extremos?
• Entre el percentil 5 y el 95.
 ¿Entre qué valores se encuentran la mitad de precios
normales” de la muestra?
• Entre 1º y 3º cuartil (Q1 y Q3).
34
Medidas de Centralización
 Añaden unos cuantos casos particulares a las medidas
de posición. Son medidas que buscan posiciones
(valores) con respecto a los que los datos muestran
tendencia a agruparse.
 Media („mean‟) Es la media aritmética (promedio) de los
valores de una variable. Suma de los valores dividido
por el tamaño muestral.
 Media de {2, 2, 3, 7} es (2+2+3+7)/4 = 3,5
 Conveniente cuando los datos se concentran
simétricamente con respecto a ese valor. Muy
sensible a valores extremos.
 Centro de gravedad de los datos.
35
MEDIDAS DE CENTRALIZACIÓN DE DATOS AGRUPADOS
Media Aritmética: para calcular la media aritmética de datos agrupados en una
distribución de frecuencias, asumimos que cada clase esta representada por el
punto medio de la clase (marca de clase).

x
 fx  16 1  21  2  26  3  ...  61 1
n
50
x
16  1  21  2  ...  61  1 1995


 39.9
x
50
50

f : frecuencia de cada clase
x : marca de clase o valor medio
fx: frecuencia por el valor medio de la clase
∑fx: es la suma de los productos fx
n: número total de frecuencias o de datos.
Intervalos
x
f
fx
14 – 18
16
1
16
19 – 23
21
2
42
24 – 28
26
3
78
29 – 33
31
5
155
34 – 38
36
12
432
39 – 43
41
8
328
44 – 48
46
8
368
49 – 53
51
9
459
54 – 58
56
1
56
59 – 63
61
1
61
Medidas de Centralización
 Mediana („median‟) Es un valor que divide a las
observaciones en dos grupos con el mismo número de
individuos (percentil 50). Si el número de datos es par,
se elige la media de los dos datos centrales.
 Mediana de 1, 2, 4, 5, 6, 6, 8 es 5
 Mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2 = 5.5
 Es conveniente cuando los datos son
asimétricos. No es sensible a valores extremos.
• Mediana de 1, 2, 4, 5, 6, 6, 800 es 5. ¡La
media es 117,7!
 Moda
(„mode‟) Es el(los) valor(es) donde
distribución de frecuencia alcanza un máximo.
la
37
Altura mediana
38
Medidas de Centralización
 Mediana :La mediana es el valor por debajo se encuentran la
mitad de los datos y por encima la otra mitad. Como los datos
se han organizados en distribuciones de frecuencias se ha
perdido algo de información. Por lo usaremos la siguiente
fórmula.
 n   f acum 
c
Me  Li   2

f m ediana 


25  23
Me  39 
 5  39  1.25  40.25
8
Li : Limite inferior de la clase que contiene a la
mediana.
n : es el número de datos
fmediana:frecuencia de la clase mediana
∑facum: es el valor de la frecuencia acumulada
en las clase que preceden a la clase que
contiene a la mediana.
c: es el valor del tamaño de la clase mediana.
Intervalos
x
f
Fa
14 – 18
16
1
1
19 – 23
21
2
3
24 – 28
26
3
6
29 – 33
31
5
11
34 – 38
36
12
23
39 – 43
41
8
31
44 – 48
46
8
39
49 – 53
51
9
48
54 – 58
56
1
49
59 – 63
61
1
50
Medidas de Centralización
 Moda:La moda para datos agrupados se encuentra en la
clase con mayor frecuencia. El problema de la moda es que
puede haber más de una clase que la contenga.
 1
Mo  Li  
 1   2

  c

Intervalos
x
f
Fa
14 – 18
16
1
1
19 – 23
21
2
3
Li : Limite inferior de la clase que contiene a la
moda.
c: es el valor del tamaño de la clase modal
24 – 28
26
3
6
29 – 33
31
5
11
34 – 38
36
12
23
∆1: diferencia entre las frecuencias de la clase
modal y la clase contigua inferior a la clase
modal.
39 – 43
41
8
31
44 – 48
46
8
39
49 – 53
51
9
48
∆2:diferencia entre las frecuencia de la clase
modal y la clase contigua superior a la clase
modal.
54 – 58
56
1
49
59 – 63
61
1
50
Me  34 
7
 5  34  8.75  40  42.75
4
Relación entre la media, la mediana y la moda
Cuando los datos son sesgados es mejor emplear la Md
Propiedades, ventajas y desventajas de la
media
Propiedades:
 La suma de las diferencias entre las media muestral y
el valor de cada observación es cero.
 La media de una constante es la constante.
 Si todas las observaciones xi se multiplican por una
constante a, la X también se debe multiplicar por ese
mismo valor constante.
Propiedades, ventajas y desventajas de la
media
 Si se somete a una variable estadística X a un
cambio de origen y escala, Y = a + bX, la media
aritmética de dicha variable X varía en la misma
proporción.
 La media de la suma de dos variables es igual a
la suma de sus medias.
Propiedades, ventajas y desventajas de la
media
Ventajas:
 Emplea en su cálculo toda la información
disponible.
 Se expresa en las mismas unidades que la
variable en estudio.
 Es el centro de gravedad de toda la distribución,
representando a todos los valores observados.
 Es una valor único.
Propiedades, ventajas y desventajas de la
media
 Se trata de un concepto familiar para la mayoría
de las personas.
 Es útil para llevar a cabo procedimientos
estadísticos como la comparación de medias de
varios conjuntos de datos.
Propiedades, ventajas y desventajas de la
media
Desventajas:
 Se ve adversamente afectada por valores extremos,
perdiendo representatividad.
 Si el conjunto de datos es muy grande puede ser
tedioso su cálculo manual.
 No se puede calcular para datos cualitativos.
 No se puede calcular para datos que tengan clases de
extremo abierto, tanto superior como inferior.
Ventajas y desventajas de la mediana
Ventajas:
 Fácil de calcular si el número de
observaciones no es muy grande.
 No se ve influenciada por valores
extremos, ya que solo influyen los
valores centrales.
 Fácil de entender.
Ventajas y desventajas de la mediana
 Se puede calcular para cualquier tipos de
datos cuantitativos, incluso los datos con
clase de extremo abierto.
 Es la medida de tendencia central más
representativa en el caso de variables que
solo admiten la escala ordinal.
Ventajas y desventajas de la mediana
Desventajas:
 No utiliza en su “cálculo” toda la
información disponible.
 No pondera cada valor por el número de
veces que se ha repetido.
 Hay que ordenar los datos antes de
determinarla.
Ventajas y desventajas de la moda
Ventajas:
 No requiere cálculos.
 Puede usarse para datos tanto
cuantitativos como cualitativos.
 Fácil de interpretar.
 No se ve influenciada por valores
extremos.
 Se puede calcular en clases de extremo
abierto.
Ventajas y desventajas de la moda
Desventajas:
 Para conjuntos pequeños de datos su
valor no tiene casi utilidad, si es que de
hecho existe. Solo tiene significado en
el caso de una gran cantidad de datos.
 No utiliza toda la información
disponible.
 No siempre existe, si los datos no se
repiten.
MEDIDAS DE VARIABILIDAD
 Varianza S2 („Variance‟): Mide el promedio de las desviaciones (al
cuadrado) de las observaciones con respecto a la media.
_
Sean 2, 2, 3, 7:
S2 

X  3.5

1
(2  3.5) 2  (2  3.5) 2  (3  3.5) 2  (7  3.5) 2  4.25
4
1
2
S   ( xi  x )
n i
2
 Es sensible a valores extremos (alejados de la media).
 Sus unidades son el cuadrado de las de la variable.
 Desviación típica o estandar („standard deviation‟) Es la raíz
cuadrada de la varianza. Tiene las misma dimensionalidad
(unidades) que la variable.
S
S2
S  4.25  2.06
52
VARIABILIDAD PARA DATOS AGRUPADOS
 fx 
(1995) 2
 Varianza S2:.
fx


84165 
n
2
2
S2 
50
50  1
S2 
n 1
Intervalos
x
x2
f
fx
fx2
14 – 18
16
256
1
16
256
19 – 23
21
441
2
42
882
24 – 28
26
676
3
78
2028
29 – 33
31
961
5
155
4805
34 – 38
36
1296
12
432
15552
39 – 43
41
1681
8
328
13448
44 – 48
46
2116
8
368
16928
49 – 53
51
2601
9
459
23409
54 – 58
56
3136
1
56
3136
59 – 63
61
3721
1
61
3721
1995
84165
S2 
84165  79600.5
50  1
S 2  93.15
S  9.65
53
 Centrados en la media y a una desviación típica de
distancia tenemos
observaciones (izq.)
más
de
la
mitad
de
las
 A dos desviaciones típicas las tenemos a casi todas
(dcha.)
54
 Coeficiente de variación
 Es la razón entre la desviación típica y la media.
 Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media”
 También se la denomina variabilidad relativa.
 Es frecuente mostrarla en porcentajes
S
CV 
x
• Si la media es 80 y la desviación típica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa)
 Es una cantidad adimensional. Interesante para comparar
la variabilidad de diferentes variables.
 Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan más dispersión en peso que en altura.
 No debe usarse cuando la variable presenta valores
negativos o donde el valor 0 sea una cantidad fijada
arbitrariamente
 Por ejemplo 0ºC ≠ 0ºF
 Los ingenieros electrónicos hablan de la razón „señal/ruido‟
(su inverso).
55
Medidas de Forma: Asimetría
Coeficiente de Asimetría de Pearson:
 Fácil de calcular e interpretar.
 Cálculo:

3 X  Md
ASP 
s

o Interpretación:
= 0, X=Md Simétrica
ASP
> 0, X>Md Asimétrica Positiva
< 0, X<Md Asimétrica Negativa
Medidas de Forma: Asimetría
Coeficiente de Asimetría de Fisher:
 No es de fácil cálculo, pero si su interpretación.
 x  X 
n
ASF 
i 1
3
i
ns
 M
k
ASF 
i 1
Datos NO agrupados
3

3
i
 x  fi
Datos Agrupados
ns
3
Asimetría o sesgo
 Una distribución es simétrica si
la mitad izquierda de su
distribución es la imagen
especular de su mitad derecha.
 En las distribuciones simétricas
media y mediana coinciden. Si
sólo hay una moda también
coincide.
 La asimetría es positiva o
negativa en función de a qué
lado se encuentra la cola de la
distribución.
 La media tiende a desplazarse
hacia las valores extremos
(colas).
 Las discrepancias entre las
medidas de centralización son
58
Medidas de Forma: Asimetría
o Interpretación:
= 0, Simétrica
ASF
> 0, Asimétrica Positiva
< 0, Asimétrica Negativa
Medidas de Forma: Kurtosis
 Miden si los valores de la distribución
están más o menos concentrados
alrededor de los valores medios de la
muestra (zona central de la distribución).
 Se definen tres tipos de distribución según
su grado de Kurtosis:
Medidas de Forma: Kurtosis
 Leptocúrtica: grado de concentración elevado.
 Mesocúrtica: grado de concentración medio
alrededor de los valores centrales de la variable.
 Platicúrtica: grado de concentración reducido.
Medidas de Forma: Kurtosis
n
CK 
 x
i 1
i
X
4
3
ns 4
Datos No Agrupados
k
CK 
4


M

X
 fi
 i
i 1
ns
4
3
Datos Agrupados
Interpretación:
=0 Mesocúrtica
CK
>0 Leptocúrtica
<0 Platicúrtica
Apuntamiento o curtosis (kurtosis)
 La curtosis nos indica el grado de apuntamiento
(aplastamiento) de una distribución con respecto a la
distribución normal o gaussiana.
Es adimensional.
 Platicúrtica: curtosis < 0
Los gráficos poseen la misma media y
 Mesocúrtica: curtosis = 0 desviación típica, pero diferente grado
 Leptocúrtica: curtosis > 0 de apuntamiento o curtosis.
400
300
160
140
300
200
120
200
100
100
60
40
45 48 51 54 57 60 63 66 69 72 75 78 81 84
Platicúrtica
100
Frecuencia
Frecuencia
80
0
27
37
32
45
41
Mesocúrtica
53
49
61
57
69
65
77
73
85
81
0
3
93
89
99
27
16
37
32
47
42
Leptocúrtica
57
52
67
62
77
72
87
82
97
92
63
108
102 138
Medidas de dispersión
Miden el grado de dispersión (variabilidad)
de los datos, independientemente de su causa.
Amplitud o Rango („range‟):
La diferencia entre las
observaciones extremas.
 2,1,4,3,8,4. El rango es 8-1=7
 Es muy sensible a los valores
extremos.
Rango intercuartílico („interquartile range‟):
 Es la distancia entre el primer y tercer cuartil.
• Rango intercuartílico = P75 - P25
 Parecida al rango, pero eliminando las observaciones más
extremas inferiores y superiores.
 No es tan sensible a valores extremos.
64
Desigualdad de Chebyshev (1821-1894)
Si un conjunto de datos posee una varianza pequeña
no existirán "muchos valores" alejados de la media.
Precisemos: sea el intervalo alrededor de la media:
x  k  xi  x  k
A
1
2
S   ( xi  x )  f i
n i
1
1
2
2
2
S 
(
x

x
)

f

(
x

x
)
 fi


i
i
i
n i dentro
n i fuera
del entorno
del entorno


 


2
0
0
65
Demostración:
1
S 
n
2
1
( xi  x )  f i 

n
i fuera
2
del entorno
1
k S
n
2
1
n
2
f
k
2
S  fi 
2
i fuera
del entorno
i
i fuera
del entorno
1
fi  2

k
i fuera
La frecuencia relativa de los
datos que caen fuera del intervalo
de centro media y radio k veces
la varianza es igual o menor que
1/k2
del entorno
66
La desviación típica es menor a todas las desviaciones
cuadráticas respecto a cualquier promedio m
d
2
(
x

y
)
 2 ( xi  y)  0

i
dy i
i
 2 xi  2 y  0
i
i
 x   y  ny
i
i
i
1
y   xi  x
n i
67
“ Add your company slogan ”
www.jrvargas.wordpress.com
LOGO