Download Estadística Descriptiva - Universidad Politécnica de Madrid

Document related concepts
no text concepts found
Transcript
Cálculo y EstadísTICa. Primer Semestre.
EstadísTICa
Curso Primero
Graduado en Geomática y Topografía
Escuela Técnica Superior de Ingenieros en Topografía, Geodesia y Cartografía.
Universidad Politécnica de Madrid
Capítulo I
ESTADÍSTICA DESCRIPTIVA
Manuel Barrero Ripoll.
Mª Ángeles Castejón Solanas.
Mª Luisa Casado Fuente.
Luis Sebastián Lorente.
Departamento de Ingeniería Topográfica y Cartografía
Universidad Politécnica de Madrid
2-I
I. ESTADÍSTICA DESCRIPTIVA
1.1 Conceptos generales
5
1.2 Tipos de variable estadística
1.3
5
Distribución de frecuencia. Sumario estadístico 6
1.4 Agrupación en intervalos
1.5 Representaciones gráficas
9
10
1.5.1 Representación gráfica de variables estadísticas discretas
1.5.1.1
Diagrama de barras
1.5.1.2
Polígono de frecuencia
1.5.1.3
Polígono de frecuencias acumuladas
11
1.5.2 Representación gráfica de variables estadísticas discretas con valores
agrupados en intervalos
12
1.5.2.1
Histograma de frecuencias
1.5.2.2
Polígono de frecuencias
1.5.2.3
Polígono de frecuencias acumuladas
1.5.3 Representación gráfica de variables estadísticas cualitativas
14
1.5.3.1 Diagrama de barras
1.5.3.2 Diagrama de sectores
1.6
Los gráficos en EXCEL 15
1.7
Parámetros estadísticos. Introducción 17
1.8
Medidas de posición y centralización 18
1.8.1 Moda
1.8.2 Mediana
1.8.3 Cuantiles
1.8.4 Media aritmética. Propiedades
1.9
Cálculo con EXCEL de los parámetros de posición y tendencia central de un
conjunto de datos individualizados
23
3-I
1.10
Medidas de Dispersión
25
1.10.1 Rango de la variable estadística
1.10.2 Rango intercuartílico
1.10.3 Varianza y desviación típica. Propiedades
1.10.4 Cuasivarianza o Varianza muestral. Propiedades
1.10.5 Coeficiente de variación de Pearson. Propiedades
1.11 Cálculo con EXCEL de los parámetros de dispersión de un conjunto de datos
individualizados
1.12 Momentos
28
28
1.12.1 Relaciones entre los momentos
1.12.2 Cálculo con EXCEL de los parámetros estadísticos cuando los datos
están agrupados
1.13 Medidas de forma 29
1.13.1 Coeficiente de asimetría de Pearson
1.13.2 Coeficiente de asimetría de Fisher
1.13.3 Coeficiente de apuntamiento o curtosis
1.14 Errores en las observaciones 32
1.14.1 Valores atípicos. Outliers
1.14.2 Gráficos de caja. Boxplot
4-I
UNIVERSIDAD POLITÉCNICA DE MADRID
I. ESTADÍSTICA DESCRIPTIVA
1.1 Conceptos generales.
La Estadística es la ciencia que trata de la teoría y de la aplicación de métodos apropiados
para representar, resumir y analizar datos, así como realizar inferencias o pronósticos a partir
de los mismos.
Por su enfoque, se puede clasificar en Estadística Descriptiva e Inferencia Estadística.
La Estadística Descriptiva tiene como objetivo el tratamiento numérico y gráfico de los datos
procedentes de un colectivo, con objeto de describir o resaltar algunas de las propiedades de
dicho colectivo.
El objetivo de la Inferencia Estadística es el estudio de las técnicas que permiten la
realización de pronósticos sobre la población a partir de una muestra.
Para el estudio de la estadística descriptiva, comenzamos abordando los siguientes conceptos:
o Población y Muestra.
o Variable estadística.
o Frecuencias y distribuciones estadísticas.
o Representaciones gráficas.
Población y Muestra
o Una población estadística es un conjunto de elementos del cual nos interesa estudiar
alguna característica común.
o Una muestra es un subconjunto de la población estadística.
o La característica común que estudiamos de una población se denomina variable
estadística. La variable estadística presentara diversas modalidades que serán los
posibles valores que puede tomar la variable.
De una población de marcas de coche podemos estudiar entre otras las siguientes
variables estadísticas:
Variable estadística “Carrocería”
Berlina.
Modalidades Todo terreno.
Familiar.
“Potencia en c.v.”
65, 83, 92, 115, 130,…
Variable estadística “Combustible”
Gasolina 95.
Modalidades
Gasolina 98.
Gasoil
“Anchura del vehículo (mm)”
1670, 1725, 1810,…
Tabla 1.1
1.2
Tipos de variable estadística. Según sea la naturaleza de los valores, la variable
estadística puede clasificarse en dos grupos:
[email protected]
Escuela Técnica Superior de Ingenieros en Topografía Geodesia y Cartografía
5-I
•
Cualitativas. Cuando los valores que toma la variable no son numéricos.
o La carrocería de un vehículo (variable estadística).
Berlina, Todo terreno, Familiar… (valores o modalidades)
•
Cuantitativas. Cuando los valores que toma la variable son números reales.
o Potencia en c.v. (variable estadística).
65, 83, 92, 115, 130,… (valores o modalidades)
Las variables cuantitativas se clasifican en discretas y continuas.
• Una variable estadística cuantitativa es discreta si sus posibles valores pertenecen a
un conjunto numerable. El caso más frecuente es aquél en que los posibles valores son
números naturales; por ejemplo, el número de asientos de un coche es una variable estadística
discreta.
• Una variable estadística cuantitativa es continua si sus posibles valores pertenecen
a un conjunto no numerable, en general valores de ℜ o de un intervalo de ℜ ; por ejemplo, la
anchura del vehículo es una variable estadística continua
1.3
Distribución de Frecuencia. Sumario estadístico. El estudio de las
distribuciones de frecuencia tiene como objeto construir tablas verticales u horizontales que se
utilizarán para una mejor presentación e interpretación de los datos obtenidos en la muestra.
En la primera columna (fila) se escriben los valores de la variable y en la segunda el número
de veces que se repite el valor de la variable.
Se distinguen cuatro tipos de frecuencias:
o
o
o
o
Frecuencia absoluta ni.
Frecuencia relativa fi.
Frecuencia absoluta acumulada Ni.
Frecuencia relativa acumulada Fi.
Frecuencia absoluta del valor xi . Llamamos frecuencia absoluta (ni) del valor xi de una
variable estadística X, al número ni de veces que se repite el valor xi.
xi
ni
La suma de todas las frecuencias absolutas, es el número total de elementos
x1
n
1
que componen la muestra y que representamos por n.
k
n1 + n 2 + ... + n k = ∑ n i = n
i =1
La tabla (1.3.1) formada por los valores de la variable junto con sus
respectivas frecuencias absolutas se denomina distribución de frecuencias
absolutas.
[email protected]
6-I
x2
n2
.
.
xk
.
.
nk
n
Tabla 1.3.1
I. ESTADÍSTICA DESCRIPTIVA
La distribución de frecuencias absolutas de la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} es:
xi
1
ni
3
2
3
4
2
4
1
Tabla 1.3.2
La frecuencia absoluta del valor xi =3 es ni =4. Se ha obtenido cuatro veces el valor tres.
• Frecuencia relativa del valor xi . Llamamos frecuencia relativa (fi) del valor xi de una
variable estadística X, al cociente entre la frecuencia absoluta y el número n de elementos que
componen la muestra.
Xi
fi
ni
fi =
x1
f1
n
x2
f2
La suma de todas las frecuencias relativas es igual a la unidad.
.
.
.
.
k
k
ni
xk
fk
fi = ∑ = f1 + ... + f k = 1
∑
1
i =1
i =1 n
Tabla 1.3.3
La tabla (1.3.3), formada por los valores de la variable junto con sus respectivas frecuencias
relativas, se denomina distribución de frecuencias relativas.
La distribución de frecuencias relativas de la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} es:
Xi
fi
1
2
0.3 0.2
3
0.4
4
0.1
Tabla 1.3.4
La frecuencia relativa del valor xi = 3 es fi = 0.4. El valor 3 aparece en la proporción de 4/10 y,
por consiguiente, el 40% de las veces.
Xi
x1
Ni
N1
x2
N2
.
.
.
.
Nk = n
xk
• Frecuencia absoluta acumulada Ni . Lamamos frecuencia
absoluta acumulada (Ni) del valor xi de una variable estadística X, a la
suma de las frecuencias absolutas de los valores inferiores o iguales a xi,
por tanto,
i
Ni = ∑ n j y se verifica Nk = n
j=1
Tabla 1.3.5
Xi
1
2
3
4
Ni
3
5
9
10
La tabla (1.3.6) es la distribución de frecuencias absolutas acumuladas de
la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}.
La frecuencia absoluta acumulada del valor x=3 es Ni=9. Se han obtenido
nueve veces valores menores o iguales que 3.
Tabla 1.3.6
[email protected]
7-I
• Frecuencia relativa acumulada Fi . Llamamos frecuencia relativa acumulada (Fi)
del valor xi al cociente entre la frecuencia absoluta acumulada Ni y el nº total de elementos n,
así pues
Xi
Fi
N
Fi = i
F1
x1
n y se verifica F = 1 .
k
La tabla (1.3.8) es la distribución de frecuencias relativas
acumuladas de la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}.
Xi
Fi
1
0.3
2
0.5
x2
F2
.
.
xk
.
.
Fk = 1
Tabla 1.3.7
4
1
3
0.9
Tabla 1.3.8
La proporción de valores menores o iguales que 3 es 0.9 y, por tanto, el 90%.
Xi
1
2
3
4
ni
3
2
4
1
10
fi Ni
0.3 3
0.2 5
0.4 9
0.1 10
1
También es frecuente usar una tabla llamada sumario
estadístico, en la que aparecen los valores de la variable junto
con los valores de los distintos tipos de frecuencia.
Fi
0.3
0.5
0.9
1
El sumario estadístico para la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}
puede adoptar la forma de la tabla (1.3.9).
Tabla 1.3.9
Las distribuciones y tablas anteriores se utilizan cuando se realizan pocas observaciones y, por
tanto, la variable tiene pocos valores distintos; o, aunque haya un gran número de
observaciones, existen pocos valores de la variable distintos. Cuando los distintos valores de
la variable son muchos, las tablas anteriores no son eficaces ya que su comprensión es más
difícil a medida que aumenta el número de valores distintos de la variable. Es por ello que se
debe agrupar la variable en intervalos adecuadamente elegidos, y en tal caso, se dice que la
variable es continua por intervalos.
Ejemplo 1.- Los siguientes valores, proceden de un examen realizado a 80 estudiantes, y cuyo
rango teórico de valores es de 0 a 10.
3.6
4.9
4.5
5.5
5.4
4.3
5.0
4.6
4.6
5.3
4.5
5.0
4.8
5.1
5.9
4.6
5.1
4.9
5.3
6.0
4.6
3.9
4.9
5.0
6.1
4.8
4.3
5.0
3.8
6.0
4.9
4.5
5.1
4.9
6.3
4.9
4.6
5.1
5.3
5.8
5.0
4.7
5.5
5.7
5.9
5.1
4.8
5.6
5.7
5.8
5.8
5.3
5.2
5.2
5.2
4.4
4.6
4.3
5.2
4.6
4.5
5.2
4.8
5.0
5.1
5.0
4.9
4.9
5.2
4.2
5.6
5.8
4.3
5.4
5.3
4.6
4.8
5.3
5.1
4.0
Observamos que hay una gran cantidad de valores distintos, por ello, agrupamos los datos en
intervalos como se puede observar en la tabla (1.3.10). De esta forma, la presentación de los
datos y de los gráficos son más fáciles de asimilar.
[email protected]
8-I
I. ESTADÍSTICA DESCRIPTIVA
Intervalo
[3.5 – 4)
[4 – 4.5)
[4.5 – 5)
[5 – 5.5)
xi
3.75
4.25
4.75
5.25
ni
3
7
26
28
fi
3/80
7/80
26/80
28/80
Ni
3
10
36
64
Fi
3/80
10/80
36/80
64/80
[5.5 – 6)
[6 – 6.5]
Sumas
5.75
6.25
12
4
80
12/80
4/80
1
76
80
76/80
1
Tabla 1.3.10
1.4 Agrupación en intervalos. Para elaborar y entender este tipo de agrupaciones
necesitamos primeramente estudiar algunas nuevas definiciones y establecer algunos criterios
previos.
Intervalo
xi
ni
Llamamos e0 < e1 < e2 < ... < e k a los extremos de los intervalos en
[eo - e1)
x1
n1
los que agrupamos la variable estadística.
[e1 - e2)
...
[ei-1 - ei)
...
x2
...
xi
...
n2
...
ni
...
[ek-1 - ek]
xk
nk
Definimos amplitud del intervalo ai como la diferencia
a i = ei − ei −1 . El punto medio xi de cada intervalo se denomina
centro o marca del intervalo x i =
ei + ei −1
.
2
Tabla 1.4.1
Definimos rango o recorrido de la variable como la diferencia
entre el valor máximo y el valor mínimo de la variable.
Designamos por (ni) al número de observaciones que quedan dentro del intervalo [ ei −1 , ei ) .
La agrupación de los datos en intervalos tiene la ventaja de simplificar los cálculos y el
inconveniente de la pérdida de información ya que, una vez que los valores son introducidos
en un mismo intervalo, pierden su valor real y asumen como valor el valor central del
intervalo. Por ello, debemos elegir los intervalos de forma que se equilibren los aspectos de
simplicidad y pérdida de información. Lo cual nos lleva a introducir algunas cuestiones
subjetivas y que a continuación exponemos.
Realización de las agrupaciones. Para evitar la pérdida de información es conveniente
(aunque no necesario) que se verifiquen las reglas siguientes:
• Los intervalos deben tener la misma amplitud. La anchura de cada intervalo se
obtendrá redondeando por exceso el cociente que resulte de dividir el rango de la variable
entre el número de intervalos elegido.
• Aunque no existe una regla fija, recomendamos construir un número de intervalos
próximo a
n o al número 1 + 3.3log10 (n) , y nunca más de 22 intervalos.
[email protected]
9-I
• Para que los gráficos y tablas sean más fáciles de comprender, es conveniente tomar
intervalos de forma que las amplitudes sean múltiplos o submúltiplos de 5 o de 10.
• Los intervalos deben solaparse sin ambigüedad. El criterio que seguiremos será
tomar intervalos de la forma [a, b), o bien, añadimos en los extremos un decimal más que los
utilizados por los valores de la muestra.
• Los intervalos deben ser homogéneos, es decir, no deben existir intervalos con más
del 30% ni menos del 5% del total de datos.
• Es importante que no existan intervalos con frecuencia cero.
En el ejemplo del examen realizado a los 80 estudiantes, los valores máximo y mínimo son 6.3
y 3.6 respectivamente, así pues, el rango de la variable es: r = 6.3 – 3.6 = 2.7
Deseamos intervalos con amplitudes múltiplos o submúltiplos de 5 y extremos de fácil lectura,
para ello, si redondeamos el rango a 3 y tomamos e0=3.5 con 6 intervalos, obtenemos
intervalos de amplitud 0.5.
Así pues, tomamos como extremo inferior del primer intervalo 3.5, y el valor 6.5 como
extremo superior del último intervalo (rango 3). Observen que de esta forma la amplitud de
cada intervalo es 0.5, los intervalos son homogéneos, no existen intervalos de frecuencia cero
y las notas superiores e inferiores a 5 quedan separadas.
Intervalo
[3.5 – 4)
[4 – 4.5)
[4.5 – 5)
[5 – 5.5)
[5.5 – 6)
[6 – 6.5]
Sumas
xi
3.75
4.25
4.75
5.25
5.75
6.25
ni
3
7
26
28
12
4
80
fi
3/80
7/80
26/80
28/80
12/80
4/80
1
Ni
3
10
36
64
76
80
Fi
3/80
10/80
36/80
64/80
76/80
1
Tabla 1.4.2
Procediendo de esta forma hemos obtenido el sumario estadístico de la tabla (1.4.2).
1.5 Representaciones gráficas. Una buena representación gráfica, junto con las tablas
de frecuencias anteriormente citadas, permiten captar rápidamente las características de la
muestra así como resumir y analizar los datos. De las muchas formas de representación gráfica
que existen, estudiaremos algunas de las más utilizadas y cómo se realizan con EXCEL.
Según sean los datos, las gráficas se pueden clasificar en:
• De Caracteres Cuantitativos.
– Variables estadísticas discretas.
[email protected]
10-I
I. ESTADÍSTICA DESCRIPTIVA
• Diagrama de barras. Polígonos de frecuencias. Polígonos de frecuencias
acumuladas.
– Variables estadísticas discretas con frecuencias agrupadas en intervalos.
• Histogramas. Polígonos de frecuencias. Polígonos de frecuencias acumuladas.
• De Caracteres Cualitativos.
• Diagrama de barras. Diagrama de sectores. Pictogramas.
1.5.1 Representaciones gráficas de las variables estadísticas discretas
1.5.1.1 Diagrama de barras. Para la construcción de este gráfico se parte de un sistema de ejes
coordenados: en el eje horizontal se representan los valores de la variable Xi y en el eje
vertical los valores de las frecuencias absolutas ni (o relativas fi). Este gráfico se puede realizar
mediante barras horizontales o verticales (columnas). La longitud de cada una de las barras
representa la frecuencia absoluta o frecuencia relativa de cada valor.
Ejemplo 2. La tabla (1.5.1) representa la puntuación obtenida en un test de 10 preguntas
realizado a 45 alumnos.
Puntuación
Nº de alumnos
0
1
1 2 3
2 3 5
4
9
5
6
6 7
5 5
8
4
9
3
10
2
Tabla 1.5.1
En el gráfico (1.5.1) representamos el diagrama de columnas (barras verticales)
correspondiente al test realizado por los 45 alumnos del ejemplo 2.
Diagrama de barras de frecuencias absolutas ni
10
8
6
4
2
0
0
1
2
3
4
5
6
7
8
9
10
Gráfico 1.5.1
En caso de utilizarse para comparar muestras distintas de una misma variable, se debe tener
precaución, ya que, en este caso, debemos usar frecuencias relativas para eliminar la
influencia visual que ejerce el tamaño de cada una de las muestras.
1.5.1.2 Polígono de frecuencias. Su construcción se realiza representando en un sistema de
ejes coordenados los puntos (x i , n i ) o (x i , f i ) , dependiendo de que se quiera representar el
polígono de frecuencias absolutas o el polígono de frecuencias relativas, uniéndose a
continuación dichos puntos mediante una poligonal.
[email protected]
11-I
Polígono de frecuencias absolutas ni
10
8
6
4
2
0
0
1
2
3
4
5
6
7
8
9
10
Gráfico 1.5.2
El gráfico (1.5.2) representa el polígono de frecuencias absolutas de los resultados del test del
ejemplo 2 de la página 12.
1.5.1.3 Polígono de frecuencias acumuladas. Se realiza de forma análoga al polígono de
frecuencias, pero utilizando los puntos (xi, Ni) o (xi, Fi), según se quiera representar el
polígono de frecuencias absolutas acumuladas o de frecuencias relativas acumuladas. A
continuación se unen de forma escalonada los puntos representados.
La tabla (1.5.2) y el gráfico (1.5.3) representan la distribución de frecuencias absolutas
acumuladas y el polígono de frecuencias absolutas acumuladas del resultado del test del
ejemplo 2 de la página 12.
Puntuación
0
1
2
3
4
5
6
7
8
9
10
Tabla 1.5.2
Ni
1
3
6
11
20
26
31
36
40
43
45
Polígono de frecuencias absolutas acumuladas Ni
50
40
30
20
10
0
0
1
2
3
4
5
6
Gráfico 1.5.3
7
8
9
10
1.5.2 Representaciones gráficas de variables estadísticas discretas con valores agrupados en
intervalos
1.5.2.1 Histograma de frecuencias. Se utiliza para representar datos que han sido agrupados
en intervalos. Se construye de forma análoga al diagrama de barras pero levantando para cada
intervalo un rectángulo. En este gráfico los rectángulos tienen que solaparse (variable
agrupada en intervalos) y el área de cada rectángulo será proporcional a la frecuencia (ni o fi)
del intervalo.
Si los intervalos son de igual amplitud, la altura hi de cada rectángulo será igual a la frecuencia
(ni o fi) ya que el área solo dependerá de la altura.
12-I
UNIVERSIDAD POLITÉCNICA DE MADRID
I. ESTADÍSTICA DESCRIPTIVA
Histograma del ejemplo 1
(Notas de examen realizado por 80 estudiantes)
30
Si algún intervalo es de distinta
amplitud, el cálculo de su altura (hi)
se efectuará hallando el cociente
n
f
ó h i  i , donde ai
hi  i
ai
ai
25
20
15
10
representa la amplitud del intervalo.
5
0
3.5 - 4
4 - 4.5
4.5 - 5
5 - 5.5
Gráfico 1.5.4
5.5 - 6
6 - 6.5
1.5.2.2 Polígono de frecuencias. En este gráfico representamos los puntos medios (xi, ni) o
(xi, fi) de cada intervalo y a continuación se unen los puntos mediante una poligonal.
La poligonal debe comenzar y
acabar cortando al eje de la
variable en los puntos medios
de los que serían un intervalo
anterior al primero y otro
posterior al último (variable
agrupada en intervalos). De esta
forma el área encerrada por el
polígono será n o 1, según que
utilicemos ni o fi.
Polígono de frecuencias de datos agrupados en intervalos.
Ejemplo 1. (Notas de examen realizado por 80 estudiantes)
30
25
20
15
10
5
0
3.25
3.75
4.25
4.75
5.25
5.75
6.25
6.75
Gráfico 1.5.5
1.5.2.3. Polígono de frecuencias acumuladas. Se trata de poder observar la acumulación de
frecuencias hasta un valor determinado de la variable; por ello, es muy útil para calcular
percentiles de una forma
Polígono de frecuencias acumuladas del ejemplo 1.
gráfica. El gráfico se
(Notas de examen realizado por 80 estudiantes )
obtiene al unir mediante
90
80
80
80
una poligonal los puntos
76
70
(ei, Ni) o (ei, Fi).
64
60
50
40
Al ser un gráfico de datos
agrupados en intervalos, el
polígono siempre empieza
en (e0, 0) y acaba en (ek, n)
ó (ek,1).
36
30
20
10
10
0
3
0
3.5
4
4.5
Q1
Q3
5
5.5
6
6.5
7
Gráfico 1.5.6
[email protected]
Escuela Técnica Superior de Ingenieros en Topografía Geodesia y Cartografía
13-I
1.5.3 Representaciones gráficas de variables estadísticas cualitativas. Existe una gran
multitud de gráficos para representar los datos de una muestra o población de una variable
estadística cualitativa. Nosotros solo mostramos algunos de ellos, y para ilustrar las gráficas
explicadas en este epígrafe utilizaremos el siguiente ejemplo.
Ejemplo 3.- Se pregunta a un grupo de 100 hombres y 125 mujeres sobre sus preferencias de
vehículos, siendo éstas las modalidades siguientes: BERLINA, 4X4, DEPORTIVO y
MONOVOLUMEN.
Los resultados obtenidos se reflejan clasificados por sexo en la siguiente tabla:
MODALIDADES
BERLINA
DEPORTIVO
4X4
MONOVOLUMEN
HOMBRES
ni
fi
50
0.50
5
0.05
10
0.10
35
0.35
100
1
MUJERES
ni
fi
75
0.6
20
0.16
5
0.04
25
0.2
125
1
Total
125
25
15
60
225
Tabla 1.5.3
1.5.3.1 Diagramas de barras. Para las variables cualitativas se pueden emplear los diagramas
de barras horizontales o en columnas. Ambos consisten en representar las frecuencias
mediante rectángulos horizontales o verticales, cuyas longitudes sean iguales a la frecuencia
absoluta de cada modalidad cualitativa.
Diagrama de barras. Hombres
Diagrama de barras. Mujeres
6
0
5
0
4
0
3
0
2
0
1
0
0
8
0
6
0
4
0
2
0
0
Berlina
Deportivo
4X4
Monovolumen
Berlina
Deportivo
4X4
Monovolumen
Ejemplo 3
Ejemplo 3
Gráfico 1.5.7
En el caso en que se desee comparar diferentes conjuntos con diferente número de elementos,
debemos utilizar la frecuencia relativa para evitar falsear la longitud de las barras.
Diagrama de barras. Ejemplo 3
0,7
0,6
0,5
0,4
Hombre s
Muje re s
0,3
0,2
0,1
0
Be rlina
De portivo
4X4
Gráfico 1.5.8
[email protected]
14-I
Monovolume n
Así en el ejemplo
anterior para comparar
las preferencias entre
los hombres y las
mujeres,
debemos
utilizar las frecuencias
relativas fi como en el
gráfico (1.5.8).
I. ESTADÍSTICA DESCRIPTIVA
1.5.3.2 Diagrama de sectores. La idea de este gráfico es semejante a la del diagrama de
rectángulos; se cambia la longitud de cada rectángulo por la amplitud en los ángulos o en el
área de los sectores en que se divide el círculo.
Diagrama de sectores
Ejemplo 3 (Mujeres)
Diagrama de sectores
Ejemplo 3 (Hombres)
Berlina
Deportivo
4X4
Monovolum en
35%
Berlina
50%
Deportivo
20%
4X4
4%
Monovolum en
10%
16%
60%
5%
Gráfico 1.5.9
Es la representación en la que el círculo aparece dividido en sectores, de forma que los
ángulos, y por tanto las áreas respectivas, sean proporcionales a las frecuencias.
1.5.3.3 Pictogramas. La idea de este gráfico es semejante a la del diagrama de rectángulos; la
variable se representa por un dibujo de tamaño proporcional a la frecuencia del valor de
variable.
1.5.3.3.1 Cartogramas. Son representaciones sobre mapas de la variable en estudio.
Usualmente los distintos valores de la variable se representan con colores distintos o distinta
intensidad; como ejemplo podemos observar el cartograma elaborado por el Instituto de
Estadística de la Comunidad de Madrid. Consejería de Economía y Consumo sobre “la renta
per cápita del año 2004 en la Comunidad de Madrid”.
[email protected]
15-I
1.6 Los gráficos en EXCEL. En el gráfico (1.6.1) se representan algunos de los elementos
más importantes de un gráfico de EXCEL. Una vez realizado el gráfico, si pulsamos con el
botón secundario del ratón en estas zonas podremos modificar el gráfico.
Diagram a de barras
Área del
gráfico
Eje de
valores
Líneas de
división
5
4
3
4
Título
4
Área de
trazado
4
3
A
2 2
2
1
0
1
1
2
3
Series
de datos
Leyenda
B
1
4
Rótulos
de datos
Gráfico 1.6.1
Para realizar con Excel los gráficos anteriormente estudiados, seleccionamos primeramente los
valores de la variable (modalidades) y sus frecuencias, y a continuación seleccionamos en el
menú Insertar y de él, el botón
De este modo aparece una pantalla como la que se muestra en la figura 1.6.1.
Figura 1.6.1
Pulsando la pestaña Aceptar, aparece el gráfico en la misma hoja como el de la figura 1.6.2.
[email protected]
16-I
I. ESTADÍSTICA DESCRIPTIVA
Observemos que, encima de la pestaña Diseño, aparece otra nueva una pestaña con el nombre
de Herramientas de gráficos y que, pulsando en ella, aparece una nueva barra (figura 1.6.3)
que permite realizar cambios en el gráfico.
Figura 1.6.3
También podemos realizar cambios en el gráfico pulsando el botón secundario del ratón; en
este caso, según la posición del puntero se obtienen unas opciones de cambio u otras.
1.7 Parámetros Estadísticos. Introducción
Los parámetros estadísticos son ciertos valores representativos de un conjunto de datos, en el
sentido de condensar en ellos la información contenida en dicho conjunto. Estos parámetros
estadísticos nos proporcionarán información acerca de la situación, dispersión y forma de los
datos. En este curso estudiamos las siguientes medidas o parámetros:
Medidas de posición y de centralización. Tienen por objeto dar una idea del valor o valores de
la variable, alrededor de los cuales se agrupa una cantidad de datos. Por su importancia
estudiaremos los siguientes:
Moda.
Media.
Mediana.
Cuantiles.
[email protected]
17-I
Cuartiles.
Deciles.
Percentiles.
Medidas de dispersión. Estas medidas determinan lo agrupada o dispersa que está la población
y por ello nos dan una idea de la mayor o menor concentración de los valores de la variable
alrededor de cierto valor. Por su importancia estudiaremos las siguientes:
Rango intercuartílico.
Varianza de la población y de la muestra.
Desviación típica de la población y de la muestra.
Coeficiente de variación.
Momentos no centrados.
Momentos centrados.
Medidas de forma. Tratan de identificar ciertas diferencias en la forma de la distribución con
respecto a un modelo determinado.
Coeficientes de Asimetría.
Coeficiente de Curtosis.
1.8 Medidas de posición y centralización
1.8.1 Moda M0. La moda de un conjunto de datos es el valor de la variable que tiene máxima
frecuencia absoluta ni, o relativa fi. Puede ser calculada tanto para variables cualitativas como
para variables cuantitativas.
La moda puede no ser única, o incluso no existir cuando todos los valores de la variable tienen
la misma frecuencia.
Cálculo de la moda. Si la variable no está agrupada en intervalos, se observa directamente el
valor de la variable que tiene mayor frecuencia absoluta o relativa.
Hallar la moda de los conjuntos de datos A = { 1, 1, 1, 2, 2, 3, 3, 3, 3, 4 },
1, 1, 1, 1, 2, 2, 3, 4, 4, 4, 4 } y C = {1, 2, 3, 4, 5, 6, 7, 8, 9}.
B ={
- En A la moda M0 es 3, por ser el valor más frecuente n=4.
- En B existen dos valores modales M0= 1 y 4, la frecuencia absoluta en ambos es n=4.
- En C no existe moda ya que todos los valores tienen igual frecuencia.
Si la variable está agrupada en intervalos, se define el intervalo modal como el intervalo que
tiene mayor frecuencia, y adoptamos como moda M0 el punto medio del intervalo modal.
[email protected]
18-I
I. ESTADÍSTICA DESCRIPTIVA
En la distribución de frecuencias de las notas del test del ejemplo 1,
intervalo [5 – 5.5) es el intervalo modal y su punto
Intervalo
medio x = 5.25 es el valor que adoptamos como moda.
[3.5 – 4)
[4 – 4.5)
La moda tiene la ventaja de ser fácil su cálculo, pero tiene
[4.5 – 5)
el inconveniente de que dos muestras con datos muy
[5 – 5.5)
parecidos pueden tener modas muy distintas.
[5.5 – 6)
Es importante observar que al agrupar en intervalos
[6 – 6.5]
perdemos información acerca del auténtico valor modal.
Sumas
observamos que el
xi
3.75
4.25
4.75
5.25
5.75
6.25
ni
3
7
26
28
12
4
80
fi
3/80
7/80
26/80
28/80
12/80
4/80
1
Tabla 1.8.1
1.8.2 Mediana M. Se define como el valor central de los
valores de la variable una vez que éstos han sido ordenados en sentido creciente. Por tanto, la
mediana M es un valor de la variable tal que el 50% de los datos son inferiores y el otro 50%
de los datos son superiores.
Cálculo de la mediana. En primer lugar ordenamos los datos de menor a mayor;
n
Si los datos no están agrupados en intervalos, pueden darse dos casos, que
sea entero o
2
que no lo sea.
n
no es un número entero, la mediana M es el valor de la variable que ocupa la
2
n
posición: parte entera del número + 1 .
2
n
es un número entero, la mediana se calcula hallando el valor central de los
• Si
2
n
n
valores de la variable que ocupan las posiciones: parte entera de los números
y +1 .
2
2
• Si
En el conjunto de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} observamos que los datos están
ordenados y n=10, por tanto, la mediana es M=2.5 que corresponde al punto medio de los
n
n
valores de la variable que ocupan las posiciones = 5 (x=2) y + 1 = 6 (x=3).
2
2
En el conjunto de datos B = {1, 1, 1, 1, 2, 2, 3, 4, 4, 4, 4} observamos que el número de datos
es impar y están ordenados. La mediana es el valor de la variable que ocupa el lugar parte
n
entera de
+ 1 = 6 , y por tanto, la mediana es M=2.
2
Si los datos están agrupados en intervalos, el cálculo se realiza de forma semejante a como
se realiza para datos no agrupados; la diferencia estriba en que, en vez de hallar el punto
medio, calculamos su valor por interpolación lineal.
[email protected]
19-I
Si
n
está en el intervalo [ei-1 , ei), se tiene:
2
Ni
ni
n/2
Ni-1
⇒
n
→h
- N i-1 
2
h
ei-1
n i 
→ ei - e i-1 = a i
ei
M
Gráfico 1.8.1
M = e i-1 + h .
La interpolación lineal anterior puede resumirse
n

 − Ni −1  a
2

en la formula: M = ei−1 + 
ni
Para calcular la mediana de datos agrupados en intervalos procedemos de la siguiente forma:
se localiza el primer intervalo cuya frecuencia acumulada supere la mitad de las observaciones,
esto es, 80/2=40; esta frecuencia acumulada está en el intervalo [5 – 5.5) que denominamos
intervalo mediano, por ser aquél que contiene a la
Intervalo
xi
ni
Ni
mediana. El valor de la mediana lo obtenemos
aplicando la fórmula anterior:
[3.5 – 4)
3.75
3
3
[4 – 4.5)
4.25
7
10
[4.5 – 5)
4.75
26
36
[5 – 5.5)
5.25
28
64
[5.5 – 6)
5.75
12
76
[6 – 6.5]
6.25
4
80
Sumas
M = 5+
( 40 − 36) ⋅ 0.5 = 5.07
28
La generalización del concepto de la mediana da
lugar a nuevas medidas de posición que llamaremos
cuantiles.
80
Tabla 1.8.2
1.8.3 Cuantiles. Son medidas de posición o de orden. En general dividen en dos partes a los
datos colocados en orden creciente y también determinan la posición de cada uno de los datos.
Los cuantiles más usados son los cuartiles, deciles y percentiles.
• Los cuartiles dividen los datos ordenados de la población en cuartas partes. Existen
tres cuartiles Q1, Q2 y Q3. El primer cuartil (Q1) es un valor de la población tal que el 25% de
los datos son menores y el 75% son mayores que él. El segundo cuartil se denomina mediana
(Q2=M). En el tercer cuartil (Q3) el 75% de los datos toman valores menores y el 25%
mayores.
• Existen 9 deciles y dividen a la población en diez partes iguales. Se llama decil de
orden α (D α ), al valor de la variable que divide a la población en dos partes de tal forma que
10 − α
α
del total de los datos tomen valores inferiores a D α y
del total de datos tomen
10
10
valores superiores, con α ∈ N y 0 < α < 10 .
[email protected]
20-I
I. ESTADÍSTICA DESCRIPTIVA
• Existen 99 percentiles y dividen a la población en cien partes iguales. Se llama
percentil de orden α (P α ) al valor de la variable que divide a la población en dos partes de
α
100 − α
del total de los datos tomen valores inferiores a P α y
tal forma que el
del total
100
100
tomen valores mayores, siendo α ∈ N y 0 < α <100.
El cálculo de los cuantiles se realiza de forma análoga al cálculo de la mediana.
3
n no es
4
un número entero; por tanto, el tercer cuartil es Q3=3, ya que es el valor de la variable que
3
ocupa el lugar: parte entera de n + 1 .
4
En el conjunto de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}, los datos están ordenados y
El decil sexto es el valor D6=3, que corresponde al valor medio de los valores de la variable
6
6
que ocupan las posiciones
n = 6 (x=3) y
n + 1 = 7 (x=3).
10
10
El percentil 40 coincide con el decil 4 y es el valor medio de los valores que ocupan los
40
40
n=4 y
n + 1 = 5 , así pues P40=2.
lugares
100
100
En el caso de que los datos estén agrupados en intervalos, el cálculo se realiza de forma
semejante a como se realiza para la mediana, pero todo referido al intervalo que contenga el
α
α
α
valor de las frecuencias n ,
n y
n , según sea el cuantil a calcular.
4
10
100
Por ejemplo, para el cálculo del percentil 80, localizamos el intervalo donde se encuentra P80,
y calculamos su valor por interpolación lineal.
Si
Ni
80n/100
n
Ni-1
h
ei-1
P80
Gráfico 1.8.2
ei
α
n está en el intervalo [ei-1 , ei);
100
n i 
→ ei − ei −1 = a i
α
n − Ni −1 
→h
100
⇒ Pα = ei −1 + h .
por tanto, la interpolación lineal anterior se
puede resumir en la formula:
 α

n − Ni −1  a i

100
 .
Pα = ei−1 + 
ni
[email protected]
21-I
El cálculo de algunos cuantiles del ejemplo 1 es:
1
n = 20
4
Q1
⇒
( 20 − 10) 0.5 = 4.69
= 4.5 +
26
.
( 60 − 36) 0.5 = 5.43
Q3 = 5 +
28
3
n = 60 ⇒
4
( 48 − 36 ) 0.5 ≈ 5.21
6
n = 48 ⇒ D6 = 5 +
10
28
( 76 − 76) 0.5 = 6
95
.
n = 76 ⇒ P95 = 6 +
100
4
Intervalo
xi
ni
Ni
[3.5 – 4)
3.75
3
3
[4 – 4.5)
[4.5 – 5)
[5 – 5.5)
4.25
4.75
5.25
7
26
28
10
36
64
[5.5 – 6)
5.75
12
76
[6 – 6.5]
Sumas
6.25
4
80
80
Tabla 1.8.3
X . Propiedades. Posiblemente es el parámetro estadístico más
conocido y utilizado. Se representa por X y se define como la suma de todos los valores del
conjunto de datos dividida por el número de datos; por tanto:
1.8.4 Media aritmética
X=
xi
ni
ni xi
1
2
3
4
3
2
4
1
10
3
4
12
4
23
k
n1x1 + n 2 x 2 + ... + n k x k 1 k
= ∑ n i x i = ∑ fi x i .
n
n i =1
i =1
La media del conjunto de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} es
X = 2.3 , ya que:
X=
3 ⋅1 + 2 ⋅ 2 + 4 ⋅ 3 + 1 ⋅ 4 23
=2.3
=
10
10
Tabla 1.8.4
Intervalo
xi
ni
ni xi
[3.5 – 4)
[4 – 4.5)
[4.5 – 5)
[5 – 5.5)
[5.5 – 6)
[6 – 6.5]
Sumas
3.75
4.25
4.75
5.25
5.75
6.25
3
7
26
28
12
4
80
11.25
29.75
123.5
147
69
25
405.5
El cálculo de la media también puede realizarse en
forma de tabla añadiendo una nueva columna con los
valores nixi.
Cuando las observaciones han sido agrupadas en
intervalos, el cálculo se realiza de la misma forma,
pero utilizando el valor central del intervalo como
valor de todas las observaciones que han sido
adjudicadas a dicho intervalo.
Tabla 1.8.5
La media del ejemplo de la tabla (1.8.5) es
X=
3 ⋅ 3.75 + 7 ⋅ 4.25 + 26 ⋅ 4.75 + 28 ⋅ 5.25 + 12 ⋅ 5.75 + 4 ⋅ 6.25 405.5
=
= 5.068
80
80
[email protected]
22-I
I. ESTADÍSTICA DESCRIPTIVA
Propiedades
1. Solo es aplicable para variables estadísticas cuantitativas.
2. No depende del orden en el que estén colocados los datos.
3. Es más representativa cuanto mayor sea la concentración de los valores alrededor
suyo y más simétrica sea la distribución.
4. Es muy sensible a la presencia de datos extremos.
5. La media de las desviaciones a la media es cero.
(
)
1 k
1 k
ni xi − X = 0
∑ ni xi − X = n ∑
n i=1
i =1
6. Si se multiplican todos los valores de la variable estadística X por una constante “a”,
la media queda multiplicada por la constante “a”.
aX =
1 k
1 k
=
an
x
n i x i = aX
∑ i i n a∑
n i =1
i =1
7. Si se suma una constante “b” a los n valores de la variable, la media queda aumentada
en dicho valor “b”.
b+X =
1 k
1
1 k
n
b
+
x
=
bn
+
(
)
∑ i
∑ ni xi = b + X
i
n i=1
n
n i =1
1.9 Cálculo con EXCEL de los parámetros de posición y tendencia central de
un conjunto de datos individualizados
A continuación exponemos un procedimiento para calcular estos parámetros utilizando las
correspondientes funciones específicas de EXCEL.
“=MODA(número1;[número2];…)”… Calcula la moda del rango de datos.
“=MEDIANA(número1;[número2];…)”… Calcula la mediana del rango de datos.
“=CUARTIL(matriz;cuartil)”… Calcula el valor de uno de los cuartiles. Matriz es el
rango de los datos y cuartil son los valores 1, 2, 3, para calcular Q1, Q2=M y Q3,
respectivamente.
=cuartil(matriz;3), calcula el tercer cuartil del rango de los datos.
”=PERCENTIL(matriz;k)”…Calcula el percentil 100k, donde k es un número entre 0 y 1.
=percentil(matriz;0.3) calcula el P30 que coincide con D3.
“=PROMEDIO(número1;[número2];…)”… Calcula la media del rango de datos.
[email protected]
23-I
Como ejemplo, usaremos los conjuntos de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}, B = {1, 1, 1,
1, 2, 2, 3, 4, 4, 4, 4} y C = {1, 2, 3, 4, 5, 6, 7, 8, 9}.
Escribimos en sucesivas casillas las fórmulas de los parámetros que deseamos calcular, por
ejemplo, para el cálculo del cuartil tercero; en la celda 17,B hemos
escrito:”=cuartil(B2:B11;3)”.
Además, podemos añadir unos rótulos útiles, como se muestra en el gráfico 1.9.1.
Notemos
que
algunos
parámetros calculados por
EXCEL no coinciden con
algunas de las definiciones
dadas.
Figura 1.9.1
[email protected]
24-I
Por ejemplo, la moda del
conjunto B nos indica sólo
un valor modal en vez de
dos; en el conjunto C la
moda es indicada con
#N/A, es decir, no existe
valor modal. El primer y
tercer cuartil de los
conjuntos de datos A y B
son distintos de los que
obtendríamos nosotros. La
diferencia es debida a que
se
utilizan
criterios
distintos.
Cuando
el
percentil buscado es un
valor exacto de la serie de
datos, nosotros tomamos
como valor del percentil el
punto medio de los valores
α
que ocupan los lugares n
4
α
y
n + 1 , mientras que
4
EXCEL interpola entre
dichos valores.
I. ESTADÍSTICA DESCRIPTIVA
1.10 Medidas de Dispersión
Como dijimos anteriormente, la media es más representativa cuanto mayor sea la
concentración de los valores alrededor suyo; por ello, uno de los objetivos de las medidas de
dispersión es el estudio de diferentes parámetros que nos indiquen el grado de alejamiento de
los datos respecto de algún parámetro central.
1.10.1 Rango o recorrido de la variable estadística (Re). Se define como la diferencia entre el
máximo y el mínimo valor de la variable. Es una medida muy sencilla de calcular, pero, poco
robusta, pues solo tiene en cuenta los valores extremos.
Para los datos del conjunto A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4},
Re=xmax-xmin=4-1=3.
Para evitar la influencia en el rango de los datos con valores extremos, suele ser frecuente
utilizar el rango intercuartílico.
1.10.2 Rango o recorrido intercuartílico (IQR). La diferencia entre el tercer y el primer
cuartil se denomina recorrido o rango intercuartílico y se representa por IQR.
Es fácil observar que el rango intercuartílico contiene el 50% de las observaciones centrales.
IQR = Q3 − Q1
Su cálculo es muy sencillo, y es una medida muy robusta en el sentido de no estar
influenciada por la presencia de valores extremos.
Del ejemplo 1, sabemos que Q3=5.43 y Q1=4.69, por tanto, IQR=0.74.
1.10.3 Varianza (σ2) y desviación típica (σ) poblacionales. Propiedades. Al igual que la
media en las medidas de posición, la varianza es la medida de dispersión más utilizada. Ambas
suelen formar parte de muchas definiciones y estudios estadísticos. La varianza mide la
dispersión de los valores de la variable respecto de la media. Cuanto mayor sea la varianza,
menos representativa es la media.
Se define la varianza poblacional, o simplemente varianza (σ2), de un conjunto de datos,
como la media de los cuadrados de las diferencias a la media.
σ2 =
(
1 k
∑ ni xi − X
n i =1
)
2
Se define desviación típica ( σ ) de la población, como la raíz cuadrada de la varianza.
∑ n (x
k
σ=
i =1
i
i
−X
)
2
n
[email protected]
25-I
Calcular la varianza y la desviación típica de los datos {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}.
Por ser la media X = 2.3 , la varianza es
3(1 − 2.3)2 + 2(2 − 2.3) 2 + 4(3 − 2.3) 2 + 1(4 − 2.3) 2
σ =
= 1.01
10
2
y la desviación típica
σ = 1.01 = 1.005
Propiedades de la varianza
I.
La varianza es siempre positiva.
II. Si se multiplican todos los valores de la variable por una constante “a”, la varianza
queda multiplicada por la constante “a2”.
Si y = ax entonces:
(
III.
)
(
)
k
2
2
1 k
1
n i yi − Y = a 2 ∑ n i x i − X = a 2σ 2x .
∑
n i =1
n i =1
Si sumamos una constante “b” a los valores de la variable, la varianza no cambia.
Si y = b + x entonces:
σ2y =
(
)
(
)
(
)
2
2
2
1 k
1 k
1 k
n
y
Y
n
(b
x
)
(b
X)
n i x i − X = σ2x
−
=
+
−
+
=
∑
∑
∑
i
i
i
i
n i =1
n i =1
n i =1
IV. La varianza es la media de los cuadrados de la variable, menos el cuadrado de la media
de la variable.
2
2
2
1 k
1 k
1 k
2
2
σx = ∑ n i x i − X = ∑ n i x i − 2n i x i X + n i X = ∑ n i x i2 − X
n i=1
n i =1
n i =1
V. La principal ventaja de la desviación típica frente a la varianza es que la primera se
mide en las mismas unidades que los datos.
σ2y =
(
)
(
)
1.10.4 Cuasivarianza o Varianza muestral (S2). Propiedades. Se define varianza muestral o
Cuasivarianza (S2) como la cantidad
S2 =
(
1 k
∑ ni xi − X
n − 1 i=1
)
2
Este parámetro tiene gran importancia en inferencia estadística, ya que se utiliza con más
frecuencia que la varianza.
La raíz cuadrada de la cuasivarianza se denomina desviación típica muestral o
cuasidesviación típica (S).
k
S=
[email protected]
26-I
(
∑ ni xi − X
i =1
n −1
)
2
I. ESTADÍSTICA DESCRIPTIVA
La cuasivarianza y desviación típica muestral del conjunto {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} son
3(1 − 2.3)2 + 2(2 − 2.3)2 + 4(3 − 2.3)2 + 1(4 − 2.3)2
= 1.12 y S = 1.1222 ≈ 1.06
S =
9
2
Propiedades
I.
Cuanto mayor sea el número n de datos, más se aproximan S2 a σ2 y S a σ.
II. S2 =
n
n
σ.
σ2 y S =
n −1
n −1
1.10.5 Coeficiente de variación de Pearson (CV). Propiedades. En la propiedad II de la
varianza, se observa que ésta es afectada por los cambios de escala y, por tanto, no es útil para
comparar dispersiones entre variable estadísticas con distintas unidades. Por ello, para
comparar la dispersión entre muestras o poblaciones, se utiliza el coeficiente de variación de
Pearson. Se define el coeficiente de variación de Pearson (CV) como el cociente entre la
desviación típica y el valor absoluto de la media. Generalmente se expresa en porcentajes.
CV =
σ
X
100 % .
Algunas de sus propiedades son:
• Es independiente de las unidades que se utilicen.
• Nos permite comparar la dispersión de dos distribuciones con medias o con unidades
diferentes.
• Tiene el inconveniente de no estar definido para distribuciones con media cero.
Además, cuando la media se aproxima a cero el coeficiente de variación tiende a infinito.
Ejemplo. Calcular los parámetros anteriores para los valores de la evaluación de los
estudiantes recogidos en el ejemplo (1) y agrupados en la tabla (1.10.5).
(
ni xi − X
¡ntervalo
xi
ni
ni xi
[3.5 – 4)
3.75
3
11.25
5.2173
[4 – 4.5)
[4.5 – 5)
[5 – 5.5)
4.25
4.75
5.25
7
26
28
29.75
123.5
147
4.6924
2.6416
0.9198
[5.5 – 6)
5.75
12
69
5.5692
[6 – 6.5]
Sumas
6.25
4
80
25
405.5
5.5814
24.6219
Tabla 1.10.5
)
2
Para calcular la varianza debemos
hallar
el
valor
de
2
1 k
σ2 = ∑ n i x i − X . Para ello,
n 1
añadimos dos nuevas columnas, la
primera para el cálculo de la media y la
segunda para el cálculo de la suma de
los cuadrados de las diferencias a la
k
media.
(
)
(
)
2
∑ ni xi − X .
1
[email protected]
27-I
X=
405.5
≈ 5.0687
80
σ2 =
24.6219
≈ 0.308
80
S2 =
80
0.3083 ≈ 0.312
79
S = 0.3122 ≈ 0.558
σ = 0.3083 ≈ 0.555
CV =
0.5552
100 ≈ 10.95%
5.0687
1.11 Cálculo con Excel de los parámetros de dispersión de un conjunto de
datos individualizados
EXCEL dispone de algunas funciones específicas para el cálculo de los parámetros de
dispersión:
“=VARP(número1;[número2];…)”.
Calcula la varianza del conjunto de datos.
“=DESVESTP(número1;[número2];…)”.
Calcula la desviación típica del conjunto de
datos.
“=VAR(número1;[número2];…)”.
Calcula la cuasivarianza de los datos.
“=DESVEST(número1;[número2];…)”.
Calcula la desviación típica muestral.
Como ejemplo, usaremos el conjuntos de
datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}.
Figura 1.11.1
Escribimos en sucesivas casillas las
fórmulas de los parámetros que deseamos calcular; por ejemplo, para el cálculo de la
cuasivarianza en la celda (4,C) hemos escrito:
“=VAR(A3:A12)”.
1.12 Momentos
Los momentos son medidas de dispersión sobre un determinado valor. En general, se define el
momento de orden r respecto del valor c como
m r (c) =
1 k
r
ni ( xi − c )
∑
n i =1
Según el valor que tome c, se distinguen dos casos importantes:
• Si c=0, entonces los momentos de orden r se denominan momentos no centrales o
respecto del origen y se denotan por
1 k
m r = ∑ n i x ir
n i =1
[email protected]
28-I
I. ESTADÍSTICA DESCRIPTIVA
Se observa que:
o El momento de orden 0 respecto del origen siempre es la unidad (m0=1).
(
)
o El momento de orden 1 respecto del origen coincide con la media m1 = X .
• Si c = X , entonces los momentos de orden r se denominan momentos centrales o
respecto de la media y se denotan por
µr =
(
1 k
∑ ni xi − X
n i =1
)
r
Es importante notar que:
o El momento de orden 0 respecto de la media siempre es la unidad, (µ0=1).
o El momento de orden 1 respecto de la media siempre es cero, (µ1=0).
o El momento de orden 2 respecto de la media siempre coincide con la varianza,
(µ2=σ2).
1.12.1. Relaciones entre los momentos
µ2=m2-m12.
µ3=m3-3m2m1+2m13.
µ4=m4-4m3m1+6m2m12-3m14.
Ejemplo. Para el conjunto de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}, los momentos centrales y
no centrales son:
m1 =
3 ⋅1 + 2 ⋅ 2 + 4 ⋅ 3 + 1⋅ 4 23
=
=A.
10
10
3 ⋅13 + 2 ⋅ 23 + 4 ⋅ 33 + 1 ⋅ 43 191
.
m3 =
=
10
10
m2 =
3 ⋅12 + 2 ⋅ 2 2 + 4 ⋅ 32 + 1 ⋅ 4 2 63
.
=
10
10
3 ⋅14 + 2 ⋅ 24 + 4 ⋅ 34 + 1 ⋅ 44 615
m4 =
=
.
10
10
2
63  23  10.1
µ2 = m2 − m =
−  =
= σ2
10  10 
10
2
1
3
191 63 23
−36
 23 
µ3 = m3 − 3m 2 m1 + 2m =
−3
+ 2  =
10
10 10
 10  1000
3
1
2
µ 4 = m 4 − 4m3 m1 + 6m 2 m12 − 3m14 =
4
615
191 23
63  23 
 23 
−4
+ 6   − 3   = 1.79
10
10 10
10  10 
 10 
1.13 Medidas de forma
Además de la tendencia central y de la dispersión, se puede tratar de caracterizar la forma de
una distribución mediante índices que determinen la asimetría y el apuntamiento de la
distribución.
Asimetría. Una distribución de frecuencias es simétrica si su correspondiente gráfico es
simétrico respecto a un eje vertical.
[email protected]
29-I
• Si la distribución es simétrica, la mediana y la media coinciden.
M=X
• Si la distribución es simétrica y unimodal, la mediana, media y moda coinciden.
M = X = Mo
Una distribución con asimetría por la derecha o
positiva, quiere decir que la gráfica de frecuencias
desciende más lentamente por la derecha que por
la izquierda. En este caso se verifica que
Mo ≤ M ≤ X .
Una distribución asimétrica por la izquierda o
negativa, quiere decir que la gráfica de
frecuencias desciende más lentamente por la
izquierda que por la derecha. En este caso se
verifica que
X ≤ M ≤ Mo .
1.13.1 Coeficiente de Asimetría de Pearson. Propiedades. Se define como el cociente
As =
X − Mo
.
σ
• Mide la asimetría respecto de la moda.
• Si As=0 es simétrica respecto de la moda. X = M 0 .
• Si As>0 es asimétrica a la derecha de la moda. X > M 0 .
• Si As<0 es asimétrica a la izquierda de la moda. X < M0 .
• Si la moda no es única, no está definido.
El coeficiente de asimetría de Pearson del conjunto de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} es:
As =
2.3 − 3
= −0.696 < 0
1.005
.
1.13.2 Coeficiente de Asimetría de Fisher. El coeficiente de asimetría de Fisher, se define
como el cociente
n (x
1∑
k
g1 =
[email protected].
30-I
i =1
n
i
i
σ3
−X
)
3
I. ESTADÍSTICA DESCRIPTIVA
• Es un coeficiente adimensional y mide la asimetría respecto de la media.
• Si g1=0 la distribución es simétrica o no sesgada.
• Si g1<0 la distribución es asimétrica o sesgada a la izquierda y X ≤ Me ≤ Mo .
• Si g1>0 la distribución es asimétrica o sesgada a la derecha y Mo ≤ Me ≤ X .
1.13.3 Coeficiente de apuntamiento o curtosis g2. El coeficiente de apuntamiento de Fisher
se define e interpreta como sigue:
n (x
1∑
k
g2 =
i =1
n
i
i
σ4
−X
)
4
− 3.
Si la distribución estudiada tiene por media X y desviación típica muestral S, entonces:
( )
Si g <0, la distribución es menos apuntada que la normal N ( X,S) .
• Si g2>0, la distribución es más apuntada que la normal N X,S .
•
2
• El apuntamiento como medida de forma es relativa. Su definición se hace por
comparación con la distribución normal de la misma media y varianza.
• Es mayor cuanto mayor sea la concentración de los valores alrededor de la media.
1.13.2. Cálculo con EXCEL de los parámetros estadísticos cuando los datos están
agrupados en intervalos.
Es frecuente que no dispongamos de los datos de forma individualizada sino que se presenten
agrupados en intervalos.
Veamos un procedimiento para el cálculo de los parámetros estadísticos usando los momentos.
Para ello, empleamos el ejemplo de la evaluación de los estudiantes, en el que los datos se han
agrupado en intervalos como figura en la tabla 1.13.1.
Intervalo
xi
ni
[3.5 – 4)
3.75
3
[4 – 4.5)
[4.5 – 5)
[5 – 5.5)
4.25
4.75
5.25
7
26
28
[5.5 – 6)
5.75
12
[6 – 6.5]
Sumas
6.25
4
80
Calcularemos la media, la varianza y los momentos
centrados de orden 3 y 4. Para ello, añadimos en la tabla
anterior, 4 nuevas columnas, correspondientes a los
valores de nixi para el cálculo de la media, ni(xi − X)2
para el cálculo de la varianza y ni(xi − X)3 y ni(xi − X)4
para los momentos g1 y g2.
1.13.1
[email protected]
31-I
EXCEL dispone de dos funciones específicas para el cálculo de los parámetros de forma, pero
nosotros no las utilizaremos, ya que Excel calcula los estimadores de forma para la población;
por ello, efectuaremos el cálculo de las medidas de forma utilizando la tabla de cálculos que
hemos empleado para hallar los momentos.
Figura 16.1.1
1.14 Errores en las observaciones.
Uno de los objetivos principales de la Estadística es el de obtener informaciones útiles a partir
de los datos disponibles. Por ello, es muy importante que los datos que utilicemos sean fiables
(no contengan errores) y, por tanto, en todo tratamiento estadístico es conveniente efectuar un
proceso de depuración y estudio de los datos.
1.14.1 Valores atípicos o “Outliers”. Los valores atípicos o erróneos, por ser inusualmente
grandes o pequeños, en general son atribuibles a una de las siguientes causas:
• El valor se observa y se registra o introduce en el ordenador incorrectamente.
• El valor proviene de una población distinta.
• El valor es correcto, pero representa un suceso poco común.
El problema que se nos presenta es decidir si un determinado dato, con un valor poco común,
puede ser utilizado, o por el contrario lo hemos de rechazar. La respuesta no es fácil, ya que si
rechazamos datos de forma inadecuada, podemos perder información valiosa y, por el
contrario, si los aceptamos, puede variar los resultados de forma que nuestras conclusiones
sean erróneas. En la actualidad existe gran multitud de procedimientos que nos facilitan el
tomar una decisión sobre la depuración de datos. Consideramos que el estudio detallado de
estos procedimientos queda fuera del ámbito de esta asignatura y solo haremos una breve
descripción de uno de ellos
[email protected]
32-I
I. ESTADÍSTICA DESCRIPTIVA
Gráficos de caja. Boxplot. Los histogramas y los polígonos de frecuencia
proporcionan impresiones visuales acerca de un conjunto de datos. Las cantidades numéricas,
tales como la media o varianza, proporcionan información acerca de alguna característica
particular de los datos.
1.14.2
Los gráficos de caja son unas representaciones gráficas que describen simultáneamente varias
características importantes de un conjunto de datos, como son el centro, la dispersión y la
asimetría, pero también permiten identificar observaciones que caen inusualmente lejos del
grueso de los datos, los puntos atípicos, (Outliers).
Para la construcción de este gráfico, se calcula previamente la media X , la mediana M, los
cuartiles Q1 y Q3, así como los valores LI y LS que denominaremos barreras o bigotes:
LI=max( xmin , Q1-1.5(Q3 – Q1))
LS=min ( xmax , Q3+1.5(Q3 - Q1)).
Donde xmin y xmax son los valores máximo y mínimo del conjunto de datos.
Una vez calculados los valores anteriores, procedemos de la siguiente forma. Dibujamos una
caja cuyos lados verticales corresponden a los valores de Q1 y Q3, trazamos una línea vertical
en el valor de la mediana, y dos pequeñas líneas verticales (barreras) para los valores de LI y
LS. A continuación, trazamos un segmento a cada lado de la caja hasta las barreras y por
último colocamos el valor de la media y de los posibles puntos atípicos. El resultado de este
gráfico se muestra en el gráfico 1.14.1
Todo dato que esté fuera del intervalo [LI , LS] será considerado como posible dato atípico,
anómalo o Outlier y corresponde a un dato que debería ser estudiado.
En este gráfico hemos de observar que LS es menor que algunas observaciones; estas
observaciones corresponden a puntos atípicos. La media es mayor que la mediana y, por tanto,
es asimétrica hacia la derecha.
1,6
1,4
1,2
1
0,8
0,6
0,4
0,2
0
335
340
345
350
355
360
Gráfico 1.14.1
[email protected]
33-I
Ejemplo. En el conjunto de datos, 23.39, 23.45, 23.47, 23.47, 23.50, 23.50, 23.58, el valor de
la mediana es M=23.47, la media 23.48, el primer cuartil Q1=23.45, el tercer cuartil Q3=23.50
y los valores de los datos máximo y mínimo son respectivamente 23.39 y 23.58.
1,6
1,4
1,2
1
0,8
0,6
0,4
0,2
0
23,35
23,4
23,45
23,5
23,55
23,6
Gráfico 1.14.2
Los valores de las barreras son:
Q1-1.5(Q3-Q1)=23.375,
por tanto
LI=xmin=23.39.
Q3+1.5(Q3-Q1)=23.575,
por tanto
LS=23.575.
En consecuencia, el dato 23.58 es un valor atípico y se representa como el gráfico 1.14.2.
[email protected]
34-I