Download ESTADISTICA UNIDIMENSIONAL

Document related concepts

Medidas de tendencia central wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Distribución de frecuencias wikipedia , lookup

Moda (estadística) wikipedia , lookup

Mediana (estadística) wikipedia , lookup

Transcript
ESTADISTICA UNIDIMENSIONAL
La estadística estudia propiedades de una población sin recurrir al sufragio universal. El estudio
estadístico tiene dos posibilidades
(1) Describir lo que ocurre en la muestra mediante tablas gráficos y parámetros estadísticos.
(2) Hacer inferencias, es decir, sacar conclusiones que puedan servir para toda la población
Población.
Conjunto finito o infinito de elementos (personas ó cosas) sobre el que se va a hacer el estudio. El
primer paso de un estudio estadístico es la definición de la población.
Elemento ó individuo
Cada una de las personas o cosas que integran la población.
Muestra
Conjunto de elementos representativos de la población. La muestra debe de tener las mismas
propiedades que la población a la que representa. Al número de elementos o individuos de una muestra se
llama tamaño. Una muestra es aleatoria cuando sus elementos se escogen al azar. Una muestra es
proporcional cuando cada parte de la población está representada de acuerdo con su importancia en ella.
Carácter ó variable
Los caracteres ó variables son las propiedades que se desean estudiar, se pueden clasificar de la
siguiente forma

 Discreto
Cuantitati vo : 
Caracter o variable : 
Continuo
 Cualitativo

-
-
Carácter cuantitativo. Son aquellas variables que se puede medir, por ejemplo edad, peso,... etc.
Carácter cualitativo. Son aquellas variables que no se pude medir, por ejemplo color, sabor,... etc.
Las variables cuantitativas a su vez se pueden dividir en dos grupos
Variable cuantitativa discreta. Son aquellas que solo pueden tomar valores enteros, por ejemplo el
número de hijos.
Variable cuantitativa continua. Son aquellas que pueden tomar cualquier valor real dentro de un
intervalo lógico, por ejemplo el peso.
Tabla de frecuencias ó distribución de frecuencias con datos sin agrupar
Una vez obtenidos todos los datos, el primer paso es agruparlos en una tabla ó distribución de
frecuencias. Está distribución, debe de tener los valores de la variable ordenados en forma creciente ó
decreciente con los respectivos valores de la frecuencia absoluta de cada valor. La distribución de frecuencia
puede ampliarse añadiendo otros cálculos que permitan a posteriori el estudio de diferentes parámetros de la
distribución.
- Frecuencia absoluta(fi): Número de veces que se repite un dato
- Frecuencia total(Σfi ó N): Número total de datos. Es igual a la suma de todas las frecuencias
absolutas.
- Frecuencia acumulada(Fi): Suma de la frecuencia absoluta del dato i con las frecuencias absolutas de
todos los datos anteriores
- Frecuencia relativa(fr i): Cociente entre la frecuencia absoluta del dato i y el número total de datos
- Frecuencia acumulada relativa(Fr i): Suma de la frecuencia relativa del dato i con las frecuencias
relativas de todos los datos anteriores
- Porcentaje(pi): Frecuencia relativa multiplicada por 100
- Porcentaje acumulado(Pi): Frecuencia relativa acumulada multiplicada por 100
Ejemplo 1. Calificaciones de un examen.
xi ≡ Nota del examen
Tabla de frecuencias ó distribución de frecuencias con datos agrupados
La agrupación de los datos por intervalos, en las variables cuantitativas tiene como finalidad poder
presentarlos de forma visual más reducida y simplificar los cálculos, caso de tener la variable muchos valores.
La agrupación de la variable por intervalos, no es función de que está sea discreta o continua, aunque en el
caso de variable continua suele ser muy útil debido al elevado número de valores que puede tomar.
Para agrupar los valores de la variable en intervalos no hay una regla fija, sólo debe tenerse en cuenta
que la agrupación sea coherente con el tipo de variable que sé este agrupando. Los intervalos pueden ser de
igual amplitud o de diferente amplitud, en función de cada caso. Si se consideran intervalos constante, un
criterio para determinar el número y amplitud de los intervalos es el de Nordcliff, que dice que el número de
intervalos debe ser aproximadamente igual a la raíz cuadrada positiva del número de datos. Una vez
determinado el número de intervalos, la amplitud se calcula aproximadamente como el cociente entre el rango
de la variable(diferencia entre el mayor y menor valor de la variable) y el número de intervalos.
En la presentación de la variable agrupada en intervalos, se suele repetir el valor de extremo superior
de un intervalo en el siguiente, como extremo inferior. El criterio más general es considerar incluido dentro de
cada intervalo al extremo inferior, pero no al superior.
La amplitud de un intervalo es la diferencia entre el extremo superior y el inferior.
La marca de clase, o valor representativo del intervalo, es la semisuma de los extremos del intervalo:
L + L s  L i = Límite inferior del intervalo
xi = i
:
2
L s = Límite superior del intervalo
para los cálculos de parámetros de la distribución, se usa la marca de clase como valor representativo del
intervalo
Ejemplo 2. Número de respuestas correcta de un test de 50 preguntas
-
Gráficos estadísticos
Diagrama de barras.- Son gráficos que representan cada valor de la variable mediante una barra
proporcional a la frecuencia con la que se presentan. Las barras deben estar separadas.
-
Histogramas.- Se usa para variables agrupadas por intervalos, asignando a cada intervalo un
rectángulo de superficie proporcional a su frecuencia. La altura de cada intervalo se halla dividiendo
la frecuencia que representa entre la amplitud del intervalo
-
Poligonal de frecuencias.- Los histogramas y los diagramas de barras se pueden representar por una
poligonal de frecuencias, que es la línea que une los puntos correspondientes a las frecuencias de
cada valor(extremos superiores de las barras)
-
Diagrama de sectores.- En estos gráficos, cada valor de la variable estadística viene representado
por un sector circular de amplitud proporcional a su frecuencia. La amplitud(αi) de cada sector se
halla multiplicando la frecuencia relativa por 360 sí se mide en grados sexagesimales o por 2π si se
mide en radianes.
Los diagramas de sectores dan una clara visión de conjunto de cada valor respecto a la
totalidad. Para su mejor interpretación es conveniente mostrar en cada sector su proporción.
Ejemplo 3. Sobre una muestra de 80 parejas se ha estudiado el número de hijos obteniendo los siguientes
resultados:
0
1
2
3
4
5ó+
Número de hijos xi
15
21
26
12
4
2
Número de parejas fi
a.
b.
c.
d.
Calcular el cuadro de frecuencias
Representar el diagrama de barras para la frecuencia absoluta y la frecuencia acumulada
Representar la poligonal de la frecuencia absoluta y de la frecuencia acumulada
Representar el grafico de sectores
a.
Cuadro de frecuencias
b.
Diagrama de barras
c.
Poligonal de frecuencias
d.
Diagrama de sectores
Ejemplo 4. Sobre una muestra de 150 personas a las que se le ha realizado un test de 50 preguntar sobre
seguridad vial, se han obtenido los siguientes resultado agrupados en intervalos:
0 − 10
10 − 20 20 − 30 30 − 40 40 − 50
Intervalo
24
32
48
26
20
Frecuencia
a. Calcular el cuadro de frecuencias
b. Representar el histograma para la frecuencia absoluta y la frecuencia acumulada
c. Representar la poligonal de la frecuencia absoluta y de la frecuencia acumulada
a.
Cuadro de frecuencias
Intervalo
M.C. (xi)
fi
Fi
fr i
Fr i
0 − 10
5
24
24
10 − 20
15
32
56
20 − 30
25
48
104
30 − 40
35
26
130
40 − 50
45
20
150
25
150
32
150
48
150
26
150
20
150
25
150
56
150
104
150
130
150
1
N=
b.
Histograma
∑ f i = 150
Poligonal de frecuencias
c.
Parámetros estadísticos.
Describen de un modo conciso el comportamiento y las características generales de los datos
estudiados. Se pueden clasificar de la siguiente forma:

- Media


Medidas de centralización : - Moda
 - Mediana




- Cuartiles




 Cuantiles :  - Quintiles



Parámetros estadísticos : 
 - Deciles


 - Percentiles
 Medidas de dispersión : 

 - Amplitud, rango o recorrido

- Desviación media



 - Varianza y desviación

 - Coeficiente de variación


Parámetros de centralización
-
Media
Es la medida de centralización más usual. Existen diversos tipos de medias:
Media aritmética.
n
∑ xi ⋅fi
o
Simple: x = i =1
n
Donde N =
N
∑ fi .
i =1
n
o
Ponderada: x p =
∑x
i
⋅ pi
i =1
Se utiliza cuando los valores de la variable tienen diferente
n
∑p
i
i =1
i.
ii.
iii.
importancia, significación ó peso dentro del conjunto de la distribución. pi es la
cuantificación de la importancia o peso, es un valor porcentual y se expresa en tanto por uno
Propiedades de la media aritmética
La media es el centro de gravedad de la distribución. La suma de las desviaciones de los valores
respecto a ella es igual a cero.
xi − x ⋅ni = 0
∑(
)
Si se multiplican todos los valores de la variable por una constante, la media queda multiplicada
por esa constante
Si sumamos a todos los valores de la variable una constante, la media queda aumentada en esta
constante.
iv.
La media de la suma de dos o más variables es igual a la suma de las medias aritméticas de cada
una de las variables. Si no tienen la misma frecuencia total, se calcula la media ponderada.
-
Media geométrica: x g = N x 1 1 ⋅ x 2 2 ⋅ ... ⋅ x nn n La media geométrica se utiliza para los casos en que
-
sea necesario una gran precisión, puesto que es la única media a la que no la afectan los valores
extremos. No puede utilizarse si la variable toma valores negativos ó cero.
N
Media armónica: x a = n
Se utiliza cuando la variable está medida en unidades relativas,
1
⋅ni
xi
i =1
n
n
∑
como por ejemplo Km
H
,€
m
, ...etc
Moda
Es el valor de la variable estadística que se repite más veces, es decir, el que tiene una frecuencia
absoluta más elevada. Puede haber más de una moda, en estos casos se tratará de distribuciones bimodales,
trimodales,... etc.
Para una distribución sin agrupar, la moda se calcula directamente como el valor de la variable
estadística con mayor frecuencia absoluta.
Para distribuciones con datos agrupados, él calculo de la moda se hace mediante una interpolación
lineal sobre el intervalo modal, obteniéndose la siguiente expresión
D1
Mo = L i + c ⋅
D1 + D 2
 L i = Límite inferior del intervalo modal

c = Amplitud de intercalo
donde: 
 D1 = f i − f i −1 diferencia entre la frecuencia absoluta del intervalo modal y de intervalo posterior
 D 2 = f i − f i +1 diferencia entre la frecuencia absoluta del intervalo modal y de intervalo anterior
Siendo el intervalo modal el de mayor frecuencia absoluta.
Se puede calcular gráficamente mediante el histograma de frecuencias absolutas.
Mediana
Es el valor que ocupa la posición central de la distribución cuando los valores de la variable están
ordenados de forma creciente o decreciente. Por lo tanto, la mediana divide a la distribución en dos
subconjuntos con igual número de datos, estando el 50% de los datos por debajo de ella y el otro 50% por
encima de ella.
Para el calculo de la mediana en distribuciones con datos sin agrupar, existen dos casos
-
-
Para N(tamaño de muestra) impar, la mediana es el valor central. Se busca en la frecuencia absoluta
acumulada, siendo el primer valor de la variable estadística cuya frecuencia absoluta acumulada sea
mayor o igual que el cociente N/2.
Para N par, la mediana es la media aritmética de los valores centrales de la variable estadística, que
son los dos primeros valores cuya frecuencia absoluta acumulada es mayor o igual que el cociente
N/2.
Si la distribución es de datos agrupados en intervalos, la mediana se halla por interpolación sobre el
intervalo mediano, siendo este el primer intervalo cuya frecuencia absoluta acumulada sea mayor o igual que
el cociente N/2.
N
− Fi −1
Me = L i + c ⋅ 2
fi
L i = Límite inferior del intervalo mediano

 c = Amplitud del intervalo mediano
donde:  N = Número de datos de la muestra
 F = Frecuencia absoluta acumulada de intervalo anterior al mediano
 i −1
 f i = Frecuencia absoluta de intervalo mediano
También se puede calcular gráficamente mediante la poligonal de la frecuencia absoluta acumulada.
Utilización de la Media, Mediana y Moda
La moda sólo se utiliza como única medida de centralización en las distribuciones de variables
cualitativas. En el caso de variables cuantitativas la moda acompaña a la media y/o la mediana.
Respecto a la media y la mediana, en general, se utilizan ambas, ya que esto permite realizar algunas
deducciones sobre la simetría de la distribución. Existen algunos casos donde el uso de la media es mejor que
el uso de la media, estos casos son
- Cuando se tiene la sospecha que en los datos pueden existir errores.
- En el caso de que existan valores extremos
- Cuando los datos están en escala nominal
Ejemplo 5. El número de urgencias atendidas en centro de salud en 30 noches ha sido:
0
7
Nº de urgencias (xi)
Nº de días (fi)
1
8
2
5
3
4
4
3
5
1
6
2
Calcular la media, moda mediana
Para calcular los parámetros pedidos se construye el siguiente cuadro de frecuencias
xi
fi
Fi
xi · fi
0
1
2
3
4
5
6
7
8
5
4
3
1
2
7
15
20
24
27
28
30
0
8
10
12
12
5
12
N=
∑ f i = 30
Media:
x=
∑ x i ⋅ f i = 59
∑ x i ⋅ f i = 59 = 1'97
N
30
Moda: Valor de la variable de mayor frecuencia.
Mo = 1
Mediana: Por ser el número de datos par, la mediana es la media aritmética de los dos valores centrales.
 x i / Fi ≥ N = 15 : x 1 = 1
2
Valores centrales: 
N + 1 = 16 : x = 2
≥
x
/
F
 i i
2
2
x + x 2 1+ 2
=
= 1'5
Me = 1
2
2
Ejemplo 6. Sobre una muestra de 150 personas a las que se le ha realizado un test de 50 preguntar sobre
seguridad vial, se han obtenido los siguientes resultado agrupados en intervalos:
0 − 10
10 − 20 20 − 30 30 − 40 40 − 50
Intervalo
24
32
48
26
20
Frecuencia
Calcular los parámetros de centralización.
Cuadro de frecuencias
Intervalo
0 − 10
10 − 20
20 − 30
30 − 40
40 − 50
M.C. (xi)
fi
Fi
xi · fi
5
15
25
35
45
24
32
48
26
20
24
56
104
130
150
120
480
1200
910
900
N=
Media:
x=
∑ f i = 150
∑ x i ⋅ f i = 3610 = 24'1
N
150
∑ x i ⋅ f i = 3610
Moda: El intervalo modal es el de mayor frecuencia
Intervalo Modal ≡ [20, 30 )
El calculo de la moda se hace por interpolación lineal sobre el intervalo modal según la expresión:
D1
Mo = L i + c ⋅
D1 + D 2
L i = 20

 c = 10
teniendo en cuenta: 
 D1 = f i − f i −1 = 48 − 32 = 16
D 2 = f i − f i +1 = 48 − 26 = 22
Mo = 20 + 10 ⋅
16
= 24'2
16 + 22
Mediana: El intervalo mediano es el primer intervalo cuya frecuencia absoluta acumulada es mayor o igual
que el cociente N/2. Aplicando a este caso
Fi ≥ 150 = 75 ⇒ Intervalo mediano ≡ [20, 30 )
2
El cálculo de la mediana se hace por interpolación lineal sobre el intervalo mediano según la
expresión:
N
− Fi −1
Me = L i + c ⋅ 2
fi
 L i = 20
 =
 c 10
donde:  N = 150
F = 56
 i −1
 f i = 48
⇒
150
− 56
= 24'0
Me = 20 + 10 ⋅ 2
48
Gráficamente
El cálculo gráfico requiere mucha precisión por lo que es menos exacto.
Parámetros de dispersión
Cuantiles
Son valores de variable estadística que dividen a la distribución en intervalos con igual número de datos cada
uno de ellos. En función del número de intervalos en que divida a la distribución pueden ser:
• Cuartiles. Son tres valores(Q1, Q2, Q3) que determinan las posiciones correspondientes al 25%, al
50% y al 75% de los datos, dividiendo la distribución en cuatro subconjuntos con el 25% de los datos
cada uno de ellos. La diferencia entre los cuartiles superior e inferior se llama rango intercuartilico.
• Quintiles. Son cuatro valores(K1, K2, K3, K4) que determinan las posiciones correspondientes al
20%, 40%, 60%, y 80% de los datos, dividiendo la distribución en cinco subconjuntos con el 20% de
los datos cada uno de ellos
• Deciles. Son nueve valores(D1, D2,..., D9) que corresponden al 10%, 20%,..., y 90% de los datos.
Dividen a la distribución en diez subconjuntos con el 10% de los datos cada uno de ellos.
• Percentiles (o centiles). Son noventa y nueve valores(P1, P2, ...P99) que dan el valor de la posición
correspondiente a cualquier porcentaje. Dividen a la distribución en cien subconjuntos.
Cálculo:
- Para distribuciones con datos sin agrupar se busca el primer valor que cumpla:
N
Fi = k ⋅
n
Donde n indica el tipo de cuantil; Para cuartiles n = 4, para quintiles n = 5, para deciles n = 10, y para
percentiles n = 100. k especifica el cuantil buscado, toma valores desde 1 hasta n−1. N es el tamaño de la
muestra.
N
N
N
N
Ejemplos: Q 3 : Fi ≥ 3 ⋅
; K 2 : Fi ≥ 2 ⋅
; D 7 : Fi ≥ 7 ⋅
; P35 : Fi ≥ 35
4
5
10
100
- Para distribuciones con datos agrupados se busca el intervalo donde se encuentra el cuantil deseado
de la misma forma que en las distribuciones sin agrupar y sobre este intervalo se hace una
interpolación mediante la expresión:
N
k ⋅ − Fi −1
n k = Li + c ⋅ n
fi
Ejemplos:
N
N
2 ⋅ − Fi −1
3 ⋅ − Fi −1
; K 2 = Li + c ⋅ 5
Q3 = Li + c ⋅ 4
fi
fi
D7 = Li + c ⋅
7⋅
N
N
− Fi−1
− Fi −1
35 ⋅
10
100
; P35 = L i + c ⋅
fi
fi
Rango o recorrido
Es la diferencia entre el mayor y menor valor de la variable. Es una medida muy imprecisa, ya que
sólo tiene en cuenta los valores extremos. Tampoco permite hacer comparaciones entre distintas
distribuciones.
Desviación media respecto a la media aritmética
n
∑ xi − x ⋅ fi
D x = i =1
N
Cuanto más elevado sea su valor, más dispersión existirá y la media, será menos representativa.
Varianza y desviación típica
La varianza(s2), es la media aritmética de las diferencias al cuadrado de cada dato respecto de la
media de todos ellos. Su fórmula es :
s2 =
∑ (x i − x )2 ⋅ f i
N
aplicando las propiedades de los sumatorios, se obtiene una expresión más práctica
s
2
x i2 ⋅ f i
∑
2
=
−x
N
La varianza, al obtenerse a partir del cuadrado de las diferencias de los datos respecto de la media,
hace que los valores más alejados tenga mayor peso en el resultado: en consecuencia, distingue mejor que la
amplitud la variabilidad ó dispersión de los datos de dos distribuciones. Cuanto más elevado sea su valor, más
dispersión existirá y la media , será menos representativa. La varianza viene expresada en unidades al
cuadrado.
Propiedades
- Siempre es positiva
- Si sumamos a todos los valores de la distribución una constante, la varianza no varia.
- Si multiplicamos a todos los valores de la distribución por una constante, la varianza queda
multiplicada por la constante al cuadrado.
Desviación típica
La desviación típica es la raíz cuadrada positiva de la varianza.
s=
∑ (x i − x )2 ⋅ f i
∑ x i2 ⋅ f i − x 2
ó bien
s=
N
N
La desviación típica es la medida de variabilidad ó dispersión más utilizada. Cuanto más elevado sea su valor,
más dispersión existirá y la media , será menos representativa.
La varianza y la desviación típica también se designan por σ 2 y σ , respectivamente. En las
calculadoras, la desviación típica suele describirse por σ o por σ n .
Propiedades
- Siempre es positiva
- Si sumamos a todos los valores de la distribución una constante, la desviación típica no varia.
- Si multiplicamos a todos los valores de la distribución por una constante, la desviación típica queda
multiplicada por la constante.
El coeficiente de variación
La dispersión no puede determinarse exclusivamente a partir de la desviación típica, ya que es un
concepto relativo. Por tanto, para establecer comparaciones hay que tener también en cuenta la media de los
datos. Una medida de la dispersión relativa de dos conjuntos de datos es el coeficiente de variación, que se
define como:
s
Coeficiente de variación C.V. =
x
Dados dos conjuntos, aquel que tenga un coeficiente de variación mayor es el más disperso, el más
heterogéneo. Además, su valor no depende de la unidad de medida utilizada, pues la media y la desviación
típica se ven afectadas igualmente.
Ejemplo 7. Durante el mes de Julio, en una determinada ciudad de la costa levantina, se han registrado las
siguientes temperaturas máximas:
27
28
29
30
31
32
33
34
T(ºC) (xi)
1
2
6
7
8
3
3
1
Nº días (fi)
Calcular:
a. Media, Moda y Mediana
b. Q1, Q3, P35, P85
c. Desviación media, desviación típica y coeficiente de variación.
Se construye el siguiente cuadro de frecuencias:
a.
xi
fi
Fi
xi · fi
27
28
29
30
31
32
33
34
1
2
6
7
8
3
3
1
1
3
9
16
24
27
30
31
27
56
174
210
248
96
99
34
N=
Media: x =
∑ f i = 31
∑ x i ⋅ f i = 944
∑ x i ⋅ f i = 944 = 30'45
N
31
Moda: Mo = 31. Por ser el de mayor frecuencia absoluta(f 31 = 8)
Mediana: Por ser el número de datos impares, la mediana es el valor central. Se localiza por ser el primer
valor cuya frecuencia absoluta acumulada es mayor o igual que el cociente N/2.
N = 31 = 15'5 : F ≥ 15'5 ⇒ Me = 30
Me
2
2
b.
Los Cuantiles al igual que la mediana, se buscan en la frecuencia absoluta acumulada:
Q 1: FQ1 ≥ 1 ⋅
P 35: FP 35 ≥ 35 ⋅
xi
Fi
27
28
29
30
31
32
33
34
1
3
9
16
24
27
30
31
31
= 7'75 ⇒ Q1 = 29
4
31
= 10'89 : P35 = 30
100
Q 3: FQ3 ≥ 3 ⋅
31
= 23'25 ⇒ Q 3 = 31
4
P 85: FP 85 ≥ 85 ⋅
31
= 26'35 : P85 = 32
100
Para calcular los parámetros de dispersión pedidos, es necesario el siguiente cuadro de frecuencias:
c.
xi
fi
xi · fi
xi2 · fi
27
28
29
30
31
32
33
34
1
2
6
7
8
3
3
1
27
56
174
210
248
96
99
34
729
1568
5046
6300
7688
3072
3267
1156
∑ f i = 31 ∑ x i ⋅ f i = 944 ∑ x i2 ⋅ f i = 28826
−3’45
−2’45
−1’45
−0’45
0’55
1’55
2’55
3’55
n
∑ xi − x ⋅fi
Desviación media: D x = i =1
Desviación típica: s = σ =
N
=
79'68
= 2'57
31
∑ x i2 ⋅ f i − x 2 =
N
Coeficiente de variación: C.V. =
28826
− 30'45 2 = 1'63
31
s
1'63
=
= 0'0535 ⇒ C.V.(% ) = 5'35
x 30'45
11’9025
12’005
12’615
1’4175
2’42
7’2075
19’5075
12’6025
∑ (x i − 30'5)2 f i = 79'68
Ejemplo 8. Se ha estudiado el coeficiente intelectual de los 210 alumnos de un centro de Bachiller,
obteniéndose los siguientes resultados
Coeficiente Intelectual (xi)
Nº de alumnos (fi)
[82, 90)
[90, 98)
[98, 106)
[106, 114)
[114, 122)
[122, 130)
[130, 138)
[138, 146)
12
32
49
54
30
17
11
5
Calcular:
a. La Media, la Moda y la Mediana
b. El K2, D8, P5
c. La puntuación necesaria para pertenecer al 15% de alumnos con mayor coeficiente intelectual
d. La Varianza y el coeficiente de variación
e. Cual de las distribuciones de los ejemplos 7 y 8 esta menos dispersa.
a.
Cuadro de frecuencias
Media: x =
Intervalo
xi
fi
[82, 90)
[90, 98)
[98, 106)
[106, 114)
[114, 122)
[122, 130)
[130, 138)
[138, 146)
86
94
102
110
118
126
134
142
12
32
49
54
30
17
11
5
∑ f i = 210
Fi
12
44
93
147
177
194
205
210
xi · fi
1032
3008
4998
5940
3540
2142
1474
710
∑ x1 ⋅ f i = 22844
∑ x i ⋅ f i = 22844 = 108'8
N
210
Moda: El intervalo modal es el de mayor frecuencia. [106, 114). La moda se obtiene por interpolación:
Mo = L i + c ⋅
D1
D1 + D 2
L i = 106

 c=8
teniendo en cuenta: 
 D1 = f i − f i −1 = 54 − 49 = 5
 D 2 = f i − f i +1 = 54 − 30 = 24
Mo = 106 + 8 ⋅
5
= 107'4
5 + 24
Mediana: El intervalo donde se encuentra la media es el primer cuya frecuencia absoluta acumulada es mayor
o igual que el cociente N/2.
Fi ≥ 210 = 105
2
buscando en la columna de la frecuencia acumulada
Me ∈ [106, 114 )
Una vez localizada se calcula por interpolación
N
− Fi −1
Me = L i + c ⋅ 2
fi
 L i = 106
 =
 c 8
donde:  N = 210
 F = 93
 i −1
 f i = 54
⇒
210
− 93
= 107'8
Me = 106 + 8 ⋅ 2
54
El segundo quintil está en el primer intervalo cuya frecuencia absoluta acumulada sea mayor o igual
N
que 2 ⋅
5
210
= 84 ⇒ K 2 ∈ [98, 106)
Fi ≥ 2 ⋅
5
El K2 se obtiene por interpolación:
 L i = 98 


N
210
2 ⋅ − Fi −1  c = 8 
2⋅
− 44


5
5
= 104'5
K 2 = Li + c ⋅
=  N = 210  = 98 + 8 ⋅
fi
49
F = 44
 i −1

 f i = 49 
b.
El octavo decil(D8) está en el primer intervalo cuya frecuencia absoluta acumulada sea mayor ó igual
N
que 8 ⋅
10
210
= 168 ⇒ K 2 ∈ [114, 122 )
Fi ≥ 8 ⋅
10
El D8 se obtiene por interpolación:
 L i = 114 


210
N
8⋅
8 ⋅ − Fi−1  c = 8 
− 147


10
= 119'6
=  N = 210  = 114 + 8 ⋅ 10
D8 = Li + c ⋅
30
fi
F = 147
 i −1

 f i = 30 
El quinto percentil(P5) está en el primer intervalo cuya frecuencia absoluta acumulada sea mayor ó
N
igual que 5 ⋅
100
210
Fi ≥ 5 ⋅
= 10'5 ⇒ P5 ∈ [82, 90 )
100
El P5 se obtiene por interpolación:
 L i = 82 


210
N
5⋅
5⋅
−0
− Fi −1  c = 8 


100
100
= 89
=  N = 210 = 82 + 8 ⋅
P5 = L i + c ⋅
12
fi
F = 0
 i −1

 f i = 12 
Se pide calcular el percentil ochenta y cinco, ya que este deja a su izquierda el 85% de la
c.
distribución, y a su derecha el 15%, que debido al orden creciente de la distribución, corresponde al de mayor
nota.
El P85 está en el primer intervalo cuya frecuencia absoluta acumulada sea mayor ó igual que 85 ⋅
Fi ≥ 85 ⋅
210
= 178'5 ⇒ P5 ∈ [122, 130 )
100
El P85 se obtiene por interpolación:
 L i = 122 


210
N
85 ⋅
85 ⋅
− 177
− Fi −1  c = 8 


100
100
= 122'7
=  N = 210  = 122 + 8 ⋅
P85 = L i + c ⋅
17
fi
F = 177
 i −1

 f i = 17 
Par estar en el 15% de mayor coeficiente intelectual, la nota del test debe ser mayo que 122.
d.
Cuadro de frecuencias
Intervalo
xi
fi
[82, 90)
[90, 98)
[98, 106)
[106, 114)
[114, 122)
[122, 130)
[130, 138)
[138, 146)
86
94
102
110
118
126
134
142
12
32
49
54
30
17
11
5
Varianza: σ 2 =
C.V. =
σ
=
x
xi · fi
1032
3008
4998
5940
3540
2142
1474
710
xi2 · fi
88752
282752
509796
653400
417720
269892
197516
100820
∑ f i = 210 ∑ x1 ⋅ f i = 22844 ∑ x i2 ⋅ f i = 2520648
∑ x i2 ⋅ f i − x 2 = 2520648 − 108'8 2 = 165'6
N
210
σ2
165'5
=
= 0'1183 ⇒ C.V.(% ) = 11'83
x
108'8
Para comparar la dispersión de dos distribuciones, se comparan sus coeficientes de variación, el
e.
menor valor corresponderá a la menos dispersa.
Ejemplo 7: C.V. = 5’35%
Ejemplo 8: C.V. = 11’83%
En la distribución del ejemplo 7, los datos están menos dispersos respecto de la media que en el
ejemplo 8.
Comparación de puntuaciones
Para poder comparar valores de dos distribuciones diferentes, es decir, para poder comparar las
posiciones de dos valores dentro de sus respectivas distribuciones, es necesario tipificar las variables
x −x
Variable tipificada: z i = i
σ
N
100
Ejemplo 9. Un alumno obtiene un 5’5 en el examen de matemáticas y un 6’4 en el examen de filosofía. ¿En
cual examen obtuvo mejor nota respecto a su clase?.

 x m = 5'2
Examen de matemáticas : 

σ m = 1'02
Datos: 
 Examen de filosofía :  x f = 5'9


σ f = 1'72

Para poder compara las puntuaciones de dos exámenes hay que desvincular las variables de lo que
miden, eso se consigue mediante su tipificación.

x − x m 5'5 − 5'2
=
= 0'294
z = m
x i − x  m
σm
1'02
zi =
:
σ
 z f = x f − x f = 6'4 − 5'9 = 0'291

σf
1'72
Respecto de la clase, obtuvo mejor nota en el examen de matemáticas ya que su valor tipificado es
mayor.