Download ESTADISTICA

Document related concepts

Parámetro estadístico wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Desviación típica wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Mediana (estadística) wikipedia , lookup

Transcript
ESTADISTICA
1º BACHILLERATO
1. MEDIDAS DE CENTRALIZACIÓN
Son las medidas o parámetros que tienden a situarse hacia el centro del conjunto
de datos ordenados. A las medidas de centralización también se les llama “Medidas de
tendencia central” o “Promedios”, siendo las más importantes la media aritmética,
moda, mediana, cuarteles, deciles y percentiles.
a) Media aritmética
La media aritmética de una variable estadística es la suma de todos los
valores de la variable dividido por el número de valores.
Cálculo:
n
X 

i 1
n
xi ni
n
i 1
i
Si la variable x es continua, o siendo discreta si son muchos los datos,
estos se encuentran agrupados en clases. Se toman como valores x 1, x2…, las
marcas de cada clase.
Una variable aleatoria es continua si puede tomar todos los valores en un
cierto intervalo. Una variable aleatoria es discreta cuando sólo puede tomar
ciertos valores (normalmente enteros) dentro de un intervalo.
Por ejemplo, la estatura de una persona es una variable aleatoria
continua, mientras que el número de hijos de una familia sería una variable
aleatoria discreta.
Ejemplos:
Ej. 1 - Las calificaciones en la asignatura de Historia del Arte de 40 alumnos
de una clase vienen dadas por la siguiente tabla:
Xi
1
2
3
4
5
6
7
8
9
ni
2
2
4
5
8
9
3
4
3
40
xini
2
4
12
20
40
54
21
32
27
212
n
X 

i 1
n
xi ni
n
i 1
i
-1-

212
 5,3
40
ESTADÍSTICA 1º BACHILLERATO
Ej. 2 -
Se ha aplicado un test sobre satisfacción en el trabajo a 88 trabajadores
de una fábrica, obteniéndose los siguientes resultados:
Puntuación Nº trabajadores, ni
[38,44)
7
[44,50)
8
[50,56)
15
[56,62)
25
[62,68)
18
[68,74)
9
[74,80)
6
88
Marca de clase, xi
41
47
53
59
65
71
77
xi n i
287
376
795
1475
1170
639
462
5204
n
X 

i 1
n
xi ni
n
i 1

5204
 59,14
88
i
Propiedades de la media aritmética
1. Es el parámetro de centralización más utilizado.
2. Presenta la ventaja de tener en cuenta todos los datos y resultar muy sencillo su
cálculo.
3. Tiene el gran inconveniente de que si la distribución posee valores extremos
excepcionalmente raros y poco explicativos se produce una distorsión en la
media, provocando una variación de ésta.
4. No siempre es posible calcular la media aritmética:
- Cuando la variable sea cualitativa: Color de ojos.
- Cuando los datos de la distribución se encuentran agrupados en clases,
estando alguna de ellas abierta.
b) Media geométrica: Sea x la variable y n el número de datos:
X g  n x1 x2 ...xn
c) Media cuadrática: Es la raíz cuadrada de la media de los cuadrados.
Xc 
x12 x 22 ...x n2
n
d) Moda
La Moda de una variable estadística es el valor de dicha variable que presenta
mayor frecuencia absoluta. Se representa como “Mo”. Puede haber
distribuciones bimodales, trimodales, etc.
-2-
ESTADÍSTICA 1º BACHILLERATO
Observaciones:
1. Puede ocurrir que una distribución no tenga moda.
2. Es menos representativa que la media aritmética, pero en algunos
casos es más útil que ésta. Por ejemplo, cuando los datos son
cualitativos.
3. En la moda no intervienen todos los datos de la distribución.
4. Aun cuando la moda se considera un parámetro de centralización no
tiene por qué situarse en la zona central.
e) Mediana
Se llama mediana de una variable estadística a un valor de la variable tal que el
número de observaciones menores que él es igual al número de observaciones
mayores que él. Se representa como “M”.
Cálculo:
-
Variable estadística discreta. Datos simples.
En este caso se ordenan los datos de menor a mayor, siendo la
mediana el término o valor central. Si el número de datos es impar, el
valor central de la variable es único.
Ejemplo: En la serie “2, 3, 5, 6, 9, 11,12”, M=6.
Si el número de datos es par, existirán dos términos centrales. En
este caso se suele tomar como mediana la media aritmética de estos
valores, aunque el resultado no pertenezca al conjunto de datos.
Ejemplo: En la serie “2, 3, 5, 6, 9, 11, 12,13”, M= (6+9)/2=7,5.
-
Variable estadística discreta. Datos agrupados.
La mediana viene dada por el primer valor de la variable cuya
frecuencia absoluta acumulada exceda a la mitad del número de datos.
En el caso de que la mitad del número de datos coincida con la
frecuencia absoluta acumulada de un valor, la mediana será la semisuma
de ese valor y el siguiente.
Ejemplo: Tomando la tabla de notas de los alumnos de
Historia del Arte, calculamos ahora la mediana. En este
caso hemos añadido a la tabla la frecuencia absoluta
acumulada (Ni). La mediana será el primer valor de la
variable cuya frecuencia absoluta acumulada excede la
mitad del número de datos (40).
Por tanto, M=5, ya que su correspondiente valor de Ni
vale 21, siendo el primero que es mayor que la mitad
del número de datos.
-
Xi
1
2
3
4
5
6
7
8
9
ni
2
2
4
5
8
9
3
4
3
Ni
2
4
8
13
21
30
33
37
40
En caso de que la mitad del número de datos
coincida con la frecuencia acumulada de un valor, la mediana es la
semisuma entre ese valor y el siguiente.
Variable estadística continúa.
-3-
ESTADÍSTICA 1º BACHILLERATO
En este caso, procediendo de forma análoga, vemos cuál es la clase
mediana, pero para obtener el valor concreto de la variable utilizamos la
siguiente expresión:
N
 N i 1
M  Li  c 2
ni
Donde:
Li:
C:
N:
Ni-1
ni:
Límite inferior de la clase mediana.
Amplitud de intervalo.
Número de datos.
Frecuencia absoluta acumulada de la clase anterior
a la clase mediana.
Frecuencia absoluta de la clase mediana.
Ejemplo: Vamos a calcular la mediana en la tabla de los 88 empleados:
Puntuación
[38,44)
[44,50)
[50,56)
[56,62)
[62,68)
[68,74)
[74,80)
Nº trabajadores
7
8
15
25
18
9
6
88
Marca clase
41
47
53
59
65
71
77
Ni (Frec. Abs. Acumulada)
7
15
30
55
73
82
88
88
 30
2
M  56  6
 59,36
25
Observaciones:
1. La mediana es particularmente útil en los siguientes casos:
a) Cuando
entre
los
datos
existe
alguno
ostensiblemente extremo que, como hemos visto,
afecta a la media.
b) Cuando los datos están agrupados en clases y alguna
de ellas está abierta.
c) Como consecuencia de la definición de mediana se
deduce que el 50% de los datos son menores o
iguales a ella, siendo el 50% restante de datos
mayores o iguales.
2. La mediana es el primer parámetro de centralización que
depende del orden de datos y no de su valor.
3. Geométricamente y para distribuciones representables
mediante un histograma de frecuencias la mediana es un valor
-4-
ESTADÍSTICA 1º BACHILLERATO
de la variable, tal que la vertical levantada sobre el
histograma lo divide en dos partes iguales.
 RELACIÓN ENTRE MEDIA, MODA Y MEDIANA
En distribuciones simétricas o ligeramente asimétricas se cumple:
X  Mo  3( X  M )
Campana de Gauss
f) Cuantiles:
 Cuartiles: Son tres valores que dividen a la serie de datos en cuatro
partes iguales. Se representan por Q.
 Deciles: Son nueve valores que dividen la serie en diez partes iguales. Se
representan por D.
 Percentiles: Son 99 valores que dividen la serie en 100 partes iguales. Se
representa por P.
Q2=P50=M
Cálculo: Debido a que los cuantiles son parámetros del tipo de la mediana, su
cálculo se realiza de forma análoga.
Ejemplo 1: En la tabla de las calificaciones de Historia de 40 alumnos vamos a
calcular los cuartiles primero y tercero y los percentiles 30 y 70.
Xi
1
2
3
4
5
6
7
8
9
ni
2
2
4
5
8
9
3
4
3
Ni
2
4
8
13
21
30
33
37
40
Q1:
Q1 deja a la cuarta parte de la distribución a la izquierda.
Como N/4=10, Q1=4.
67
 6,5
2
Q3:
3
N  30 ;
4
Q3 
P30:
30
N  12 ;
100
P30  4
P70:
70
N  28 ; P70  6
100
-5-
ESTADÍSTICA 1º BACHILLERATO
Ejemplo 2: En la tabla de los empleados y la satisfacción en el trabajo, vamos a
calcular Q1, Q3, P40 y P90.
Puntuación
[38,44)
[44,50)
[50,56)
[56,62)
[62,68)
[68,74)
[74,80)
Q1:
Nº trabajadores
7
8
15
25
18
9
6
88
1
N  22 ;
4
Q1  50  6
Q3:
22  15
 52,8
15
3
N  66 ;
4
Q3 estará contenido en la clase [62,68).
66  55
 65,67
18
40
N  35,2 ; P40 estará contenido en la clase [56,62).
100
P40  56  6
P90:
Ni (Frec. Abs. Acumulada)
7
15
30
55
73
82
88
Q1 estará contenido en la clase [50,56).
Q3  62  6
P40:
Marca clase
41
47
53
59
65
71
77
35,2  30
 57,25
25
90
N  79,2 ; P40 estará contenido en la clase [68,74).
100
P90  68  6
79,2  73
 72,13
9
Observaciones:
1. Los cuantiles, sobretodo los deciles y percentiles, son parámetros
estadísticos muy utilizados en las Ciencias Sociales.
2. A los cuantiles se les suele denominar “parámetros de estructura”, ya
que nos informan acerca de la estructura o distribución interna de los
datos. También se les llama “parámetros de posición”.
3. Aún cuando incluimos los cuarteles dentro de los parámetros de
centralización por su analogía con la mediana, no tienen que estar
-6-
ESTADÍSTICA 1º BACHILLERATO
situados hacia el centro de la distribución, como en el caso del
percentil noventa.
4. Q1=P25;
Q2=P50=M;
Q3=P75.
2. MEDIDAS DE DISPERSIÓN
Consideremos el siguiente ejemplo:
Se ha aplicado a dos grupos de ocho alumnos una prueba de cien preguntas
sobre capacidad numérica, obteniéndose los siguientes resultados:
Si calculamos la media, moda y mediana de ambas distribuciones, observaremos
que todas son iguales a 50. En cambio, los dos grupos son muy distintos. Mientras que
en el Grupo A la mayoría de los alumnos han contestado a
GRUPO A GRUPO B la mitad de las preguntas, en el Grupo B hay alumnos que
46
10
han contestado casi todo y otros que no han respondido a
48
18
casi ninguna pregunta. Por lo tanto, las puntuaciones del
49
30
Grupo A están poco dispersas y muy concentradas. En
50
50
cambio las del Grupo B están poco concentradas y muy
50
50
dispersas.
51
70
51
82
La investigación acerca de una distribución queda
54
90
incompleta si sólo se estudian las medidas de centralización,
siendo necesario conocer si los datos numéricos están agrupados o no alrededor de los
valores centrales. A esto es a lo que se llama dispersión, y los parámetros que miden
esta desviación respecto a la media son llamados “medidas o parámetros de dispersión”.
Los más importantes son:
Rango o recorrido.
Varianza.
Desviación típica.
a) Rango o recorrido:
Es la diferencia entre el valor mayor y menor de la variable estadística.
Cálculo: Muy sencillo de calcular. En el ejemplo anterior, la serie A tiene un
recorrido de RA=54-46=8, mientras que en la serie B: RB=90-10=80.
Observaciones o propiedades:
1. Cuanto menor es el recorrido, mayor es el grado de representatividad de
los valores centrales.
2. Tiene la gran ventaja de su sencillez de cálculo.
3. Tiene gran aplicación en procesos de control de calidad, y de manera
general, en aquellos procesos en los que se pretende verificar longitudes,
pesos, volúmenes, etc., estando prefijados de antemano los límites
permitidos.
4. El recorrido presenta el inconveniente de que sólo depende de los valores
extremos; basta con que uno de ellos se separe mucho para que el
recorrido se vea sensiblemente afectado.
-7-
ESTADÍSTICA 1º BACHILLERATO
5. Para paliar este inconveniente se emplean otros dos rangos o recorridos.
a) Rango intercuartílico:
Q=Q3-Q1
b) Rango interpercentílico:
P=P90-P10
Estos rangos son mucho más estables que el recorrido, ya que tienden a
eliminar los valores extremadamente alejados.
b) Desviación media: Es la media del valor absoluto de las desviaciones.
c) Varianza (S2)
Se llama varianza a la media aritmética de los cuadrados de las desviaciones. Se
llama desviación típica a la raíz cuadrada positiva de la varianza.
n
n
n i (x i  x ) 2
ni x i2
S 

 x2
N
N
i1
i1
2
Observaciones o propiedades:

1. Tanto la varianza como la desviación típica dependen de todos los
valores de la distribución, así como de la media. En los casos en los que
no se puede calcular la media no se puede hallar la varianza ni la
desviación típica.
2. La varianza tiene el inconveniente de que no viene expresada en las
mismas unidades que los datos, de modo que las desviaciones van
elevadas al cuadrado, de ahí que se define que la desviación típica es más
interesante que la varianza porque viene expresada en las mismas
unidades que los datos.
 UTILIZACIÓN CONJUNTA DE LA MEDIA Y LA DESVIACIÓN TÍPICA
En distribuciones unimodales, simétricas y ligeramente asimétricas se verifica que:
(x  s, x  s)  68%
(x  2s, x  2s)  95%
(x  3s, x  3s)  99%

s
-8-
2s
3s
ESTADÍSTICA 1º BACHILLERATO
EJERCICIOS
1. El número de horas que un alumno dedica al estudio cada semana es el
indicado en la tabla. Hallar rango, varianza y desviación típica:
xi  x
xi

3
3,5
 4
5
5,5
6
27
-1,5
-1
-0,5

0,5
1
1,5
0
Calculamos la media:
3  3,5  4  5  5,5  6
x
 4,5
6
(x i  x ) 2
2,25
1
0,25
0.25
1

2,25
7

S2 
7
1,16
6
S  1,16 1,08
R  6  3  
3
 calificaciones en historia de los 40 alumnos, calcula el
2. En el problema de las
rango, varianza y desviación típica:
xi

ni
x i ni
1
2
2
2
 3  4
4
5
5
8
6
9
7
3
8
4
9
3
45
40
2
4
 12
20
40
54
21
32
27
212
n i x i2
2
8
36
80
200
324
147
256
243
1296
x
212
 5,3
40
S2 
1296
 5,3 2  4,31
40
S  4,31  2,08
R  9 1  8
3. En el problema de la prueba a los 88 empleados, calcular la varianza y la
desviación típica.
-9-
ESTADÍSTICA 1º BACHILLERATO
Puntuación
[38,44)
[44,50)
[50,56)
[56,62)
[62,68)
[68,74)
[74,80)
Marca clase
41
47
53
59
65
71
77
Nº tra. xini
7
287
8
376
15
795
25
1475
18
1170
9
639
6
462
88
5204
xi2ni
11767
17672
42135
87025
76050
45369
35574
315592
315592
 59,14 2  88,73
88
Desviación típica = S= 88,73  9,4
Varianza
S2 
COEFICIENTE DE VARIACIÓN.
El coeficiente de variación de Pearson CV es el cociente entre la desviación típica y la
media aritmética de un conjunto de valores.
S ( x)
CV=
x
El valor que resulta de esta expresión es adimensional, lo que permite comparar
variables expresadas en magnitudes diferentes o en la misma magnitud, pero con
distintas medidas.
Dicho valor se suele multiplicar por 100 para trabajar con porcentajes.
Diremos que la dispersión es elevada cuando el CV sea superior al 30 %.
- 10 -