Download variables estadísticas unidimensionales

Document related concepts

Parámetro estadístico wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Mediana (estadística) wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Distribución de frecuencias wikipedia , lookup

Transcript
Apuntes de A. Cabañó
Matemáticas aplicadas a cc.ss.
VARIABLES ESTADÍSTICAS UNIDIMENSIONALES.
CONTENIDOS.
•
•
•
•
•
•
Introducción a la Estadística descriptiva. Terminología básica: población,
muestra, individuo, carácter.
Variable estadística: discretas y continuas.
Organización de datos. Tablas de frecuencias. Representaciones gráficas:
diagramas de barras e histogramas.
Medidas de centralización: media, moda y mediana.
Medidas de posición: cuartiles y percentiles.
Medidas de dispersión: rango, rango intercuartílico, varianza y desviación
típica. Dispersión relativa: coeficiente de variación.
Introducción a la estadística descriptiva.
La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación de los
datos obtenidos por las observaciones. Se construyen tablas y se representan gráficos y
asimismo, se calculan parámetros estadísticos que caracterizan la distribución.
En general, se llama población al conjunto de todos los elementos que cumplen una
determinada característica. Los elementos de la población se llaman individuos o unidades
estadísticas.
Se llama muestra a cualquier subconjunto de la población. El número de elementos de una
muestra se denomina tamaño. El proceso mediante el cual se extrae una muestra
representativa de la población se conoce con el nombre de muestreo aleatorio.
Se llama carácter estadístico a una propiedad que permite clasificar a los individuos de la
población. Se distinguen dos tipos:
• Caracteres estadísticos cuantitativos son aquellos que se pueden medir.
• Caracteres estadísticos cualitativos son aquellos que no se pueden medir.
Se llama modalidad de un carácter estadístico a cada una de las diferencias que se pueden
establecer dentro de un mismo carácter cualitativo.
El conjunto de valores numéricos que puede tomar un carácter cuantitativo se llama variable
estadística.
Variable estadística.
Las variables estadísticas pueden ser discretas o continuas.
• Una variable estadística es discreta cuando puede tomar un número finito de valores o
infinito numerable.
• Una variable es continua cuando puede tomar, al menos teóricamente, todos los valores
posibles dentro de un cierto intervalo de la recta real.
Los valores de las variables estadísticas se acostumbra representarlos por x1,x2,x3.....xn.
Se llama frecuencia absoluta del valor xi y la representamos por ni, al número de veces que
se repite dicho valor.
Se llama frecuencia absoluta acumulada del valor xi y la representamos por Ni, a la suma de
las frecuencias absolutas de todos los valores anteriores a xi, más la frecuencia absoluta de xi:
Ni=n1+n2+n3+......+ni
Se llama frecuencia relativa de un valor xi y la representamos por fi, al cociente entre la
frecuencia absoluta de xi y el número total de datos que intervienen en la distribución:
fi =
ni
n
siendo n el número total de datos.
Se llama frecuencia relativas acumuladas del valor xi a la expresión:
Fi=f1+f2+f3+......+fn
1
Variables estadísticas unidimensionales
Apuntes de A. Cabañó
Matemáticas aplicadas a cc.ss.
Representaciones gráficas.
Diagramas de barras: para trazarlos se representan sobre el eje de abscisas los valores de la
variable, y sobre el eje de ordenadas las frecuencias absolutas o relativas, según proceda. A
continuación por los puntos marcados en el eje de abscisas se levantan trazos gruesos o
barras, de longitud igual a la frecuencia correspondiente.
Los polígonos de frecuencias se forman uniendo los extremos de las barras mediante una
línea quebrada.
Los histogramas se utilizan para distribuciones de variable estadística continua y que se han
agrupado en clases generalmente de igual amplitud. Para construir el histograma se
representan sobre el eje de abscisas los límites de las clases. Sobre dicho eje se construyen
unos rectángulos que tienen por base la amplitud del intervalo, y por altura, la frecuencia
absoluta de cada intervalo, siempre que todos los intervalos tengan igual amplitud.
En caso contrario, las alturas de los rectángulos han de ser calculadas teniendo en cuenta que
sus áreas deben ser proporcionales a las frecuencias de cada intervalo.
Medidas de centralización.
A las medidas de centralización se les lama así porque tienden a situarse, en general, hacia el
centro del conjunto de datos ordenados.
Se llama media aritmética de una variable estadística a la suma de todos los valores de dicha
variable dividido por el número de valores.
p
x=
∑x n
i
i =1
i
n
Se llama moda de una variable estadística al valor de la variable que presenta mayor
frecuencia absoluta. La moda se representa por Mo
En caso de que los datos se encuentren agrupados en intervalos es fácil determinar la clase
modal (clase con mayor frecuencia). La moda se obtiene a partir de la siguiente expresión:
M o = Li + c ⋅
D1
D1 + D2
Li= límite inferior de la clase modal
c= amplitud de los intervalos
D1= diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de la
clase anterior.
D2= diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de la
clase siguiente.
Se llama mediana de una variable estadística a un valor de la variable, tal que el número de
observaciones menores que él es igual al número de observaciones mayores que él. Es decir,
el número de datos que preceden a la mediana es igual al número de datos que la siguen. La
mediana de una variable se representa por M
Para calcular la mediana en el caso de variable estadística discreta primeramente se realiza la
tabla estadística de frecuencias. La mediana viene dada por el primer valor de la variable cuya
frecuencia absoluta acumulada excede a la mitad del número de datos.
En el caso de que la mitad del número de datos coincida con la frecuencia absoluta acumulada
correspondiente a un valor, la mediana es la semisuma entre ese valor y el siguiente de la
tabla.
En el caso de variable estadística continua, resulta fácil detectar cuál es la clase mediana
(donde se alcanzan la mitad de los datos) y a continuación aplicamos la siguiente expresión:
n
  − N i −1
2
M = Li + c  
ni
Li=límite inferior de la clase mediana
n=número total de datos
c=amplitud del intervalo
Ni-1=frecuencia absoluta acumulada de la clase
anterior a la clase mediana
ni=frecuencia absoluta de la clase mediana
2
Variables estadísticas unidimensionales
Apuntes de A. Cabañó
Matemáticas aplicadas a cc.ss.
Medidas de posición.
Se llaman cuartiles a tres valores que dividen la serie de datos en cuatro partes iguales. Se
representan por Q1 , Q2 y Q3 y se designan cuartil primero, segundo y tercero, respectivamente
n
  − N i −1
4
Q1 = Li + c  
ni
 3n 
  − N i −1
4
Q3 = Li + c  
ni
Q2=M
Para utilizar las expresiones anteriores se actuará como en el caso de la mediana.
Se llaman percentiles a 99 valores que dividen la serie de datos en 100 partes iguales. Se
representan por P1, P2.......
 An 

 − N i −1
100 

PA = Li + c
ni
Siendo A cualquier número del 1 al 99.
Medidas de dispersión.
Se llama recorrido de una distribución a la diferencia entre el mayor y el menor valor de la
variable estadística. Se define rango intercuartílico a la diferencia entre el cuartil tercero y el
primero.
Q=Q3-Q1
Se llama desviaciones respecto a la media a las diferencias entre cada valor de la variable y la
media aritmética.
Se llama varianza de una variable a la media aritmética de los cuadrados de las desviaciones
respecto a la media.
Se llama desviación típica de una variable a la raíz cuadrada positiva de la varianza.
La varianza se representa por s2, y la desviación típica se representa por s.
Para calcular la varianza utilizaremos la siguiente expresión:
s2 =
∑n x
i
i =1
n
2
i
−x
2
La varianza es siempre positiva o nula. Es nula cuando todos los datos son iguales a la media.
Tanto la varianza como la desviación típica son medidas de dispersión, de tal manera que
cuanto menores son estos dos parámetros más agrupados se encuentran los valores de la
distribución en torno a los valores centrales; por el contrario, para valores grandes de la
varianza o de la desviación típica los datos de la distribución se encuentran muy dispersos, es
decir, poco agrupados en torno a los valores centrales.
Para distribuciones unimodales y simétricas se puede demostrar que:
•
En el intervalo ( x − s, x + s ) se encuentra el 68% de los datos
• En el intervalo ( x − 2 s, x + 2 s ) se encuentra el 95% de los datos.
Se llama coeficiente de variación al cociente entre la desviación típica y la media aritmética
d=
s
.Obsérvese que cuando la media aritmética se acerca a cero el coeficiente de variación
x
no tiene gran utilidad, ya que toma valores infinitamente grandes.
Este coeficiente relaciona una medida de dispersión con una de centralización.
Ejemplo
De un grupo de 30 personas hemos ido apuntando la edad de cada uno, obteniendo lo
siguiente:
3
Variables estadísticas unidimensionales
Apuntes de A. Cabañó
Matemáticas aplicadas a cc.ss.
3
25
30
5
7
18
25
23
35
43
28
17
15
12
8
4
9
37
32
41
36
28
28 15
18
20
19
27
25
40
a) Haz una tabla de frecuencias, agrupando los datos en intervalos de longitud 5, empezando
en 0.
b) Representa gráficamente la distribución.
a)
Intervalo
Frecuencia
[0,5)
2
[5,10)
4
[10,15)
1
[15,20)
6
[20,25)
2
[25,30)
7
[30,35)
[35,40)
[40,45)
2
3
3
30
b)
EjemploLas notas de una clase obtenidas en un examen de matemáticas vienen recogidas en la
siguiente tabla:
a) Calcula la media y la desviación típica.
b) ¿Qué porcentaje de alumnos hay en el intervalo ( x − σ, x + σ )?
4
Variables estadísticas unidimensionales
Apuntes de A. Cabañó
Matemáticas aplicadas a cc.ss.
a)
x=
xi
fi
x if i
f i xi 2
1
1
1
1
2
1
2
4
3
2
6
18
4
2
8
32
5
6
30
150
6
4
24
144
7
8
9
10
5
3
3
2
29
35
24
27
20
177
245
192
243
200
1229
Σ fi xi 177
=
= 6,1
n
29
2
Σ fi x i
1229
− x2 =
− 6,12 = 5,17 = 2,27
n
29
La nota media de la clase es de 6,1, con una desviación típica de 2,27.
σ =
b) x − σ = 3,83 
En el intervalo ( 3,83; 8,37) hay 20 alumnos, que representan un 68,97% del total.
x + σ = 8,37 
EjemploLa nota media de una clase, A, en un examen ha sido 5,5, con una desviación típica de 2,1.
En otra clase, B, la nota media en el mismo examen ha sido 7,3 y la desviación típica, de 2,6.
Calcula el coeficiente de variación y compara la dispersión de ambos grupos.
σA
2,1
=
= 0,382
5,5
xA
σ
2,6
= 0,356
C.V.B = B =
7,3
xB
C.V. A =
→
→

38,2%

 La variación es un poco mayor en el grupo A.
35,6%

EjemploTiramos sucesivamente una moneda y anotamos el número de lanzamientos que necesitamos
hasta obtener por primera vez cara. Realizamos el experimento 100 veces, con los siguientes
resultados:
Calcula Me, Q1, Q3 y p30.
Hacemos la tabla de frecuencias acumuladas:
5
Variables estadísticas unidimensionales
Apuntes de A. Cabañó
Matemáticas aplicadas a cc.ss.
xi
fi
Fi
en %
1
48
48
48
2
25
73
73
3
16
89
89
4
4
93
93
5
5
98
98
6
2
100
100
Me = 2

Q1 = 1 

Q3 = 3 
p30 = 1
El 50% de las veces hemos hecho 2 o menos tiradas, y el 50% restante hemos hecho 2 o más
tiradas. Análogamente se interpretan:
Q1 = 1 ( 25 %, 75 % ) ; Q 3 = 3 ( 75 %, 25 % ) y p 30 = 1 ( 30 %, 70 % )
Ejemplo
Al medir la estatura, en centímetros, en un grupo de 50 personas, hemos obtenido la siguiente
información:
Calcula gráfica y numéricamente Me y Q1.
Construimos el polígono de frecuencias acumuladas:
Extremos
Fi
%
150
0
0
155
6
12
160
15
30
165
27
54
170
42
84
175
50
100
Obtengamos los valores exactos, razonando sobre el polígono de frecuencias:
Me:
Q1:
6
Variables estadísticas unidimensionales
Apuntes de A. Cabañó
Matemáticas aplicadas a cc.ss.
18 13
=
x
5
x = 3,61
Q1 = 155 + 3,61 = 158,61
24 20
=
x
5
x = 4,17
Me = 160 + 4,17 = 164,17
Los valores exactos son: Me = 164,17; Q1 = 158,61
EJERCICIOS.
1. Las puntuaciones obtenidas en un test por 20 alumnos son las siguientes:
16,22,21,20,23,22,17,15,13,22,17,18,20,17,22,16,23,21,22,18.
a) Construir la tabla de frecuencias.
b) Representa el diagrama de barras de frecuencias absolutas y frecuencias absolutas
acumuladas.
2. Se ha aplicado un test de capacidad espacial compuesto por 100 preguntas a un grupo de
100 alumnos, habiéndose obtenido los siguientes resultados:
Nº de preguntas correctas
[0-15)
[15-30)
[30-45)
[45-60)
[60-75)
[75,90)
Nº de alumnos
10
15
25
20
20
10
a) Formar la tabla de frecuencias
b) Representar el histograma de frecuencias absoluta y el histograma de frecuencias
absolutas acumuladas.
c) Representar los polígonos de frecuencias.
3. Dada la serie estadística: 3,5,2,7,6,4,9 hallar:
a)
b)
c)
d)
La media, la mediana y la moda
El rango, la desviación típica y la varianza
Los cuartiles 1º y 3º
Los percentiles 20, 32 y 85.
4. Dada la distribución siguiente:
xi
ni
2
3
4
5
6
7
7
4
9
2
Hallar:
a) La media, la mediana y la moda
b) El rango, la desviación típica y la varianza
c) Los cuartiles 1º y 3º
d) Los percentiles 30 y 70
5. Dada la distribución siguiente:
xi
ni
[10-15)
3
[15-20)
5
[20-25)
7
[25-30)
4
[30-35)
2
Hallar:
a) La media, la mediana y la moda
b) El rango, la desviación típica y la varianza
7
Variables estadísticas unidimensionales
Apuntes de A. Cabañó
Matemáticas aplicadas a cc.ss.
c) Los cuartiles 1º y 3º
d) Los percentiles 30 y 70
6. Se ha aplicado un test a los empleados de una fábrica, obteniéndose la siguiente tabla:
xi
Nº trab.
[38-44)
7
[44-50)
8
[50-56)
15
[56-62)
25
[62-68)
18
[68-74)
9
[74-80)
6
Se pide:
a) Histograma y polígono de frecuencia absoluta acumulada.
b) Calcular la mediana y la moda.
7. Los resultados obtenidos al lanzar un dado 200 veces vienen reflejados en la siguiente
tabla:
Nº de puntos
Repeticiones
1
¿
2
32
3
35
4
33
5
¿
6
35
Determinar las frecuencias que faltan sabiendo que la puntuación media es 3,6 y calcular la
mediana y la moda.
8. Se ha realizado un test, compuesto de 10 preguntas, a 40 alumnos de un grupo, con los
siguientes resultados:
Nº de respuestas
Nº de alumnos
[0,2)
4
[2,4)
9
[4,6)
15
[6,8)
7
[8,10)
5
Se pide:
a) El histograma de frecuencias.
b) Calcular el valor de la moda.
c) ¿A partir de qué valor se encuentra el 70% de los alumnos que han obtenido la mejor
nota?
9. La asistencia de espectadores a cada sala de la cadena de cine “El Cisne” el día 17 de
Julio de 200, 500, 300 y 1000personas. Calcular la dispersión (coeficiente de variación) del
número de asistentes.
Si el día del espectador acuden 50 personas más a cada sala ¿qué efecto tendrá sobre la
dispersión?
10. Completa los datos que faltan:
xi
ni
Ni
fi
1
4
.
0.08
2
4
.
.
3
.
.
0.16
4
7
23
.
5
5
.
.
6
.
38
.
7
7
45
.
8
.
.
.
Calcula la media y la moda de la distribución anterior.
8
Variables estadísticas unidimensionales