Download Unidad: ESTADÍSTICA DESCRIPTIVA

Document related concepts
no text concepts found
Transcript
Departamento de Matematicas
Profesora: Paulina Quijada Jara
ESTADÍSTICA DESCRIPTIVA
La Estadística se divide en dos grandes áreas:
Estadística Descriptiva o Deductiva dedicada a la recolección, clasificación y
ordenamientos de
datos.
Estadística Inductiva o Inferencial que interpreta los datos recogidos en la primera
etapa y
obtiene conclusiones a partir de ellos.
ESTADÍSTICA: Es la ciencia de recoger, clasificar, describir y analizar datos
numéricos que
sirvan para deducir conclusiones y tomar decisiones de acuerdo a
esos
análisis.
Aclaramos algunos conceptos relativos a términos que debemos utilizar.
Población: es el conjunto completo de individuos, medidas u objetos a observar y
que tienen
una característica en común.
Muestra: ( N) es un subconjunto de la población. No siempre es posible observar
todos los elementos de una población.
Variable estadística: es una característica o atributo que se observa en cada
elemento de la población. Pueden ser: Discretas o Continuas, Cualitativas
Atributo: característica investigada en la observación. Estos pueden ser cualitativos
(sexo, religión, nacionalidad) o cuantitativos (estatura, peso, área –estos son
continuos, se miden en números reales-; número de hijos, número de goles –
discretos, se miden en números enteros-)
Por ejemplo: si se desea realizar un estudio estadístico de las estaturas de los
alumnos de tercer año,
 Población: conjunto de estaturas
 Individuo: cada estatura
 Atributo: la estatura
Dato: es el valor de la variable para cada elemento perteneciente a la población o a la
muestra.
Frecuencia acumulada: ( F) es el número de observaciones menor o igual al valor
considerado. Se obtiene sumando sucesivamente las
frecuencias
absolutas.
Frecuencia relativa: (fr - %f) es el cuociente entre la frecuencia absoluta y el número
total de
individuos de la muestra. (La suma de las fr debe ser igual a 1).
Rango: es la diferencia entre el dato mayor y el dato menor.
Ejemplo nº1: Queremos conocer, cuál es el color de tapas de cuadernos más usados
por los alumnos de este colegio.
Población: Cuadernos de los alumnos del CICV
Muestra: Los cuadernos de los alumnos de IV A y B
Variable estadística: color de los cuadernos.
Datos: conjunto de los colores de los cuadernos de la muestra.
NOTA: Siempre es conveniente, ordenar la muestra, en orden alfabética o
ascendente (descendente) en caso de ser numérica.
Al recoger la información obtenemos un gran número de datos que conviene presentar
en forma resumida en una tabla llamada TABLA DE DISTRIBUCIÓN DE
FRECUENCIA.
Ejemplo nº2: Los siguientes datos son las calificaciones obtenidas
en una asignatura por un grupo de 30 alumnos.
7 -5 -4 -7 -2 -5 -4 -3 -6 -4 -5 -6 -2 -3 -7 -5 -6 -5 -4 -3 -4 -5 -3 -7 -6 -5 -4 –
2 -3 -1
Los siguientes datos presentados en una tabla de distribución de frecuencia con datos
alineados queda:
Variable Estadística Frecuencia
Absoluta
Calificación Nº de Alumnos
1
1
2
3
3
5
4
6
5
7
6
4
7
4
N
30
Calificación Nº de
Alumnos
1
1
2
3
3
5
4
6
5
7
6
4
7
4
N=30
F
fr
1
4
9
15
22
26
30
0,03
0,1
0,16
0,2
0,23
0,13
0,13
100%
Ejercicio nº1:
la tabla:
En una muestra de 40 familias, el número de hijos se distribuye según
Complete la tabla y responda.
1) ¿Cuántas familias tienen menos de 4 hijos?
2) ¿Cuántas familias tienen 5 hijos?
3) ¿Cuántas familias tienen 5 hijos o menos?
4) ¿Cuál es la frecuencia relativa de las familias de 2 hijos?
Ejercicio nº2:
son
Los pesos de cada uno de los 11 jugadores de un equipo de fútbol
los siguientes:
1)
2)
3)
4)
5)
6)
70 -79 -70 -69 -70 -73 -73 -78 -79 -70 -68
Construya una tabla de distribución de frecuencia.
¿Cuántos jugadores pesan menos de 70 kg.?
Sume las frecuencias absolutas. ¿Qué valor obtienes?
¿Qué valor se obtiene al sumar las frecuencias relativas?
Indique la frecuencia relativa de los jugadores que pesan 79 kg.
¿Cuántos jugadores pesan 73 kg o menos?
Nº de
hijos
1
2
3
4
5
6
Nº de
familias
2
8
12
14
3
1
F
Nota: La Tabla de Distribución de Frecuencia con DATOS ACUMULADOS ( o
AGRUPADOS), es aquella que en la variable los datos se presentan en intervalos
también llamados clases.
El término central de un intervalo se llama MARCA DE CLASE, que es el
representante de la clase.
Para determinar el tamaño de cada intervalo (ancho de clase ), se divide el rango por
la
cantidad de intervalos que se desea obtener.
Se forman, tantas clases hasta cubrir el dato mayor.
Ejemplo: Considere los siguientes datos:
1, 2, 5, 4, 7, 8, 9, 5, 6, 4, 7, 4, 1, 8, 5, 2, 3
N = 17
Ordenamiento = 1, 1, 2, 2, 3, 4, 4, 4, 5, 5, 5, 6, 7, 7, 8, 8, 9
Rango = 9-1 =8
Total de clases = 4
Ancho de clase = 8: 4 = 2
Intervalos =
1-3
4- 6
7-9
Marcas de clase = 2 , 5 y 8
fr
Medidas de Tendencia Central
Son valores representativos de la totalidad de los datos. Su cálculo permite
analizar los datos en torno a un valor central.
Los valores centrales más usados son: Media Aritmética ( Media) , Mediana
y Moda.
Media Aritmética: x es la suma de un conjunto de valores dividida por el total de
ellos ( la muestra)
Datos:
x 1 , x 2 , x 3 ,……..x n
Muestra: N
x =
x1  x2  .....  xn
N
Ejemplo: Calcular la media aritmética de los siguientes datos:
3–5–7–6–4–5–3–5–4–5–3–4
N =12
x =
54
35 7 6 4535 453 4
=
= 4,5
12
12
Si el número de datos es alto y algunos valores se repiten , obtenemos la
Media Aritmética Ponderada, se multiplica cada valor de la variable por su
frecuencia absoluta, se suman los productos y ésta se divide por el total de la muestra
( N) .
Notas f Variable
 f
Ejemplo:
3
3 9
4
3 12
54
9  12  20  6  7
=
=4,5
x =
5
4 20
12
12
6
1 6
7
1 7
Ejercicio n°4
Los saldos de una cuenta corriente bancaria en pesos
durante 10 días son: $ 152.000 - $ 148.000 - $ 90.000 $ 152.000 - $90.000 - $ 42.000 - $148.000 -$90.000 $148.000 y $90.000
1) Elabore una tabla de distribución de frecuencia
2) Calcule la media aritmética.
Mediana: es el valor de la variable que deja igual número de valores antes y después
de él en una distribución de frecuencia.
Según el número de valores de la variable ( N) se distinguen 2 casos:
i)
Si el N es impar, la mediana coincide con el valor central.
ii)
Si el N es par, la mediana es la media aritmética de los dos valores
centrales.
Siempre es conveniente ordenar los datos o muestra.
Ejemplo n°1: Indique cuál es la mediana en los siguientes conjuntos de datos:
A = 3, 4, 5 , 3, 5, 6, 4, 3, 2, 3 y 4
N = 11
Ordenamiento: 2, 3, 3, 3, 3, 4, 4, 4, 5, 5 y 6
Ejemplo n°2:
B= 1, 9, 20, 31, 52, 73, 94, 105, 116 y 1740
N = 10
10 es número par; valores centrales 12 y 13
Mediana =
52  73
= 62,5
2
La mediana corresponde a 62,5
Ejemplo n°3
Determine la mediana en la siguiente tabla de distribución de
Frecuencia.
Intervalos f
60 – 64
5
N =50 , es número par
65
–
69
5
Mediana = se ubica entre los valores de
70 – 74
8
ubicación 25 y 26
75 – 79
12
Mediana se ubica en la clase 75 – 79
80 – 84
16
85 – 99
4
Ejercicios:
Determinar la mediana de todas los ejemplos y tablas anteriores.
Moda: es el valor de la variable ( muestra ) que tiene mayor frecuencia absoluta.
( es el valor que aparece mayor cantidad de veces).
Puede haber más de una moda o no existir.
Ejercicio:
La distribución de frecuencia muestra las edades de 24 personas
que trabajan en un taller de pintura. Determine su moda
Edad 20
f
4
25
6
30
7
35
3
40
2
45
2
La Moda es 30 años, porque tiene la frecuencia mayor.
Ejercicios:
Determinar la moda de todas los ejemplos y tablas anteriores.
Marque la letra de la alternativa correcta
1) ¿Cuál es la media aritmética de los números: 5 – 6 - 8 -10 -12 y 13 ?
A) 6 B) 8 C) 9 D) 10 E) 13
2) Dados los siguientes datos: 6 , 8, 5 , 10 , 12 , 5 , 8 , 7 , 10 , 11 , 4 , 3 , 5 , 10 y 12
¿Cuál es la frecuencia acumulada de 3 a 6?
A) 2 B) 3 C) 4 D) 5 E) 6
3) El siguiente gráfico muestra las edades de un grupo de niños pertenecientes a un coro.
i)En el intervalo 9,11 hay 9 niños.
ii)El coro lo integran 27 niños.
iii)La mitad de los niños tiene 11 años o más.
Son verdaderas:
A) Sólo I
B) Sólo II
C) Sólo I y III
D) Sólo I y II
4) El siguiente gráfico de barra indica las temperaturas máximas registradas en una ciudad
durante una semana.
Podemos concluir:
I.
El martes se registró la temperatura media.
II. La temperatura máxima se registró el sábado.
III.La moda es 15° .
Es (son) verdadera(s):
A)
B)
C)
D)
I y II
I y III
II y III
Sólo II
5) La mediana del siguiente conjunto de datos : 3 , 4 , 5 , 3 , 5 , 6 , 4 , 3 , 2 , 3 , 4 y 6 es:
A) 2 B) 3 C) 3,5 D)4 E) 5
6) El tiempo empleado por un grupo de seis corredores de 100m planos, en cubrir la distancia es
una variable estadística:
I. Cuantitativa
II. Discreta
III. Continua
A) Sólo I
B) Sólo II
C) Sólo III
D) I y II
E) I y III
7) El siguiente gráfico muestra las notas obtenidas por los alumnos de un curso en una prueba.
De acuerdo a la información, ¿cuántos alumnos rindieron la prueba?
A) 35 B) 31 C) 30 D) 28 E) 10
8) En una caja hay 10 bolitas marcadas
con los números del 1 al 4. En la siguiente
tabla se muestra la distribución de
frecuencias de cada uno de los números:
¿Cuál es la mediana de estos datos?
A) 2,8 B) 3,0 C) 3,5 D) 4,0 E) 5,0
9) Las notas de Matemática de un curso de 15 alumnos son:
6,0 – 4,0 – 6,5 – 6,5 – 4,5 – 5,5 – 1,5 – 6,4 – 3,8 – 5,7 – 3,6 – 4,9 – 5,9 – 6,3 – 2,8
El rango de las notas es:
A) 15 B) 6,5 C) 5,0 D) 3,0 E) 1,1
10) La tabla muestra las notas obtenidas por un curso en una prueba de Inglés. De acuerdo a la
información entregada, ¿cuál es la nota promedio del curso?
A) 5,0 B) 4,5 C) 4,0 D) 3,5 E) 3,0
11) El gráfico de la figura muestra las ventas de cuadernos en una librería, entre los meses de
Enero y Junio. ¿Cuál es la venta promedio de cuadernos durante el período graficado?
A) 1500 B) 2000 C) 2250 D) 2500 E) 3000
Medidas de posición no central
Medidas de posición no centrales
Las medidas de posición no centrales permiten conocer otros puntos característicos de la
distribución que no son los valores centrales. Entre otros indicadores, se suelen utilizar una serie
de valores que dividen la muestra en tramos iguales:
Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma
creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos
concentra el 25% de los resultados.
Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma
creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos
concentra el 10% de los resultados.
Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma
creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos
concentra el 1% de los resultados.
Ejemplo: Vamos a calcular los cuartiles de la serie de datos referidos a la estatura de un grupo de
alumnos (lección 2ª). Los deciles y centiles se calculan de igual manera, aunque haría falta
distribuciones con mayor número de datos.
Variable
(Valor)
X
Frecuencias absolutas
Frecuencias relativas
Simple
Simple
X
1,20
1,21
1,22
1,23
1,24
1,25
1,26
1,27
1,28
1,29
1,30
Acumulada
x
1
4
4
2
1
2
3
3
4
3
3
X
1
5
9
11
12
14
17
20
24
27
30
Acumulada
x
3,3%
13,3%
13,3%
6,6%
3,3%
6,6%
10,0%
10,0%
13,3%
10,0%
10,0%
3,3%
16,6%
30,0%
36,6%
40,0%
46,6%
56,6%
66,6%
80,0%
90,0%
100,0%
1º cuartil: es el valor 1,22 cm, ya que por debajo suya se situa el 25% de la
frecuencia (tal como se puede ver en la columna de la frecuencia relativa acumulada).
2º cuartil: es el valor 1,26 cm, ya que entre este valor y el 1º cuartil se situa otro
25% de la frecuencia.
3º cuartil: es el valor 1,28 cm, ya que entre este valor y el 2º cuartil se sitúa otro
25% de la frecuencia. Además, por encima suya queda el restante 25% de la
frecuencia.
Atención: cuando un cuartil recae en un valor que se ha repetido más de una vez (como ocurre en
el ejemplo en los tres cuartiles) la medida de posición no central sería realmente una de las
repeticiones.
Medidas de dispersión
Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o menos
concentrados, o más o menos dispersos.
Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar las
siguientes:
1.- Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia
entre el valor más elevado y el valor más bajo.
2.- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se
calcula como sumatorio de las difrencias al cuadrado entre cada valor y la media,
multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio
obtenido se divide por el tamaño de la muestra.
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario,
mientras mayor sea la varianza, más dispersos están.
3.- Desviación típica: Se calcula como raíz cuadrada de la varianza.
4.- Coeficiente de varización de Pearson: se calcula como cociente entre la
desviación típica y la media.