Download Estadística Descriptiva

Document related concepts

Parámetro estadístico wikipedia , lookup

Análisis de frecuencia acumulada wikipedia , lookup

Mediana (estadística) wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Histograma wikipedia , lookup

Transcript
TEMA 1
Estadística Descriptiva
Introducción
Comparativos gráficos
Medidas de tendencia
central
Medidas de dispersión




1
¿Haz escuchado el término de
estadística?
• A diario recibimos muchos datos ó información… en
conversaciones, libros y televisión, acerca de
estadísticas.
• Casi cualquier estudio científico usa la estadística
como herramienta para reportar resultados.
2
Importancia de la Estadística
La estadística es una herramienta muy útil
que nos ayuda a tomar decisiones en un
ambiente de incertidumbre, es decir, dónde
esta presente la variabilidad.
Ejemplos:
En Planeación de la producción, saber cuánto
voy a comprar de materiales de acuerdo a lo
que se espera sean las ventas (pronóstico
estadístico).
En la naturaleza hay variabilidad. Un animador
digital es capaz de “imitar” la variabilidad de
la naturaleza en sus diseños.

3
Población y Muestra
Población
Muestra
4
¿Qué tienen en común estos objetivos?
El valor de la característica de interés cambia de individuo a
individuo (la inflación, el número de glóbulos rojos, la puntuación
en matemáticas, la evaluación a los profesores de cursos en el
área de las matemáticas, el clima organizacional, el nivel de
desempeño laboral).
 A estas características les llamaremos variables. Se
representan con letras mayúsculas, y los valores que toma
con letras minúsculas
X = Número de estudiantes que llegan tarde x=0, 1, 2,…, 15
 El individuo puede ser una persona, un país, un producto de la
línea de producción, etc.
 Dato: Es el valor de la variable observado en un individuo

Ejemplo de variable: temperatura en Monterrey en un día de
Enero

0°C, 17°C representan dos datos diferentes.

5
Ramas de la Estadística
Estadística
inferencial
(se apoya en la
probabilidad)
La estadística es la rama de la
investigación científica que proporciona
métodos para organizar y resumir
información
y usar ésta para obtener diversas
conclusiones
Estadística
descriptiva
6
Estadística Descriptiva
Estadística
Descriptiva
Distribuciones
de frecuencias
(tabulación de
datos)
Representaciones
gráficas
Medidas
descriptivas
Tendencia central
Histograma
Dispersión
Diagrama
de pastel
Diagrama
de barras
7
¿Cuál es la finalidad de un
gráfico?
Por medio de un gráfico se puede visualizar el comportamiento de un conjunto
de datos. Un gráfico habla más que mil palabras.
Dependiendo si la variable es cualitativa ó cuantitativa, se selecciona el tipo de
gráfico.
8
Resúmenes gráficos
Reflexión
Observa la escala en cada gráfica.
9
¿Qué información brinda una tabla de frecuencias?
¿Para qué tipos de variables, cualitativas ó cuantitativas, se puede usar una
tabla de frecuencias?
¿Qué es frecuencia absoluta?, ¿Qué es frecuencia relativa? ¿Qué es frecuencia
Acumulada?
Para la siguiente tabla, distingue qué tipo de variable es el nivel educativo.
¿Qué proporción de individuos tiene al menos estudios de preparatoria?
Nivel Educativo
Número de casos
(frecuencia
absoluta)
Primaria o
menos
12
0.12
12
0.12
Secundaria
26
45
0.26
0.45
38
83
0.38
0.83
17
0.17
100
1.00
100
1.00
Preparatori
a
Profesional
o postgrado
Total
Frecuencia
Relativa
Número
ACUMULADO de
casos (frecuencia
ACUMULADA)
Frecuencia
Relativa
ACUMULADA
10
Histograma






El objetivo de un
histograma es resumir la
información de una
variable cuantitativa.
Pasos:
Se secciona la
información en clases ó
intervalos
Se cuenta el número de
datos en cada clase. Esta
se llama frecuencia
Se puede calcular la
frecuencia relativa
Se grafica un
histograma, teniendo
como eje “x” las clases,
como eje “y” las
frecuencias ó frecuencias
relativas. En cada clase
se dibuja un rectángulo
que tiene como altura su
frecuencia ó frecuencia
relativa.
Sesgo a la derecha
11
¿Cómo construir un
histograma?
1.
2.
3.
Ordenar los datos
Obtener el Rango: Max-Min
Definer el número de clases.
n.clases  n
3.
Definir la amplitud de clase
Amplitud 
4.
5.
Max  Min
n
Generar la tabla de Frecuencia
Dibujar el histograma
12
Distribución de Frecuencias
Dato
Hemoglobina
(gr/cm3)
1
18.5
2
8.2
3
10.6
4
16.7
5
6.2
6
16.9
7
13
8
10.1
9
9.1
10
11.9
11
14.1
12
15.8
13
14.4
14
10.7
15
11.6
16
11.9
17
9.3
18
12.1
19
15
20
14.7

Paso 1. Determine la cantidad
de datos (n)
n=20
Distribución de Frecuencias
Dato
Hemoglobina
(gr/cm3)
Hemoglobina
(ordenados)
1
18.5
6.2
2
8.2
8.2
3
10.6
9.1
4
16.7
9.3
5
6.2
10.1
6
16.9
10.6
7
13
10.7
8
10.1
11.6
9
9.1
11.9
10
11.9
11.9
11
14.1
12.1
12
15.8
13
13
14.4
14.1
14
10.7
14.4
15
11.6
14.7
16
11.9
15
17
9.3
15.8
18
12.1
16.7
19
15
16.9
20
14.7
18.5

Paso 2. Ordene los datos de
menor a mayor
Distribución de Frecuencias
Dato
Hemoglobina
(gr/cm3)
Hemoglobina
(ordenados)
1
18.5
6.2
2
8.2
8.2
3
10.6
9.1
4
16.7
9.3
5
6.2
10.1
6
16.9
10.6
7
13
10.7
8
10.1
11.6
9
9.1
11.9
10
11.9
11.9
11
14.1
12.1
12
15.8
13
13
14.4
14.1
14
10.7
14.4
15
11.6
14.7
16
11.9
15
17
9.3
15.8
18
12.1
16.7
19
15
16.9
20
14.7
18.5

Paso 3. Identifique el Valor
Mayor (VM) y el Valor menor
(Vm)
VM =18.5
Vm = 6.2
Distribución de Frecuencias

Representación Gráfica
Se establecen los límites entre los que se
encuentran todos los datos de la muestra.
Vm= 6.2
VM=18.5
Distribución de Frecuencias
Dato
Hemoglobina
(gr/cm3)
Hemoglobina
(ordenados)
1
18.5
6.2
2
8.2
8.2
3
10.6
9.1
4
16.7
9.3
5
6.2
10.1
6
16.9
10.6
7
13
10.7
8
10.1
11.6
9
9.1
11.9
10
11.9
11.9
11
14.1
12.1
12
15.8
13
13
14.4
14.1
14
10.7
14.4
15
11.6
14.7
16
11.9
15
17
9.3
15.8
18
12.1
16.7
19
15
16.9
20
14.7
18.5

Paso 4. Obtenga el Rango (R)
R = VM - Vm
R = 18.5 - 6.2
R = 12.3
Distribución de Frecuencias

Representación Gráfica
Se obtiene la distancia que hay entre el
límite inferior y el límite superior.
Vm= 6.2
VM=18.5
R= VM – Vm
R= 18.5 - 6.2
R= 12.3
Distribución de Frecuencias
Dato
Hemoglobina
(gr/cm3)
Hemoglobina
(ordenados)
1
18.5
6.2
2
8.2
8.2
3
10.6
9.1
4
16.7
9.3
5
6.2
10.1
6
16.9
10.6
7
13
10.7
8
10.1
11.6
9
9.1
11.9
10
11.9
11.9
11
14.1
12.1
12
15.8
13
13
14.4
14.1
14
10.7
14.4
15
11.6
14.7
16
11.9
15
17
9.3
15.8
18
12.1
16.7
19
15
16.9
20
14.7
18.5

Paso 5. Obtenga el número
aproximado de intervalos (k)
k = sqrt(n)
Tenemos que n=20 por lo tanto
k = sqrt(20)
k = 4.47
Redondeando
k≈5
Distribución de Frecuencias

Representación Gráfica
Se divide la sección que tenemos entre el
número de grupos (clases) que se obtuvo
con la fórmula (5 grupos)
1
2
3
6.2
4
5
18.5
R = 12.3
Distribución de Frecuencias
Dato
Hemoglobina
1
6.2
2
8.2
3
9.1
4
9.3
5
10.1
6
10.6
7
10.7
8
11.6
9
11.9
10
11.9
11
12.1
12
13
13
14.1
14
14.4
15
14.7
16
15
17
15.8
18
16.7
19
16.9
20
18.5

Paso 5. Obtenga la longitud
de cada intervalo (W)
R
W
k
Dado que R = 12.3 y k ≈ 5
12.3
W
 2.46
5
Distribución de Frecuencias

Representación Gráfica
Se calcula el ancho que debe tener cada
grupo (clase).
2.46
1
2.46
2
2.46
3
6.2
2.46
4
2.46
5
18.5
R=12.3
Distribución de Frecuencias
Dato
Hemoglobina
1
6.2
2
8.2
3
9.1
4
9.3
5
10.1
6
10.6
7
10.7
8
11.6
9
11.9
10
11.9
11
12.1
12
13
13
14.1
14
14.4
15
14.7
16
15
17
15.8
18
16.7
19
16.9
20
18.5
Paso 6. Construya los 5
intervalos con una longitud
de 2.46.
 Corchetes [ ]: Se
[6.2,8.66)
incluye el valor
en el Intervalo
[8.66,11.12)
 Paréntesis (): No
[11.12,13.58)
se Incluye el
[13.58,16.04)
valor en el
[16.04,18.5]
Intervalo

Distribución de Frecuencias

Representación Gráfica
Se establecen los valores que separan
un grupo (clase) de otro.
2.46
6.2
2.46
8.66
2.46
11.12
2.46
2.46
13.58 16.04
R=12.3
18.5
Distribución de Frecuencias
Dato
Hemoglobina
1
6.2
2
8.2
3
9.1
4
9.3
5
10.1
6
10.6
7
10.7
8
11.6
9
11.9
10
11.9
11
12.1
12
13
13
14.1
14
14.4
15
14.7
16
15
17
15.8
18
16.7
19
16.9
20
18.5

Paso 7. Identifique y cuente
los datos que caen dentro de
cada Intervalo.
Intervalo
Datos
fi
[6.2,8.66)
6.2,8.2
2
[8.66,11.12)
9.1,9.3,10.1,10.6,10.7
5
[11.12,13.58)
11.6,11.9,11.9,12.9,13
5
[13.58,16.04)
14.1,14.4,14.7,15,15.8
5
[16.04,18.5]
16.7,16.9,18.5
3
fi : Frecuencia Absoluta
Distribución de Frecuencias

De esta manera se obtiene la distribución de
Frecuencia Absolutas
Intervalo
fi
[6.2,8.66)
2
[8.66,11.12)
5
[11.12,13.58)
5
[13.58,16.04)
5
[16.04,18.5]
3
Total
20
fi : Frecuencia Absoluta
Representación Gráfica
A esta gráfica se le conoce como histograma
de frecuencias absolutas.
Frecuencia

Distribución de Frecuencias
7
6
5
4
3
2
1
6.2
8.66
11.12
13.58 16.04
18.5
Niveles de Hemoglobina en la Sangre (gr/cm3)
Distribución de Frecuencias

Para obtener las frecuencia relativas (hi )
divida cada frecuencia absoluta entre el Total
Intervalo
fi
[6.2,8.66)
2
2/20
0.1
[8.66,11.12)
5
5/20
0.25
[11.12,13.58)
5
5/20
0.25
[13.58,16.04)
5
5/20
0.25
[16.04,18.5]
3
3/20
0.15
Total
20
20/20
1
hi
fi : Frecuencia Absoluta
Distribución de Frecuencias
Representación Gráfica
Cuando se grafican las frecuencias relativas
se conoce como histograma de frecuencias
relativas y se representan en porcentajes.
Frecuencia
Relativa (%)

35
30
25
20
15
10
5
6.2
8.66
11.12
13.58 16.04
18.5
Niveles de Hemoglobina en la Sangre (gr/cm3)
Distribución de Frecuencias

La frecuencia absoluta acumulada (fai) y la
frecuencia relativa acumulada (hai ) es la
suma de las frecuencias anteriores
Intervalo
fi
fai
hi
hai
[6.2,8.66)
2
2
0.1
0.1
[8.66,11.12)
5
7
0.25
0.35
[11.12,13.58)
5
12
0.25
0.6
[13.58,16.04)
5
17
0.25
0.85
[16.04,18.5]
3
20
0.15
1
Total
20
1
Distribución de Frecuencias
Representación Gráfica
Cuando se
grafican las
frecuencias
absolutas
acumuladas se
conoce como
histograma de
frecuencias
absolutas
acumuladas
Frecuencia Absoluta Acumulada

20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
8.66 11.12 13.58 16.04 18.5
6.2
Niveles de Hemoglobina en la Sangre (gr/cm
Completa los espacios en blanco en la siguiente tabla de frecuencias.
La variable de estudios son los años de escolaridad de los adultos de
cierta colonia.
frecuencia
0 - 6 años
frecuencia
acumulada
frecuencia
relativa
36
frecuencia
relativa
acumulada
10.7%
7 - 9 años
38.5%
10 - 12 años
72.5%
13 - 17 años
97.0%
18 - 22 años
100.0%
Total
335
--
100%
-32
Solución:
frecuencia
frecuencia
acumulada
frecuencia
relativa
frecuencia
relativa
acumulada
0 - 6 años
36
36
10.7%
10.7%
7 - 9 años
93
129
27.8%
38.5%
10 - 12 años
114
243
34.0%
72.5%
13 - 17 años
82
325
24.5%
97.0%
18 - 22 años
10
335
3.0%
100.0%
Total
335
--
100%
--
33
Medidas de
centralización
Asociadas a ideas como:
valor esperado,
representante de los datos,
punto de equilibrio.
Media aritmética
Moda
Mediana
También llamadas
medidas de localización.
Media aritmética
Se representa por x y se calcula sumando todos los datos y
dividiéndolos entre el total de ellos.
x

x
n
para muestra
x


para población
N
x o   Media aritmética
n o N  número de datos
x  dato
  suma
Ejemplo,
2,2, 3, 3, 4, 5, 5, 7
su media es 31/8 = 3.875
El Vaticano tiene un
promedio de dos
Papas por kilómetro
cuadrado.
Mediana
Valor de los datos que ocupa la posición central cuando los
datos se ordenan según su tamaño.
Ejemplos,
2,2, 3, 3, 4, 5, 5, 7
tipo de datos.
su mediana es 3 ó 4, o bien 3.5 si tiene sentido, según el
A, A, A, A, B, B, B, C, C, C, C, D, D, D, F Su mediana es C
7 datos
7 datos
Mediana
•Mediana Muestral: se obtiene al ordenar
primeramente las n observaciones de menor a mayor,
(incluyendo valores repetidos). Entonces:
•Si n es impar = (n + 1)/2 valor ordenado
•Si n es par = promedio de (n/2)ésimo y (n/2 + 1)ésimo
valores ordenados
Ejemplo salarios en dolares
30.70 34.1 33.8 32.50 32.90 34.5 36.0
•Moda: Es el valor que más se
repite en conjunto de datos
Moda
Ejemplo,
2, 2, 2, 3, 3, 3, 3, 3, 4, 5, 5, 5, 5, 5, 7
(hay dos modas) y son 3 y 5.
en este caso es bimodal
A, A, A, A, A, B, B, B, C, C, C, C, D, D, D, F
La moda es A
¿Qué es una distribución simétrica?
Una distribución simétrica es la que se puede dividir en dos
partes iguales. En estas distribuciones el valor de la media,
mediana y moda son iguales.
Distribución Normal




Características:
Simetría alrededor
de 
Forma de
campana
La mayoría de los
datos se
encuentran a una
distancia de tres
desviaciones
estándar de la
media.
¿Cómo es una distribución sesgada hacia la derecha ó con
sesgo positivo?
En este caso, la media es mayor que la mediana.
La mediana divide a un conjunto de datos en dos. Pero en este caso, el 50% de los
datos menores a la mediana están más concentrados y el 50% de los datos mayor
a ella, están más alejados entre sí.
¿Cómo es una distribución sesgada hacia la izquierda ó con sesgo
negativo?
En este caso, la media es menor que la mediana.
La mediana divide a un conjunto de datos en dos. Pero en este caso, el 50% de los
datos menores a la mediana están más alejados entre sí y el 50% de los datos
mayor a ella, están más concentrados.
Medidas de
dispersión
Asociadas a ideas como:
variación, dispersión entre los
datos, distancia de los datos
respecto a una medida de
centralización, …
Rango
Varianza
Desviación estándar
Medidas de Dispersión
También se conocen como medidas de variabilidad.
Las medidas de tendencia central pueden no ser suficientes para
describir totalmente un conjunto de datos.
Estas 3 muestras son idénticas en su media y su mediana,
• ¿Cuál es la diferencia?
• ¿Qué se puede hacer
para describir mejor cada
muestra?
1:
2:
3:
0
1
2
3
4
5
6
7
8
9
10
11
Rango
Es la diferencia entre el mayor y el menor de los datos.
Rango R = Max – Min
Ejemplo
De los datos 2, 2, 2, 3, 3, 3, 3, 3, 4, 5, 5, 5, 5, 5, 7
El rango es R=7 – 2 = 5
Varianza
Población
muestra
s
s2
2
(x  x)


2
n 1
= varianza
x = dato
= media aritmética de la muestra
nx = tamaño de la muestra
2
(
x


)
2  
N

2
= varianza
x = dato
 = media aritmética de la
población
n = tamaño de la población
Desviación estándar
Población
muestra
s
 (x  x)
2
n 1

2
(
x


)

N
s = desv. Estándar
 = desv. estándar
x = dato
x = dato
= media aritmética de la muestra
x
n = tamaño de la muestra
= media aritmética de la
población

n = tamaño de la población
Ejercicio:
1. Determina el rango, la varianza y la desviación estándar para los
siguientes datos:
2
4
3
5
2
2
0
1
R = Rango 5; Varianza 2.5536 y Desviación Estándar 1.5980
2. Determina el rango, la varianza y la desviación estándar para los
siguientes datos:
-2
-4
-3
-5
-2
-2
0
-1
R = Rango 5; Varianza 2.5536 y Desviación Estándar 1.5980
3. Determina el rango, la varianza y la desviación estándar para los
siguientes datos:
6
12
9
15
6
6
0
3
R = Rango 15; Varianza 22.9821 y Desviación Estándar 4.7940
48
Indica si las siguientes expresiones son siempre verdaderas (V) o no
necesariamente verdaderas (F):
1. La mitad de los datos están por debajo de la media.
2. Cuando hay dos valores que se repiten más que los demás se dice que la
moda no existe.
3. La mediana es el dato que se presenta en un 50% de las veces.
4. Al comparar dos grupos de datos del mismo tipo de medición, el grupo que
tiene menor varianza es el que tiene una mayor concentración de datos
cerca de su media.
5. En un tabla de frecuencias, la suma de las frecuencias relativas es 1.0.
6. La media y la mediana son medidas de tendencia central e indican la
ubicación (locación) central de los datos.
49
Indica si las siguientes expresiones son siempre verdaderas (V) o no
necesariamente verdaderas (F):
7. Si la media aritmética de un grupo de n datos es positiva, entonces los
n datos son no-negativos.
8. La varianza de cualquier base de datos debe ser no negativa.
9. La desviación estándar entre los datos: 8, 8, 8, 8, 8, 8, 8, es mayor a
cero. (Sin realizar cálculos).
10. El rango no puede tomar valores negativos.
50