Download La Media

Document related concepts

Parámetro estadístico wikipedia , lookup

Histograma wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Mediana (estadística) wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Transcript
Resumen de Capítulo Anterior
• Discutir la necesidad de un gerente de
conocer estadística.
• Revisar la evolución de la estadística
moderna.
• Describir el uso del Pensamiento
Estadístico para mejorar la calidad.
•Relacionar la noción de Estadística
Descriptiva e Inferencial.
Resumen de Capítulo (continuación)
• Definición y descripción de diferentes
Tipos de Datos y Fuentes
• Describir diferentes Tipos de Errores en
un Estudio
Tema II
Bases de datos y
Estadistica descriptiva
Introducción a la Estadística
LOS GRANDES NUMEROS:
Cuando un matemático oriental inventó el ajedrez, quiso el monarca de
Persia premiar al inventor. Y cuenta el árabe Al-Sefadi que el rey
ofreció el premio que solicitara.
El matemático se contentó con pedirle 1 grano de trigo por la primera
casilla del tablero de ajedrez, 2 por la segunda, 4 por la tercera y así
sucesivamente, siempre doblando, hasta la última de las 64 casillas.
El soberano persa casi se indignó de una petición que, a su parecer, no
había de hacer honor a su liberalidad.
- ¿No quieres nada más? preguntó.
- Con eso me bastará, le respondió el matemático.
El rey dio la orden a su gran visir de que, inmediatamente, quedaran
satisfechos los deseos del sabio.
¡Pero cuál no sería el asombro del visir, después de hacer el cálculo,
viendo que era imposible dar cumplimiento a la orden!
Para darle al inventor la cantidad que pedía, no había trigo bastante
toda Persia, ni en toda Asia.
LOS GRANDES NUMEROS…
El rey tuvo que confesar al sabio que no podía cumplirle su promesa, por
no ser bastante rico.
Los términos de la progresión arrojan, en efecto, el resultado: diez y
ocho trillones, cuatrocientos cuarenta y seis mil setecientos cuarenta y
cuatro billones, setenta y tres mil setecientos nueve millones, quinientos
cincuenta y un mil seiscientos quince granos de trigo.
18.446.744.073.709.551.615
Sí la libra de trigo, contiene 12.800 granos aproximadamente. ¡Calcúlese
las libras que necesitaba para premiar al sabio! Más de las que
produciría en ocho años toda la superficie de la Tierra, incluyendo los
mares.
Con la cantidad de trigo reclamada, podría hacerse una pirámide de 9
millas inglesas de altura y 9 de longitud por 9 de latitud en la base; o
bien una masa de un paralelepípedo de 9 leguas cuadradas en su base,
con una legua de altura. Semejante sólido sería equivalente a otro de
162.000 leguas cuadradas con un pie de altura.
Para comprar esa cantidad de trigo, si la hubiera, no habría dinero
bastante en este mundo.
Estadística Administrativa
Capítulo 2
Presentando Datos en Tablas y Gráficas
Temas del Capítulo
• Organización Numérica de Datos:
• Arreglo Ordenado y Diagrama de Tallo y Hoja
•Tabulando y Graficando Datos Numéricos:
• Distribuciones de Frecuencia: Tablas,
Histogramas, Polígonos
• Distribución Acumulativa: Tablas, la Ojiva
Temas del Capítulo
(continuación)
• Tabulando y Graficando Datos Categóricos
Univariados:
• Tabla de resumen
• Gráficas de Barra y Pie, Diagrama de Pareto
•Tabulando y Graficando Datos
•Categóricos Bivariados
• Tablas de Contingencia
• Diagrama de Barras Múltiple
• Excelencia Gráfica y Errores Comunes en la
Presentación de Datos
Organizando Datos
Numéricos
Datos Numéricos
41, 24, 32, 26, 27, 27, 30, 24, 38, 21
Distribución de Frecuencias
Distribución Acumulativa
Arreglo Ordenado
21, 24, 24, 26, 27, 27, 30, 32, 38, 41
Diagrama
Tallo y Hoja
2 144677
3 028
4 1
Histogramas
Tablas
Ojiva
Polígonos
Organización de Datos
Numéricos:
•Datos en forma Bruta (como fueron recolectados):
24, 26, 24, 21, 27, 27, 30, 41, 32, 38
•Datos Ordenados desde el más pequeño hasta el más
grande:
21, 24, 24, 26, 27, 27, 30, 32, 38, 41
•Diagrama de Tallo y
Hoja:
2
144677
3
028
4
1
Tabulando y Graficando Datos
Numéricos
Datos Numéricos
Arreglo Ordenado
41, 24, 32, 26, 27, 27, 30, 24, 38, 21
Distribución de Frecuencias
O g ive
120
100
80
60
40
21, 24, 24, 26, 27, 27, 30, 32, 38, 41
Diagrama de
Tallo y Hoja
2 144677
3 028
4 1
Distribución Acumulativa
Histogramas
20
0
10
20
6
5
4
Tablas
Polígonos
2
1
0
10
20
30
40
50
60
40
50
Ojiva
7
3
30
60
Tablas Estadísticas
 A partir de este momento nos vamos a ocupar de las estadísticas de una sola variable,
"Estadísticas Unidimensionales".
 Las tablas estadísticas según el número de observaciones y según el recorrido de la
variable estadística, así tenemos los siguientes tipos de tablas estadísticas:
 Tablas tipo I:
 Cuando el tamaño de la muestra y el recorrido de la variable son pequeños, por
ejemplo si tenemos una muestra de las edades de 5 personas, por lo que no hay que
hacer nada especial simplemente anotarlas de manera ordenada en filas o columnas.
 Edad de los 5 miembros de una familia:
 5, 8, 16, 38, 45
Tablas Estadísticas

Tablas tipo II:

Cuando el tamaño de la muestra es grande y el recorrido de la variable es pequeño, por lo que hay valores de la variable que se repiten. Por ejemplo, si preguntamos el número de personas activas que hay en 50 familias obtenemos la siguiente tabla:

Personas Activas en 50 familias

Podemos observar que la variable toma valores comprendidos entre 1 y 4, por lo que precisaremos una tabla en la que resumamos estos datos quedando la siguiente tabla:

Personas Activas

Número de Familias

1

16

2

20

3

9

4

5

Total

50

Tablas tipo III:

Cuando el tamaño de la muestra y el recorrido de la variable son grandes, por lo que será necesario agrupar en intervalos los valores de la variable. Por ejemplo si a un grupo de 30 alumnos les preguntamos el dinero que en ese momento llevan encima, nos encontramos con los siguientes datos:


450

1152

250

300

175

80

25

2680

605

785

1595

2300

5000

1200

100

5

180

200

675
2
1
2
2
1
2
4
2
1
1
2
3
2
1
1
1
3
4
2
2
2
2
1
2
1
1
1
3
2
2
3
2
3
1
2
4
2
2
4
1
1
3
4
3
2
2
2
1
3
3
Tablas Estadísticas
Personas Activas
Número de Familias
1
16
2
20
3
9
4
5
Total
50
 Tablas tipo III:
 Cuando el tamaño de la muestra y el recorrido de la variable son grandes, por lo que
será necesario agrupar en intervalos los valores de la variable. Por ejemplo si a un
grupo de 30 alumnos les preguntamos el dinero que en ese momento llevan encima,
nos encontramos con los siguientes datos:
Tablas Estadísticas
450
1152
250
300
175
80
25
2680
605
785
5
180
200
675
500
375
1500
205
985
185
1595
2300
5000
1200
100
125
315
425
560
1100
 Evidentemente, la variable estadística tiene un recorrido muy grande,
4998 pesetas, por lo que sí queremos hacer una tabla con estos datos
tendremos que tomar intervalos.
 Para decidir la amplitud de los intervalos, necesitaremos decidir
¿cuántos intervalos queremos?
 Normalmente se suele trabajar con no más de 10 o 12 intervalos.
 Amplitud =4998/10 = 499,8 Por lo que tomaremos intervalos de
amplitud 500
Tablas Estadísticas
 Debemos tener en cuenta las siguientes consideraciones:
 Tomar pocos intervalos implica que la "pérdida de información" sea mayor.
 Los intervalos serán siempre Cerrados por la izquierda y Abiertos por la Derecha [
Li-1 , Li )
 Procuraremos que en la decisión de intervalos los valores observados no coincidan
con los valores de los extremos del intervalo y si esto ocurre que no sea en más de
un 5% del total de observaciones.
 Con estas recomendaciones tendremos la siguiente tabla:
[ Li-1 , Li )
[ 0,0.5)
[ 0.5, 1)
[ 1,1.5)
[ 1.5, 2)
[ 2, 2.5)
[ 2.5, 3)
[ 3, 3.5)
[ 3.5, 4)
[4, 4.5)
[ 4.5, 5)
[ 5,5.5)
Frecuenc
ia
16
6
3
2
1
1
0
0
0
0
1
Tabulando Datos Numéricos:
Distribución de Frecuencias
•Ordenar los datos brutos en Orden Ascendente:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43,
44, 46, 53, 58
•Encontrar el Rango: 58 - 12 = 46
•Seleccionar el Número de Clases:
Número de intervalos de clase = 1 + 3.3 log(n)
•Calcular el Intervalo de Clase (ancho):
ancho 
Vmáx  Vmín
no. clases
•Determinar Límites de Clase (limites): 10, 20, 30, 40, 50
•Calcular la Marca de Clase: 15, 25, 35, 45, 55
•Contar las Observaciones y Asignarlas a las Clases
Distribución de Frecuencias
Datos en arreglo ordenado:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Clases
10 pero menor 20
20 pero menor 30
30 pero menor 40
40 pero menor 50
50 pero menor 60
Total
Frecuencia Porcentaje
Frecuencias Relativa
3
6
5
4
2
20
.15
.30
.25
.20
.10
1
15
30
25
20
10
100
Histograma
Datos en arreglo ordenado:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Histogram
Frequency
8
6
5
6
4
3
4
2
2
0
0
0
5
15
25
36
45
Marcas de Clase
55
More
Sin
Huecos
Entre
Barras
Polígono de Frecuencias
Datos en arreglo ordenado:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Frequenc y
7
6
5
4
3
2
1
0
5
15
25
36
45
55
Marcas de Clase
M ore
Frecuencia Acumulativa
Datos en arreglo ordenado:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Frecuencia
Clase
Absoluta
10 pero menor 20
3
20 pero menor 30
9
30 pero menor 40
14
40 pero menor 50
18
50 pero menor 60
20
Frecuencia
Acumulada %
15
45
70
90
100
La Ojiva
(Polígono de % Acumulativo)
Datos en arreglo ordenado:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Ojiva
120
100
80
60
40
20
0
10
20
30
40
50
60
Límites de Clase (No Puntos medios)
Tabulando y Graficando Datos
Categóricos: Datos Univariados
Datos Categóricos
Graficando Datos
Tabulando Datos
Tabla de resumen
Diagrama de Pie
Diagrama de Barras
Diagrama de Pareto
45
120
40
100
35
CD
30
80
25
S a vi n g s
60
20
15
B onds
40
10
20
5
S to c k s
0
0
S to c k s
0
10
20
30
40
50
B onds
S a vi n g s
CD
Tabla de Resumen
(para la carpeta de un inversionista)
Categoría Inversión
Cantidad
Porcentaje
(en miles $)
Acciones
Bonos
CD
Ahorros
Total
46.5
32
15.5
16
110
42.27
29.09
14.09
14.55
100
Son Variables Categóricas.
Diagrama de Barras
(para una carpeta de un inversionista)
Carpeta de inversionista
Ahorros
CD
Fondos
Inventarios
0
10
20
30
40
Cantidad en 1000´s de $
50
Diagrama de Pie
(para la carpeta de un inversionista)
Cantidad Invertida en miles de $
Ahorros
15%
CD
14%
Fondos
29%
Inventario
42%
Porcentajes
redondeados al
porcentaje más
cercano.
Diagrama de Pareto
Eje para
diagrama
de barras
mostrando %
invertido
en cada
categoría
45%
100%
40%
90%
80%
35%
70%
30%
60%
25%
50%
20%
40%
15%
30%
10%
20%
5%
10%
0%
0%
Stocks
Bonds
Savings
CD
Eje para la
gráfica de
línea
mostrando
%
acumulativo
invertido
Tabulando y Graficando Datos
Categóricos Bivariados
• Tablas de Contingencia
•Diagramas de Barra Múltiple
Tabulando Datos Categóricos:
Datos Bivariados
Tabla de Contingencia: Inversiones en Miles de Doláres
Categoría de Inversión A Inversión B
Inversión
Inversión C
Total
Inventario
Fondos
CD
Ahorros
46.5
32
15.5
16
55
44
20
28
27.5
19
13.5
7
129
95
49
51
Total
110
147
67
324
Graficando Datos
Categóricos: Datos Bivariados
Diagrama de
Barras
Múltiple
Comparando Inversiones
Savings
CD
Bonds
Stocks
0
10
Investor A
20
30
Investor B
40
50
Investor C
60
Principios de
Excelencia
Gráficas de
 Presentación bien diseñada de datos provee de:
 Sustancia
 Estadísticos
 Diseño
 Comunicar ideas complejas con claridad,
precisión
y eficiencia
 Dar el mayor número de ideas de la manera más eficiente
 Se involucran varias dimensiones
 Requiere la verdad acerca de los datos
Errores en la Presentación de
Datos
 Usando ‘basura’
 Ninguna base relativa
Comparando los datos
Lotes
 Comprimiendo el
eje Vertical
 El cero no es un punto en el
eje Vertical
‘Basura’
Mala Presentación
Buena Presentación
Salario Mínimo
1960: $1.00
Salario Mínimo
4
$
1970: $1.60
2
1980: $3.10
0
1990: $3.80
1960
1970
1980
1990
Bases No Relativas
Mala Presentación
 Buena Presentación
A’s recibido por
Frec. estudiantes.
300
200
30% %
100
10%
0
0%
FR
SO
JR
SR
A’s recibido por
estudiantes.
20%
FR
SO
JR
FR = Freshmen, SO = Sophomore, JR = Junior, SR = Senior
SR
Compresión del eje
Vertical
Mala Presentación
200
$
Ventas
Trimestrales
Buena Presentación
50
Ventas
Trimestrales
$
25
100
0
0
Q1 Q2
Q3 Q4
Q1
Q2
Q3
Q4
No Existencia del Punto Cero
en el eje Vertical
Mala Presentación
45
Ventas
Mensuales
$
42
39
 Buena Presentación
45
42
39
Ventas
Mensuales
$
36
36
J
F
M A M J
0
J
F M A M J
Graficando los primeros seis meses de ventas.
No existencia del
Cero en el eje Vertical
Mala Presentación
45
Ventas
Mensuales
$

60
42
40
39
20
36
0
J
F
M A M J
Buena Presentación
Ventas
Mensuales
$
J
F
M A
M J
Graficando los primeros seis meses de ventas.
Temas del Capítulo
Medidas de Tendencia Central,
Dispersión y Forma para una Muestra
Media, Mediana, Moda, Rango Medio,
Cuartiles, Eje Medio
 Rango, Rango Intercuartil, Varianza,
Desviación Estándar, Coeficiente de
Variación
 Sesgo Derecho, Sesgo Izquierdo, Simétrica
Temas del Capítulo
(continuación)
•Análisis Exploratorio de Datos
Resumen de cinco Números
 Diagrama de Caja y Brazos
•Resumiendo, Reorganizando y
Practicando Propiedades Descriptivas y
Explorando Problemas Eticos.
Medidas de Tendencia Central
Tendencia Central
Media
Mediana
Moda
Rango
Medio
Eje Medio
La Media
•Es el promedio aritmético de datos:
Media Muestral
X i X 1  X 2  ...  X n
X

n
n
Tamaño de la
muestra
Media de la Población
X i X 1  X 2  ...  X N


N
N
Tamaño de la
Población
La Media
•La Medida de Tendencia Central más
común
•Afectada por valores extremos (Outliers)
0 1 2 3 4 5 6 7 8 9 10
Media = 5
0 1 2 3 4 5 6 7 8 9 10 12 14
Media = 6
La Mediana
•Medida de Tendencia Central
•En un arreglo ordenado, la mediana es el
número que está “a la mitad” del arreglo.
•Si n es impar, la mediana es el número medio.
•Si n es par, la mediana es el promedio de los
2 números del medio.
La Mediana
•No es afectada por valores extremos
0 1 2 3 4 5 6 7 8 9 10
Mediana = 5
0 1 2 3 4 5 6 7 8 9 10 12 14
Mediana = 5
La Moda
•Es una Medida de Tendencia Central
•Valores que ocurren con mayor
frecuencia (valor típico).
•No es afectada por valores extremos
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Moda = 8
La Moda
•Puede que no exista Moda
•Puede haber varias Modas
•Usado para Datos numéricos o
categóricos.
0 1 2 3 4 5 6
Sin Moda
0 1 2 3 4 5
Dos Modas
6
Rango Medio
•Una Medida de Tendencia Central
•Promedio de la observación más
pequeña y la más grande:
X max  X min
Rango medio 
2
Rango Medio
•Afectado por valores extremos
0 1 2 3 4 5 6 7 8 9 10
Rango Medio = 5
0 1 2 3 4 5 6 7 8 9 10
Rango Medio = 3
Cuartiles
No es una medida de tendencia central
Parte los datos ordenados en 4 cuartos
Q1
25%
Q2
25%
Q3
25%
Q4
25%
Posición del i-ésimo cuartil:
i n  1
Qi 
4
Datos Ordenados: 11 12 13 16 16 17 18 21 22
Posición de Q1= 1•(9 + 1) = 2.50
4
Q1=2.5
Eje Medio
Es una medida de tendencia central
Es el punto medio del 1er. y 3er. cuartil
No es afectado por valores extremos
Q1  Q3
Eje medio =
2
Datos Ordenados: 11 12 13 16 16 17 18 21 22
Q1  Q3 12.5  19.5
Eje Medio =

 16
2
2
Medidas de Dispersión
Varianza
Rango Intercuartil
Desviación Estándar
Rango
Coeficiente
de Variación
El Rango
• Medida de dispersión
• Diferencia Entre la más grande y la más
pequeña observación:
Rango  xmax  xmin
• Ignora Cómo los datos están Distribuidos:
Rango = 12 - 7 = 5
7
8
9
10
11
12
Rango = 12 - 7 = 5
7
8
9
10
11
12
Rango Intercuartil
• Medida de dispersión
• Considera la dispersión de la mitad (parte
central) de los datos.
• Se obtiene al restar el primer cuartil del
tercer cuartil Q 3  Q 1
Arreglo ordenado: 11 12 13 16 16 17
Q 3  Q 1 = 17.5 - 12.5 = 5
17 18 21
• No se vé afectado por los valores extremos
Varianza
•Es la más importante medida de dispersión
•Muestra la variación con respecto a la media:
•Varianza poblacional:
N
2 
2


x


 i
i 1
N
n
•Varianza muestral:
s2 
 x  x 
i 1
2
i
n 1
Desviación Estándar
•Al igual que la varianza, es la medida de
dispersión más importante
•Tiene la misma unidad de medida que las
observaciones
•Poblacional:
•Muestral:

s
2


X


 i
N
2


X

X
 i
n 1
Desviación Estándar Muestral
s
Datos: xi= 10
n=8
2


X

X
 i
n 1
12
14
15
17 18 18 24
media =16
(10  16) 2  (12  16) 2  (14  16) 2  (15  16) 2  (17  16) 2  (18  16) 2  (24  16) 2
s
 4.2426
8 1
Coeficiente de variación
Medida relativa de variación
Es un porcentaje
Muestra la variación respecto a la media
Usada para comparar 2 o más grupos
S 
CV     100%
X 
Comparación del CV
 Stock A: Precio promedio = $50
Desviación Estándar= $5
 Stock B: Precio promedio = $100

Desviación Estándar = $5

S 
CV     100%
X 
Coeficiente de Variación:
Stock A: CV = 10%
Stock B: CV = 5%
Sesgo
 Describe cómo están distribuidos los datos
 Medidas de sesgo:
Simétricos o sesgados
Sesgado a
la izquierda
Media < Mediana < Moda
Simétrico
Sesgado a
la derecha
Media = Mediana =Moda Moda < Mediana < Media
Análisis exploratorio de datos
 Diagrama de Caja y brazos:
X mínima
4
Mediana(Q2)
Q1
Q3
Xmáxima
6
12
8
10
Sesgo y Diagrama de Caja y Brazos
Sesgo a la izq. Simétrico
Q1
Q3
Mediana
Q1
Q3
Mediana
Sesgo a la der.
Q1
Q3
Mediana
¡Gracias!