Download La Media
Document related concepts
Transcript
Resumen de Capítulo Anterior • Discutir la necesidad de un gerente de conocer estadística. • Revisar la evolución de la estadística moderna. • Describir el uso del Pensamiento Estadístico para mejorar la calidad. •Relacionar la noción de Estadística Descriptiva e Inferencial. Resumen de Capítulo (continuación) • Definición y descripción de diferentes Tipos de Datos y Fuentes • Describir diferentes Tipos de Errores en un Estudio Tema II Bases de datos y Estadistica descriptiva Introducción a la Estadística LOS GRANDES NUMEROS: Cuando un matemático oriental inventó el ajedrez, quiso el monarca de Persia premiar al inventor. Y cuenta el árabe Al-Sefadi que el rey ofreció el premio que solicitara. El matemático se contentó con pedirle 1 grano de trigo por la primera casilla del tablero de ajedrez, 2 por la segunda, 4 por la tercera y así sucesivamente, siempre doblando, hasta la última de las 64 casillas. El soberano persa casi se indignó de una petición que, a su parecer, no había de hacer honor a su liberalidad. - ¿No quieres nada más? preguntó. - Con eso me bastará, le respondió el matemático. El rey dio la orden a su gran visir de que, inmediatamente, quedaran satisfechos los deseos del sabio. ¡Pero cuál no sería el asombro del visir, después de hacer el cálculo, viendo que era imposible dar cumplimiento a la orden! Para darle al inventor la cantidad que pedía, no había trigo bastante toda Persia, ni en toda Asia. LOS GRANDES NUMEROS… El rey tuvo que confesar al sabio que no podía cumplirle su promesa, por no ser bastante rico. Los términos de la progresión arrojan, en efecto, el resultado: diez y ocho trillones, cuatrocientos cuarenta y seis mil setecientos cuarenta y cuatro billones, setenta y tres mil setecientos nueve millones, quinientos cincuenta y un mil seiscientos quince granos de trigo. 18.446.744.073.709.551.615 Sí la libra de trigo, contiene 12.800 granos aproximadamente. ¡Calcúlese las libras que necesitaba para premiar al sabio! Más de las que produciría en ocho años toda la superficie de la Tierra, incluyendo los mares. Con la cantidad de trigo reclamada, podría hacerse una pirámide de 9 millas inglesas de altura y 9 de longitud por 9 de latitud en la base; o bien una masa de un paralelepípedo de 9 leguas cuadradas en su base, con una legua de altura. Semejante sólido sería equivalente a otro de 162.000 leguas cuadradas con un pie de altura. Para comprar esa cantidad de trigo, si la hubiera, no habría dinero bastante en este mundo. Estadística Administrativa Capítulo 2 Presentando Datos en Tablas y Gráficas Temas del Capítulo • Organización Numérica de Datos: • Arreglo Ordenado y Diagrama de Tallo y Hoja •Tabulando y Graficando Datos Numéricos: • Distribuciones de Frecuencia: Tablas, Histogramas, Polígonos • Distribución Acumulativa: Tablas, la Ojiva Temas del Capítulo (continuación) • Tabulando y Graficando Datos Categóricos Univariados: • Tabla de resumen • Gráficas de Barra y Pie, Diagrama de Pareto •Tabulando y Graficando Datos •Categóricos Bivariados • Tablas de Contingencia • Diagrama de Barras Múltiple • Excelencia Gráfica y Errores Comunes en la Presentación de Datos Organizando Datos Numéricos Datos Numéricos 41, 24, 32, 26, 27, 27, 30, 24, 38, 21 Distribución de Frecuencias Distribución Acumulativa Arreglo Ordenado 21, 24, 24, 26, 27, 27, 30, 32, 38, 41 Diagrama Tallo y Hoja 2 144677 3 028 4 1 Histogramas Tablas Ojiva Polígonos Organización de Datos Numéricos: •Datos en forma Bruta (como fueron recolectados): 24, 26, 24, 21, 27, 27, 30, 41, 32, 38 •Datos Ordenados desde el más pequeño hasta el más grande: 21, 24, 24, 26, 27, 27, 30, 32, 38, 41 •Diagrama de Tallo y Hoja: 2 144677 3 028 4 1 Tabulando y Graficando Datos Numéricos Datos Numéricos Arreglo Ordenado 41, 24, 32, 26, 27, 27, 30, 24, 38, 21 Distribución de Frecuencias O g ive 120 100 80 60 40 21, 24, 24, 26, 27, 27, 30, 32, 38, 41 Diagrama de Tallo y Hoja 2 144677 3 028 4 1 Distribución Acumulativa Histogramas 20 0 10 20 6 5 4 Tablas Polígonos 2 1 0 10 20 30 40 50 60 40 50 Ojiva 7 3 30 60 Tablas Estadísticas A partir de este momento nos vamos a ocupar de las estadísticas de una sola variable, "Estadísticas Unidimensionales". Las tablas estadísticas según el número de observaciones y según el recorrido de la variable estadística, así tenemos los siguientes tipos de tablas estadísticas: Tablas tipo I: Cuando el tamaño de la muestra y el recorrido de la variable son pequeños, por ejemplo si tenemos una muestra de las edades de 5 personas, por lo que no hay que hacer nada especial simplemente anotarlas de manera ordenada en filas o columnas. Edad de los 5 miembros de una familia: 5, 8, 16, 38, 45 Tablas Estadísticas Tablas tipo II: Cuando el tamaño de la muestra es grande y el recorrido de la variable es pequeño, por lo que hay valores de la variable que se repiten. Por ejemplo, si preguntamos el número de personas activas que hay en 50 familias obtenemos la siguiente tabla: Personas Activas en 50 familias Podemos observar que la variable toma valores comprendidos entre 1 y 4, por lo que precisaremos una tabla en la que resumamos estos datos quedando la siguiente tabla: Personas Activas Número de Familias 1 16 2 20 3 9 4 5 Total 50 Tablas tipo III: Cuando el tamaño de la muestra y el recorrido de la variable son grandes, por lo que será necesario agrupar en intervalos los valores de la variable. Por ejemplo si a un grupo de 30 alumnos les preguntamos el dinero que en ese momento llevan encima, nos encontramos con los siguientes datos: 450 1152 250 300 175 80 25 2680 605 785 1595 2300 5000 1200 100 5 180 200 675 2 1 2 2 1 2 4 2 1 1 2 3 2 1 1 1 3 4 2 2 2 2 1 2 1 1 1 3 2 2 3 2 3 1 2 4 2 2 4 1 1 3 4 3 2 2 2 1 3 3 Tablas Estadísticas Personas Activas Número de Familias 1 16 2 20 3 9 4 5 Total 50 Tablas tipo III: Cuando el tamaño de la muestra y el recorrido de la variable son grandes, por lo que será necesario agrupar en intervalos los valores de la variable. Por ejemplo si a un grupo de 30 alumnos les preguntamos el dinero que en ese momento llevan encima, nos encontramos con los siguientes datos: Tablas Estadísticas 450 1152 250 300 175 80 25 2680 605 785 5 180 200 675 500 375 1500 205 985 185 1595 2300 5000 1200 100 125 315 425 560 1100 Evidentemente, la variable estadística tiene un recorrido muy grande, 4998 pesetas, por lo que sí queremos hacer una tabla con estos datos tendremos que tomar intervalos. Para decidir la amplitud de los intervalos, necesitaremos decidir ¿cuántos intervalos queremos? Normalmente se suele trabajar con no más de 10 o 12 intervalos. Amplitud =4998/10 = 499,8 Por lo que tomaremos intervalos de amplitud 500 Tablas Estadísticas Debemos tener en cuenta las siguientes consideraciones: Tomar pocos intervalos implica que la "pérdida de información" sea mayor. Los intervalos serán siempre Cerrados por la izquierda y Abiertos por la Derecha [ Li-1 , Li ) Procuraremos que en la decisión de intervalos los valores observados no coincidan con los valores de los extremos del intervalo y si esto ocurre que no sea en más de un 5% del total de observaciones. Con estas recomendaciones tendremos la siguiente tabla: [ Li-1 , Li ) [ 0,0.5) [ 0.5, 1) [ 1,1.5) [ 1.5, 2) [ 2, 2.5) [ 2.5, 3) [ 3, 3.5) [ 3.5, 4) [4, 4.5) [ 4.5, 5) [ 5,5.5) Frecuenc ia 16 6 3 2 1 1 0 0 0 0 1 Tabulando Datos Numéricos: Distribución de Frecuencias •Ordenar los datos brutos en Orden Ascendente: 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58 •Encontrar el Rango: 58 - 12 = 46 •Seleccionar el Número de Clases: Número de intervalos de clase = 1 + 3.3 log(n) •Calcular el Intervalo de Clase (ancho): ancho Vmáx Vmín no. clases •Determinar Límites de Clase (limites): 10, 20, 30, 40, 50 •Calcular la Marca de Clase: 15, 25, 35, 45, 55 •Contar las Observaciones y Asignarlas a las Clases Distribución de Frecuencias Datos en arreglo ordenado: 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58 Clases 10 pero menor 20 20 pero menor 30 30 pero menor 40 40 pero menor 50 50 pero menor 60 Total Frecuencia Porcentaje Frecuencias Relativa 3 6 5 4 2 20 .15 .30 .25 .20 .10 1 15 30 25 20 10 100 Histograma Datos en arreglo ordenado: 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58 Histogram Frequency 8 6 5 6 4 3 4 2 2 0 0 0 5 15 25 36 45 Marcas de Clase 55 More Sin Huecos Entre Barras Polígono de Frecuencias Datos en arreglo ordenado: 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58 Frequenc y 7 6 5 4 3 2 1 0 5 15 25 36 45 55 Marcas de Clase M ore Frecuencia Acumulativa Datos en arreglo ordenado: 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58 Frecuencia Clase Absoluta 10 pero menor 20 3 20 pero menor 30 9 30 pero menor 40 14 40 pero menor 50 18 50 pero menor 60 20 Frecuencia Acumulada % 15 45 70 90 100 La Ojiva (Polígono de % Acumulativo) Datos en arreglo ordenado: 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58 Ojiva 120 100 80 60 40 20 0 10 20 30 40 50 60 Límites de Clase (No Puntos medios) Tabulando y Graficando Datos Categóricos: Datos Univariados Datos Categóricos Graficando Datos Tabulando Datos Tabla de resumen Diagrama de Pie Diagrama de Barras Diagrama de Pareto 45 120 40 100 35 CD 30 80 25 S a vi n g s 60 20 15 B onds 40 10 20 5 S to c k s 0 0 S to c k s 0 10 20 30 40 50 B onds S a vi n g s CD Tabla de Resumen (para la carpeta de un inversionista) Categoría Inversión Cantidad Porcentaje (en miles $) Acciones Bonos CD Ahorros Total 46.5 32 15.5 16 110 42.27 29.09 14.09 14.55 100 Son Variables Categóricas. Diagrama de Barras (para una carpeta de un inversionista) Carpeta de inversionista Ahorros CD Fondos Inventarios 0 10 20 30 40 Cantidad en 1000´s de $ 50 Diagrama de Pie (para la carpeta de un inversionista) Cantidad Invertida en miles de $ Ahorros 15% CD 14% Fondos 29% Inventario 42% Porcentajes redondeados al porcentaje más cercano. Diagrama de Pareto Eje para diagrama de barras mostrando % invertido en cada categoría 45% 100% 40% 90% 80% 35% 70% 30% 60% 25% 50% 20% 40% 15% 30% 10% 20% 5% 10% 0% 0% Stocks Bonds Savings CD Eje para la gráfica de línea mostrando % acumulativo invertido Tabulando y Graficando Datos Categóricos Bivariados • Tablas de Contingencia •Diagramas de Barra Múltiple Tabulando Datos Categóricos: Datos Bivariados Tabla de Contingencia: Inversiones en Miles de Doláres Categoría de Inversión A Inversión B Inversión Inversión C Total Inventario Fondos CD Ahorros 46.5 32 15.5 16 55 44 20 28 27.5 19 13.5 7 129 95 49 51 Total 110 147 67 324 Graficando Datos Categóricos: Datos Bivariados Diagrama de Barras Múltiple Comparando Inversiones Savings CD Bonds Stocks 0 10 Investor A 20 30 Investor B 40 50 Investor C 60 Principios de Excelencia Gráficas de Presentación bien diseñada de datos provee de: Sustancia Estadísticos Diseño Comunicar ideas complejas con claridad, precisión y eficiencia Dar el mayor número de ideas de la manera más eficiente Se involucran varias dimensiones Requiere la verdad acerca de los datos Errores en la Presentación de Datos Usando ‘basura’ Ninguna base relativa Comparando los datos Lotes Comprimiendo el eje Vertical El cero no es un punto en el eje Vertical ‘Basura’ Mala Presentación Buena Presentación Salario Mínimo 1960: $1.00 Salario Mínimo 4 $ 1970: $1.60 2 1980: $3.10 0 1990: $3.80 1960 1970 1980 1990 Bases No Relativas Mala Presentación Buena Presentación A’s recibido por Frec. estudiantes. 300 200 30% % 100 10% 0 0% FR SO JR SR A’s recibido por estudiantes. 20% FR SO JR FR = Freshmen, SO = Sophomore, JR = Junior, SR = Senior SR Compresión del eje Vertical Mala Presentación 200 $ Ventas Trimestrales Buena Presentación 50 Ventas Trimestrales $ 25 100 0 0 Q1 Q2 Q3 Q4 Q1 Q2 Q3 Q4 No Existencia del Punto Cero en el eje Vertical Mala Presentación 45 Ventas Mensuales $ 42 39 Buena Presentación 45 42 39 Ventas Mensuales $ 36 36 J F M A M J 0 J F M A M J Graficando los primeros seis meses de ventas. No existencia del Cero en el eje Vertical Mala Presentación 45 Ventas Mensuales $ 60 42 40 39 20 36 0 J F M A M J Buena Presentación Ventas Mensuales $ J F M A M J Graficando los primeros seis meses de ventas. Temas del Capítulo Medidas de Tendencia Central, Dispersión y Forma para una Muestra Media, Mediana, Moda, Rango Medio, Cuartiles, Eje Medio Rango, Rango Intercuartil, Varianza, Desviación Estándar, Coeficiente de Variación Sesgo Derecho, Sesgo Izquierdo, Simétrica Temas del Capítulo (continuación) •Análisis Exploratorio de Datos Resumen de cinco Números Diagrama de Caja y Brazos •Resumiendo, Reorganizando y Practicando Propiedades Descriptivas y Explorando Problemas Eticos. Medidas de Tendencia Central Tendencia Central Media Mediana Moda Rango Medio Eje Medio La Media •Es el promedio aritmético de datos: Media Muestral X i X 1 X 2 ... X n X n n Tamaño de la muestra Media de la Población X i X 1 X 2 ... X N N N Tamaño de la Población La Media •La Medida de Tendencia Central más común •Afectada por valores extremos (Outliers) 0 1 2 3 4 5 6 7 8 9 10 Media = 5 0 1 2 3 4 5 6 7 8 9 10 12 14 Media = 6 La Mediana •Medida de Tendencia Central •En un arreglo ordenado, la mediana es el número que está “a la mitad” del arreglo. •Si n es impar, la mediana es el número medio. •Si n es par, la mediana es el promedio de los 2 números del medio. La Mediana •No es afectada por valores extremos 0 1 2 3 4 5 6 7 8 9 10 Mediana = 5 0 1 2 3 4 5 6 7 8 9 10 12 14 Mediana = 5 La Moda •Es una Medida de Tendencia Central •Valores que ocurren con mayor frecuencia (valor típico). •No es afectada por valores extremos 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Moda = 8 La Moda •Puede que no exista Moda •Puede haber varias Modas •Usado para Datos numéricos o categóricos. 0 1 2 3 4 5 6 Sin Moda 0 1 2 3 4 5 Dos Modas 6 Rango Medio •Una Medida de Tendencia Central •Promedio de la observación más pequeña y la más grande: X max X min Rango medio 2 Rango Medio •Afectado por valores extremos 0 1 2 3 4 5 6 7 8 9 10 Rango Medio = 5 0 1 2 3 4 5 6 7 8 9 10 Rango Medio = 3 Cuartiles No es una medida de tendencia central Parte los datos ordenados en 4 cuartos Q1 25% Q2 25% Q3 25% Q4 25% Posición del i-ésimo cuartil: i n 1 Qi 4 Datos Ordenados: 11 12 13 16 16 17 18 21 22 Posición de Q1= 1•(9 + 1) = 2.50 4 Q1=2.5 Eje Medio Es una medida de tendencia central Es el punto medio del 1er. y 3er. cuartil No es afectado por valores extremos Q1 Q3 Eje medio = 2 Datos Ordenados: 11 12 13 16 16 17 18 21 22 Q1 Q3 12.5 19.5 Eje Medio = 16 2 2 Medidas de Dispersión Varianza Rango Intercuartil Desviación Estándar Rango Coeficiente de Variación El Rango • Medida de dispersión • Diferencia Entre la más grande y la más pequeña observación: Rango xmax xmin • Ignora Cómo los datos están Distribuidos: Rango = 12 - 7 = 5 7 8 9 10 11 12 Rango = 12 - 7 = 5 7 8 9 10 11 12 Rango Intercuartil • Medida de dispersión • Considera la dispersión de la mitad (parte central) de los datos. • Se obtiene al restar el primer cuartil del tercer cuartil Q 3 Q 1 Arreglo ordenado: 11 12 13 16 16 17 Q 3 Q 1 = 17.5 - 12.5 = 5 17 18 21 • No se vé afectado por los valores extremos Varianza •Es la más importante medida de dispersión •Muestra la variación con respecto a la media: •Varianza poblacional: N 2 2 x i i 1 N n •Varianza muestral: s2 x x i 1 2 i n 1 Desviación Estándar •Al igual que la varianza, es la medida de dispersión más importante •Tiene la misma unidad de medida que las observaciones •Poblacional: •Muestral: s 2 X i N 2 X X i n 1 Desviación Estándar Muestral s Datos: xi= 10 n=8 2 X X i n 1 12 14 15 17 18 18 24 media =16 (10 16) 2 (12 16) 2 (14 16) 2 (15 16) 2 (17 16) 2 (18 16) 2 (24 16) 2 s 4.2426 8 1 Coeficiente de variación Medida relativa de variación Es un porcentaje Muestra la variación respecto a la media Usada para comparar 2 o más grupos S CV 100% X Comparación del CV Stock A: Precio promedio = $50 Desviación Estándar= $5 Stock B: Precio promedio = $100 Desviación Estándar = $5 S CV 100% X Coeficiente de Variación: Stock A: CV = 10% Stock B: CV = 5% Sesgo Describe cómo están distribuidos los datos Medidas de sesgo: Simétricos o sesgados Sesgado a la izquierda Media < Mediana < Moda Simétrico Sesgado a la derecha Media = Mediana =Moda Moda < Mediana < Media Análisis exploratorio de datos Diagrama de Caja y brazos: X mínima 4 Mediana(Q2) Q1 Q3 Xmáxima 6 12 8 10 Sesgo y Diagrama de Caja y Brazos Sesgo a la izq. Simétrico Q1 Q3 Mediana Q1 Q3 Mediana Sesgo a la der. Q1 Q3 Mediana ¡Gracias!