Download Estadística Descriptiva
Document related concepts
no text concepts found
Transcript
Clase 2 Estadística Descriptiva Lo que veremos: – – – – Presentación Gráfica de Datos Medidas de Tendencia Central Formas de las Distribuciones Medidas de Dispersión Dr. Carlos J. Vilalta Guía de Tablas y Gráficos Variables Nominal Tablas •Distribución de Frecuencias •Distribución de Frecuencias Relativa •Crosstabs Gráficos •Barras •Sectores Ordinal y Proporciones Tablas •Distribución de Frecuencias •Distribución de Frecuencias Relativa •Distribución Cumulativa de Frecuencias •Crosstabs Gráficos •Barras •Histograma •Sectores •Scattergram Presentación Gráfica de Datos Gráfica de Barras 9 8 7 6 5 4 Count 3 2 1 Baja Clase Social Media Baja Media Media Alta Alt a Presentación Gráfica de Datos Histograma 9 8 7 6 5 4 3 2 1 0 1.0 Clase Social 2.0 3.0 4.0 5.0 Presentación Gráfica de Datos Gráfica de Sectores Alt a Baja Media Alta Media Media Baja Presentación Gráfica de Datos Scattergram 6000 5000 4000 3000 2000 1000 0 10 Edad 20 30 40 50 60 Presentación Gráfica de Datos Distribución de Frecuencias Edad * Clase Social Crosstabulation Count Clase Social Media Baja Media Media Alta Baja Edad Distribución de Frecuencias: Clase Social Valid Frequency Baja 4 Media Baja 8 Media 2 Media Alta 3 Alta 3 Total 20 Percent 20.0 40.0 10.0 15.0 15.0 100.0 Valid Percent 20.0 40.0 10.0 15.0 15.0 100.0 Crosstabs Cumulative Percent 20.0 60.0 70.0 85.0 100.0 Total 18.00 19.00 20.00 23.00 26.00 27.00 28.00 29.00 30.00 33.00 34.00 35.00 40.00 43.00 44.00 48.00 55.00 1 1 2 Alta Total 1 1 1 1 1 2 1 1 1 1 1 1 4 8 2 3 1 1 1 3 1 2 2 1 1 1 1 2 1 1 1 1 1 1 1 1 1 20 Estadística Descriptiva* Medidas de Tendencia Central Media Medidas de Dispersión Mediana Rango Varianza Moda Desviación Estándar •Cada estadístico tiene una nomenclatura diferente para el Universo y la Muestra Medidas de Tendencia Central Importancia: A cada tipo de variable corresponden ciertas medidas de tendencia central Nominal Moda Ordinal Mediana Moda Proporciones Media Mediana Moda MTC: La Media ¿Qué es? Es el promedio aritmético de un grupo de datos Formula: Media = Suma de los valores de los casos / Número de casos Ejemplo: (28 + 117 + 42 + 10 + 77 + 51 + 64 + 55) / 8 = 444 / 8 = 55.5 MTC: La Media Sólo para variables de Proporciones Porque… sólo tiene sentido calcular la Media si los valores de una distribución son cantidades específicas (no cualidades o características grupales). Las variables Nominales no pueden ofrecer un promedio. Ejemplo: (Mexicano + Argentino + Brasileño) / 3 = ¿? MTC: La Mediana ¿Qué es? El punto donde se dividen los valores de la distribución en la mitad (50% arriba y 50% abajo) Procedimiento: Ordena de menor a mayor y encuentra el punto medio Ejemplo: a. 28, 117, 42, 10, 77, 51, 64, 55 b. 10, 28, 42, 51, 55, 64, 77, 117 c. (51 + 55) / 2 d. = 106 / 2 = 53 MTC: La Mediana Sólo para variables Ordinales y Proporciones Porque… no se puede obtener la Mediana en distribuciones Nominales ya que los valores no se pueden poner en orden y no hay un significado real del punto medio. Ejemplo: Mexicano, Argentino, Brasileño… ¿Qué orden puede haber y qué significado tendría ese orden? MTC: La Moda ¿Qué es? El valor más frecuente en una distribución de datos Ejemplo: a. 28, 117, 42, 10, 77, 51, 64, 55, 51 b. Moda = 51 Pueden haber distribuciones de datos: Unimodales: 1 sola Moda Bimodales: 2 modas Multimodales: 3 o más modas Distribución de Frecuencias Al agregar los datos es importante observar si la distribución de frecuencias es: Normal (Simétrica) Bimodal Sesgada a la Izquierda Sesgada a la Derecha Uniforme Distribución de Frecuencias Importancia: La forma de la distribución de los datos permite o impide la aplicación de ciertas pruebas estadísticas Normal: Permite la prueba z, t y F Sesgadas: Permite la prueba z, t y F (a veces) Bimodal y Uniforme no permiten esas pruebas Normal Distribución Normal Tabla de Frecuencias Simétrica Valid Media = Mediana = Moda 4,0 3,0 1,00 2,00 3,00 4,00 5,00 Total Frequency 1 2 3 2 1 9 Percent 11,1 22,2 33,3 22,2 11,1 100,0 2,0 Statistics 1,0 0,0 1,0 Unimodal 2,0 3,0 4,0 5,0 Unimodal N Valid Mis sing Mean Median Mode 9 0 3,0000 3,0000 3,00 Cumulative Percent 11,1 33,3 66,7 88,9 100,0 Bimodal Tabla de Frecuencias Distribución Bimodal Asimétrica Valid Hay 2 Modas 4,0 3,0 1,00 2,00 3,00 4,00 5,00 Total Frequency 1 3 1 3 1 9 Percent 11,1 33,3 11,1 33,3 11,1 100,0 Cumulative Percent 11,1 44,4 55,6 88,9 100,0 2,0 Statistics 1,0 0,0 1,0 Bimodal 2,0 3,0 4,0 5,0 Bimodal N Valid Mis sing Mean Median Mode 9 0 3,0000 3,0000 2,00 a a. Multiple modes exist. The s malles t value is s hown Sesgada a la Izquierda Tabla de Frecuencias Statistics Distribución: Sesgada a la Izquierda Sesgo Derecha Valid 1,00 2,00 3,00 4,00 5,00 Total Asimétrica Mediana es mayor a la Media 6 5 4 Frequency 1 1 1 1 5 9 Percent 11,1 11,1 11,1 11,1 55,6 100,0 Cumulative Percent 11,1 22,2 33,3 44,4 100,0 3 2 Statistics 1 0 1,0 Sesgo Izquierda 2,0 3,0 4,0 5,0 Ses go Derecha N Vali d Mis sing Mean Median Mode 9 0 3,8889 5,0000 5,00 Sesgada a la Derecha Tabla de Frecuencias Distribución: Sesgada a la Derecha Asimétrica Valid Media es mayor a la Mediana 6 5 4 1,00 2,00 3,00 4,00 5,00 Total Frequency 5 1 1 1 1 9 Percent 55,6 11,1 11,1 11,1 11,1 100,0 Cumulative Percent 55,6 66,7 77,8 88,9 100,0 3 2 Statistics 1 0 1,0 Sesgo Derecha 2,0 3,0 4,0 5,0 Ses go Izquierda N Vali d Mis sing Mean Median Mode 9 0 2,1111 1,0000 1,00 Uniforme Tabla de Frecuencias Distribución Uniforme Valid Hay varias Modas Media = Mediana 3,0 2,0 1,0 1,00 2,00 3,00 4,00 5,00 Total Frequency 2 2 2 2 2 10 Percent 20,0 20,0 20,0 20,0 20,0 100,0 Cumulative Percent 20,0 40,0 60,0 80,0 100,0 Statistics 0,0 1,0 Uniforme 2,0 3,0 4,0 5,0 Uniforme N Valid Missing Mean Median Mode 10 0 3,0000 3,0000 1,00 a a. Multiple modes exist. The smallest value is shown Medidas de Dispersión Importante: No se puede calcular ciertos estadísticos para conocer la dispersión de cada tipo de variable Nominal Ordinal Obtener tabla de frecuencias Obtener tabla de frecuencias Proporciones Rango Varianza Desviación Estándar MDISP: Rango ¿Qué es? La diferencia entre el valor mayor y el menor de una serie de datos Ejemplo: a. 1, 2, 3, 4, 5, 6, 7 b. Rango = 7 – 1 = 6 MDISP: La Varianza ¿Qué es? La desviación cuadrada promedio de cada dato a su media Formula: Sumatoria de (cada dato – media)² / Número de casos -1 Da resultados en unidades cuadráticas… es más conveniente la Desv. Estándar MDISP: La Varianza Cálculo: Caso 1 2 3 4 5 6 7 8 Suma = Casos = Media = Casos - 1 = Varianza = Desviación Estándar = x 4 4 5 5 6 7 8 9 48 8 6 7 x - Media -2 -2 -1 -1 0 1 2 3 (x - Media) al 2 4 4 1 1 0 1 4 9 24 3.43 1.85 MDISP: La Desviación Estándar ¿Qué es? Es la desviación promedio a la media ¿Cómo se obtiene? La raíz cuadrada de la Varianza • Utilidad: • Medida útil de dispersión ampliamente utilizada en Estadística Inferencial • Teoría de la distribución Normal (Tschebicheff) Nota Final: Sesgo, Distribuciones y Dispersión Cuanto menos sesgo, menor desviación a la Media (o sea, más aproximada a la Normal) Statistics N Std. Deviation Variance Range Valid Normal 9 1.2247 1.5000 4.00 Bimodal 9 1.3229 1.7500 4.00 Sesgo Derecha 9 1.5366 2.3611 4.00 Sesgo Izquierda 9 1.5366 2.3611 4.00 Uniforme 10 1.4907 2.2222 4.00