Download ANALIZANDO LA TABLA DE DATOS
Document related concepts
no text concepts found
Transcript
Introducción a la Estadística Descriptiva Juan Moncada Herrera Dpto. de Cs. Matemáticas y Física Universidad Católica de Temuco Población EL CONTEXTO: Conocer Problema Observar Variables Muestra Individuo Unidad de observación Registro de observación Página 2 LOS ELEMENTOS DE BASE: Muestra Individuo Unidad de observación Variables Cualitativas Cuantitativas Página 3 LOS ELEMENTOS DE BASE: Muestra Individuo Unidad de observación Variables Cualitativas - Nominales - Ordinales Cuantitativas - Discretas - Continuas Página 4 LOS ELEMENTOS DE BASE: Variables Cualitativas Cuantitativas - Nominales - Discretas - Continuas - Ordinales Indiv. Tabla de datos 1 … X1 … Xp Materia prima del análisis estadístico n Página 5 SU OBJETIVO: Análisis de la Tabla de Datos Indiv. X1 … Xp 1 … n RESUMEN O SÍNTESIS Lo más representativo Lo más relevante Lo esencial La «forma» Lo más típico La «estructura» La «diversidad» RETORNO A LOS DATOS Página 6 SU OBJETIVO: Análisis de la Tabla de Datos Indiv. X1 … Xp 1 … n RESUMEN O SÍNTESIS NUMÉRICO GRÁFICO Página 7 ANALIZANDO LA TABLA DE DATOS: RESUMEN O SÍNTESIS NUMÉRICO GRÁFICO FORMA Simetría Curtosis POSICIÓN Valores extremos Cuartiles, quintiles deciles Página 8 ANALIZANDO LA TABLA DE DATOS: RESUMEN O SÍNTESIS NUMÉRICO GRÁFICO TENDENCIA CENTRAL Promedio o media Moda, mediana DISPERSIÓN Rango Desviación estándar Página 9 ANALIZANDO LA TABLA DE DATOS: Recursos gráficos RESUMEN O SÍNTESIS NUMÉRICO GRÁFICO Gráfico de sectores: Variables cualitativas Vestuario Frecuencias Alimentación Ocio Informa de: Distribución Transporte Página 10 ANALIZANDO LA TABLA DE DATOS: Recursos gráficos RESUMEN O SÍNTESIS NUMÉRICO GRÁFICO 45 40 Gráfico de barras: 35 Variables cualitativas 30 Frecuencias 25 20 Informa de: Distribución 15 10 5 0 Vestuario Alimentación Ocio Transporte Página 11 ANALIZANDO LA TABLA DE DATOS: Recursos gráficos RESUMEN O SÍNTESIS NUMÉRICO GRÁFICO 36 32 Histograma: Gran cantidad de observaciones Informa de: Forma, tendencia central Frecuencia Variables cuantitativas continuas 28 24 20 16 12 8 4 0 0 0,3 0,6 0,9 1,2 1,5 1,8 2,1 2,4 2,7 3 Valores de la variable Página 12 ANALIZANDO LA TABLA DE DATOS: Recursos gráficos RESUMEN O SÍNTESIS NUMÉRICO GRÁFICO 3 Variables cuantitativas continuas Informa de: Forma, posición 2,4 2,1 1,8 1,5 1,2 0,9 0,6 0,3 0 Peso Box-Plot: Valores de la variable 2,7 Página 13 ANALIZANDO LA TABLA DE DATOS: Recursos gráficos RESUMEN O SÍNTESIS NUMÉRICO GRÁFICO Variación mensual del IPC 3,0 2,8 Lineas: Variables cuantitativas 2,6 2,4 2,2 2,0 1,8 Informa de: Tendencia 1,6 1,4 1,2 1,0 1 2 3 4 5 6 7 8 9 10 11 12 Mes del año Página 14 ANALIZANDO LA TABLA DE DATOS: Recursos numéricos MEDIDAS NUMÉRICAS DE RESUMEN Tendencia central: 1 n Media: X xi n i 1 Mediana: X0.5 = Valor central (promedio de valores centrales) de la serie ordenada de X Moda: Valor(es) más frecuente(s) de X (datos cuantitativos y cualitativos) Página 15 ANALIZANDO LA TABLA DE DATOS: Recursos numéricos MEDIDAS NUMÉRICAS DE RESUMEN Dispersión: Rango: R(X) = Max(X) – min(X) Desviación estándar: S 1 2 ( x x ) i n 1 Coeficiente de variación: CV ( X ) S 100% X Página 16 ANALIZANDO LA TABLA DE DATOS: Recursos numéricos MEDIDAS NUMÉRICAS DE RESUMEN Posición: Cantidad acumulada de información 0% | min 25% | Q1 Primer cuartil 50% | Q2 Segundo cuartil - mediana 75% | Q3 100% | Max Tercer cuartil Serie creciente de valores observados Página 17 ANALIZANDO LA TABLA DE DATOS: Recursos numéricos EL RETORNO A LOS DATOS Regla empírica de Chebyshev: Si la distribución de los datos es simétrica en torno de su media, entonces: • Aproximadamente el 67% de los datos se encuentra a una distancia igual a una desviación típica de la media. • Aproximadamente el 95% de los datos se encuentra a una distancia de dos desviaciones típicas de la media. • Aproximadamente el 99% de los datos se encuentra a tres desviaciones típicas de la media. Página 18 ANALIZANDO LA TABLA DE DATOS: Recursos informáticos RECURSOS INFORMÁTICOS ALTERNATIVAS COMERCIALES ALTERNATIVAS GRATUITAS O LIBRES Programa R Calculadora con modo estadístico Planilla de OpenOffice MS Excel Programa SPSS Programa PAST Página 19 SINTETIZANDO: TODO Resumen debe INFORMAR de: La FORMA de la distribución Simétrica No simétrica La TENDENCIA CENTRAL de la distribución Media Mediana Moda Página 20 SINTETIZANDO: TODO Resumen debe INFORMAR de: La DISPERSIÓN de la distribución Desviación estándar (Desviación típica) Coeficiente de variación Rango La POSICIÓN Valores extremos (Mínimo, Máximo) Percentiles (Cuartiles, Quintiles, Deciles) Página 21 SINTETIZANDO: Para… Información cualitativa o discreta El Resumen puede ser: Numérico Tablas de frecuencias Gráfico Barras Circular - Sectores Moda Pictogramas Página 22 SINTETIZANDO: Para… Información Continua El Resumen puede ser: Numérico Tendencia central Dispersión Gráfico Posición Media Rango Cuartiles Mediana Varianza Quintiles Moda D. estándar Deciles Histograma Polígono de frecuencias Box-plot (Gráfico de Cajas) Ojiva C. Variación Percentiles Página 23 ESTADÍSTICA DESCRIPTIVA: Mirando un conjunto de datos UN EJEMPLO Rendimiento de alumnos de primero de secundaria según cuatro niveles de autoestima Nivel de autoestima Nivel1 Nivel2 Nivel3 Nivel4 n 56 292 291 24 Min 4,3 3,87 3,67 4,27 Max 5,93 6,13 6,3 6,17 Mean 5,03446 5,0874 5,21608 5,18583 Variance 0,171756 0,207481 0,224896 0,345547 Stand. dev 0,414435 0,455501 0,474232 0,587833 Grupo Nivel 1 menos disperso Median 5,015 5,1 5,23 5,15 Mediana similar a media: Simetría 25 prcntil 4,7 4,77 4,93 4,69 75 prcntil 5,33 5,4225 5,57 5,5825 = 663 estudiantes Rendimiento similar Página 24 ESTADÍSTICA DESCRIPTIVA: Mirando un conjunto de datos UN EJEMPLO Rendimiento de alumnos de primero de secundaria en Nivel 3 de autoestima 54 48 Frecuencia 42 36 30 24 Rendimiento ligeramente “cargado” a valores superiores 18 12 6 0 3,2 3,6 4 4,4 4,8 5,2 5,6 6 6,4 Promedio en Nivel 3 de Autoestima Página 25 ESTADÍSTICA DESCRIPTIVA: Mirando un conjunto de datos UN EJEMPLO Rendimiento de alumnos de primero de secundaria según cuatro niveles de autoestima 6,4 Gráficos de caja permitiendo una lectura comparativa del rendimiento, según nivel de autoestima. 5,6 5,2 4,8 4,4 En Nivel 3 se observan dos “out liers” o valores atípicos. 4 3,6 Nivel4 Nivel3 Nivel2 3,2 Nivel1 Promedios 6 ¿Qué grupo requiere intervención pedagógica? Página 26 RECURSOS DE APOYO: SUGERENCIAS BIBLIOGRÁFICAS: 1. Webster A. (2000): Estadística aplicada a los negocios y la economía. McGraw-Hill, Colombia. 2. Lind, Marchal & Wathen (2008): Estadística aplicada a los negocios y la economía. McGraw-Hill, México. 3. Canavos G. (1988): Probabilidad y Estadística. Aplicaciones y métodos. McGraw-Hill, México. 4. Walpole, Myers, Myers & Ye (2007): Probabilidad y estadística para ingeniería y ciencias. Pearson-Prentice Hall, Octava edición, México. SOFTWARE ESTADÍSTICO GRATUÍTO O LIBRE: 1. Programa PAST. Website: http://folk.uio.no./ohammer/past/ 2. Programa R. Website: www.r-project.org 3. Programa OpenOffice. Website: www.openoffice.org Página 27 Introducción a la Estadística Descriptiva Juan Moncada Herrera Dpto. de Cs. Matemáticas y Física Universidad Católica de Temuco