Download clase estadistica MEH 2011
Document related concepts
no text concepts found
Transcript
ESTADISTICA DESCRIPTIVA ANGELICA RAMOS LOPEZ ING. DE ALIMENTOS " El poder se nutre de la información y el conocimiento". • La Estadística Descriptiva nace de la necesidad de extraer y sumir la información relevante contenida en grandes volúmenes de datos. • Esta necesidad está motivada por la incapacidad de la mente humana para comprender la información contenida en conjuntos grandes de datos por la mera visión de listados de dichos datos. • Conjunto de métodos y técnicas que permiten recopilar, presentar, analizar y tomar decisiones respecto de un conjunto de datos. • Es una ciencia que nos proporciona un conjunto de métodos y técnicas que nos permite recolectar, clasificar, analizar, presentar y describir datos en forma adecuada a fin de tomar decisiones frente a una incertidumbre o predecir o afirmar algo de la población en estudio. DIVISION DE LA ESTADISTICA DESCRIPTIVA Es el conjunto de métodos estadísticos que implican la recolección, clasificación, presentación y caracterización de un conjunto de datos, con el fin de analizarlos y describirlos. INFERENCIAL Es el conjunto de métodos y/o técnicas que nos proporciona la teoría necesaria para afirmar algo acerca de la población o tomar decisiones generales en base a una información parcial obtenida mediante técnicas descriptivas. Es la que permite tomar decisiones y/o predecir fenómenos con respecto a las características de la población en estudio. POBLACION Es el conjunto de todos los elementos (personas, animales, plantas, objetos, etc.) que contienen una o más características observables. Cada elemento de una población de le denomina unidad estadística o unidad análisis. MUESTRA Es una parte representativa o subconjunto representativo de la población. Al número de elementos de la muestra se le denomina tamaño de la muestra y al procedimiento de obtener la muestra se le llama muestreo. PARÁMETRO Es una medida descriptiva que resume alguna característica de la población. DATOS Son valores recopilados de cualquier número de observaciones relacionadas sobre una o más características de una población o de una muestra. FUENTES DE DATOS Son los registros existentes y/o métodos (encuestas, estudios experimentales, etc.) que sirven para obtener información con fines de trabajo estadístico. VARIABLES Son características definidas sobre las unidades de análisis que conforman una población y que pueden tomar diferentes valores. Todas las variables tienen una escala de registro llamada unidad de medida. DEFINICIÓN DE VARIABLE. VARIABLE Característica de interés de los miembros de una población que toma distintos valores. CUALITATIVAS CUANTITATIVAS Sus valores corresponden a conceptos, atributos o cualidades no son medibles Son medibles, sus valores corresponden a números reales DISCRETAS CONTINUAS Sólo toman algunos valores reales. Toman infinitos valores de un intervalo de números reales. 7 EJEMPLO Nº1: Responda a las siguientes cuestiones sobre el tipo de variable cuando clasificamos a los alumnos de una clase: 1. La variable deporte que practican es: 4. La variable peso es: (a) Cualitativa (b) Discreta (a) Cualitativa (b) Discreta (c) Continua (c) Continua 2. La variable número de hermanos es: 5. La variable color de su pelo es: (a) Cualitativa (b) Discreta (c) Continua (a) Cualitativa (b) Discreta (c) Continua 3. La variable Tiempo que ven televisión en una semana es: (a) Cualitativa (b) Discreta (c) Continua 6. La variable altura es: (a) Cualitativa (b) Discreta (c) Continua Datos sin agrupar Datos agrupados Tablas de frecuencias Medidas de tendencia central, Medidas de dispersión, gráficos. • Es una técnica estadística para organizar datos en clases y cada una se les aplica la frecuencia correspondiente. • Sirve para visualizar y organizar los datos. • Facilita la comprensión contenida en la muestra. de la información Frecuencia absoluta Tabla para datos cualitativos Nivel educacional i Basica ni fi %fi 10 0.303 30.3 Media 11 0.333 33.3 Universitaria 12 0.363 36.3 Total 33 1 100 Frecuencia acumulada Tabla para datos cuantitativos discretos Número de cargas familiares ni fi %fi Ni Fi %Fi 0 15 0.357 35.7 15 0.357 25.7 1 17 0.404 40.4 32 0.761 76.1 2 10 0.238 23.8 42 1 100 Total 42 1 100 Frecuencia 11 relativa ORGANIZACIÓN Y PRESENTACIÓN DE DATOS Representación tabular de la información de variables de tipo categórico 3º) • Cuando la variable es de tipo categórico, la organización y presentación de los datos se hace de la siguiente manera: 4º) 1º) Se determina el número de clases que la variable está tomando. Se obtienen las frecuencias relativas (fi) para cada clase, las cuales están definidas por el cociente , donde n es el número total de datos. Se obtienen las frecuencias relativas porcentuales (%) para cada clase, las cuales son las frecuencias relativas multiplicadas por 100. 2º) Se obtienen las frecuencias absolutas (ni) para cada clase, las cuales son el 5º) Se obtienen las frecuencias acumuladas (Ni) para cada clase, número de veces que se presenta cada la cual es igual a la suma de las clase. frecuencias absolutas de los datos anteriores. FRECUENCIA RELATIVA FRECUENCIA ABSOLUTA ACUMULADA Donde N, es el tamaño de la muestra N i ni ni 1 FRECUENCIA RELATIVA PORCENTUAL % f i f i 100% FRECUENCIA RELATIVA ACUMULADA FRECUENCIA ACUMULADA PORCENTUAL Fi f i f i 1 % Fi Fi 100% Ejemplo 3.1 • Se ha realizado un estudio del numero de empleados de 15 fiambrerías de una zona de Buenos Aires con los siguientes resultados: 4; 5; 4; 3; 3; 6; 4; 5; 3; 3; 4; 5; 3; 6. • Construir la tabla estadística empleando frecuencias absolutas simples y acumuladas y, también, frecuencias relativas en porcentaje, simples y acumuladas. Nº empleados por tienda Frecuencia absoluta simple (ni) Frecuencia absoluta acumulada (Ni) Frecuencia relativa simple en % (%fi) Frecuencia relativa acumulada en % (%Fi) 3 5 5 33,3 4 4 9 5 3 12 5/ 15 = 0.33(x 100) = 33.3% 4/15 = 0.26 (x 100) = 26.6% 3/15 = 0.2 (x 100) = 20% 6 3 15 3/15 = 0.2 (x 100) = 20% 100 60 80 Se han tomado las ventas en miles de soles de 40 supermercados de nuestro país correspondiente al mes de Octubre del año pasado. Los resultados fueron: 168 168 158 156 160 158 163 174 168 149 171 165 175 160 170 173 175 161 165 172 160 162 150 168 165 154 163 165 168 166 163 159 178 169 167 164 162 165 163 168. a) Identifique la variable y su tipo, así como la población y la muestra. b) Construya la tabla de distribución de frecuencias de la información obtenida. • La tabla siguiente (incompleta) resume las notas obtenidas por 80 alumnos de un instituto en selectividad. Responder: 1. El número de Suspendidos es: (a) 20 (b) 30 (c) 40 2. El número de sobresalientes es: (a) 10 (b) 12 (c) 14 3. La proporción de Notables es: (a) 0.20 (b) 0.25 (c) 16 4. La suma de las frecuencias absolutas fi es: (a) 100 (b) 80 (c) Otro valor VARIABLES Cualitativa Discreta Gráfico DE BARRAS Continua • Histograma • Polígono de frecuencias. OJIVA GRAFICO CIRCULAR • es una representación gráfica mediante rectángulos adyacentes donde en el eje horizontal se representan los intervalos de clase y en el eje vertical se representa los valores de las frecuencias (absolutas o relativas). • El histograma se construye dibujando barras contiguas que tienen como base la amplitud de cada intervalo y como alturas las frecuencias respectivas. 1. HISTOGRAMA . Variable NOTAS. 9 8 frecuencia absoluta 7 6 5 4 3 2 1 0 3.8 - 4.2 4.2 - 4.6 4.6 - 5.0 intervalos de clase 5.0 - 5.4 5.4 – 5.8 • Para la construcción de un polígono de frecuencias, se marcan los puntos medios de cada uno los intervalos en la parte superior de cada barra del histograma de frecuencias, los cuales se unen con segmentos de recta. 2. POLÍGONO DE FRECUENCIAS. VARIABLE NOTAS 9 8 4.4 Frecuencia absoluta 7 6 4.0 5.2 5 4.8 4 3 2 5.6 1 0 0 0 marcas de clase • Una grafica similar al polígono de frecuencias es la ojiva, pero esta se obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y de igual manera que estas, existen las ojivas mayor que y menor que. • Una gráfica de distribución de frecuencias acumuladas es llamada una ojiva. Se trazan los límites reales superiores contra las frecuencias acumuladas. 3. OJIVA. Variable Notas FRECUENCIA ACUMULADA 30 25 25 24 20 19 15 14 10 5 6 0 4,2 4,6 5 5,4 LIMITE SUPERIOR INTERVALO DE CLASE 5,8 Gráficos Variable Cualitativa. Gráfico de Barra "Año de Ingreso" n 2 8 5 10 25 %f 8 32 20 40 100 12 10 8 n Ingreso 1999 2000 2001 2002 6 4 2 0 1999 2000 2001 Categorías Gráfico barras 1999 8% 2002 40% 2000 32% 2001 20% Gráfico circular 2002 Gráficos variable discreta n 1 3 8 3 4 3 3 25 8 12% %f 4 12 32 12 16 12 12 100 2 4% N 1 4 12 15 19 22 25 %F 4 16 48 60 76 88 100 35 Gráfico de BARRAS 30 25 20 % Ramos 2 3 4 5 6 7 8 15 10 5 0 2 3 4 5 6 7 8 6 7 8 Ramos 3 12% 7 12% 30 OJIVA 25 6 16% 4 32% N 20 15 10 5 12% Gráfico Circular 5 0 2 3 4 5 ramos MEDIDAS DE TENDENCIA CENTRAL MEDIDAS DE DISPERSION MEDIDAS DE POSICION • MODA • MEDIANA • MEDIA (GEOMETRICA) • MEDIA (ARITMETICA) • RANGO • DESVIACION MEDIA • VARIANZA Y DESVIACION ESTANDAR • COEFICIENTE DE VARIACION • DECILES • CUARTILES • PERCENTILES • Son estadísticos que proporcionan valores representativos de la muestra, de tal manera que todos los datos muéstrales caen en torno a estos valores. • Son valores de la variable que están situados en el centro o alrededor del punto medio de un conjunto de datos. Este valor también se le denomina indicador estadístico o estadístico o estadígrafo. • La media aritmética de una variable se define como la suma ponderada de los valores de la variable por sus frecuencias relativas y lo denotaremos por y se calcula mediante la expresión: Xi representa el valor de la variable o en su caso la marca de clase. a) Para datos cuantitativos no agrupados donde x es el valor del dato no agrupado, n es el total de los datos y el símbolo Σ significa sumar. b) Para datos cuantitativos agrupados donde xi es la marca de clase del intervalo i, n es el total de los datos y el símbolo Σ significa sumar los productos entre paréntesis. VENTAJAS Y DESVENTAJAS DE LA MEDIA ARITMETICA • Ventajas de la media aritmética a) Es una medida que tiene en cuenta toda la información suministrada. b) Es la más estable de las medidas de tendencia central. c) Puede ser utilizada como dato para análisis estadísticos posteriores. • Desventajas de la media aritmética • No es conveniente utilizarla cuando los datos se aglomeran en los extremos del conjunto de datos ordenados habiendo poca información en las partes centrales de la distribución. • Los datos están fuertemente sesgados. En este caso se prefiere utilizar la mediana. Se han tomado las ventas en miles de soles de 40 supermercados de nuestro país correspondiente al mes de Octubre del año pasado. Los resultados fueron: 168 160 168 175 175 160 165 154 163 165 168 168 158 149 160 161 162 166 163 159 178 169 158 163 171 170 165 150 167 164 162 165 163 156 174 165 173 172 168 168. Obtener la media aritmética de dichos resultados. • En una clase de 10 alumnos se han registrado las siguientes las calificaciones: 6 alumnos un 5, 3 alumnos un 7 y un alumno un 9. Obtener la nota media. • es el valor central de la variable, es decir, supuesta la muestra ordenada en orden creciente o decreciente, el valor que divide en dos partes la muestra. • Para calcular la mediana debemos tener en cuenta si la variable es discreta o continua. • Cálculo de la mediana en el caso discreto: Tendremos en cuenta el tamaño de la muestra. • Si n es impar, hay un término central, el término será el valor de la mediana. que • Si n es par, hay dos términos centrales, la mediana será la media de esos dos valores • Ejemplo N par N impar 1,4,6,7,8,9,12,16,20, 24,25,27 n=12 1,4,6,7,8,9,12,16,20, 24,25,27,30 n=13 Términos centrales el 6º y 7º 9 y 12 Término central el 7º , 12 Me=12 Me= • Cálculo de la mediana en el caso continúo: • Si la variable es continua, la tabla vendrá en intervalos, por lo que se calcula de la siguiente forma: • Nos vamos a apoyar en un gráfico de un histograma de frecuencias acumuladas. De donde la mediana vale: donde ai es la amplitud del intervalo. • Supongamos los pesos de un grupo de 50 personas se distribuyen de la siguiente forma: Li-1 Li Ni Ni 45 55 6 6 55 65 10 16 65 75 19 35 75 85 11 46 85 95 4 50 • Como el tamaño de la muestra es n=50, buscamos el intervalo en el que la frecuencia acumulada es mayor que 50/2=25, que en este caso es el 3º y aplicamos la fórmula anterior. Luego la mediana será • Me= VENTAJAS Y DESVENTAJAS DE LA MEDIANA MUESTRAL • Ventajas de la mediana muestral • Desventajas de mediana muestral • La mediana se utiliza cuando los datos están fuertemente sesgados. • Es una medida que no tiene en cuenta los valores que toman las variables en los extremos de los datos ordenados en la muestra. • No está afecta a los valores extremos de los datos. • Se utiliza también en las variables categóricas ordinales. la • es un valor o medida de tendencia central en una muestra de datos de variables tanto categóricas como cuantitativas que se repite con mayor frecuencia, y se representa por el símbolo Mo. Si el conjunto de datos tiene una moda se llama unimodal, si tiene dos modas se llama bimodal, y al conjunto de datos que tiene más de dos modas se llama multimodal. a) Para datos categóricos (o cualitativos) nominales u ordinales: Se determina la categoría (o las categorías) que más se repite (o repiten). • b) Para datos cuantitativos no agrupados y cuantitativos discretos agrupados: Se determina el valor (o los valores) del conjunto de datos que más se repite (o repiten). c) Para datos cuantitativos continuos agrupados: Cuando la información se encuentra agrupada en intervalos de igual tamaño la moda se calcula con la siguiente expresión. Ejemplo: A pesar que el valor 444.44 no es un dato real de la información asumimos ese parámetro como el de mayor ocurrencia. VENTAJAS Y DESVENTAJAS DE LA MODA MUESTRAL • Ventajas de la moda muestral • Desventajas de la moda muestral a) Se puede calcular tanto para datos categóricos como para los cuantitativos. • Es muy difícil de interpretar o comparar cuando la distribución es multimodal. b) No está afectada por los valores extremos de los datos ordenados. • Las medidas de dispersión indican que tan lejos o tan cerca se encuentran unos datos de otros en una distribución de frecuencia. La medida representativa mas utilizada para analizar la dispersión de datos es la media. Las más importantes son: • • • • • Rango La desviación media La desviación típica o estándar El coeficiente de variación La varianza. • Es la medida de dispersión que indica la distancia entre el valor mayor y menor en un grupo de datos. • Se denota como R. Realmente no es una medida muy significativa e la mayoría de los casos, pero indudablemente es muy fácil de calcular. R = Xmax – Xmin Xmax, Xmin son el máximo y el mínimo valor de la variable X, respectivamente. • La desviación media, mide la distancia absoluta promedio entre cada uno de los datos, y el parámetro que caracteriza la información. Usualmente se considera la desviación media con respecto a la media aritmética: • es una medida de variación que mide la dispersión cuadrática de los datos con respecto a la media aritmética, y se representa por el símbolo s2. Su unidad de medida es el cuadrado de la unidad de medida utilizada para medir los datos. • es la raíz cuadrada de la varianza muestral, y se representa por la letra s; es decir: • Es la más completa entre las medidas de dispersión porque interviene la unidad de medida que se usa para medir los datos y el número total de ellos. • Es una medida de dispersión relativa que proporciona una estimación de la magnitud de la desviación estándar respecto a la magnitud de la media, y generalmente está expresado en porcentaje, y se representa por las letras CV. Matemáticamente, esto se expresa por: • Es útil para comparar distribuciones con unidades de medida diferentes para ver así cuál de ellas es más variable. • Una desventaja del coeficiente de variación es que deja de ser útil cuando la media muestral es un valor cercano a cero. • El peso medio de los alumnos de una clase es 58,2kg y su desviación típica 4kg. Por otra parte la altura media es de 175cm, y su desviación típica es de 5cm. Calcular el coeficiente de variación y comparar la dispersión de ambos grupos.