Download observados datos de numero n = = fn
Document related concepts
no text concepts found
Transcript
Capítulo 2: ANÁLISIS ESTADÍSTICO El análisis estadístico es todo el proceso de organización, procesamiento, reducción e interpretación de datos para realizar inferencias. Recordemos que los datos se transformarán en información útil para la toma de decisiones, por lo tanto a la hora de recopilarlos, debemos ordenarlos de manera tal que nos permitan trabajar con ellos para obtener la información requerida. Los datos son medidas o valores de las características susceptibles de observar y contar, se originan por la observación de una o más variables de un grupo de elementos o unidades, para que sean útiles se deben organizar de manera que faciliten su análisis, se puedan seleccionar tendencias, describir relaciones, determinar causas y efectos y permitan llegar a conclusiones lógicas y tomar decisiones bien fundamentadas; por esa razón es necesario conocer lo métodos de Organización y Representación, la finalidad de éstos métodos es permitir ver rápidamente todas las características posibles de los datos que se han recolectado. DATOS CRUDOS Son los datos que no tienen repeticiones, el total de los datos (n) se calcula como la suma de los valores observados: n = numero de datos observados Ejemplo: Recaudación anual del impuesto a los Ingresos Brutos ARREGLO Y DISTRIBUCIÓN DE FRECUENCIAS Esto se da cuando un dato se repite más de una vez en un conjunto de datos. Definiremos como frecuencia de un dato el número de veces que este aparece en el colectivo; consecuentemente, si una variable estadística toma x valores, cada uno de los cuales puede repetirse un cierto número de veces, podríamos decir que el número de datos representado por la variable serían n, siendo n la suma de las respectivas frecuencias de cada dato: n n = ∑ fi i =1 Este valor n será denominado como frecuencia total, mientras que la frecuencia de cada dato recibirá el nombre de frecuencia absoluta o simplemente frecuencia (fi). La frecuencia absoluta nos habla del número de veces que un dato aparece más ello no nos dice demasiado en orden al establecimiento de comparaciones sobre la importancia de este dato. Para obtener una idea de la importancia que un dato posee en una muestra, se utiliza el concepto frecuencia relativa. Para efectos prácticos, asumiremos las siguientes definiciones de frecuencias: Lic. Eliana Arcoraci / Lic. Eduardo Grossi P á g i n a | 18 Unidad 2- Análisis Estadístico • Frecuencias absolutas (fi): es el número de veces que aparece en la muestra dicho valor de la variable. • Frecuencias relativas (fr): es el cociente entre la frecuencia absoluta y el tamaño de la muestra. fr = fi n ∑f i i =1 • Frecuencia acumulada (fa): para poder calcular este tipo de frecuencias hay que tener en cuenta que la variable estadística ha de ser cuantitativa o cualitativa ordenable. Es la suma sistemática de las frecuencias absolutas y se anota el resultado en el valor o clase respectiva a la acumulación. (según estemos trabajando con arreglo o distribución de frecuencias). lo representaremos por • Frecuencia relativa acumulada (fra.): al igual que en el caso anterior se calcula como el cociente entre la frecuencia acumulada dividida por el tamaño de la muestra. Arreglo de Frecuencias Se usa cuando hay pocos datos. Se ordenan los datos de forma ascendente o descendente en columnas (xi) y se determina el número de veces que se repiten esos datos, esto es lo que se denomina frecuencia absoluta (fi) Ejemplo: Datos13,7,8,8,8,5,5,8,13,21,7,7,7,5,5,5,5,8,8,21,8,7,7,7,5,5,5,13,13,7,5,5,8,8,7,5,8,7,8,8,5,5,5 xi fi fa fr fra 5 7 8 13 21 15 10 12 14 2 53 15 25 37 51 53 0,283018868 0,188679245 0,226415094 0,264150943 0,037735849 1 0,283018868 0,471698113 0,698113208 0,962264151 1 Distribución de frecuencias Cuando se reúne gran cantidad de datos primarios es útil distribuirlos en clases y categorías y determinar las frecuencias absolutas de las clases, o sea, el número de elementos que pertenecen a una clase. El ordenamiento tabular de los datos por clases conjuntamente con las frecuencias de clases se denomina distribución de frecuencias Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 19 Unidad 2- Análisis Estadístico Es una forma de sintetizar los datos y consiste en valerse de una tabla para clasificar los datos según su magnitud, en ella se señala el número de veces que aparece cada uno de los valores. Cuando se dispone de un gran número de valores discretos o cuando las variables son continuas, tiene sentido formar una tabla que presente la distribución de frecuencias de los datos agrupados en intervalos o clases, de igual tamaño si es posible, sin embargo una tabla de este tipo supone una concentración de datos que produce pérdida de información. • Clases o intervalos de clase: Grupo de valores que describen una característica. Deben incluir todas las observaciones y ser excluyentes. Los intervalos contienen los límites de clase que son los puntos extremos del intervalo. Están compuestos por: o Limite inferior: punto mínimo de cada clase o Limite Superior: punto máximo de cada clase • Clase real: Sirven para mantener la continuidad de las clases. Se calcula sumándole al Limite Inferior 0,5 y restándole al limite superior 0,5 • Intervalo (i): se puede obtener de la diferencia entre dos límites inferiores consecutivos o dos límites superiores consecutivos. Para calcular el ancho del intervalo se debe dividir el dato mayor menos el dato menor por la cantidad de clases que contiene la distribución, esto es: Intervalo = Valor mayor − valor menor N º de clases • Número de clases (k): es el número total de grupos en que se clasifica la información, se recomienda que no sea menor que 5 ni mayor que 15. En general una distribución de frecuencias que emplea muy pocas o demasiadas clases no contiene mucha información. El número de clases debe aumentar en función de la cantidad de datos que se posean (n). En la práctica, si la cantidad de datos es pequeña, digamos menor a 75 datos se obtienen buenos resultados si se hace la selección del número de clases aproximadamente igual a la raíz cuadrada del número de observaciones. k= n A medida que crece la cantidad de datos, la determinación del número que clases que debe contener una tabla de distribución de frecuencias, se realiza mediante la siguiente fórmula, que se conoce como fórmula de Sturges, gracias a su creador. k: 1+ 3,3*log n Nota: en este caso debe calcularse el logaritmo en base 10 de la cantidad de datos y no el logaritmo natural (ln). • Marca de Clase o Punto medio: Es el punto medio del intervalo de clase, se calcula de la siguiente forma: xi = Limite Inferior + Limite Superior 2 Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 20 Unidad 2- Análisis Estadístico Ejemplo: La siguiente tabla muestra el número de visitantes, clasificados según su edad, que asistieron a una muestra de pintura. Edad 1-14 15-28 29-42 43-56 57-70 71-84 Nº de visitantes (fi) 175 215 340 200 70 15 1015 xi = Li + Ls 2 7,5 21,5 35,5 49,5 63,5 77,5 fa fr 175 390 730 930 1000 1015 0,172413793 0,21182266 0,334975369 0,197044335 0,068965517 0,014778325 1 fra 0,17241379 0,38423645 0,71921182 0,91625616 0,98522167 1 Representación grafica -Histograma: Esta formado por rectángulos cuya base es la amplitud del intervalo y tiene la característica que la superficie que corresponde a las barras es representativa de la cantidad de casos o frecuencia de cada tramo de valores, puede construirse con clases que tienen el mismo tamaño o diferente (intervalo variable). La utilización de los intervalos de amplitud variable se recomienda cuando en alguno de los intervalos, de amplitud constante, se presente la frecuencia cero o la frecuencia de alguno o algunos de los intervalos sea mucho mayor que la de los demás, logrando así que las observaciones se hallen mejor repartidas dentro del intervalo. Si los intervalos de clase no tienen el mismo ancho, entonces se acostumbra dibujar rectángulos cuyas áreas sean proporcionales a las frecuencias. Sin embargo, los histogramas son más fáciles de interpretar si los intervalos de clase tienen todo el mismo ancho. El histograma proporciona una impresión visual del aspecto que tiene una distribución de las mediciones, así como información sobre la dispersión de los datos. MEDIDAS DE POSICIÓN Con estas medidas se persigue reducir en pocas cifras significativas el conjunto de observaciones de una variable y describir con ellas ciertas características de los conjuntos, logrando una comparación más precisa de los datos que la que se puede conseguir con tablas y gráficas. Se emplean para: a) Representar a un conjunto mediante un solo valor y a través del el se puede establecer el comportamiento del conjunto. Ejemplo: salario promedio de los habitantes de una ciudad, gasto promedio de una familia, etc. b) Efectuar comparaciones entre diferentes conjuntos estadísticos Ejemplo: Comparar el promedio de edad de estudiantes de distintos cursos, compara promedio de ventas mensuales entre dos o mas empresas, etc. Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 21 Unidad 2- Análisis Estadístico MEDIDAS DE TENDENCIA CENTRAL Los promedios son una medida de posición que dan una descripción compacta de como están centrados los datos y una visualización más clara del nivel que alcanza la variable, pueden servir de base para medir o evaluar valores extremos o raros y brinda mayor facilidad para efectuar comparaciones. Es importante poner en relieve que la notación de promedio lleva implícita la idea de variación y que este número promedio debe cumplir con la condición de ser representativo de conjunto de datos. El promedio como punto típico de los datos es el valor alrededor del cual se agrupan los demás valores de la variable. Media Aritmética ( X ) Es una medida matemática, un número individual que representa razonablemente el comportamiento de todos los datos. Se deben distinguir dos casos, si se trabaja con una muestra el media aritmética se representa con X , se denomina media muestral, y representa el valor promedio de todas las observaciones de la muestra. También es posible pensar en el cálculo del valor promedio de todas las observaciones de una población. Este promedio se conoce como media poblacional y se denota con la letra griega μ Nos abocaremos ahora al cálculo de la media muestral. Debemos distinguir si estamos trabajando con datos crudos o si los datos están bajo arreglo o distribución de frecuencia. Calculo de X : • Datos crudos: n x + x 2 + x3 + ....... + x n X= 1 = n ∑x i i =1 n donde n=cantidad de datos • Arreglo y distribución de frecuencias: n f x + f 2 x 2 + f 3 x 3 + ....... + f n x n X= 1 1 = f 1 + f 2 + f 3 + ....... + f n ∑fx i i i =1 n ∑f i i =1 n donde ∑f i = cantidad de datos i =1 Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 22 Unidad 2- Análisis Estadístico Características de la Media: 1. En su cálculo intervienen todos los valores del conjunto de datos por lo que cada uno afecta la media. 2. La fuerte presencia de valores pequeños dentro del conjunto ocasiona que X tienda hacia ellos. Cuando hay una fuerte presencia de valores grandes se tiene el mismo efecto, por lo tanto la representatividad de la media aritmética puede ser cuestionada ante la presencia de datos extremos. 3. Una vez calculada X , la suma de las diferencias entre los valores del conjunto y X es igual a 0; esto no se cumple en la distribución de frecuencia ya que se esta trabajando con valores medios n ∑ (x i ) − X =0 para Datos Crudos i =1 n ∑ f (x i i ) − X =0 para Arreglo de frecuencia i =1 4. La suma de las diferencias al cuadrado entre los datos del conjunto y X es menor o igual a la suma de las diferencias al cuadrado de los datos del conjunto y un valor arbitrario A : 2 n ∑ (x i ) n 2 − X ∠∑ ( x i − A ) i =1 i =1 5. Aunque es confiable porque refleja todos los valores del conjunto de datos puede ser afectada por los valores extremos, y de esa forma llegar a ser una medida menos representativa, por lo que si la distribución es asimétrica, la media aritmética no constituye un valor típico. 6. Cada uno de los datos del conjunto puede ser sustituido por la media aritmética ( X ) sin que se altere el valor de esta, ni la suma de los valores de los conjuntos. Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 23 Unidad 2- Análisis Estadístico Ejemplo practico: • Datos crudos-El siguiente conjunto de datos que indica la recaudación anual de impuestos de Mendoza, en millones de pesos, entre 1999-2007. Año Recaudación (millones de pesos) 1999 2000 2001 2002 2003 2004 2005 2006 2007 378,23 380,27 392,27 371,51 548,85 662,89 831,94 1083,27 1275,56 n ∑x X= i i =1 n X= 378.23 + 380.27 + 392.37 + 371.51 + 548.85 + 662.89 + 831.94 + 1083.27 + 1275.56 9 X= 5924.79 9 X =658.31 (en millones) La recaudación promedio anual de la provincia de Mendoza es de $658.310.000 Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 24 Unidad 2- Análisis Estadístico • Arreglo de frecuencia: Una empresa de conservas desea conocer su producción promedio de botellas de salsa , para lo cual observo la producción durante 25 días, la que se detalla a continuación: 60 63 124 80 100 85 60 160 85 124 99 132 65 124 99 100 124 71 75 100 80 145 124 132 124 xi fi 60 2 63 1 65 1 71 1 75 1 80 2 85 2 99 2 100 3 124 5 132 2 145 2 160 1 25 n ∑fx i X= i i =1 n ∑f i i =1 X = 2 * 60 + 1 * 63 + 1 * 65 + 1 * 71 + 1 * 75 + 2 * 80 + 2 * 85 + 2 * 99 + 3 * 100 + 5 * 124 + 2 * 132 + 2 * 145 + 1 * 160 2 +1+1+1+1+ 2 + 2 + 2 + 3 + 5 + 2 + 2 +1 X= 2556 25 X =102.24 La producción promedio de la empresa de conservas es de 102 latas Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 25 Unidad 2- Análisis Estadístico • Distribución de frecuencias-La siguiente tabla muestra el número de turistas, clasificados según su edad, que se hospedaron en un hotel tres estrellas. Edad 1-14 15-28 29-42 43-56 57-70 71-84 Edad Nº de turistas Nº de turistas 127 324 455 165 75 97 1243 xi fa fixi Clase real 1-14 127 7,5 127 952,5 0,5 14,5 15-28 324 21,50 451 6966,00 14,50 28,50 29-42 455 35,50 906 16152,50 28,50 42,50 43-56 165 49,50 1071 8167,50 42,50 56,50 57-70 75 63,50 1146 4762,50 56,50 70,50 71-84 97 77,50 1243 7517,50 70,50 84,50 1243 44518,50 n ∑fx i X= i i =1 n ∑f i i =1 X= 127 * 7.5 + 324 * 21.5 + 455 * 35.5 + 165 * 49.5 + 75 * 63.5 + 97 * 77.5 127 + 324 + 455 + 165 + 75 + 97 X= 44518.8 1243 X =35.82 El promedio de edad de los turistas hospedados en el hotel es de 36 años. Histograma Cantidad de turistas 500 400 (fi) 300 200 100 0 1-14 15-28 29-42 43-56 57-70 Edad (xi) Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 26 71-85 Unidad 2- Análisis Estadístico La Mediana (Me) Es la medida de tendencia central que por su ubicación dentro del conjunto de datos lo divide exactamente a la mitad. Geométricamente la mediana es el valor de la variable que corresponde a la vertical que divide al histograma en dos áreas iguales. Cuando determinados valores de un conjunto de observaciones son muy grandes o pequeños con respecto a los demás, entonces la media aritmética se puede distorsionar y perder su carácter representativo, en esos casos es conveniente utilizar la mediana como medida de tendencia central. Calculo de Me • Datos crudos y Arreglo de frecuencias: Debemos tener en cuenta si los datos son pares o impares: o Impares: la Me pertenece al conjunto de datos o Pares: la Me es un valor agregado determinado por la semisuma de los datos centrales 1º) Se listan los datos de forma ascendente y/o descendente de los datos 2º) Se determina la ubicación de la Me: n n ^ +1 2 2 n Impares + 0.5 2 Pares→ 3º) Se determina el valor de la Me • Distribución de frecuencias: n ∑ fi i =1 − f ai 2 M e = LIV + i fi donde: LIV=Limite Inferior Verdadero de la clase donde est a ubicada la Me n ∑f i =1 2 i = ubicación de la Me fai=frecuencia acumulada de la clase anterior a la ubicación de Me fi = frecuencia absoluta de la clase donde esta ubicada la Me i= intervalo de clase Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 27 Unidad 2- Análisis Estadístico Características de la mediana 1. Es un promedio de posición no afectado por los valores extremos. 2. No está definida algebraicamente 3. Cuando la localización del elemento central puede ser determinada y los límites de clase mediana son conocidos, la mediana para la distribución de frecuencias puede ser calculada por interpolación, no importando que ésta contenga intervalos abiertos, cerrados, iguales o diferentes. 4. La suma en valor absoluto de las diferencias entre los datos y la Me es menor o igual a la suma en valor absoluto de la diferencia entre los valores del conjunto y un valor arbitrario A: n ∑x n i − M e ∠∑ x i − A i =1 i =1 5. La mediana en caso de una distribución asimétrica, no resulta desplazada del punto de tendencia central. 6. Si la mediana se calcula por interpolación y hay lagunas en los valores de la clase mediana o los datos son irregulares, esta medida no es buena ya que su ubicación puede resultar falsa. 7. Si se desea ubicar las condiciones de un elemento en una clase, la mediana resulta se indicada, ya que por comparación pone en evidencia si un elemento está en la mitad superior a ella o en la inferior. Ejemplo practico • Datos crudos. Si seguimos con el ejemplo de la recaudación provincial, observamos que tenemos 9 años, por lo tanto 9 datos, es decir , los datos son impares por lo tanto: n + 0.5 2 9 + 0.5 = 5 El dato que ocupa la posición 5 es la Me, 2 El 50% de la recaudación de la provincia es inferior a $548.85 (en millones de pesos) y el 50% de la recaudación es superior a ese monto. Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 28 Unidad 2- Análisis Estadístico • Arreglo de frecuencia. Si continuamos con el ejemplo de la fabrica de conservas: xi fi fa 60 2 2 63 1 3 65 1 4 71 1 5 75 1 6 80 2 8 85 2 10 99 2 12 100 3 15 124 5 20 132 2 22 145 2 24 160 1 25 25 Los datos en este cado también son impares por lo tanto: n + 0.5 2 25 + 0.5 = 14 En este caso se busca el numero mas cercano a 14 en la fa y esa es la Me, (en este caso el 2 numero mas cercano al 14 es el 15, por lo tanto el valor que corresponde es 100) El 50% de la producción de la fábrica es inferior a 100 botellas y el 50% restante es superior a ese valor Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 29 Unidad 2- Análisis Estadístico • Distribución de frecuencias. En este caso se aplica la formula por interpolación Edad Nº de turistas xi fa fixi Clase real 1-14 127 7,5 127 952,5 0,5 14,5 15-28 324 21,50 451 6966,00 14,50 28,50 29-42 455 35,50 906 16152,50 28,50 42,50 43-56 165 49,50 1071 8167,50 42,50 56,50 57-70 75 63,50 1146 4762,50 56,50 70,50 71-84 97 77,50 1243 7517,50 70,50 84,50 1243 44518,50 Lo primero que debemos hacer es ubicar la Me: n ∑f i i =1 = 2 1243 = 621.5 Esta es la ubicación de la Me, lo que hacemos en buscar en la fa, empezamos a restar 2 sistemáticamente y el primer valor que nos da negativo es donde esta ubicada la Me, en este caso cuando restamos 621.5 a 906 nos da negativo, entonces en esa clase esta ubicada la Me. Lo que hacemos a continuación es aplicar la formula: n ∑ fi i =1 − f ai 2 (621.5 − 451) M e = LIV + i = 28.5 + 14 =33.75 fi 455 El 50% de los turistas tienen menos de 34 años y el 50% tienen más de esa edad. La Moda (Mo) Es el valor de un conjunto de datos que ocurre más frecuentemente, se considera como el valor más típico de una serie de datos. La moda puede no ser única, las distribuciones que presentan dos o más máximos relativos se designan de modo general como bimodales o multimodales. Calculo de la Mo: • Arreglo de frecuencia: en este caso la moda se determina por observación de los datos Ejemplo: Para la fábrica de conservas vemos que el valor que mas se repite es 124, es decir, que la mayoría de las veces se fabrican 124 botellas Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 30 Unidad 2- Análisis Estadístico • Distribución de frecuencias: hay dos métodos para el calculo, el método algebraico y el método grafico o Método Algebraico 1. Moda cruda(MoC): es la semisuma de los limites de la clase modal, es decir la clase donde esta ubicada la Mo M oC = LS cMo + LI cmo 2 donde: Lscmo= Limite Superior de la clase donde esta ubicada la Mo LIcmo= Limite Inferior de la clase donde esta ubicada la Mo Ejemplo: Para el caso de los turistas 455 es el valor que más se repite, por lo tanto: MoC=: 42 + 29 = 35.5 la mayoría de los turistas tienen 35 años 2 2. Moda por interpolación(Mo): d1 M o = LIVcmo + d1 + d 2 i donde: d1=ficmo-fia d2=ficmo-fip LIVcmo= limite inferior verdadero de la clase modal ficmo=frecuencia absoluta de la clase modal fia= frecuencia absoluta de la clase anterior a la clase modal fip=frecuencia absoluta de la clase posterior a la clase modal i= intervalo de clase Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 31 Unidad 2- Análisis Estadístico Ejemplo: d1=455-324=131 d2=455-165=290 131 131 14 = 28.5 + 14 = 32.85 la 131 + 290 421 Mo= 28.5 + mayoría de los turistas tienen aproximadamente 33 años o Método Grafico: se utiliza el histograma de frecuencia. En el cual se realiza el siguiente procedimiento 1. Obtenemos el histograma 2. Obtenemos los limites verdaderos de la o las clases modales 3. Se identifica el LSV de la clase anterior a la que esta ubicada la Mo el LIV de la clase posterior donde está ubicada la Mo: 4. Se une el LIV de la clase modal con el LIV de la clase posterior a la clase modal 5. Se une el LSV de la clase modal con el LSV de la clase anterior a la clase modal 6. El punto donde se interceptan las curvas se proyecta en forma perpendicular el eje horizontal, y es en este punto donde está ubicada la Mo: Cantidad de turistas LIVcmo LSVcmo 455 324 LSVcmo 165 LIVcpcmo 127 97 75 0.5 14.5 28.5 42.5 56.5 70.5 84.5 Edad (Clase Real) La Mo ronda los 33 años Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 32 Unidad 2- Análisis Estadístico Características de la Moda. 1. Representa más elementos que cualquier otro valor 2. No está afectada por los valores extremos pero para datos continuos es dudoso su cálculo. 3. La moda para una distribución de frecuencias de datos agrupados no puede ser calculada exactamente, el valor de la moda puede ser afectado por el método de agrupación de los intervalos de clase. 4. La moda no permite conocer la mayor parte de los datos 5. Algunas veces el azar interviene de manera importante y hace que un valor no representativo se repita frecuentemente. 6. Puede usarse para datos cuantitativos como cualitativos 7. La moda como estadístico, varía mucho de una muestra a otra 8. Cuando se tienen dos o más modas es difícil su interpretación 9. Tiene la ventaja de que los datos desproporcionados con respecto al resto no la distorsionan, pero no se presta para un tratamiento matemático. Comparación entre la media la mediana y la moda. 1. Si los datos son simétricos, la media, la mediana y la moda ( en el caso de ser única) coinciden. Si los datos son sesgados, esto es, son asimétricos, con una larga cola en uno de los extremos, generalmente se encuentra que moda<mediana<media si la distribución está sesagada hacia la derecha, mientras que moda>mediana>media si la distribución es sesgada hacia la izquierda. X < Me Sesgo negativo o a la izquierda X = Me Me < X Simétrica Sesgo positivo o a la derecha 2. La media muestral es más estable que la mediana muestral, en el sentido en que la media no cambia mucho de una muestra a otra de la misma población. En consecuencia, muchas técnicas estadísticas analíticas utilizan la media muestral Sin embargo, la mediana y la moda se utilizan mucho como medidas descriptivas de los datos. Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 33 Unidad 2- Análisis Estadístico MEDIDAS DE POSICIÓN- CUANTILES Son valores que dividen a la distribución en n partes iguales Cuartiles (Cr) Dividen al conjunto en cuatro partes mutuamente excluyentes e iguales, donde cada parte representa el 25% de total. Se pueden determinar tres cuantiles donde el C2=Me 25% 25% C1 25% C2 25% C3 C4 • Datos crudos y arreglo de frecuencia: Se determina la ubicación del cuartil en el conjunto de los datos o Datos crudos: Cr = r*n 4 donde: r=cuartil a determinar n=cantidad de datos Ejemplo: si queremos determinar el cuartil 3, entonces: C3 = 3*9 = 6.75 este numero esta mas cerca del 7, entonces el dato que ocupa la posición 7 4 representa el 75% de los datos. Para el caso de la recaudación de Mendoza, el 75% de la recaudación es inferior a $ 1083.27 millones o lo que es lo mismo podría decirse que el 25% de la recaudación es superior o igual a $ 1083.27 millones o Arreglo de frecuencia n r∑ fi Cr = i =1 4 donde: r=cuartil a determinar n ∑f i =cantidad de datos i =1 Ejemplo: Si queremos determinar el C3, debemos ubicar el cuartil, lo que hacemos en buscar en la fa, empezamos a restar sistemáticamente y el primer valor que nos da negativo es donde esta ubicado el cuartil, Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 34 Unidad 2- Análisis Estadístico Para el caso de la empresa de conservas: 3 * 25 = 18.75 En este caso cuando restamos 18.75 a 20 nos da negativo, entonces el valor que le 4 C3 = corresponde a esta ubicación es 124, es decir, en el 75% de los casos la producción es menor o igual a 124 botellas y análogamente en el 25 de los casos la producción es superior o igual a 124 botellas. • Distribución de frecuencias n r∑ fi i =1 − f aa 4 C r = LIVcr + i f ir donde: LIVcr=Limite Inferior Verdadero de la clase cuartilica n r ∑ fi i =1 4 = ubicación del cuartil Ejemplo: para el caso de los turistas alojados en el hotel, si queremos determinar el C3, lo primero que debemos hacer es ubicar el cuartil: n r * ∑ fi i =1 4 = 3 * 1243 = 932.25 Esta es la ubicación, lo que hacemos en buscar en la fa, empezamos a restar 4 sistemáticamente y el primer valor que nos da negativo es donde esta ubicado el cuartil, en este caso cuando restamos 932.25 a 1071 nos da negativo, entonces en esa clase esta ubicado. Lo que hacemos a continuación es aplicar la formula: (932.25 - 906 ) C 3 = 42.5 + 14 = 44.73 165 El 75% de los turistas alojados en el hotel tienen una edad igual o inferior a 45 años. Otra forma de explicar esto es diciendo que el 25% de los turistas alojados en el hotel tienen una edad superior o igual a los 45 años. Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 35 Unidad 2- Análisis Estadístico Quintiles (Qr). Dividen al conjunto es 5 partes mutuamente excluyentes e iguales, donde cada parte representa el 20% de total. Se pueden determinar cuatro quintiles 20% 20% Q1 20% Q2 20% Q3 Q4 20% Q5 • Datos crudos y arreglo de frecuencia: Se determina la ubicación del cuartil en el conjunto de los datos o Datos crudos: Qr = r*n 5 donde: r=cuartil a determinar n=cantidad de datos o Arreglo de frecuencia n r∑ fi Qr = i =1 5 donde: r=cuartil a determinar n ∑f i =cantidad de datos i =1 Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 36 Unidad 2- Análisis Estadístico • Distribución de frecuencias n r∑ f i i = 1 − f aa 4 Qr = LIV qr + i f ir donde: LIVcr=Limite Inferior Verdadero de la clase quintilica n r∑ fi i =1 5 = ubicación del quintil faa= frecuencia acumulada anterior a la clase quintílica fir= frecuencia absoluta de la clase quintílica Deciles. Dividen al conjunto en diez pares iguales mutuamente excluyentes e iguales, donde cada parte representa el 10% de total. Se pueden determinar 9 deciles 10% 10% D1 D2 10%................................................................................................10% D3…………….............................................................……………………………………………….….D9 D10 • Datos crudos y arreglo de frecuencia: Se determina la ubicación del cuartil en el conjunto de los datos o Datos crudos: Dr = r*n 10 donde: r=decil a determinar n=cantidad de datos Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 37 Unidad 2- Análisis Estadístico o Arreglo de frecuencia n r∑ fi Dr = i =1 10 donde: r=decil a determinar n ∑f i =cantidad de datos i =1 • Distribución de frecuencias n r∑ fi = 1 i − f aa 10 Dr = LIVdr + i f ir donde: LIVcr=Limite Inferior Verdadero de la clase decilica n r∑ f i i =1 10 = ubicación del decil faa= frecuencia acumulada anterior a la clase decílica fir= frecuencia absoluta de la clase decílica Percentiles. Dividen al conjunto en cien partes mutuamente excluyentes e iguales, donde cada parte representa el 1% de total. Se pueden determinar 99 percentiles 1% 1% 1%........................................................................................................1% 1% P1 P2 P3 P4……….............................................................……………………………………………………………..………. P98 P99 P100 Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 38 Unidad 2- Análisis Estadístico • Datos crudos y arreglo de frecuencia: Se determina la ubicación del cuartil en el conjunto de los datos o Datos crudos: Pr = r*n 100 donde: r=percentil a determinar n=cantidad de datos o Arreglo de frecuencia n r∑ f i Pr = i =1 100 donde: r=percentil a determinar n ∑f i =cantidad de datos i =1 • Distribución de frecuencias Pr = LIV pr n r∑ fi i = 1 − f aa 100 + i f ir donde: LIVcr=Limite Inferior Verdadero de la clase percentilica n r∑ f i i =1 100 = ubicación del percentil faa= frecuencia acumulada anterior a la clase percentílica fir= frecuencia absoluta de la clase percentílica Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 39 Unidad 2- Análisis Estadístico MEDIDAS DE DISPERSIÓN Permiten determinar el grado de esparcimiento de los datos de un conjunto con respecto a la medida de tendencia central elegida, es decir, cuanto se desvían los datos del promedio. ¿Por qué es importante medir la desviación? • Al menudo una medida de posición de un conjunto de datos se vincula con la indicación de cuán típico o representativo es para la población y para ello es necesario contar con la información que proporcionan las medidas de dispersión. Solo el conocimiento de un estadístico de tendencia central no aclara o define toda la distribución, además que no existe un valor de tendencia central ideal, por lo que es significativo tener una idea de la dispersión de los valores y determinar si es mucha o poca al rededor de la media, pues si la variación es muy grande entonces esta medida de tendencia central no es buena selección como valor típico. • La medida de tendencia central no indica la relación de un dato con los otros, es necesario para ello las medidas de variabilidad o dispersión. • Al tratar problemas con datos dispersos se requiere conocer que problemas puede traer esto, hasta que punto la dispersión tiene un riesgo aceptable o inaceptable en la toma de decisiones. Recorrido o Rango Mide la dispersión de la totalidad de los datos. Es la más obvia de las medidas ya que es la distancia entre los valores máximo y mínimo. R = x n − x1 donde: xn=dato de mayor valor del conjunto x1= dato de menor valor del conjunto Cuando estamos trabajando con distribución de frecuencia xn esta dado por el LSV de la ultima clase y x1 esta determinado por el LIV de la primera clase. Ejemplo: • Datos crudos. En el caso de la recaudación provincial: R = 1275.56 − 378.23 = 897.33 esto quiere decir que la diferencia entre el período que más se recaudó y el período en el que menos se recaudó se registró una diferencia de 897.33 millones de pesos. • Arreglo de frecuencia. En el caso de la producción de botellas de salsa, observamos que entre el día que menos botellas se produjeron y el día en el que más botellas se produjeron hay una diferencia de 100 botellas: R = 160 − 60 = 100 Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 40 Unidad 2- Análisis Estadístico • Distribución de frecuencias. En el caso de la edad de los turistas observamos que la diferencia entre las edades del turista más viejo y el más joven es de 84 años: R = 84.5 − 0.5 = 84 Características de R 1. Es la medida de dispersión mas simple, ya indica la diferencia existente entre el menor y el mayor valor del conjunto 2. Su valor esta influido por datos extremos, por lo cual no es una medida adecuada para medir el grado de dispersión 3. El rango o recorrido da alguna idea del grado de variación que ocurre en la población, pero con frecuencia los resultados pueden ser engañosos, pues este sólo depende de los valores extremos e ignora la variación de las demás observaciones. Está afectado por ocurrencias raras o extraordinarias. Coeficiente de R x n − x1 x n + x1 2 R= Desviación Media (DM) La desviación Media o Desviación absoluta promedio, es la media aritmética de las desviaciones absolutas de cada una de las observaciones con respecto a su valor central, la media aritmética, o la mediana Cuanto mayor es su valor, mayor es la dispersión de los datos Calculo de la DM • Datos crudos: n ∑x o Con respecto a X : DM X = −X i i =1 n n ∑x o Con respecto a Me: DM Me = i − Me i =1 n Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 41 Unidad 2- Análisis Estadístico • Arreglo y distribución de frecuencias: n ∑f o xi − X i i =1 Con respecto a X : DM X = n ∑f i i =1 n ∑f o Con respecto a Me: DM Me = i xi − M e i =1 n ∑f i i =1 Características de la DM 1. Su valor depende del valor de cada observación. 2. Se puede calcular alrededor de la media o de la mediana. 3. La desviación promedio respecto a la mediana es un mínimo 4. Mide la desviación de una observación sin notar si está por encima o por debajo del promedio. Coeficiente de la DM • Respecto de X : CDM X = DM X X • Respecto de la Me: CDM M e = DM Me Me Ejemplo: • Datos Crudos: en el caso de la recaudación debemos tener en cuenta la media y la mediana calculadas: Año 1999 2000 2001 2002 2003 2004 2005 2006 2007 Recaudación (millones de pesos) 378,23 380,27 392,27 371,51 548,85 662,89 831,94 1083,27 1275,56 5924,79 xi − X xi − M e 280,08 278,04 266,04 286,8 109,46 4,58 173,63 424,96 617,25 170,62 168,58 156,58 177,34 0 114,04 283,09 534,42 726,71 2440,84 2331,38 Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 42 Unidad 2- Análisis Estadístico n n ∑ DM X = xi − X 2440.84 = 271.2 DM Me = = 9 i =1 n CDM X = DM X = X 271.21 = 0.41 658.31 ∑x i − Me i =1 CDM M e = = n 2331.38 = 259.04 9 DM Me 259.04 = = 0.47 Me 548.85 • Arreglo y distribución de frecuencia: o Arreglo de frecuencia: xi 60 63 65 71 75 80 85 99 100 124 132 145 160 fi 2 1 1 1 1 2 2 2 3 5 2 2 1 25 f i xi − X f i xi 120 63 65 71 75 160 170 198 300 620 264 290 160 2556 f i xi − M e 84,48 39,24 37,24 31,24 27,24 44,48 34,48 6,48 6,72 108,8 59,52 85,52 57,76 623,2 80 37 35 29 25 40 30 2 0 120 64 90 60 612 n ∑f DM X = xi − X i i =1 = n ∑f 623.2 = 24.93 25 CDM X = DM X X = 24.93 = 0.24 102.24 i i =1 n ∑f DM Me = i xi − M e i =1 = n ∑f 612 = 24.48 25 CDM M e = DM Me 24.48 = = 0.24 Me 100 i i =1 Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 43 Unidad 2- Análisis Estadístico Distribución de frecuencias: o Nº de turistas 127 324 455 165 75 97 1243 Edad 1-14 15-28 29-42 43-56 57-70 71-84 xi 7,5 21,5 35,5 49,5 63,5 77,5 f i xi − X fixi 952,5 6966 16152,5 8167,5 4762,5 7517,5 44518,5 f i xi − M e 3596,05149 4638,1786 143,491553 2257,9646 2076,34755 4043,40949 16755,4433 3333,75 3969 796,25 2598,75 2231,25 4243,75 17172,75 n ∑f DM X = xi − X i i =1 = n ∑f 16755.44 = 13.48 1243 CDM X = DM X X = 13.48 = 0.38 35.81 i i =1 n ∑f DM Me = i xi − M e i =1 = n ∑f 17172.75 = 13.81 1243 CDM M e = DM Me 13.81 = = 0.41 Me 33.75 i i =1 Varianza y Desviación Estándar Varianza Es la más importante de las medidas de variación porque tiene la ventaja de no prescindir de los signos de las desviaciones, pero al igual que la desviación media los valores extremos pueden distorsionarla La varianza pretende descubrir cuanto varían los datos al rededor de la media poblacional. Las unidades de medición de la varianza son iguales al cuadrado de las unidades con que se mide la variable. De esta manera, si x mide la cantidad de turistas alojados en un hotel, las unidades de la varianza muestral son turistas al cuadrado. Calculo de la varianza: n ∑ (x • Datos crudos: σ 2 = ) 2 i −X i =1 n n ∑ f (x i • Arreglo y distribución de frecuencia: σ 2 = ) 2 i −X i =1 n ∑f i i =1 Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 44 Unidad 2- Análisis Estadístico Desviación Estándar Cuando se utiliza la varianza como medida de dispersión, para salvar el problema de trabajar con distintas dimensiones en la media y en la medida de variabilidad es necesario definir la Desviación Estándar como la raíz cuadrada de la varianza: σ = σ2 De esta manera la Desviación Estándar tiene la deseable propiedad de medir la variabilidad den las unidades originales de la variable de interés, es decir, y siguiendo con lo dicho para la varianza, que si x es el número de turistas ingresados a un hotel, la varianza también tendrá la misma unidad de medida, es decir turistas ingresados al hotel. La Desviación Estándar es útil para describir cuanto se apartan de la media de la distribución los elementos individuales. Una medida de ello se denomina puntuación estándar, es decir el número de desviaciones a las que determinada observación se encuentra con respecto a la media. Característica de la Varianza y Desviación Estándar: 1. El calculo de estas medidas esta basado en todos los datos del conjunto 2. Son medidas totalmente lógicas ya que consideran tanto los signos positivos como los negativos para el cálculo 3. Establecen la desviación de los datos respecto de la media aritmética y no con respecto a otros valores 4. No se ven afectadas por la suma de las cantidades constantes a los datos del conjunto, pero si están afectadas si los datos son multiplicados o divididos por cantidades constantes, variando estas en la misma proporción, se toma para su calculo el principio de los mínimos cuadrados 5. Como consecuencia de considerar desviaciones cuadráticas pone mayor énfasis en las desviaciones extremas que en las demás desviaciones. 6. Al construir la tabla de frecuencias de una variable discreta y calcular a partir de ella la desviación estándar no hay pérdida de información por lo que la desviación para los datos observados es igual que para los datos tabulados. 7. En la construcción de una tabla de una variable continua hay pérdida de información por el agrupamiento de los valores en intervalos y se traduce en la discrepancia entre el valor de la desviación observada y tabulada. Coeficiente de desviación (CV) CV = σ X Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 45 Unidad 2- Análisis Estadístico Ejemplo: • Datos crudos: Año 1999 2000 2001 2002 2003 2004 2005 2006 2007 n ∑ (x σ2 = ) Recaudación (millones de pesos) 378,23 380,27 392,27 371,51 548,85 662,89 831,94 1083,27 1275,56 5924,79 (x ) 2 i −X 78444,8064 77306,2416 70777,2816 82254,24 11981,4916 20,9764 30147,3769 180591,002 380997,563 912520,979 2 i −X i =1 n = 912520.979 = 101391.22 9 σ = σ 2 = 101391.22 = 318.42 CV = σ X = 318.42 = 0.48 658.31 Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 46 Unidad 2- Análisis Estadístico • Arreglo y distribución de frecuencias o Arreglo de frecuencias: xi 60 63 65 71 75 80 85 99 100 124 132 145 160 n ∑ f (x i σ2 = ) f i xi fi 2 1 1 1 1 2 2 2 3 5 2 2 1 25 c 120 63 65 71 75 160 170 198 300 620 264 290 160 2556 3568,4352 1539,7776 1386,8176 975,9376 742,0176 989,2352 594,4352 20,9952 15,0528 2367,488 1771,3152 3656,8352 3336,2176 20964,56 2 i −X i =1 = n ∑f 20964.56 = 838.58 25 i i =1 σ = σ 2 = 838.58 = 28.96 CV = σ X o = 28.96 = 0.28 102.24 Distribución de frecuencias: Edad Nº de turistas 127 324 455 165 75 97 1243 1-14 15-28 29-42 43-56 57-70 71-84 n ∑ f (x i σ2 = ) xi 7,5 21,5 35,5 49,5 63,5 77,5 ( ) 2 f i xi − X fixi 952,5 6966 16152,5 8167,5 4762,5 7517,5 44518,5 101823,514 66397,2245 45,2523642 30899,419 57482,9218 168548,045 425196,377 2 i −X i =1 = n ∑f 425196.377 = 342.07 1243 i i =1 σ = σ 2 = 342.07 = 18.49 CV = σ X = 18.49 = 0.52 35.81 Probabilidad y Estadística –Unidad 2. Análisis Estadístico Lic. Eliana Arcoraci /Lic. Eduardo Grossi P á g i n a | 47