Download Ejemplo
Document related concepts
Transcript
II. ESTADÍSTICA DESCRIPTIVA Que el alumno conozca los diferentes parámetros estadísticos de una muestra, las distribuciones y representaciones gráficas de los datos, así como su descripción numérica. II.1. Conceptos de población y muestra. Parámetros y estadísticos. Población Habitualmente se considera a una población como una colección de entidades, una población o colección de entidades puede estar compuesta de animales, maquinas, plantas, etc. Con una característica de interés para nuestro estudio. Por ejemplo, si se tiene interés en conocer el peso de todos los niños inscritos en el sistema de educación primaria del estado, la población está formada por todos esos pesos. Si se tiene interés solo en el peso de los estudiantes inscritos en el primer grado, se tiene una población diferente, compuesta por los pesos de los estudiantes de primer grado. Por lo tanto, las poblaciones se determinan o definen con base en el campo de interés. Las poblaciones pueden ser finitas o infinitas. Si una población de valores consiste en un número fijo de esos valores, se dice que la población es finita. Si, por otra parte, una población consiste en una sucesión interminable de valores, entonces es una población infinita. Muestra Una muestra puede definirse simple mente como una parte de una poblaci6n. Suponga que una población se compone de los pesos de todos los niños inscritos en el sistema de educación primaria del estado, y se escoge para el análisis solo una fracción de los niños; entonces se tiene únicamente una parte de la población, es decir, se tiene una muestra. Parámetro: Es cualquier medida descriptiva de la población completa de observaciones que tienen interés para el investigador. Aunque las características de una población y los atributos pueden tener aspectos en común, no son lo mismo. Los atributos hacen referencia a parámetros. Por ejemplo, considere el parámetro “edad media” en la población de ciudadanos del estado de BCS. Estadístico: Es cualquier medida descriptiva de la muestra y sirve para estimar el parámetro de la población. El estadístico es a la muestra lo que el parámetro es a la población. Por ejemplo el ingreso promedio de los docentes universitario de la Universidad Mundial (UM) es el estadístico cuando la UM es una muestra de las universidades sudcalifornianas. II.2. Tipos de variables y escalas de medición. Variable: Es una característica de la muestra o de la población que se analiza en un estudio estadístico. Una variable puede ser categórica o cualitativa y numérica o cuantitativa. a) Variable cualitativa. Es aquella que se puede expresar normalmente por medio de palabra y no de números, por ejemplo, el estado civil, la nacionalidad, el sexo, la profesión, la raza. Las variables cualitativas pueden ser dicotómicas o politómicas. a.1) Variable cualitativa dicotómicas Se pueden hacer observaciones solo en dos categorías, por ejemplo, hombre o mujer, bueno o malo, rico o pobre, ausente o presente, empleado o desempleado. a.2) Variable cualitativa politómicas se pueden hacer observaciones en más de dos categorías, por ejemplo, en puestos de trabajo, colores, idiomas, estratos, nacionalidades, religiones, etc. b) Variable cuantitativa: Es aquella que se expresa numéricamente, por ejemplo, las exportaciones de café, las ventas de acero, el ingreso per cápita, la producción de autos, las hectáreas fumigadas, etc. Las variables cuantitativas pueden ser discretas o continuas. b.1) Variable continua: Es aquella que toma cualquier valor dentro de un intervalo dado. Por muy cerca que estén dos observaciones siempre es posible hacer otra medición que caiga dentro de esas dos. Los valores de una variable continua provienen de las mediciones y de los pesajes. b.2) Variable discreta: Es aquella que solo puede tomar determinados valores por lo general, números enteros, por ejemplo, el número de hijos de una familia, número de empleados de una empresa, numero de vacas en una hacienda, numero de carros fabricados, etc. Escalas de medición Los diferentes tipos de variables nos han llevado a otra clasificación de las variables basada en la escala de medida que usan para determinar su valor. Hay cuatro escalas clásicas de medida: 1. Escala nominal. Es más bien un sistema de etiquetaje. Las variables categóricas, como el género y la carrera universitaria, se miden de esta forma. Aunque se asignen números a las categorías, estos no tiene un valor numérico real. 2. Escala ordinal. En esta escala se da un valor a la variable basado en la posición dentro de una serie. La posición relativa de la variable tiene algún sentido numérico, por ejemplo, si queremos medir el puesto en que los corredores cruzan la línea de meta. Esta escala solo presta atención a la posición. 3. Escala de intervalo. Esta se usa para medir variables continuas que tienen valores matemáticos legítimos. 4. Escala de razón. Esta tiene un valor cero real (que indica “ausencia de”). Es útil para realizar comparaciones entre conjuntos de variables que usan escalas diferentes. II.3. Representaciones gráficas de un conjunto de datos: Diagramas de barras, Pictogramas, Gráficas circulares, Diagrama de tallo y hoja, Diagrama de caja, Histograma, Polígono de frecuencias, Diagramas x, y. 1) Diagramas de barras: Siguiendo la figura 1.1, representamos en el eje de ordenadas las modalidades y en abscisas las frecuencias absolutas o bien, las frecuencias relativas. Si, mediante el grafico, se intenta comparar varias poblaciones entre sı, existen otras modalidades, como las mostradas en la figura 1.2. Cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso podrían resultar engañosas. Figura 1.1: Diagrama de barras para una variable cualitativa. Tenemos una tabla donde Estado civil de maestros de la UM Casado Soltero Divorciado No. De maestros 6 5 2 Estado civil de maestros de la UM 7 6 5 4 3 2 1 0 Casado Soltero Divorciado Viudo Viudo 1 Estado civil UM UNIPAZ Casado 6 10 Soltero 5 3 Divorciado Viudo 2 1 1 0 Estado civil de los maestros de dos universidades No. de maestros 12 10 8 6 UM 4 UNIPAZ 2 0 Casado Soltero Divorciado Viudo Estado civil *Tratar de acomodar los valores de mayor a menor si es posible… La idea es una ayuda a la explicación y la decoración no debe interferir con su propósito. Estado civil de maestros de la UM Casado Soltero Divorciado No. De maestros 6 5 2 Estado civil de maestros de la UM 6 4 2 0 Casado Soltero Divorciado Viudo Viudo 1 2) Pictogramas Son gráficas comparativas de imágenes donde se usan símbolos para representar las magnitudes que se están usando. Este tipo de gráficos suele usarse en los medios de comunicación, para que sean comprendidos por el público no especializado, sin que sea necesaria una explicación compleja. Por ejemplo, si el tema tratando es el número de nacimientos, se hace un esquema de un bebé. De esa forma, el lector puede captar más rápido la idea. Para formar los pictogramas deben tenerse en cuenta los puntos siguientes: Una vez adoptado el símbolo a usar, se le asigna un tamaño fijo y una cantidad de unidades. El escalamiento de los dibujos debe ser tal que el área* de cada uno de ellos sea proporcional a la frecuencia de la modalidad que representa. Para cantidades mucho mayores conviene combinar el pictograma con otro diagrama. El símbolo adoptado como pictograma debe explicarse por sí mismo. Si bien el pictograma es el gráfico más llamativo a su vez es el más engañoso, por la propensión que se tiene a comparar áreas y volúmenes, antes que líneas. *Es un error hacer la representación con una escala tal que el perímetro del dibujo sea proporcional a la frecuencia, ya que a frecuencia doble, correspondería un dibujo de área cuádruple, lo que da un efecto visual engañoso. En este caso se multiplico por raíz de 2 la base y la altura para controlar la relación de aspecto y el área a la vez. 3) Gráficas circulares Se divide un círculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa (figura 1.3). Fumadores No fumadores 20 33 No. fumadores en la UM Fumadores No fumadores No. fumadores en la UM Fumadores No fumadores 4) Diagrama de Tallo y hoja ¿Cómo construirlo? En un gráfico de tallo y hoja cada valor de datos es partido en "un tallo" "y una hoja". "La hoja" es por lo general el último dígito del número y los otros dígitos a la izquierda "de la hoja" forman "el tallo". Por ejemplo, el número 136 sería partido como: TALLO: 13 HOJA: 6 1. Puede ordenar los datos de menor a mayor, esto ayudara a la organización de los datos (Opcional) 2. Separe cada número en un tallo y una hoja. 3. Agrupe los números con los mismos tallos. Ponga los tallos en una lista en orden creciente. Veamos un Ejemplo con los siguientes 15 datos: 35, 36, 38, 40, 42, 42, 44, Tallo 3 4 5 45, 45, Hoja 568 022455789 000 47, 48, 49, 50, 50, 50 Ejemplo considerando que la precipitación anual (mm) registrada en los años de 1994 a 2002 en el Mpio de los Cabos, presentados en la tabla, se realiza a continuación el diagrama de tallos y hojas para la precipitación del mes de enero y el mes de octubre, durante los años de 1994 a 2002. Precipitación del mes de enero: 63.5 58.4 60.2 70.2 98.2 57.3 68.2 59.8 68.1 (mm) Estos datos transformados a numero enteros quedan como 635 584 602 702 982 573 682 598 681 Los datos ordenados son: 573 584 598 602 635 681 682 702 982 En este caso es conveniente escoger el primer número como el tallo y los dos últimos términos como las hojas. El diagrama de tallos y hojas queda así: Tallos 5 6 7 8 9 Enero Hojas (n=9) 73 84 98 02 35 81 82 02 82 Como se puede apreciar, las mayores frecuencias de precipitación para el mes de enero se presentan en los rangos de 50mm y 60mm, muy poca frecuencia en los rangos de70mm a 90mm. Precipitación en el mes de octubre: 158.9 166.2 171.3 169.2 160.5 149.7 168.4 170.2 165.9 (mm) Estos datos transformados en enteros son: 1589 1662 1713 1692 1605 1497 1684 1702 1659 En este caso es conveniente escoger los dos primeros términos como el tallo y los dos últimos como la hoja, tal como se presenta: Octubre tallos Hojas (n=9) 14 97 15 89 16 05 59 62 84 92 17 02 13 Como se puede apreciar, las mayores frecuencias para el mes de octubre se presentan alrededor de 160 mm y muy pocas frecuencias entre 140mm y 150mm Otra ventaja de los diagramas de tallos y hojas consiste en la comparación de dos distribuciones, tal como se presenta en el siguiente ejemplo. Mediante un diagrama de tallos y hojas, comparar la distribución de la precipitación de los años 1995 y 2000, indicados. (Los datos transformados, son) Año 1995: 584 783 1689 1100 956 807 1152 1203 1662 1030 897 (mm) Año 2000: 682 756 589 1120 989 881 1084 1098 1684 863 798 (mm) Generando el siguiente diagrama: Año 1995 Hojas 84 83 97 07 56 30 00 52 03 89 62 Año 2000 Hojas Tallos 5 6 7 8 9 10 11 12 15 16 82 56 98 63 81 89 84 98 20 89 84 Como se puede apreciar, las distribuciones de precipitación de los años 1995 y 2000 no presentaron grandes diferencias, concentrándose las mayores frecuencias entre 70mm y 110mm. 5) Diagrama de caja Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría. Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente. Construcción: Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran el recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y tercero recordemos que el segundo cuartil coincide con la mediana). Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de la variable. Las líneas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado e identificado individualmente EJEMPLO DISTRIBUCIÓN DE EDADES Representan la edad de un colectivo de 20 personas. 36 25 37 24 39 20 36 45 31 31 39 24 29 23 41 40 33 24 34 40 ORDENAR LOS DATOS Para calcular los parámetros estadístico, lo primero es ordenar la distribución 20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45 CALCULO DE CUARTILES Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente: Q1=(24 + 25) / 2 = 24,5 Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la mediana es la media aritmética de dicho valor y el siguiente: me= Q2 = (33 + 34)/ 2 =33,5 Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En nuestro caso, como 3N / 4 = 15, resulta Q3=(39 + 39) / 2 = 39 DIBUJAR LA CAJA Y LOS BIGOTES El bigote de la izquierda representa al colectivo de edades ( Xmín, Q1) La primera parte de la caja a (Q1, Q2), La segunda parte de la caja a (Q2, Q3) El bigote de la derecha viene dado por (Q3, Xmáx). INFORMACIÓN DEL DIAGRAMA Podemos obtener abundante información de una distribución a partir de estas representaciones. Veamos alguna: La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de la población está más dispersa que entre el 50% y el 75%. El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el 25% de los más jóvenes están más concentrados que el 25% de los mayores. El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está comprendido en 14,5 años. Comparar distribuciones La mayor utilidad de los diagramas caja-bigotes es para comparar dos o más conjuntos de datos. COMPARACIÓN DISTRIBUCIÓN DE EDADES 35 38 32 28 30 29 27 19 48 40 39 24 24 34 26 41 29 48 28 22 COMPARACIÓN ENTRENAMIENTOS DE UN CORREDOR Un corredor entrena para una determinada carrera y se toman los tiempos que necesita para recorrer los 100m, durante 10 días consecutivos (cada día se toman varios tiempos y se calculan mediana, cuartiles, valores mínimo y máximo) Observamos que el desplazamiento de las gráficas de caja hacia la izquierda indica que el entrenamiento ha dado resultado, ya que se tardan menos segundos en recorrer la misma distancia, siendo la diferencia entre el máximo y el mínimo menor, como así también la diferencia intercuartílica. 6) Histograma Un histograma se construye a partir de la tabla estadística, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos. Es el método más utilizado cuando se tienen muchos datos obtenidos al medir una magnitud clínica, algunos de los cuales pueden repetirse varias veces. Para armarlo, se deben colocar en el eje de abscisas (X) los valores que adopta la magnitud, y en ordenadas (Y) se muestra el número de veces que se repite el dato, o sea, su frecuencia. El procedimiento es simple. Primero se buscan el valor máximo y el mínimo de todo el grupo de datos. Luego se ordenan los valores en forma creciente y se hace el recuento, anotando el número de veces que se repite cada uno. La forma más sencilla para hacer el recuento es contando de 5 en 5 (////). En los histogramas se agrupan los datos en clases para evitar un número muy grande de valores en las abscisas, que dificultaría su representación. Además, esto simplifica el recuento. Cuando la cantidad de datos supera el medio millar, se acostumbra usar entre 10 y 20 clases. Cuando son menos, se usan de 5 a 10 clases, según convenga, por estética y por practicidad. Para determinar la cantidad de clases conviene definir primero el ancho de clase (a). CUADRO 3.1: Datos obtenidos de un Servicio de Unidad Coronaria. Se le tomo a una persona el ritmo cardiaco durante siete días. No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Fecha 01/11/2006 01/11/2006 02/11/2006 02/11/2006 03/11/2006 03/11/2006 04/11/2006 04/11/2006 05/11/2006 05/11/2006 06/11/2006 06/11/2006 07/11/2006 07/11/2006 Toma Por la mañana A última hora de la tarde Por la mañana A última hora de la tarde Por la mañana A última hora de la tarde Por la mañana A última hora de la tarde Por la mañana A última hora de la tarde Por la mañana A última hora de la tarde Por la mañana A última hora de la tarde Ritmo Cardiaco 72 75 70 68 70 72 78 69 75 72 69 66 67 72 Obtener el rango: Se define al rango, como la diferencia entre el valor máximo y el mínimo del grupo de datos. 78 – 66 = 12 Obtener en número de clases: Existen varios criterios para determinar el número de clases. Sin embargo ninguno de ellos es exacto. Un criterio usado frecuentemente es que el número de clases debe ser aproximadamente a la raíz cuadrada del número de datos √14 = 3.74 por conveniencia se usaran números enteros = 4. Determinar la longitud del intervalo: Longitud de intervalo = Rango / Núm. De clases. 12/4= 3 Construir los intervalos: Tomar la medida individual más pequeña en el conjunto de datos (66), se debe tomar este número y sumar la longitud del intervalo (3) de forma consecutiva manteniendo el rango de todos los números. Intervalo 1. Intervalo 2. Intervalo 3. Intervalo 4. 66 – 69 70 – 73 74 – 77 78 – 81 Construir una tabla de frecuencias Frecuencia absoluta: Es el número de veces que aparece en la muestra dicho valor de la variable. 66-67-68-69-69-70-70-72-72-72-72-75-75-78 Intervalo 66 – 69 70 – 73 74 – 77 78 – 81 Total Frecuencia 5 6 2 1 14 Frecuencia relativa: Es la frecuencia absoluta dividida por el número total de datos Frecuencia acumulada: Es la suma de los distintos valores de la frecuencia Clase Intervalo Frecuencia 1 2 3 4 66 – 69 70 – 73 74 – 77 78 – 81 Total 5 6 2 1 14 Frecuencia relativa .357 .428 .142 .071 1 Al agrupar en clases se pierde información. Ya no se sabe la frecuencia de cada dato individual, sino la de todo el grupo incluido en esa clase. Pero por otra parte, se simplifican los recuentos y los gráficos. Se pierde precisión en aras de la simpleza. Trazar y marcar los ejes horizontales y verticales FRECUENCIAS CLASES H ISTOGRAMA 7 Frecuencia 6 5 4 3 2 1 0 66 – 69 70 – 73 74 – 77 78 – 81 Clases El histograma permite reconocer y analizar patrones de comportamiento en la información que no son aparentes a primera vista al calcular un porcentaje o la media, el histograma se usa en el control de la calidad. 7) Polígono de frecuencias El polígono de frecuencias se construye fácilmente si tenemos representado previamente el histograma, ya que consiste en unir mediante líneas rectas los puntos del histograma que corresponden a las marcas de clase. Límites de Clase (LC): son los dos valores extremos del intervalo de cada clase. Por ejemplo, el límite de clase inferior de la primera clase es 66, mientras que 69 es el superior. Límites Reales de Clase (LRC): son los valores obtenidos al sumarle la mitad de la menor unidad de la escala empleada al límite de clase superior, y restarle al inferior. En el ejemplo anterior serían: 33 y 102. Marcas de clase: es el punto medio del intervalo de clase. Se obtiene como la semisuma de los dos límites reales de clase. En el ejemplo sería: (33 + 102) /2 = 67.5. Histograma 7 Frecuencia 6 5 4 3 2 1 0 66 – 69 70 – 73 74 – 77 Intervalo 78 – 81 8) Diagramas x, y. Los gráficos XY o de dispersión muestran las series como un conjunto de puntos. Los valores se representan mediante la posición de los puntos en el espacio. Las categorías, por su parte, mediante diferentes puntos del gráfico. Los gráficos de dispersión suelen utilizarse para comparar valores distintos de las categorías Los Gráficos de dispersión o diagrama de dispersión se emplean cuando existe una variable que está bajo el control del experimentador. Si existe un parámetro que se incrementa o disminuye de forma sistemática por el experimentador, se le denomina parámetro de control o variable independiente y habitualmente se representa a lo largo del eje horizontal. La variable medida o dependiente usualmente se representa a lo largo del eje vertical. Si no existe una variable dependiente, cualquier variable se puede representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no causalidad) entre las dos variables. Puede sugerir varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. La correlación puede ser positiva (aumento), negativa (descenso), o nula (las variables no están correlacionadas). Se puede dibujar una línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación entre las variables. Una ecuación para la correlación entre las variables puede ser determinada por procedimientos de ajuste. Para una correlación lineal, el procedimiento de ajuste es conocido como regresión lineal y garantiza una solución correcta en un tiempo finito. Uno de los aspectos más poderosos de un gráfico de dispersión, sin embargo, es su capacidad para mostrar las relaciones no lineales entre las variables. Además, si los datos son representados por un modelo de mezcla de relaciones simples, estas relaciones son visualmente evidentes como patrones superpuestos. Tipos de gráficos de dispersión: 140 120 Axis Title 100 80 60 a 40 b 20 0 0 2 4 6 8 Axis Title 10 12 14 16 Errores….. II.4. Descripción numérica de un conjunto de datos: Medidas de tendencia central. Medidas de dispersión. Ahora nos ocuparemos exclusivamente de las variables cuantitativas, puesto que con los atributos no se pueden realizar operaciones aritméticas. Como hemos estudiado, las variables estadísticas cuantitativas se dividen o clasifican en discretas o continuas, por lo que necesitaremos precisar cómo se calculan dichas medidas en cada caso. Las medidas estadísticas pretenden "resumir" la información de la "muestra" para poder tener así un mejor conocimiento de la población. Las medidas de tendencia central corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos. (Ellas permiten analizar los datos en torno a un valor central). Entre éstas están la media aritmética, la moda y la mediana. Media Aritmética.- Es la suma de un conjunto de cantidades dividida entre el número de ellas 𝑿 = 𝚺𝒙 𝑵 En matemáticas, un alumno tiene las siguientes notas: 4, 7, 7, 2, 5, 3 n = 6 (número total de datos) X = 4+7+7+2+5+3 6 = 28 6 = 4,8 Ejemplo 2: Cuando se tienen muchos datos es más conveniente agruparlos en una tabla de frecuencias y luego calcular la media aritmética. El siguiente cuadro lo ilustra. 3,3,3,3,3,3,3,3,3,3,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,7,7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7,8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8,9, 9, 9, 9, 9, 9, Largo (en m) Frecuencia absoluta Largo por Frecuencia absoluta 3 10 3 . 10 = 30 6 15 6 . 15 = 90 7 20 7 . 20 = 140 8 12 8 . 12 = 96 9 6 9 Frecuencia total = 63 430 X = 430 63 = . 6 = 54 6,825 Se debe recordar que la frecuencia absoluta indica cuántas veces se repite cada valor, por lo tanto, la tabla es una manera más corta de anotar los datos (si la frecuencia absoluta es 10, significa que el valor a que corresponde se repite 10 veces). MEDIANA.- Es el punto dentro del recorrido de una variable que supera a no más de la mitad de los datos y es superado por no más e la otra mitad. Para calcularla en un conjunto de datos basta con ordenarlos en forma ascendente o descendente Ejemplo: 5, 6, 7, 8, 9 Datos impar Me = 7 5, 6, 7, 8, 9, 10 Datos par Me = 7 + 8 entre 2 = 7.5 Para el cálculo da la Mediana en Datos Agrupados se utiliza la siguiente Fórmula: 𝑛 − 𝑓𝑎𝑐𝑢𝑚 (𝑖 − 1) 𝑀𝑒 = 𝐿𝑖 + [2 (𝐴)] 𝑓𝑖 Me = Mediana L i = Límite real inferior n = Total de frecuencias de la distribución f acum ( i – 1 ) = Frecuencia acumulada anterior al intervalo analizado f i = Frecuencia del intervalo de clase A = Amplitud real Edades 5-10 11-16 17-22 23-28 29-34 35-40 41-46 47… n= 𝑛 𝑀𝑒 = 𝐿𝑖 + [2 − 𝑓𝑎𝑐𝑢𝑚(𝑖 − 1) 𝑓𝑖 Frecuencia 11 23 61 60 45 20 15 15 250 facum 11 34 95 155 200 220 235 250 250 (𝐴)] = 𝑀𝑒 = 23 + [ 2 − 95 60 (5)] = 25.5 años MODA Llamada Modo o Valor Modal, es el dato de la variable que aparece mas veces en una distribución Es el dato de la variable que tiene mayor frecuencia 17 20 23 18 a) bimodal 19 20 19 21 18 20 20 17 24 19 19 20 b) Multimodal # Mat Frec 5 4 6 11 7 11 8 11 9 5 10 3 En datos agrupados Cant equipos Frec 1-3 3 3-5 15 5-7 5 7-9 5 𝟑+𝟓 𝟐 =4 23 21 22 19 Moda Medidas de variabilidad o dispersión Son estadígrafos de dispersión que permiten evaluar el grado de homogeneidad, dispersión o variabilidad de un conjunto de datos. Estas medidas son: 1. Amplitud o Rango 2. Varianza 3. Desviación Estándar 4. Coeficiente de Variabilidad 1. Amplitud o Rango La forma más sencilla de medir la variabilidad es el rango. Es la diferencia entre los más altos y más bajos valores en un conjunto de datos. En la forma de una ecuación: Rango = valor más alto - valor más bajo El rango tiene la ventaja de ser fácil de calcular y entender. Y la desventaja de verse muy afectada por alguna observación extrema. Ejemplo: Las calificaciones de cinco estudiantes de estadística son: 8, 8, 10, 6, y 8. ¿Cuál es el rango de las calificaciones? Rango = valor más alto - valor más bajo = 10 - 6 = 4 Rango para datos agrupados Para estimar el rango de una distribución de frecuencia se resta el límite inferior del intervalo de clase más chico del límite superior del intervalo de clase más grande Ejemplo: Una muestra de las edades del público de un concierto se encuentra distribuida de la siguiente manera: Edades Número de personas 15 - 19 2 20 - 24 1 25 - 29 4 30 - 34 15 35 - 39 10 40 - 44 5 45 - 49 3 Rango = mayor límite superior - menor límite inferior = 49 - 15 = 34 Desviación media La desviación media mide la cantidad promedio que varían los datos respecto a su media. La definición es: Desviación media es la media aritmética de los valores absolutos de las desviaciones de los datos respecto a su media. La fórmula de la desviación media (Dm) es: 𝐃𝐦 = ∑ [𝐱 − ] 𝐧 Ejemplo: Las calificaciones de cinco estudiantes de estadística son: 8, 8, 10, 6, y 8. ¿Cuál es la desviación media de las calificaciones? X 8 8 10 6 8 ̅= 8 𝐗 𝐃𝐦 = ∑ ̅ X-𝐗 0 0 +2 -2 0 ̅] [𝐱 − 𝐗 𝐧 ̅| |X - 𝐗 0 0 2 2 0 ∑= 4 𝐃𝐦 = 𝟒 = 𝟎. 𝟖 𝟓 Desviación media para datos agrupados En el caso de que los datos se encuentren agrupados en una distribución de frecuencia la fórmula es: ̅] [𝐱 − 𝐗 𝐃𝐦 = ∑𝐟 𝐧 Ventajas y Desventajas de la desviación media La desviación media tiene dos ventajas. Utiliza para su cómputo todos los elementos de la serie de datos y es fácil de entender. Sin embargo, es difícil trabajar con valores absolutos y por ello la desviación media no es usada frecuentemente. La varianza y la desviación estándar La varianza y la desviación estándar sirven para cuantificar la variabilidad de una muestra midiendo su dispersión alrededor de la media. La definición es la siguiente: Varianza. Es la media aritmética de las desviaciones cuadradas de los datos respecto a la media. Desviación estándar. Es la raíz cuadrada de la varianza. La varianza no tiene la misma magnitud que las observaciones (ej. si las observaciones se miden en metros, la varianza lo hace en metros2). Si queremos que la medida de dispersión sea de la misma dimensionalidad que las observaciones bastará con tomar su raíz cuadrada. Por ello se define la desviación típica o estándar. Varianza (S2 o 𝝈 2) y Desviación Estándar (S o 𝝈 ) para datos no agrupados Las fórmulas de la varianza de una población y de una muestra son ligeramente diferentes. Las fórmulas son: 𝟐 𝑺 = Varianza de una población 𝚺𝐱 𝟐 − (𝚺𝐱)² 𝐍 𝐍 𝟐 𝑺 = Varianza de una muestra 𝚺𝐱 𝟐 − (𝚺𝐱)² 𝐧 𝐧−𝟏 Las desviaciones estándar de la población y muestra se calculan simplemente sacando la raíz cuadrada a la respectiva varianza. 𝑺 = √𝑺² Desviación estándar de una población y/o muestra Ejemplo El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción son (en ml): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la varianza y la desviación estándar de las observaciones muestreadas? X2 7293.16 7276.09 7208.01 7293.16 7056.00 𝛴x2= 36126.42 X 85.4 85.3 84.9 85.4 84.0 𝜮𝒙 =425 2 𝑆 = Σx 2 − (Σx)² n n−1 𝑆 = √𝑆² 2 𝑆 = 36126.42 − (425)² 5 5−1 𝑆 = √0.355 = 0.5958 = 0.355 Varianza y Desviación Estándar para datos agrupados Si los datos están agrupados en una distribución de frecuencia, la varianza y la desviación estándar de la muestra se pueden aproximar sustituyendo Sfx² por Sx² y Sfx por Sx. Las fórmulas quedarían de la siguiente manera: 𝑺𝟐 = Varianza de una población 𝚺𝐟𝐱 𝟐 − (𝚺𝐟𝐱)² 𝐍 𝐍 𝑺𝟐 = Varianza de una muestra 𝚺𝐟𝐱 𝟐 − (𝚺𝐟𝐱)² 𝐧 𝐧−𝟏 𝑺 = √𝑺² Desviación estándar de una población y/o muestra Ejemplo: Calcular la varianza y la desviación estándar de la siguiente distribución de frecuencia del número de meses de duración de una muestra de 40 baterías para coche. Duración de las baterías (meses) Número de baterías 15 - 19 2 20 - 24 1 25 - 29 4 30 - 34 15 35 - 39 10 40 - 44 5 45 - 49 3 Primeramente, calculamos la marca de clase(X)(es el punto medio del intervalo de clase. Se obtiene como la suma de los dos límites de clase entre dos), para después calcular los productos fX y fx2para proceder finalmente a calcular las sumatorias ΣfX y Σfx2 y aplicar las fórmulas. li 15 20 25 30 35 40 45 2 S = Σfx 2 − (Σfx)² n−1 n 2 S = ls 19 24 29 34 39 44 49 48475 − x 17 22 27 32 37 42 47 f 2 1 4 15 10 5 3 n =40 fx 34 22 108 480 370 210 141 ΣfX = 1365 fx2 588 484 2916 15360 13690 8820 6627 2 Σfx = 48475 (1365)² 40 − 1 40 = 48.573 S = √S² S = √48.573= 6.969 Coeficiente de variación Hemos visto que las medidas de centralización y dispersión nos dan información sobre una muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. Por ejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones de elefantes de dos circos diferentes, S nos dará información útil. ¿Pero qué ocurre si lo que comparamos es la altura de unos elefantes con respecto a su peso? Tanto la media como la desviación típica, y S, se expresan en las mismas unidades que la variable. Por ejemplo, en la variable altura podemos usar como unidad de longitud el metro y en la variable peso, el kilogramo. Comparar una desviación (con respecto a la media) medida en metros con otra en kilogramos no tiene ningún sentido. El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en toneladas de una población de 100 elefantes con el correspondiente en miligramos de una población de 50 hormigas. El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los elefantes (toneladas). El coeficiente de variación es lo que nos permite evitar estos problemas, pues elimina la dimensionalidad de las variables y tiene en cuenta la proporción existente entre medias y desviación típica. Es frecuente mostrarla en porcentajes y se define del siguiente modo: Cv = 𝑺𝒙 ̅ 𝒙 (100) Basta dar una rápida mirada a la definición del coeficiente de variación, para ver que las siguientes consideraciones deben ser tenidas en cuenta: Sólo se debe calcular para variables con todos los valores positivos. Todo índice de variabilidad es esencialmente no negativo. Las observaciones pueden ser positivas o nulas, pero su variabilidad debe ser siempre positiva. De ahí que sólo debemos trabajar con variables positivas, ̅ > 0. para la que tenemos con seguridad que 𝒙 Si la media es 80Kg y la desviación estándar 20 entonces Cv = 𝑆𝑥 𝑥̅ (100) 20 Cv = 80 (100) = 25% (Variabilidad relativa) Peso promedio de 80kg con una variabilidad del 25% En un grupo de niños se tiene una altura media de 150cm con desviación típica de 10cm. La edad media es 12 años, con desviación típica de 3 años. ¿Dónde se presenta mayor dispersión? Cv = 𝑆𝑥 𝑥̅ (100) 10 Altura: Cv = 150 (100)= 6.6% 3 Edades: Cv = 12 (100)= 25% II.5. Regla empírica y teorema de Chebyshev. Teorema de Chebyshev Al menos (1 - 1/k2) de los elementos en un conjunto de datos estará dentro de las k desviaciones estándar del promedio donde k es cualquier valor mayor que 1. 𝑥̅ − 𝑘(𝑠) & 𝑥̅ + 𝑘(𝑠) • k = 2 desviaciones estándar Al menos 75% de los elementos deben estar entre de la media. • k = 3 desviaciones estándar Al menos 89% de los elementos deben estar entre de la media. • k = 4 desviaciones estándar Al menos 94% de los elementos deben estar entre de la media. 𝑥̅ = media s= desviación estándar Ejemplo: tenemos el costo de renta de 70 deptos… Sea k = 1.5 𝑥̅ = 490.80 y s = 54.74 Al menos (1 - 1/k2) (1 - 1/(1.5)2) = 1 - 0.44 = 0.56 o 56% de los costos de renta deben estar entre 𝑥̅ - k(s) = 490.80 - 1.5 (54.74) = 409 y 𝑥̅ + k(s) = 490.80 + 1.5 (54.74) = 573 425 440 450 465 480 510 575 430 440 450 470 485 515 575 430 440 450 470 490 525 580 435 445 450 472 490 525 590 435 445 450 475 490 525 600 435 445 460 475 500 535 600 435 445 460 475 500 549 600 435 445 460 480 500 550 600 440 450 465 480 500 570 615 440 450 465 480 510 570 615 Regla empírica: Dada una distribución de las observaciones con forma aproximadamente acampanada, entonces, el intervalo: o (Media ± S) contiene aproximadamente al 68% de las observaciones o (Media ± 2S) contiene aproximadamente al 95% de las observaciones o (Media ± 3S) contiene casi todas las observaciones o 𝑥̅ = 490.80 y s = 54.74 48∗100 o 𝑥̅ ± s = 490.80± 54.74 = 436.06 to 545.54 = 68% ( o 𝑥̅ ± 2s= 490.80± 2(54.74)= 381.32 to 600.28 = 95% ( o 𝑥̅ ± 3s= 490.80± 3(54.74)= 326.58 to 655.02 = 100% ( 425 440 450 465 480 510 575 70 64∗100 70 70∗100 430 440 450 470 485 515 575 430 440 450 470 490 525 580 435 445 450 472 490 525 590 435 445 450 475 490 525 600 435 445 460 475 500 535 600 70 435 445 460 475 500 549 600 ) ) ) 435 445 460 480 500 550 600 440 450 465 480 500 570 615 440 450 465 480 510 570 615