Download Media del conjunto de datos
Document related concepts
Transcript
APUNTES DE PROBABILIDAD Y ESTADÍSTICA DINÁMICA Conceptos básicos Estadística.- tiene por objeto recopilar, organizar, analizar y representar datos para establecer conclusiones o tomar decisiones en algún problema que se tenga. Aplicación de la Estadística Se utiliza prácticamente en todas las áreas del conocimiento, sean estas sociales, humanísticas, técnicas, científicas, deportivas, etc. Se aplica en áreas como son: Ingeniería, Medicina, Economía, Geografía, Química, Física, Historia, etc. y aunque los problemas de cada área son diferentes, las técnicas que se utilizan para el análisis de la información respectiva son las mismas. Clasificación de la Estadística Estadística descriptiva Estadística inferencial Dato estadístico Se obtiene al medir o describir una característica mediante un valor o atributo de un elemento en estudio. Si el elemento de estudio es una persona podemos medir su peso (75 kg, 60 kg, 85 kg), o su estatura (1.65 m, 1.83 m, 1.57 m), o su sexo (masculino o femenino). Variable estadística Las características de un conjunto de elementos de estudio se representan con variables, por ejemplo: Sea x la variable que represente el peso de un conjunto de personas. Sea y el sexo de un conjunto de personas. Para diferenciar los datos de cada elemento en estudio de una misma variable se utilizan subíndices, el cual comúnmente se representa por la letra “i” , la cual va tomando valores enteros positivos a partir del uno, por ejemplo: Sea x15 el peso de la persona identificada con el número 15. Sea y7 el sexo de la persona identificada con el número 7. Clasificación de las variables Variables cualitativas: describen cualidades o atributos del objeto en estudio. Ejemplos: color de un automóvil, sexo o religión de una persona. Variables cuantitativas: se cuantifican a través de valores numéricos mediante medición o conteo. Por ejemplo: la estatura o el peso de un conjunto de personas, el número de escuelas en cada municipio de un estado en específico, la inflación en cada país del mundo durante el 2014. Se subdividen en discretas y continuas. Discretas: están asociadas a un proceso de conteo y solo pueden tomar algunos valores de una escala de medición. Ejemplos: número de alumnos en cada grupo del turno vespertino de la EPOANT (nótese que puede haber 32 o 33 alumnos pero nunca 32.4), número de hospitales en cada municipio del Estado de México, número de televisores en cada casa de la ciudad de Tenancingo. Continuas: están asociadas a un proceso de medición y pueden adquirir cualquier valor en una escala de medición, esto es, si se tienen dos valores dados de una variable, siempre puede existir otro valor intermedio, por ejemplo: un hombre puede medir 1.71 m y otro 1.72 m y un tercero cualquier valor entre estos dos, tal como 1.714 m. Ejemplos de variables cuantitativas continuas: número de litros de agua que consumió cada alumno del 3° I Vespertino de la EPOANT durante el mes de febrero de 2015, peso de cada alumno de la EPOANT. Fuentes de adquisición de datos estadísticos Son las formas para recopilar la información que se va a analizar, las más comunes son: Observación: se obtienen los datos por apreciación visual del fenómeno por parte del investigador. Ejemplos: color de ropa más usual durante cierto mes del año en una determinada región; color de automóviles más común en la ciudad de Tenancingo. Encuesta: consiste en la aplicación de cuestionarios y entrevistas, por ejemplo en un censo realizado por el INEGI o una entrevista a cada alumno de 3° I de la EPOANT Vespertino realizada por el orientador para conocer la situación personal de cada uno. Experimentación: consiste en reproducir un fenómeno varias veces en condiciones controladas y en cada vez recopilar los datos de interés. Por ejemplo: la resistencia a la ruptura de un determinador material, o el tiempo que soporta cada alumno del 3° I Vespertino sin respirar debajo del agua. Investigación: consiste en recopilar información que ya está concentrada o escrita; se puede obtener en bibliotecas, hemerotecas, videotecas, internet, etc. Ejemplos: población de cada estado del país en el censo del 2010, o porcentaje de deserción escolar durante el ciclo escolar 2013-2014 en las Escuelas Preparatorias Oficiales del Estado de México. Tipos de escalas de medición para datos estadísticos Los datos obtenidos mediante una de las fuentes mencionadas en el tema anterior se clasifican en escalas de medición, y dependiendo del tipo de datos pueden asignarse en alguna de las cuatro escalas siguientes: 1. Nominal: se utiliza con variables en las que con sus datos únicamente se puede establecer si dos de ellos son iguales o diferentes pero nunca cuál de los dos es mayor o menor ni que tanta diferencia hay entre ellos. Ejemplos: color de un carro, sexo de una persona, color de cabello de cada alumno del 3° I, etc. 2. Ordinal: se utiliza con variables en las que con sus datos además de establecer si dos de ellos son iguales o diferentes, podemos identificar un orden o jerarquía en los mismos, pero no podemos identificar que tanta diferencia hay entre ellos. Ejemplos: Tamaño de un vaso (chico, mediano, grande), conducta de cada alumno del 3° I Vespertino (excelente, buena, regular, mala), etc. 3. Intervalar: se utiliza con variables en las que con sus datos además de poder establecer si dos datos son iguales o diferentes, identificar orden o jerarquía, podemos notar cuanto separa a un dato de otro, pero no podemos decir por ejemplo que un dato vale el doble de otro, o que un dato sea la quinta parte de otro. Un ejemplo claro de esta escala es la variable temperatura del salón de 3° I durante cada clase de Probabilidad y Estadística en el 2015. El cero es relativo y solo es una referencia. 4. De razón: se utiliza con variables en las se puede establecer si un dato es diferente a otro, establecer jerarquía en los datos, identificar que tanta diferencia hay entre un dato y otro y también establecer razones entre datos (un dato es el doble de otro, un dato es la quinta parte de otro). Ejemplos: estatura de cada alumno del 3°I, número de alumnos de cada grupo del turno vespertino, etc. El cero es absoluto y significa ausencia de medida. Ejercicio: Escribir 4 ejemplos de variables que utilicen una escala nominal, 4 de ordinal y 4 de razón. Nominal: Sexo que predomina más en cada preparatoria del estado de mexico Color de cada perro que hay en la ciudad de Tenancingo Color de cada carro Tsuru en la ciudad de Tenancingo en el periodo 2014- 2015 Ordinal Calidad del trabajo de cada mecánico de la ciudad de Tenancingo (Excelente, Bueno, Regular, Malo) Conducta de cada alumno de la EPOANT del turno vespertino en el ciclo escolar 2012-2013 (Buena, Regular, Mala) De razón Longitud del pie izquierdo de cada alumno del 4° grado de la primaria “Torres Quintero” de la ciudad de Tenancingo en el ciclo escolar 2014-2015 Número de personas que asistieron al estadio municipal de Tenancingo a cada partido realizado en el durante el 2014. Número de ventas realizadas durante cada día del 2014 en el Centro comercial Garis sucursal centro de la ciudad de Tenancingo. Determinación del tamaño de una muestra Al hacer un estudio estadístico por lo regular únicamente se recopilan datos de la muestra que tomemos de la población completa. Las conclusiones que saquemos de la muestra estimarán el comportamiento de la población entera. Para determinar un tamaño de muestra que sea representativa y que se apegue a las necesidades del estudio se puede emplear la siguiente fórmula: 𝑁 𝑛= 1 + 𝑁𝑒 2 Donde: n = tamaño de la muestra N = tamaño de la población e = error máximo permitido en las conclusiones obtenidas de la muestra. Ejemplo: Suponiendo que se tiene una población de 5000 elementos y se requiere determinar el tamaño de una muestra para un estudio estadístico de estos con un error del 5%, entonces: N=5000 e=0.05 5000 𝑛= ≈ 370.37 2 1 + 5000 ∗ (0.05) La muestra será de 371 elementos. En otras ocasiones se determina que la muestra sea un determinado porcentaje de la población, por ejemplo un 3%. Por lo cual de una población de 500,000 elementos tendría una muestra de: n = 500,000 (0.03) = 15,000 Elección de los elementos que comprenderán a la muestra Una forma de elegir los elementos de nuestra muestra de forma aleatoria es utilizando la función Ran# de la calculadora científica, la cual nos arroja un número aleatorio de 3 cifras. Entonces si numeramos a todos los elementos que componen nuestra población, este número (Ran#) nos indicará que elementos tomar para la muestra. Datos no agrupados Es el conjunto de datos recopilados en un estudio estadístico organizados en una lista o tabla pero cada dato por separado. Datos agrupados Son aquellos que ya han sido organizados en varias clases o categorías. Tabla de frecuencias para datos cualitativos El primer paso para generarla es analizar el conjunto de datos no agrupados en orden e ir anotando en la primer columna las categorías que aparezcan en los datos. En una segunda columna realizar una tabulación de la cantidad de datos que corresponden a cada categoría. Por último realizar el conteo de la tabulación para expresar la frecuencia de cada categoría en una tercera columna. Frecuencia relativa Se obtiene dividiendo la frecuencia de cada clase o categoría entre el total de datos. La suma de todas las frecuencias relativas tiene que resultar 1. Se simboliza con Fr. Frecuencia porcentual Se obtiene multiplicando a la frecuencia relativa por 100. Indica que porcentaje de los datos pertenecen a cada clase o categoría. Gráfica circular o circulograma Equipo Frecuencia Frecuencia relativa Frecuencia porcentual Ángulo Toluca Pumas Guadalajara Morelia Atlas Cruz Azul América Monterrey Necaxa Atlante 19 11 10 8 2 9 8 1 2 1 0.268 0.155 0.141 0.113 0.028 0.127 0.113 0.014 0.028 0.014 26.8% 15.5% 14.1% 11.3% 2.8% 12.7% 11.3% 1.4% 2.8% 1.4% 96.3° 55.8° 50.7° 40.6° 10.1° 45.6° 40.6° 5.1° 10.1° 5.1° Total 71 1.001 100.1% 360° Gráfica de barras No. 1 2 3 4 5 6 7 8 9 10 Intervalo 23 - 29 30 - 36 37 - 43 44 - 50 51 - 57 58 - 64 65 - 71 72 - 78 79 - 85 86 - 92 Tabulación Frecuencia 6 8 13 16 22 15 15 10 6 9 No. 1 2 3 4 5 6 7 8 9 Intervalo 1-11 12-22 23-33 34-44 45-55 56-66 67-77 78-88 89-99 Tabulación Frecuencia 9 10 7 12 16 11 7 7 5 No. 1 2 3 4 5 6 7 Intervalo 0 - 10 11 - 21 22 - 32 33 - 43 44 - 54 55 - 65 66 - 76 Tabulación Frecuencia 8 10 8 12 16 10 7 8 9 77 - 87 88- 98 8 5 Intervalos reales de clase Están formados por los límites reales de clase, que son aquellos que evitan huecos entre un intervalo y el siguiente. Sus valores se obtienen restando y agregando a los límites inferior y superior respectivamente de cada clase la mitad de la variación de los datos. Resultando que el límite real superior de un intervalo es igual que el límite real inferior del intervalo siguiente. Ahora bien, al tabular un valor tal como 22.5, se observa que este valor se encuentra en el segundo y tercer intervalo. Se recomienda en esta situación siempre tabularlo en el intervalo que aparezca primero. Intervalo Frecuencia Intervalo de clase real de clase 0-10 8 -0.5-10.5 11-21 10 10.5-21.5 22-32 8 21.5-32.5 33-43 12 32.5-43.5 44-54 16 43.5-54.5 55-65 10 54.5-65.5 66-76 7 65.5-76.5 77-87 8 76.5-87.5 88-98 5 87.5-98.5 Límite inferior Límite superior 0 11 22 33 44 55 66 77 88 10 21 32 43 54 65 76 87 98 Intervalo Frecuencia Intervalo de clase real de clase 1-11 9 0.5-11.5 12-22 10 11.5-22.5 23-33 7 22.5-33.5 34-44 12 33.5-44.5 45-55 16 44.5-55.5 56-66 11 55.5-66.5 67-77 7 66.5-77.5 78-88 7 77.5-88.5 89-99 5 88.5-99.5 Límite inferior Límite superior 1 12 23 34 45 56 67 78 89 11 22 33 44 55 66 77 88 99 Marca de clase Límite real inferior -0.5 10.5 21.5 32.5 43.5 54.5 65.5 76.5 87.5 Límite real superior 10.5 21.5 32.5 43.5 54.5 65.5 76.5 87.5 98.5 Límite real inferior 0.5 11.5 22.5 33.5 44.5 55.5 66.5 77.5 88.5 Límite real superior 11.5 22.5 33.5 44.5 55.5 66.5 77.5 88.5 99.5 Es el punto medio de un intervalo, se representa con Mi y se obtiene de la siguiente forma: 𝑙í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + 𝑙í𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝑀𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 = 2 O también: 𝑙í𝑚𝑖𝑡𝑒 𝑟𝑒𝑎𝑙 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + 𝑙í𝑚𝑖𝑡𝑒 𝑟𝑒𝑎𝑙 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝑀𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 = 2 Intervalo de clase Intervalo real de clase Marca de clase 0-10 -0.5-10.5 11-21 10.5-21.5 22-32 21.5-32.5 5 16 27 33-43 32.5-43.5 44-54 43.5-54.5 55-65 54.5-65.5 66-76 65.5-76.5 77-87 76.5-87.5 88-98 87.5-98.5 38 49 60 71 82 93 Intervalo de clase Intervalo real de clase Marca de clase 1-11 0.5-11.5 12-22 11.5-22.5 23-33 22.5-33.5 34-44 33.5-44.5 45-55 44.5-55.5 56-66 55.5-66.5 67-77 66.5-77.5 78-88 77.5-88.5 89-99 88.5-99.5 6 17 28 39 50 61 72 83 94 Frecuencia acumulada Se obtiene sumando la frecuencia del intervalo en cuestión con la frecuencia de los intervalos anteriores. Frecuencia relativa acumulada Se obtiene dividiendo la frecuencia acumulada de dicho intervalo entre el total de datos, o bien sumando la frecuencia relativa del intervalo en cuestión con la frecuencia relativa de los intervalos anteriores. Frecuencia porcentual acumulada Se obtiene multiplicando por 100 a la frecuencia relativa acumulada. Indica el porcentaje de los datos que se encuentran en el intervalo en cuestión o anteriores. La frecuencia porcentual acumulada del último intervalo debe valer 100%. Ejercicio: Completar la siguiente tabla. Intervalo 100-108 109-117 118-126 127-135 136-144 145-153 154-162 Intervalo 100-108 109-117 118-126 127-135 136-144 145-153 154-162 Marca de Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia clase acumulada relativa relativa porcentual acumulada acumulada 104 113 122 131 140 149 158 34 45 78 112 89 63 29 34 79 157 269 358 421 450 0.076 0.1 0.173 0.249 0.198 0.14 0.064 0.076 0.176 0.349 0.598 0.796 0.936 1 7.6% 17.6% 34.9% 59.8% 79.6% 93.6% 100% Marca de Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia clase acumulada relativa relativa porcentual acumulada acumulada 104 113 122 131 140 149 158 34 45 78 112 89 63 29 34 79 157 269 358 421 450 0.076 0.1 0.173 0.249 0.198 0.14 0.064 0.076 0.176 0.349 0.598 0.796 0.936 1 Total de datos = 450 Variación de los datos = 1 Tamaño de los intervalos = 108-100+1 = 9 7.6% 17.6% 34.9% 59.8% 79.6% 93.6% 100% Histograma de frecuencias Es un gráfico similar al de barras, la única diferencia es que en el histograma se localizan los límites reales de clase en el eje horizontal. La altura de cada rectángulo representa la frecuencia del intervalo en cuestión: Polígono de frecuencias Es una gráfica de líneas que generalmente se traza sobre el histograma y representa la distribución del conjunto de datos; está construido sobre las marcas de clase de cada intervalo. El procedimiento para construirlo es el siguiente: 1. Se traza el histograma de los datos. 2. Se agrega un intervalo antes y uno después del conjunto de datos con el mismo tamaño que los intervalos originales y con frecuencia de 0. 3. Se localizan en el eje horizontal las marcas de clase de cada intervalo y se proyectan a la parte superior de cada rectángulo del histograma con un punto. 4. Se trazan segmentos de recta para unir estos puntos, iniciando y terminando en las marcas de clase de los intervalos imaginarios. Este trazo es el polígono de frecuencias de los datos. Ojiva Es una gráfica que se obtiene localizando en el eje vertical la frecuencia acumulada o la frecuencia relativa acumulada. Existen dos tipos de ojiva: Ojiva “o más” En esta gráfica se ubican las frecuencias acumuladas de todos los valores mayores o iguales que el límite real inferior de cada intervalo. Intervalo Intervalo real Frecuencia de clase 91-99 100-108 109-117 118-126 127-135 136-144 145-153 154-162 163-171 90.5-99.5 99.5-108.5 108.5-117.5 117.5-126.5 126.5-135.5 135.5-144.5 144.5-153.5 153.5-162.5 162.5-171.5 Intervalo Intervalo real Frecuencia de clase 91-99 100-108 109-117 118-126 127-135 136-144 145-153 154-162 163-171 90.5-99.5 99.5-108.5 108.5-117.5 117.5-126.5 126.5-135.5 135.5-144.5 144.5-153.5 153.5-162.5 162.5-171.5 0 34 45 78 112 89 63 29 0 0 34 45 78 112 89 63 29 0 Frecuencia acumulada Frecuencia acumulad a “o más” 99.5 o más 108.5 o más 117.5 o más 126.5 o más 135.5 o más 144.5 o más 153.5 o mas 162.5 o más 450 416 371 293 181 92 29 0 Menores que 99.5 Menores que 108.5 Menores que 117.5 Menores que 126.5 Menores que 135.5 Menores que 144.5 Menores que 153.5 Menores que 162.5 Frecuencia acumulada Frecuencia acumulad a “o más” 99.5 o más 108.5 o más 117.5 o más 126.5 o más 135.5 o más 144.5 o más 153.5 o más 162.5 o más 450 416 371 293 181 92 29 0 0 34 79 157 269 358 421 450 Menores que 99.5 Menores que 108.5 Menores que 117.5 Menores que 126.5 Menores que 135.5 Menores que 144.5 Menores que 153.5 Menores que 162.5 0 34 79 157 269 358 421 450 Ojiva “menor que” Se obtiene localizando en el eje vertical las frecuencias acumuladas hasta el límite real superior de cada intervalo. UNIDAD II Medidas de tendencia central y de dispersión Dichas medidas son útiles para comparar un estudio estadístico con otro, ya que son valores representativos de los datos que permiten sacar conclusiones fácilmente. Para el cálculo de estas medidas estadísticas es necesario dominar algunas operaciones aritméticas, de las cuales la más utilizada es la suma. El símbolo de suma y su utilización Cálculo de la media para datos no agrupados Es también llamada media aritmética o promedio. Su valor es representativo de todo el conjunto de datos. Se representa con 𝑥̅ . Para un conjunto de datos no agrupados la media se define como la suma de todos los datos dividida entre el número total de datos, esto es: ∑𝑛𝑖=1 𝑥𝑖 𝑥̅ = 𝑛 Donde: 𝑥̅ = media de los datos 𝑛 = número total de datos 𝑥𝑖 = valor del i-ésimo dato Ejemplo: Juan pescó 4 peces con longitudes de 20, 23, 36 y 19 cm. ¿Cuál es la longitud media de los peces? 20 + 23 + 36 + 19 𝑥̅ = 4 𝑥̅ = 24.5𝑐𝑚 Ejercicio: En la década de los años noventa el valor promedio por año de la cotización a la venta del dólar se muestra en la siguiente tabla. Calcular el valor promedio del dólar para esa década: Año Valor en pesos del dólar 1990 2.948 1991 3.074 1992 3.121 1993 3.329 1994 4.940 1995 7.680 1996 7.860 1997 8.200 1998 9.940 1999 9.600 Media para datos agrupados Cuando se tiene un conjunto de n datos que se encuentran agrupados en una tabla de frecuencias con k intervalos, aproximación de la media es: una ∑𝑘𝑖=1 𝑓𝑖 𝑀𝑖 𝑥̅ = 𝑛 Donde: 𝑥̅ = 𝑣𝑎𝑙𝑜𝑟 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎 𝑘 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠 𝑓𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑀𝑖 = 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 𝑑𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 Ejemplo: Con el siguiente conjunto de datos agrupados obtener su media: No. 1 2 3 4 5 6 7 8 9 10 Intervalo 1 - 10 11 - 20 21 - 30 31 - 40 41 - 50 51 - 60 61 - 70 71 - 80 81 - 90 91 - 100 Frecuencia ( 𝑓𝑖 ) Marca de clase (𝑀𝑖 ) 5 11 21 27 31 35 21 14 9 6 Media ponderada Esta se aplica cuando el conjunto total de datos se divide en varios subconjuntos, de los cuales únicamente se conoce la media de cada subconjunto pero no el valor de cada dato. La fórmula a utilizar es: Ejemplo: En un poblado viven 5000 habitantes, de los cuales 2723 son mujeres con un promedio de edad de 18 años y el resto son hombres con un promedio de edad de 28 años. ¿Cuál es el promedio de edad de los habitantes de esa población expresado con dos decimales? En otras situaciones se puede utilizar la siguiente fórmula: Ejemplo: En la asignatura de Estadística de cierta escuela la calificación del semestre se evaluó de la siguiente forma: Primer examen 30% Segundo examen 30% Trabajo de investigación 15% Cuadernillo de ejercicios 20% Asistencias 5% Un alumno obtuvo las siguientes calificaciones de 0 a 10 en cada uno de los aspectos respectivamente: 6.2, 8.1, 9.0, 9.0 y todas las asistencias (10). ¿Cuál es su promedio final? Ejercicio: La oferta de trabajo durante 2014 en una empresa del valle de Toluca fue de 222 vacantes, de las cuales se contrató el 58% de personal masculino con un promedio de edad de 28 años y el resto de personal femenino con un promedio de edad de 22 años. ¿Cuál fue el promedio de edad de todo el personal contratado? Mediana Para un conjunto de datos ordenados en forma ascendente o descendente, la mediana es el valor central de los datos, se representa por 𝑥̃. Mediana para datos no agrupados Cuando se tiene una cantidad de datos que sea par, la mediana es el promedio de los dos datos centrales. Si el número de datos es impar, la mediana es el valor que se encuentra en el centro de la lista de datos ordenados. Mediana para datos agrupados Si el conjunto de datos se presenta de forma agrupada mediante una tabla de frecuencias, entonces la mediana se puede obtener de forma aproximada con la siguiente fórmula: 𝑛 − 𝐹𝑎 𝑥̃ = 𝐿 + (2 )𝑐 𝑓𝑥̃ Donde: 𝑥̃= Mediana del conjunto de datos 𝐿= Límite real inferior del intervalo que contiene a la mediana. 𝑛= Número total de datos. 𝐹𝑎 = Frecuencia acumulada del intervalo anterior al que contiene a la mediana. 𝑓𝑥̃ = Frecuencia del intervalo que contiene a la mediana. 𝑐= Tamaño del intervalo que contiene a la mediana. Ejemplo: Determinar la mediana ( 𝑥̃ ) del siguiente conjunto de datos agrupados: No. Intervalo 1 2 3 4 5 6 7 8 9 10 101 – 110 111 – 120 121 - 130 131 - 140 141 - 150 151 - 160 161 – 170 171 – 180 181 – 190 191 - 200 Frecuencia (𝑓𝑖 ) 4 7 11 17 25 33 30 21 16 7 Frecuencia acumulada (𝐹𝑖 ) 4 11 22 39 64 97 127 148 164 171 Moda Es el valor que aparece con mayor frecuencia en un conjunto de datos. Se representa con 𝑥̂. Cuando el conjunto de datos tiene más de una moda se dice que es multimodal. Si el conjunto de datos no tiene moda se llama amodal. Moda para datos no agrupados Se busca el dato que aparece con mayor frecuencia y su valor es la moda. Ejemplos: Moda para datos agrupados Se puede obtener de forma aproximada con la siguiente fórmula: ∆1 𝑥̂ = 𝐿 + ( )𝑐 ∆1 + ∆2 Donde: 𝑥̂ = Moda del conjunto de datos agrupados. 𝐿 = Límite real inferior del intervalo que contiene a la moda. ∆1 = Diferencia entre la frecuencia del intervalo que contiene a la moda y la frecuencia del intervalo anterior. ∆2 = Diferencia entre la frecuencia del intervalo que contiene a la moda y la frecuencia del intervalo siguiente. 𝑐 = tamaño del intervalo que contiene a la moda. El intervalo que tenga más frecuencia es en el que se encuentra la moda con mayor probabilidad. Ejemplo: Determinar la moda del conjunto de datos agrupados utilizados en el ejemplo anterior del cálculo de la mediana: No. Intervalo 1 2 3 4 5 6 7 8 9 101 – 110 111 – 120 121 - 130 131 - 140 141 - 150 151 - 160 161 – 170 171 – 180 181 – 190 Frecuencia (𝑓𝑖 ) 4 7 11 17 25 33 30 21 16 Frecuencia acumulada (𝐹𝑖 ) 4 11 22 39 64 97 127 148 164 10 191 - 200 7 171 Tarea: Determinar la media, mediana y moda para el siguiente conjunto de datos agrupados: No. Intervalo Frecuencia 1 2 3 4 5 6 7 8 1.0 – 1.9 2.0 – 2.9 3.0 – 3.9 4.0 – 4.9 5.0 – 5.9 6.0 – 6.9 7.0 – 7.9 8.0 – 8.9 13 43 28 24 12 6 5 2 Medidas de dispersión Frecuencia acumulada 13 56 84 108 120 126 131 133 Marca de clase 1.45 2.45 3.45 4.45 5.45 6.45 7.45 8.45 Estas nos indican que tan alejados o dispersos están los datos con respecto a si mismos o con respecto a la media del conjunto de datos. Rango Es la medida de dispersión más simple y se obtiene de la siguiente forma: Rango = Dato mayor – Dato menor Desviación media Es el promedio de los valores absolutos de las desviaciones de los datos con respecto a la media. Indica en promedio el número de unidades en que cada dato se encuentra alejado de la media Para datos no agrupados se obtiene de la siguiente forma: ∑𝑛𝑖=1|𝑥𝑖 − 𝑥̅ | 𝐷𝑀 = 𝑛 Donde: 𝐷𝑀 = Desviación media 𝑥𝑖 = Es el valor del i-ésimo dato. 𝑥̅ = Media del conjunto de datos 𝑛 = Número total de datos Ejemplo: Determinar el valor de la desviación media para el siguiente conjunto de datos: 4 14 12 8 12 6 16 8 Para datos agrupados se obtiene la desviación media con la siguiente fórmula: Escriba aquí la ecuación. ∑𝑘𝑖=1 𝑓𝑖 |𝑀𝑖 − 𝑥̅ | 𝐷𝑀 = 𝑛 Donde: 𝐷𝑀 = Desviación media del conjunto de datos. 𝑓𝑖 = Frecuencia del i-ésimo intervalo. 𝑀𝑖 = Marca de clase del i-ésimo intervalo. 𝑥̅ = Media del conjunto de datos. 𝑛 = Número total de datos. Ejemplo: Determinar la desviación media para el siguiente conjunto de datos. Intervalo real de clase 10 – 20 20 - 30 30 - 40 40 - 50 50 - 60 𝑓𝑖 𝑀𝑖 𝑓𝑖 𝑀𝑖 𝑀𝑖 − 𝑥̅ |𝑀𝑖 − 𝑥̅ | 𝑓𝑖 |𝑀𝑖 − 𝑥̅ | 5 12 22 27 36 15 25 35 45 55 75 300 770 1215 1980 -44.35 -34.35 -24.35 -14.35 -4.35 44.35 34.35 24.35 14.35 4.35 221.75 412.2 535.7 387.45 156.6 60 - 70 70 - 80 80 - 90 90 - 100 30 33 22 13 65 75 85 95 1950 2475 1870 1235 5.65 15.65 25.65 35.65 5.65 15.65 25.65 35.65 169.5 516.45 564.3 463.45 𝑥̅ = 59.35 𝐷𝑀 = 17.137 Ejercicio: Obtener la desviación media para el siguiente conjunto de datos agrupados: Intervalo 1.0 – 1.9 2.0 – 2.9 3.0 – 3.9 4.0 – 4.9 5.0 - 5.9 6.0 – 6.9 7.0 – 7.9 𝑓𝑖 6 14 20 32 24 15 9 Intervalo real de clase 1.0 – 1.9 2.0 – 2.9 3.0 – 3.9 4.0 – 4.9 5.0 - 5.9 6.0 – 6.9 7.0 – 7.9 𝑓𝑖 𝑀𝑖 𝑓𝑖 𝑀𝑖 𝑀𝑖 − 𝑥̅ |𝑀𝑖 − 𝑥̅ | 𝑓𝑖 |𝑀𝑖 − 𝑥̅ | 6 14 20 32 24 15 9 1.45 2.45 3.45 4.45 5.45 6.45 7.45 8.7 34.3 69 142.4 130.8 96.75 67.05 -3.13 -2.13 -1.13 -0.13 0.87 1.87 2.87 3.13 2.13 1.13 0.13 0.87 1.87 2.87 18.78 29.82 22.6 4.16 20.88 28.05 25.83 𝑥̅ = 4.58 𝐷𝑀 = 1.251 Varianza Se define como el promedio de los cuadrados de las desviaciones de los datos con respecto a la media. Se representa con 𝜎 2 . Varianza para datos no agrupados 𝜎2 = Donde: ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅)2 𝑛 𝜎 2 = Varianza del conjunto de datos. 𝑥𝑖 = Valor del i-ésimo dato. 𝑥̅ = Media del conjunto de datos. 𝑛 = Número total de datos. Ejemplo: Determinar la varianza del siguiente conjunto de datos. 12 25 8 15 5 18 26 14 𝑥̅ = 14.2 𝜎 2 = 44.36 Varianza para datos agrupados 𝜎2 = ∑𝑘𝑖=1 𝑓𝑖 (𝑀𝑖 − 𝑥̅ )2 𝑛 9 10 Donde: 𝜎 2 = Varianza del conjunto de datos. 𝑘 = Número de intervalos. 𝑓𝑖 = Frecuencia del i-ésimo intervalo. 𝑀𝑖 = Marca de clase del i-ésimo intervalo. 𝑥̅ = Media del conjunto de datos. 𝑛 = Número total de datos. Ejemplo: Determinar la varianza del siguiente conjunto de datos agrupados: Intervalo real de clase 𝑓𝑖 0 - 50 50 - 100 100 - 150 150 - 200 200 - 250 250 - 300 300 - 350 350 - 400 400 - 450 TOTALES 5 12 23 32 37 23 28 26 14 200 𝑀𝑖 25 75 125 175 225 275 325 375 425 𝑓𝑖 𝑀𝑖 𝑀𝑖 − 𝑥̅ 125 900 2875 5600 8325 6325 9100 9750 5950 48950 -219.75 -169.75 -119.75 -69.75 -19.75 30.25 80.25 130.25 180.25 ̅) (𝑀𝑖 − 𝑥 48290.06 28815.06 14340.06 4865.06 390.06 915.06 6440.06 16965.06 32490.06 2 ̅) 𝑓𝑖 (𝑀𝑖 − 𝑥 241450.3 345780.72 329821.38 155681.92 14432.22 21046.38 180321.68 441091.56 454860.84 2184487 2 𝑥̅ = 244.75 𝜎2 2184487 = = 10922.44 200 Desviación estándar o típica Se define como la raíz cuadrada de la varianza. Su símbolo es 𝜎 y tiene las mismas unidades que los datos. Para datos no agrupados la desviación estándar se calcula de la siguiente forma: ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅)2 𝜎= √ 𝑛 Donde: 𝜎 = Desviación estándar del conjunto de datos. 𝑥𝑖 = Valor del i-ésimo dato. 𝑥̅ = Media del conjunto de datos. 𝑛 = Número total de datos. Ejemplo: Determinar la desviación estándar del siguiente conjunto de datos no agrupados: 7.2 4.5 12.7 54.6 25.6 32.9 19.1 47.2 36.5 𝑥̅ = 26.7 𝜎 2 = 273.47 𝜎 = 16.54 Para datos agrupados la desviación estándar se calcula de la siguiente forma: ∑𝑘𝑖=1 𝑓𝑖 (𝑀𝑖 − 𝑥̅ )2 𝜎= √ 𝑛 Donde: 𝜎 = Desviación estándar del conjunto de datos. 𝑘 = Número de intervalos. 𝑓𝑖 = Frecuencia del i-ésimo intervalo. 𝑀𝑖 = Marca de clase del i-ésimo intervalo. 𝑥̅ = Media del conjunto de datos. 𝑛 = Número total de datos. Ejercicio: Determinar la desviación estándar del siguiente conjunto de datos no agrupados: 7.2 4.5 12.7 54.6 25.6 32.9 19.1 47.2 36.5 𝑥̅ = 26.7 𝜎 2 = 273.47 𝜎 = 16.54 Calcular la desviación estándar del ejemplo visto para cálculo de varianza de datos agrupados. Intervalo real de clase 𝑓𝑖 0 - 50 50 - 100 100 - 150 150 - 200 200 - 250 250 - 300 300 - 350 350 - 400 400 - 450 TOTALES 5 12 23 32 37 23 28 26 14 200 𝑀𝑖 25 75 125 175 225 275 325 375 425 𝑓𝑖 𝑀𝑖 𝑀𝑖 − 𝑥̅ 125 900 2875 5600 8325 6325 9100 9750 5950 48950 -219.75 -169.75 -119.75 -69.75 -19.75 30.25 80.25 130.25 180.25 ̅) (𝑀𝑖 − 𝑥 48290.06 28815.06 14340.06 4865.06 390.06 915.06 6440.06 16965.06 32490.06 2 ̅) 𝑓𝑖 (𝑀𝑖 − 𝑥 241450.3 345780.72 329821.38 155681.92 14432.22 21046.38 180321.68 441091.56 454860.84 2184487 𝑥̅ = 244.75 2184487 2 𝜎 = = 10922.44 200 𝜎 = √10922.44 = 104.51 Interpretación de la desviación estándar 2