Download PROBABILIDAD Y ESTADISTICA UNIDAD I ESTADISTICA
Document related concepts
no text concepts found
Transcript
PROBABILIDAD Y ESTADISTICA UNIDAD I ESTADISTICA DESCRIPTIVA 1.1 Introducción y notación de sumatoria La estadística es una rama de la matemática que tiene por objetivo el estudio e las técnicas de recolección, análisis y presentación de información estadística obtenida por una muestra y a partir de esta tomar decisiones sobre la población. Una población es el conjunto de elementos de interés en un estudio, puede ser finita o infinita. Una muestra es una parte de los elementos de la población, la cual debe ser representativa de esta, generalmente es tomada de forma aleatoria. Para tomar muestras aleatorias se usan las técnicas de muestreo, las más utilizadas son: a) Muestreo aleatorio simple b) Muestreo sistemático c) Muestreo estratificado d) Muestreo por conglomerados La estadística para su estudio se divide en: a) Estadística Descriptiva.- Estudia las técnicas de recolección, análisis y presentación de datos estadísticos. b) Inferencia estadística.- Estudia los métodos para obtener conclusiones de una población a partir de la información que proporciona una muestra. c) Teoría de probabilidades.- Estudia los modelos matemáticos para representar fenómenos aleatorios. La información estadística obtenida de una población da origen a datos estadísticos que a su vez se representan por variables estadísticas, las cuales pueden ser numéricas o categóricas, los primeros se dividen en discretos y continuos, los segundos en nominales y ordinales, al obtener los valores es necesario utilizar escalas de medición, estas se clasifican: a) Escala nominal b) Escala ordinal c) Escala de intervalo d) Escala de razón Las variables estadísticas se representan por medio de letras mayúsculas 𝑋, 𝑌 …, mientras que los valores que toman se representan con letras minúsculas con subíndice 𝑥𝑖 donde 𝑖 = 1,2,3,4, … , 𝑛 donde n es el tamaño de la muestra. Una operación que se utiliza al analizar los datos estadísticos es la suma: 𝑛 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛 = ∑ 𝑥𝑖 𝑖=1 La suma se representa por medio de la letra sigma donde el subíndice 𝑖 toma valores de 1 hasta n. Este símbolo tiene las siguientes propiedades: 𝑛 ∑ 𝑐 = 𝑛𝑐 𝑖=1 𝑛 𝑛 ∑ 𝑐𝑥𝑖 = 𝑐 ∑ 𝑥𝑖 𝑖=1 𝑛 𝑖=1 𝑛 𝑛 ∑(𝑥𝑖 + 𝑦𝑖 ) = ∑ 𝑥𝑖 + ∑ 𝑦𝑖 𝑖=1 𝑖¿1 𝑖=1 Estas propiedades se usan para desarrollar expresiones y escribirlas en forma equivalente. 1.2 Análisis de datos Una de los objetivos principales de la estadística es el análisis de datos, en el caso de tener pocos datos (𝑛 < 30), se analizan en forma no agrupada en el caso de cantidades mayores los datos se agrupan en una distribución de frecuencias. 1.2.1 Medidas de tendencia central Medidas de tendencia central, se utilizan para determinar el valor que tiende a representar un conjunto de datos, las más usadas son la media, mediana y moda. La media se puede calcular en diferentes formas: a) Media aritmética 𝑥̅ = ∑ 𝑥𝑖 𝑛 b) Media geométrica 𝑥̅𝑔 = 𝑛√𝑥1 ∙ 𝑥2 ∙ 𝑥3 … 𝑥𝑛 c) Media ponderada 𝑥̅𝑝 = ∑ 𝑥 𝑖 𝑤𝑖 ∑ 𝑤𝑖 La mediana es el valor que divide al conjunto de datos en dos partes iguales, para calcularla se deben ordenar los datos del menor el mayor, si el número de datos es impar la mediana es 𝑥̃ = 𝑥𝑛 si el número de datos es 𝑥𝑛 par 𝑥̃ = 2 + 𝑥𝑛 2 2 +1 2 , se toma el promedio de los datos centrales. La moda es el dato que presenta la mayor frecuencia y se representa 𝑥̂. 1.2.2 Medidas de dispersión Se utilizan para medir el grado de dispersión de los datos, la más sencilla es el rango la cual se calcula como la diferencia entre el valor mayor y el menor: 𝑅 = 𝑥𝑚𝑎𝑦 − 𝑥𝑚𝑒𝑛 Otra medida es la desviación media la cual es el promedio de las diferencias en valor absoluto de cada valor con respecto a la media aritmética: ∑|𝑥𝑖 − 𝑥̅ | 𝑑𝑚 = 𝑛 La más utilizada es la varianza, la cual se calcula como un promedio de las diferencias al cuadrado de de cada valor con respecto a la media aritmética: ∑(𝑥𝑖 − 𝑥̅ )2 𝑠2 = 𝑛 Cuando se usa la varianza para hacer estimaciones se usa la varianza insesgada o cuasivarianza: ∑(𝑥𝑖 − 𝑥̅ )2 2 𝑠̂ = 𝑛−1 La raíz cuadrada de la varianza se le llama desviación estándar: ∑(𝑥𝑖 − 𝑥̅ )2 𝑠̂ = √ 𝑛−1 1.3 Agrupamiento de datos Si el número de datos en grande, se agrupan en subgrupos llamados clases y se determina el número de valores que pertenecen a cada clase a lo que se le denomina frecuencia de clase. Si el número de valores diferentes es menor de 10 se hace el agrupamiento considerando cada valor como clase: Clase 𝑖 1 2 . . K Marca de clase 𝑥𝑖 𝑥1 𝑥2 . . 𝑥𝑘 Frecuencia De clase 𝑓𝑖 𝑓1 𝑓2 . . 𝑘 𝑥𝑖 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2 𝑓𝑖 𝑥1 𝑓1 𝑥2 𝑓2 . . 𝑥𝑘 𝑓𝑘 (𝑥1 − 𝑥̅ )2 𝑓1 (𝑥2 − 𝑥̅ )2 𝑓2 . . (𝑥𝑘 − 𝑥̅ )2 𝑓𝑘 a las formulas para la media aritmética y varianza se les agrega la frecuencia de clase: ∑ 𝑥𝑖 𝑓𝑖 𝑥̅ = 𝑛 ∑(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖 𝑠̂ 2 = √ 𝑛−1 Si el rango de los datos es muy grande la distribución de frecuencias se elabora a partir de intervalos de clase, no existe un criterio único para realizar estas distribuciones, a continuación se presentan los criterios para elaborar los intervalos de clase: 1.- Determinar el rango de los datos 𝑅 = 𝑥𝑚𝑎𝑦 − 𝑥𝑚𝑒𝑛 2.- Calcular el número de clases, se recomienda usar entre 5 y 15 clases, se puede utilizar la fórmula de Sturges: 𝑘 = 1 + 3.322 log 𝑛 Redondeando el entero más próximo. 3.- Calcular el tamaño de clase: 𝑅 𝑐= 𝑘 Este valor se puede redondear o no, dependiendo del criterio para formar los intervalos de clase. 4.- Determinar los límites de clase, se pueden usar dos criterios: a) Intervalos de clase contiguos, se usa el tamaño de clase sin redondear Clase LRI LRS 𝑓𝑖 1 2 . . k 𝐿𝑅𝐼1 = 𝑥𝑚𝑒𝑛 𝐿𝑅𝐼2 = 𝐿𝑅𝑆1 . . 𝐿𝑅𝐼𝑘 = 𝐿𝑅𝑆𝑘−1 < 𝐿𝑅𝑆1 = 𝐿𝑅𝐼1 + 𝑐 < 𝐿𝑅𝑆2 = 𝐿𝑅𝐼2 + 𝑐 . . < 𝐿𝑅𝑆𝑘 = 𝑥𝑚𝑎𝑦 𝑓1 𝑓2 . . 𝑓𝑘 b) Intervalos de clase no contiguos, separados por un incremento ∆ el cual se establece de acuerdo al tipo de datos, para valores enteros ∆=1, si tiene un decimal ∆=0.1, si tienen dos decimales ∆=0.01, etc. En este caso el tamaño de clase se debe redondear de acuerdo al tipo de dato, entero o con decimales. Clase 1 LI 𝐿𝐼1 = 𝑥𝑚𝑒𝑛 LS 𝐿𝑆1 = 𝐿𝐼1 + (𝑐 − ∆) 𝑓𝑖 𝑓1 2 𝐿𝐼2 = 𝐿𝑆1 + ∆ 𝐿𝑆1 = 𝐿𝐼1 + (𝑐 − ∆) 𝑓2 . . k 𝐿𝐼2 = 𝐿𝑆1 + ∆ 𝐿𝑆1 = 𝐿𝐼1 + (𝑐 − ∆) ≥ 𝑥𝑚𝑎𝑦 𝑓𝑘 LRI LRS ∆ 2 ∆ 𝐿𝐼2 − 2 𝐿𝐼1 − 𝐿𝐼𝑘 − ∆ 2 ∆ 2 ∆ 𝐿𝑆2 + 2 𝐿𝑆1 + 𝐿𝑆𝑘 + ∆ 2 Se debe cuidar que el límite superior de la última clase sea mayor o igual a dato mayor, si no se cumple lo anterior se debe ajustar el tamaño de clase hasta lograr que se cumpla. Para calcular las medidas de tendencia central y de dispersión se usan las fórmulas: ∑ 𝑥𝑖 𝑓𝑖 𝑥̅ = 𝑛 ∑(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖 𝑠̂ = √ 𝑛−1 2 Donde 𝑥𝑖 son las marcas de clase 𝑥𝑖 = 𝐿𝑅𝐼𝑖 +𝐿𝑅𝑆𝑖 2 y 𝑓𝑖 son las frecuencias de clase. Cuartiles 𝑄𝑖 = 𝐿𝑅𝐼𝑖 + [ Para realizar los cálculos de forma más eficiente se elabora la tabla de cálculos: Clase 𝑖 𝑑2 es el exceso de frecuencia de la clase que contiene a la mediana con la posterior Otras medidas de posición son los cuantiles, los cuales se calculan con las expresiones: Frecuencia De clase 𝑓𝑖 𝑥𝑖 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2 𝑓𝑖 1 2 Marca de clase 𝑥𝑖 𝑥1 𝑥2 𝑓1 𝑓2 𝑥1 𝑓1 𝑥2 𝑓2 (𝑥1 − 𝑥̅ )2 𝑓1 (𝑥2 − 𝑥̅ )2 𝑓2 . . K . . 𝑥𝑘 . . 𝑘 . . 𝑥𝑘 𝑓𝑘 . . (𝑥𝑘 − 𝑥̅ )2 𝑓𝑘 ∑ 𝑥𝑖 𝑓𝑖 Sumas Frecuencia acumulada 𝐹𝑖 𝑖𝑛 − 10 Deciles 𝐷𝑖 = 𝐿𝑅𝐼𝑖 + [ − 𝐹𝑚 𝑓𝑚 𝑓𝑖 𝐹𝑖 ∑(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖 ]𝑐 ] 𝑐 𝑖 = 1,2,3 dividen a los ] 𝑐 𝑖 = 1,2,3,4 … 9 dividen los datos en 10 partes 𝑖𝑛 𝐹1 = 𝑓1 𝐹2 = 𝐹1 + 𝑓2 . . 𝐹𝑘 = 𝐹𝑘−1 + 𝑓𝑛 Una medida de dispersión muy utilizada es el coeficiente de variación, el cual se calcula: 𝑠̂ 𝐶𝑉 = × 100% 𝑥̅ Para la mediana y moda se usan las fórmulas: 𝑛 𝐹𝑖 𝑓𝑖 datos en cuatro partes iguales − 𝐹𝑖 Percentiles 𝑃𝑖 = 𝐿𝑅𝐼𝑖 + [100 𝑓 𝑖 ]𝑐 𝑖 = 1,2,3, … 99 dividen a los datos en 100 partes El criterio para aplicar estas formulas es el mismo que el de la mediana. Se busca la clase que contiene al cuantil, que es aquella cuya frecuencia acumulada es mayor o igual a Mediana 𝑥̃ = 𝐿𝑅𝐼𝑚 + [2 𝑖𝑛 − 4 𝑖𝑛 𝑘 donde k=4 para los cuartiles, k=10 para los deciles y k=100 para los percentiles. 1.4 Gráficos de distribuciones de frecuencias Para presentar la información de una distribución de frecuencias se usan diferentes gráficos: Histograma.- Es un grafico de barras, en el cual ,en el eje horizontal se colocan las marcas de clase o los límites reales de clase y en el eje vertical las frecuencias de clase, ya sean absolutas o relativas. Para aplicar la fórmula se debe encontrar la clase que contiene la mediana, la cual es aquella cuya frecuencia 𝑛 acumulada es mayor o igual a 2 Donde 𝐿𝑅𝐼𝑚 es el límite real inferior de la clase que contiene a la mediana 𝐹𝑚 es la frecuencia acumulada de la clase anterior a la clase que contiene a la mediana 𝑓𝑚 frecuencia de la clase que contiene a la mediana 𝑐 tamaño de clase Moda 𝑥̂ = 𝐿𝑅𝐼𝑚𝑜 + (𝑑 𝑑1 1 +𝑑2 )𝑐 La clase que contiene a la mediana es aquella cuya frecuencia es la mayor Donde: 𝐿𝑅𝐼𝑚𝑜 es el límite real inferior de la clase que contiene a la moda 𝑑1 es el exceso de frecuencia de la clase que contiene a la mediana con la anterior Polígono de frecuencias.- es un gráfico de línea, en el cual en el eje horizontal se colocan las marcas de clase y el vertical las frecuencias de clase. Ojiva.- Es un gráfico de línea en el cual en el eje horizontal se colocan las marcas de clase o los límites reales de clase y en el vertical las frecuencias acumuladas. Diagrama de cajas y bigotes.- Es un diagrama que se usa para representar como se distribuyen los datos alrededor de la mediana, los extremos de la caja son el primer y tercer cuartil y en los bigotes se colocan el valor mayor y menor, se emplean para comparar distribuciones. Diagrama de sectores o circular.- se usa para representar como agrupan los datos con respecto a la totalidad, se divide la circunferencia en forma proporcional a las frecuencias de clase 1.5 Medidas de forma Uno de los objetivos más importantes del agrupamiento de datos, es determinar si la distribución se aproxima a la distribución normal, la cual es una distribución teórica que tiene forma de campana Tiene la propiedad de que es simétrica, es decir la media, mediana y moda son iguales. En la distribución de los datos empíricos es poco probable que se cumpla esta condición, como se muestra en la figura el histograma se puede aproximar a la distribución normal, existen dos medidas para determinar si se tiene una buena aproximación como son la asimetría y la curtosis. Asimetría.- Determina como se distribuyen los datos alrededor de la media aritmética, para datos agrupados se calcula: 1 ∑(𝑥𝑖 − 𝑥̅ )3 𝑓𝑖 𝑛 𝑔1 = 3 2 1 [𝑛 (𝑥𝑖 − 𝑥̅ )2 𝑓𝑖 ] Si 𝑔1 = 0, la distribución es simétrica, se considera que si |𝑔1 | ≤ 0.5 la distribución se aproxima a la normal. En la siguiente figura se muestran los tipos de asimetría Curtosis.- Mide el grado de apuntalamiento de la curva, la distribución normal es mesocurtica, es decir su coeficiente de asimetría es cero, para calcular la asimetría se usa la expresión: 1 ∑(𝑥𝑖 − 𝑥̅ )4 𝑓𝑖 𝑛 𝑔2 = 2−3 1 2 [𝑛 (𝑥𝑖 − 𝑥̅ ) 𝑓𝑖 ] Se considera que si |𝑔2 | ≤ 0.5 la distribución se aproxima a la normalidad. Curvas de acuerdo a la curtosis. 𝑔2 > 0 𝑔2 = 0 𝑔2 < 0