Download Estadística I - GEOCITIES.ws
Document related concepts
Transcript
Universidad Panamericana Estadística I Prof. Andrés Sandoval H Estadística I 2. MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN 2.1 Distribución de frecuencias. Distribución de Frecuencias. Es un agrupamiento de datos en categorías mutuamente excluyentes dando el número de observaciones en cada categoría. Los pasos para obtener una distribución de frecuencia son los siguientes: 1) Determinar el número de clases que se quiere. Un método para determinar el número de clases es la regla “2 a la k”. Esta regla sugiere seleccionar como el número de clases el menor número (k), tal que 2 a la k sea mayor que el número de datos (n). 2) Determinar el intervalo o la amplitud de clase. Generalmente el tamaño de la clase o del intervalo debe ser el mismo para todas las clases. Las clases juntas deben abarcar por lo menos la distancia entre el menor valor de los datos en bruto hasta el valor mayor. Expresado en la siguiente fórmula: i =H–L/k Donde: i = intervalo de clase H = mayor valor observado L = menor valor observado k = número de clases Generalmente el resultado de la fórmula se redondea a algún número adecuado, como por ejemplo un múltiplo de 10 o de 100. 3) Fijar los límites de cada clase. Se trata de fijar los límites de cada clase de modo que cada observación se pueda colocar sólo en una clase. Se deben evitar los límites de clase que sean poco claros o que se sobrepongan. 4) Poner una marca por cada observación que quede en cada clase. 5) Contar en número de observaciones en cada clase (frecuencia de clase) Universidad Panamericana Estadística I Prof. Andrés Sandoval H La frecuencia relativa se obtiene dividiendo la frecuencia de clase entre el total de datos (n). La frecuencia porcentual se obtiene multiplicando la frecuencia relativa por 100. 2.2 Representaciones gráficas. Las representaciones gráficas de las distribuciones de frecuencia, se hacen por lo general con llamadas gráficas de barras (en las que las clases se indican en el eje horizontal y las frecuencias de clase en el eje vertical) o con gráficas de pie, especialmente utilizadas para mostrar las frecuencias porcentuales. Otro tipo gráficas que comúnmente se usan para mostrar las frecuencias acumuladas son las ojivas ( Es importante mencionar que si bien, las representaciones gráficas sirven para dar una visión rápida de la forma en que se comportan los datos, también pueden ser utilizadas (dependiendo de cómo se configuren) para dar una idea equivocada de la información que se quiere presentar. 2.3 Medidas de tendencia central El propósito de cualquier medida de tendencia central es indicar con precisión el centro de un conjunto de observaciones. Algunas de las medidas de tendencia central más comunes son la media, la mediana y la moda. 2.3.1 Media aritmética La media aritmética es probablemente la medida de tendencia central más importante, en tato es la más utilizada. También se le llama promedio y la vemos aplicada a diario en casi todos los espacios y medio dedicados a brindar información. Algunos ejemplos puedan ser el saldo promedio de una cuenta bancaria, el salario promedio de los empleados de una empresa, el promedio de calificaciones de un estudiante, etc. Definida formalmente, la media aritmética es la suma de todos los valores de una muestra o población dividida entre el número de valores de la población o muestra. Cuando lo que se calcula es la media de una población, ésta se representa con la letra griega “ “. Por otro lado, cuando lo que se calcula es la media de una muestra, ésta se representa con “ x “. Así, las fórmulas son como sigue: Media poblacional = X N Universidad Panamericana Estadística I Prof. Andrés Sandoval H Dónde: X N = = = = Media poblacional Representa cualquier valor particular Número de individuos en la población Indica la operación de adición Media muestral x = X n Dónde: x X n = = = = Media poblacional Representa cualquier valor particular Número de individuos en la población Indica la operación de adición Algunas características de la media aritmética son: - Todo conjunto de datos de intervalo o de razón tienen una media. Un conjunto de datos sólo tiene una media. La media es útil para comparar dos poblaciones. La media aritmética es la única medida de tendencia central en la que la suma de las desviaciones de los valores de la media será siempre cero. Expresado simbólicamente (X - x ) = 0 2.3.2 Mediana Alguna veces, cuando en un conjunto de datos existen uno o dos muy grandes o muy pequeños, la media aritmética puede no ser representativa. En esos casos, el punto central de ese grupo de datos se puede describir mejor utilizando la mediana. La mediana es la observación central de los valores de una población o muestra una vez que éstos han sido ordenados de forma ascendente o descendente. Para un número par de observaciones, la mediana es el promedio de los dos valores intermedios. Universidad Panamericana Estadística I Prof. Andrés Sandoval H Algunas características de la mediana son: - Todo conjunto de datos ordinales, de intervalo o de razón tienen una mediana. Un conjunto de datos sólo tiene una mediana. A la mediana no le afectan valores extremadamente grandes ni extremadamente pequeños, por eso es especialmente útil cuando se tienen estos valores. 2.3.3 Moda La moda es el valor que aparece con más frecuencia en un conjunto de datos. La moda es especialmente útil para encontrar el punto central de un grupo de datos de tipo nominal u ordinal. Algunas características de la moda son: - Se puede determinar la moda en grupos de datos de todos los niveles (nominales, ordinales, de intervalo y de razón). Puede existir más de una moda para cada grupo de datos. A la moda no le afectan valores extremadamente grandes ni extremadamente pequeños, por eso es especialmente útil cuando se tienen estos valores. 2.3.4 Otras medidas de tendencia central Otras medidas de tendencia central que se usa con frecuencia son la media ponderada y la media geométrica. A continuación se da una breve explicación de ambas. La media ponderada es un caso especial de la media aritmética. Se presenta cuando se tienen varios datos con un mismo valor, lo que puede ocurrir cuando éstos se han agrupado en una distribución de frecuencia. La fórmula que se utiliza es: Media ponderada x = (wX) w Dónde: x = Media poblacional Universidad Panamericana Estadística I Prof. Andrés Sandoval H X = Representa cualquier valor particular = Indica la operación de adición w = Indica el peso o número de repeticiones de cada valor Por su parte la media geométrica es útil para encontrar el promedio de porcentajes, proporciones, índices o tasas de crecimiento. Por su definición, la media geométrica de un conjunto de n números enteros positivos es la n-ésima raíz del producto de los n valores. La fórmula que se utiliza es la siguiente: Media Geométrica GM = n √ (X1) (X2) . . . (Xn) Dónde: GM = Media poblacional X = Representa cualquier valor particular n = Número de individuos en la población Esta misma medida de tendencia aplicada a problemas de incremento porcentual promedio es como sigue: Incremento porcentual Promedio en el tiempo GM = n √ Valor al final del período Valor al inicio del período -1 2.4 Medidas de dispersión Las medidas de dispersión se utilizan para obtener información complementaria a las medidas de tendencia central y miden la forma como se distribuyen los datos que integran una población o muestra. Así, el rango se basa en la localización de los valores mayor y menor de un grupo de datos, y la varianza y la desviación estándar en las desviaciones de cada uno de los datos que integran la población o muestra con respecto de su media. 2.4.1 Varianza La varianza es una de las medidas de tendencia central más reportadas, y como ya se mencionó, se basa en la diferencia entre el valor de cada observación y la media. Universidad Panamericana Estadística I Prof. Andrés Sandoval H En términos conceptuales la varianza es la media aritmética de las desviaciones de la media elevadas al cuadrado. Cuando lo que se calcula es la varianza de una población, ésta se representa con la letra griega “σ2” (elevada al cuadrado), y cuando lo que se calcula es la varianza de una muestra se representa con la letra “s2” (también elevada al cuadrado). Las fórmulas para calcular cada una son como sigue: Varianza poblacional σ2 = Varianza muestral s2 = Σ ( X – μ )2 N Σ ( X – x )2 n -1 (fórmula conceptual) ΣX Varianza muestral 2– ( Σ X )2 2 s = (fórmula para cálculos) n n -1 Es importante resaltar que la fórmula de la varianza muestral para cálculos tiene la ventaja de que no se necesita calcular la media para obtenerla. 2.4.2 Desviación estándar La varianza tiene la desventaja de que sus valores son difíciles de interpretar ya que están expresados en la unidad de medida de los datos que integran la población o muestra al cuadrado (p.e. litros al cuadrado, metros al cuadrado, años al cuadrado, etc.) Resulta obvio pensar que al calcular la raíz cuadrada de la varianza obtendremos valores expresados en la misma unidad de medida de que los datos que nos interesan. De este modo, una definición formal de la desviación estándar es la raíz cuadrada positiva de la varianza. Las fórmulas que se utilizan para calcularla se pueden simplificar entonces en las siguientes expresiones: Universidad Panamericana Estadística I Prof. Andrés Sandoval H Desviación estándar poblacional σ = √ σ2 Desviación estándar muestral s = √ s2 2.4.3 Cuartiles, deciles y percentiles La varianza y la desviación estándar son las medidas de dispersión más ampliamente utilizadas, sin embargo, hay otras maneras de describir la dispersión de un conjunto de datos. Un método consiste en determinar la localización de los valores que dividen al conjunto de datos en partes iguales (cuartiles, deciles y percentiles, por ejemplo). Los cuartiles dividen a un conjunto de observaciones en cuatro partes iguales. El primer cuartil al que se llama Q1 es el valor por debajo del cual se encuentra el 25% de las observaciones, el segundo cuartil o Q 2 es la mediana, y el tercer cuartil o Q3 es el valor por debajo del cual se encuentra el 75% de las observaciones. Así, los valores de Q1, Q2, y Q3 dividen a un grupo de datos en cuatro subgrupos iguales, donde Q1 se podría considerar la mediana de la mitad inferior de os datos y Q2 como la mediana de la mitad superior de los datos. De manera similar, los deciles dividen a un grupo de datos en diez partes iguales y los percentiles en 100 partes iguales. Un criterio para la selección de cuartiles, deciles o percentiles es comúnmente el tamaño de la población o muestra. La fórmula que se utiliza para calcular la posición percentil es la siguiente: Posición de un percentil Lp = ( n + 1 ) Donde: P = posición percentil que buscamos n = número de observaciones P 100 Universidad Panamericana Estadística I Prof. Andrés Sandoval H En los casos en los que fórmula da como resultado un número no entero, la posición del cuartil se reportará moviéndose en la proporción de la fracción resultante entre las posiciones correspondientes. 2.5 Asimetría y curtosis La asimetría se refiere al grado de simetría que guarda la distribución de un conjunto de datos y se mide con el coeficiente de asimetría de Pearson. Coeficiente de asimetría de Pearson Sk = 3 ( μ – Md ) σ Cuando Sk = 0, se dice que la distribución es simétrica y μ = Md = Mo Cuando Sk < 0, se dice que la distribución tiene sesgo negativo y μ < Md < Mo Cuando Sk > 0, se dice que la distribución tiene sesgo positivo y Mo < Md < μ Por otra parte, la curtosis es el grado de apuntamiento de una distribución. El coeficiente de curtosis se puede calcular algebraicamente como: Universidad Panamericana Estadística I Prof. Andrés Sandoval H Coeficiente de Curtosis C = 1 2 ( Q3 – Q1 ) ( P90 – P10 ) Cuando C tiende a ser 0.5 se dice que la distribución es leptocúrtica. Otras características de esta distribución son que la desviación estándar es pequeña, ( Q3 – Q1 ) tiende a ser igual a ( P90 – P10 ) y se observa un alto apuntalamiento de los datos. Cuando C tiende a ser 0 se dice que la distribución es platicúrtica. Otras características de esta distribución son que la desviación estándar es grande, ( P90 – P10 ) tiende a ser mayor que ( Q3 – Q1 ) y se observa una distribución aplanada. Cuando C tiende a ser 0.25 se dice que la distribución es mesocúrtica. Otras características de esta distribución son que la desviación estándar es moderada y se observa una distribución con apuntalamiento moderado. Universidad Panamericana Estadística I Prof. Andrés Sandoval H 2.6 Regla Empírica y Teorema de Tcheby Sheff El teorema de Tcheby Sheff permite determinar la proporción mínima de valores que están dentro de un número específico de desviaciones estándar alrededor de la media. Dicho de manera formal: en cualquier conjunto de observaciones la proporción de los valores que queda dentro de “k “ desviaciones estándar de la media es por lo menos 1 – 1 / k2 donde “k” es una constante mayor a uno. Una de las ventajas del teorema de Tcheby Sheff es que se puede aplicar a cualquier grupo de datos independientemente de la forma de su distribución. Sin embargo, en la práctica se ve que muchos grupos de datos tienen una distribución normal o en forma de campana, en estos casos se puede aplicar la regla empírica para conocer el número de casos que están entre un determinado número de desviaciones estándar. La regla empírica establece que para datos con distribución en forma de campana: o Aproximadamente 68% de los elementos están a menos de una desviación estándar de la media. o Aproximadamente 95% de los elementos están a menos de dos desviaciones estándar de la media. o Casi todos los elementos están a menos de tres desviaciones estándar de la media.