Download Estadística I - GEOCITIES.ws

Document related concepts

Parámetro estadístico wikipedia , lookup

Desviación típica wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Varianza wikipedia , lookup

Asimetría estadística wikipedia , lookup

Transcript
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H
Estadística I
2. MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
2.1 Distribución de frecuencias.
Distribución de Frecuencias. Es un agrupamiento de datos en categorías
mutuamente excluyentes dando el número de observaciones en cada categoría.
Los pasos para obtener una distribución de frecuencia son los siguientes:
1) Determinar el número de clases que se quiere. Un método para determinar
el número de clases es la regla “2 a la k”. Esta regla sugiere seleccionar
como el número de clases el menor número (k), tal que 2 a la k sea mayor
que el número de datos (n).
2) Determinar el intervalo o la amplitud de clase. Generalmente el tamaño de
la clase o del intervalo debe ser el mismo para todas las clases. Las clases
juntas deben abarcar por lo menos la distancia entre el menor valor de los
datos en bruto hasta el valor mayor. Expresado en la siguiente fórmula:
i =H–L/k
Donde:
i = intervalo de clase
H = mayor valor observado
L = menor valor observado
k = número de clases
Generalmente el resultado de la fórmula se redondea a algún número
adecuado, como por ejemplo un múltiplo de 10 o de 100.
3) Fijar los límites de cada clase. Se trata de fijar los límites de cada clase de
modo que cada observación se pueda colocar sólo en una clase. Se deben
evitar los límites de clase que sean poco claros o que se sobrepongan.
4) Poner una marca por cada observación que quede en cada clase.
5) Contar en número de observaciones en cada clase (frecuencia de clase)
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H
La frecuencia relativa se obtiene dividiendo la frecuencia de clase entre el total de
datos (n). La frecuencia porcentual se obtiene multiplicando la frecuencia relativa
por 100.
2.2 Representaciones gráficas.
Las representaciones gráficas de las distribuciones de frecuencia, se hacen por lo
general con llamadas gráficas de barras (en las que las clases se indican en el eje
horizontal y las frecuencias de clase en el eje vertical) o con gráficas de pie,
especialmente utilizadas para mostrar las frecuencias porcentuales.
Otro tipo gráficas que comúnmente se usan para mostrar las frecuencias
acumuladas son las ojivas (
Es importante mencionar que si bien, las representaciones gráficas sirven para dar
una visión rápida de la forma en que se comportan los datos, también pueden ser
utilizadas (dependiendo de cómo se configuren) para dar una idea equivocada de
la información que se quiere presentar.
2.3 Medidas de tendencia central
El propósito de cualquier medida de tendencia central es indicar con precisión el
centro de un conjunto de observaciones. Algunas de las medidas de tendencia
central más comunes son la media, la mediana y la moda.
2.3.1 Media aritmética
La media aritmética es probablemente la medida de tendencia central más
importante, en tato es la más utilizada. También se le llama promedio y la vemos
aplicada a diario en casi todos los espacios y medio dedicados a brindar
información. Algunos ejemplos puedan ser el saldo promedio de una cuenta
bancaria, el salario promedio de los empleados de una empresa, el promedio de
calificaciones de un estudiante, etc.
Definida formalmente, la media aritmética es la suma de todos los valores de una
muestra o población dividida entre el número de valores de la población o
muestra.
Cuando lo que se calcula es la media de una población, ésta se representa con la
letra griega “  “. Por otro lado, cuando lo que se calcula es la media de una
muestra, ésta se representa con “ x “. Así, las fórmulas son como sigue:
Media poblacional
 = X
N
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H
Dónde:

X
N

=
=
=
=
Media poblacional
Representa cualquier valor particular
Número de individuos en la población
Indica la operación de adición
Media muestral
x = X
n
Dónde:
x
X
n

=
=
=
=
Media poblacional
Representa cualquier valor particular
Número de individuos en la población
Indica la operación de adición
Algunas características de la media aritmética son:
-
Todo conjunto de datos de intervalo o de razón tienen una media.
Un conjunto de datos sólo tiene una media.
La media es útil para comparar dos poblaciones.
La media aritmética es la única medida de tendencia central en la que la
suma de las desviaciones de los valores de la media será siempre cero.
Expresado simbólicamente (X - x ) = 0
2.3.2 Mediana
Alguna veces, cuando en un conjunto de datos existen uno o dos muy grandes o
muy pequeños, la media aritmética puede no ser representativa. En esos casos, el
punto central de ese grupo de datos se puede describir mejor utilizando la
mediana.
La mediana es la observación central de los valores de una población o muestra
una vez que éstos han sido ordenados de forma ascendente o descendente. Para
un número par de observaciones, la mediana es el promedio de los dos valores
intermedios.
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H
Algunas características de la mediana son:
-
Todo conjunto de datos ordinales, de intervalo o de razón tienen una
mediana.
Un conjunto de datos sólo tiene una mediana.
A la mediana no le afectan valores extremadamente grandes ni
extremadamente pequeños, por eso es especialmente útil cuando se
tienen estos valores.
2.3.3 Moda
La moda es el valor que aparece con más frecuencia en un conjunto de datos. La
moda es especialmente útil para encontrar el punto central de un grupo de datos
de tipo nominal u ordinal.
Algunas características de la moda son:
-
Se puede determinar la moda en grupos de datos de todos los niveles
(nominales, ordinales, de intervalo y de razón).
Puede existir más de una moda para cada grupo de datos.
A la moda no le afectan valores extremadamente grandes ni
extremadamente pequeños, por eso es especialmente útil cuando se
tienen estos valores.
2.3.4 Otras medidas de tendencia central
Otras medidas de tendencia central que se usa con frecuencia son la media
ponderada y la media geométrica. A continuación se da una breve explicación de
ambas.
La media ponderada es un caso especial de la media aritmética. Se presenta
cuando se tienen varios datos con un mismo valor, lo que puede ocurrir cuando
éstos se han agrupado en una distribución de frecuencia. La fórmula que se utiliza
es:
Media ponderada
x = (wX)
w
Dónde:
x = Media poblacional
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H
X = Representa cualquier valor particular
 = Indica la operación de adición
w = Indica el peso o número de repeticiones de cada valor
Por su parte la media geométrica es útil para encontrar el promedio de
porcentajes, proporciones, índices o tasas de crecimiento. Por su definición, la
media geométrica de un conjunto de n números enteros positivos es la n-ésima
raíz del producto de los n valores. La fórmula que se utiliza es la siguiente:
Media Geométrica
GM =
n
√ (X1) (X2) . . . (Xn)
Dónde:
GM = Media poblacional
X = Representa cualquier valor particular
n = Número de individuos en la población
Esta misma medida de tendencia aplicada a problemas de incremento porcentual
promedio es como sigue:
Incremento porcentual
Promedio en el tiempo
GM =
n
√ Valor al final del período
Valor al inicio del período
-1
2.4 Medidas de dispersión
Las medidas de dispersión se utilizan para obtener información complementaria a
las medidas de tendencia central y miden la forma como se distribuyen los datos
que integran una población o muestra. Así, el rango se basa en la localización de
los valores mayor y menor de un grupo de datos, y la varianza y la desviación
estándar en las desviaciones de cada uno de los datos que integran la población o
muestra con respecto de su media.
2.4.1 Varianza
La varianza es una de las medidas de tendencia central más reportadas, y como
ya se mencionó, se basa en la diferencia entre el valor de cada observación y la
media.
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H
En términos conceptuales la varianza es la media aritmética de las desviaciones
de la media elevadas al cuadrado.
Cuando lo que se calcula es la varianza de una población, ésta se representa con
la letra griega “σ2” (elevada al cuadrado), y cuando lo que se calcula es la varianza
de una muestra se representa con la letra “s2” (también elevada al cuadrado). Las
fórmulas para calcular cada una son como sigue:
Varianza poblacional σ2 =
Varianza muestral
s2 =
Σ ( X – μ )2
N
Σ ( X – x )2
n -1
(fórmula conceptual)
ΣX
Varianza muestral
2–
( Σ X )2
2
s =
(fórmula para cálculos)
n
n -1
Es importante resaltar que la fórmula de la varianza muestral para cálculos tiene la
ventaja de que no se necesita calcular la media para obtenerla.
2.4.2 Desviación estándar
La varianza tiene la desventaja de que sus valores son difíciles de interpretar ya
que están expresados en la unidad de medida de los datos que integran la
población o muestra al cuadrado (p.e. litros al cuadrado, metros al cuadrado, años
al cuadrado, etc.) Resulta obvio pensar que al calcular la raíz cuadrada de la
varianza obtendremos valores expresados en la misma unidad de medida de que
los datos que nos interesan.
De este modo, una definición formal de la desviación estándar es la raíz cuadrada
positiva de la varianza.
Las fórmulas que se utilizan para calcularla se pueden simplificar entonces en las
siguientes expresiones:
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H
Desviación estándar poblacional σ =
√
σ2
Desviación estándar muestral s =
√
s2
2.4.3 Cuartiles, deciles y percentiles
La varianza y la desviación estándar son las medidas de dispersión más
ampliamente utilizadas, sin embargo, hay otras maneras de describir la dispersión
de un conjunto de datos. Un método consiste en determinar la localización de los
valores que dividen al conjunto de datos en partes iguales (cuartiles, deciles y
percentiles, por ejemplo).
Los cuartiles dividen a un conjunto de observaciones en cuatro partes iguales. El
primer cuartil al que se llama Q1 es el valor por debajo del cual se encuentra el
25% de las observaciones, el segundo cuartil o Q 2 es la mediana, y el tercer cuartil
o Q3 es el valor por debajo del cual se encuentra el 75% de las observaciones. Así,
los valores de Q1, Q2, y Q3 dividen a un grupo de datos en cuatro subgrupos
iguales, donde Q1 se podría considerar la mediana de la mitad inferior de os datos
y Q2 como la mediana de la mitad superior de los datos.
De manera similar, los deciles dividen a un grupo de datos en diez partes iguales y
los percentiles en 100 partes iguales. Un criterio para la selección de cuartiles,
deciles o percentiles es comúnmente el tamaño de la población o muestra.
La fórmula que se utiliza para calcular la posición percentil es la siguiente:
Posición de un percentil
Lp = ( n + 1 )
Donde:
P = posición percentil que buscamos
n = número de observaciones
P
100
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H
En los casos en los que fórmula da como resultado un número no entero, la
posición del cuartil se reportará moviéndose en la proporción de la fracción
resultante entre las posiciones correspondientes.
2.5 Asimetría y curtosis
La asimetría se refiere al grado de simetría que guarda la distribución de un
conjunto de datos y se mide con el coeficiente de asimetría de Pearson.
Coeficiente de asimetría de Pearson
Sk = 3 ( μ – Md )
σ
Cuando Sk = 0, se dice que la distribución es simétrica y μ = Md = Mo
Cuando Sk < 0, se dice que la distribución tiene sesgo negativo y μ < Md < Mo
Cuando Sk > 0, se dice que la distribución tiene sesgo positivo y Mo < Md < μ
Por otra parte, la curtosis es el grado de apuntamiento de una distribución. El
coeficiente de curtosis se puede calcular algebraicamente como:
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H
Coeficiente de Curtosis C =
1
2
( Q3 – Q1 )
( P90 – P10 )
Cuando C tiende a ser 0.5 se dice que la distribución es leptocúrtica. Otras
características de esta distribución son que la desviación estándar es pequeña, (
Q3 – Q1 ) tiende a ser igual a ( P90 – P10 ) y se observa un alto apuntalamiento
de los datos.
Cuando C tiende a ser 0 se dice que la distribución es platicúrtica. Otras
características de esta distribución son que la desviación estándar es grande, (
P90 – P10 ) tiende a ser mayor que ( Q3 – Q1 ) y se observa una distribución
aplanada.
Cuando C tiende a ser 0.25 se dice que la distribución es mesocúrtica. Otras
características de esta distribución son que la desviación estándar es moderada y
se observa una distribución con apuntalamiento moderado.
Universidad Panamericana
Estadística I
Prof. Andrés Sandoval H
2.6 Regla Empírica y Teorema de Tcheby Sheff
El teorema de Tcheby Sheff permite determinar la proporción mínima de valores
que están dentro de un número específico de desviaciones estándar alrededor de
la media.
Dicho de manera formal: en cualquier conjunto de observaciones la proporción de
los valores que queda dentro de “k “ desviaciones estándar de la media es por lo
menos 1 – 1 / k2 donde “k” es una constante mayor a uno.
Una de las ventajas del teorema de Tcheby Sheff es que se puede aplicar a
cualquier grupo de datos independientemente de la forma de su distribución. Sin
embargo, en la práctica se ve que muchos grupos de datos tienen una distribución
normal o en forma de campana, en estos casos se puede aplicar la regla
empírica para conocer el número de casos que están entre un determinado
número de desviaciones estándar.
La regla empírica establece que para datos con distribución en forma de campana:
o Aproximadamente 68% de los elementos están a menos de una desviación
estándar de la media.
o Aproximadamente 95% de los elementos están a menos de dos
desviaciones estándar de la media.
o Casi todos los elementos están a menos de tres desviaciones estándar de
la media.