Download Medidas de Dispersión - Varianza y Desviación

Document related concepts

Parámetro estadístico wikipedia , lookup

SPSS wikipedia , lookup

Curtosis wikipedia , lookup

Desviación típica wikipedia , lookup

Asimetría estadística wikipedia , lookup

Transcript
Medidas de Dispersión - Varianza y Desviación
Así como las medidas de tendencia central nos permiten identificar el punto central de los
datos, las Medidas de dispersión nos permiten reconocer que tanto se dispersan los datos
alrededor del punto central; es decir, nos indican cuanto se desvían las observaciones
alrededor de su promedio aritmético (Media). Este tipo de medidas son parámetros
informativos que nos permiten conocer como los valores de los datos se reparten a través de
eje X, mediante un valor numérico que representa el promedio de dispersión de los datos. Las
medidas de dispersión más importantes y las más utilizadas son la Varianza y la Desviación
estándar (o Típica).
1. VARIANZA
Esta medida nos permite identificar la diferencia promedio que hay entre cada uno de los
valores respecto a su punto central (Media ). Este promedio es calculado, elevando cada una
de las diferencias al cuadrado (Con el fin de eliminar los signos negativos), y calculando su
promedio o media; es decir, sumado todos los cuadrados de las diferencias de cada valor
respecto a la media y dividiendo este resultado por el número de observaciones que se tengan.
Si la varianza es calculada a una población (Total de componentes de un conjunto), la
ecuación sería:
Ecuación 1
Donde ( ) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa la
media poblacional y (N) es el número de observaciones ó tamaño de la población. En el caso
que estemos trabajando con una muestra la ecuación que se debe emplear es:
Ecuación 2
Donde ( s 2 ) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa la
media de la muestra y (n) es el número de observaciones ó tamaño de la muestra. Si nos
fijamos en la ecuación, notaremos que se le resta uno al tamaño de la muestra; esto se hace
con el objetivo de aplicar una pequeña medida de corrección a la varianza, intentando hacerla
más representativa para la población. Es necesario resaltar que la varianza nos da como
resultado el promedio de la desviación, pero este valor se encuentra elevado al cuadrado.
2. Desviación estándar o Típica
Esta medida nos permite determinar el promedio aritmético de fluctuación de los datos
respecto a su punto central o media. La desviación estándar nos da como resultado un valor
numérico que representa el promedio de diferencia que hay entre los datos y la media. Para
calcular la desviación estándar basta con hallar la raíz cuadrada de la varianza, por lo tanto su
ecuación sería:
s  s2
Ecuación 3
Para comprender el concepto de las medidas de distribución vamos a suponer que el gerente
de una empresa de alimentos desea saber que tanto varían los pesos de los empaques (en
gramos), de uno de sus productos; por lo que opta por seleccionar al azar cinco unidades de
ellos para pesarlos. Los productos tienen los siguientes pesos (490, 500, 510, 515 y 520)
gramos respectivamente.
Por lo que su media es:
La varianza sería:
Por lo tanto la desviación estándar sería:
Con lo que concluiríamos que el peso promedio de los empaques es de 507 gramos, con una
tendencia a variar por debajo o por encima de dicho peso en 12 gramos. Esta información le
permite al gerente determinar cuanto es el promedio de perdidas causado por el exceso de
peso en los empaques y le da las bases para tomar los correctivos necesarios en el proceso de
empacado.
Medidas de Distribución - Asimetría y Curtosis
Las medidas de distribución nos permiten identificar la forma en que se separan o aglomeran
los valores de acuerdo a su representación gráfica. Estas medidas describen la manera como
los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen dentro de la
información. Su utilidad radica en la posibilidad de identificar las características de la
distribución sin necesidad de generar el gráfico. Sus principales medidas son la Asimetría y la
Curtosis.
3. ASIMETRÍA
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor
del punto central (Media aritmética). La asimetría presenta tres estados diferentes [Fig.1],
cada uno de los cuales define de forma concisa como están distribuidos los datos respecto al
eje de asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se
encuentran por encima del valor de la media aritmética, la curva es Simétrica cuando se
distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y se
conoce como asimetría negativa cuando la mayor cantidad de datos se aglomeran en los
valores menores que la media.
Figura 1
El Coeficiente de asimetría, se representa mediante la ecuación matemática,
Ecuación 1
Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de los valores, ( )
la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta ecuación se
interpretan:



(g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe aproximadamente la
misma cantidad de valores a los dos lados de la media. Este valor es difícil de conseguir por
lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos (± 0.5).
(g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a reunir más
en la parte izquierda que en la derecha de la media.
(g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden a reunir más
en la parte derecha de la media.
Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la distancia que
separa la aglomeración de los valores con respecto a la media.
4. CURTOSIS
Esta medida determina el grado de concentración que presentan los valores en la región
central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe
una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó
una baja concentración (Platicúrtica).
Figura 2
Para calcular el coeficiente de Curtosis se utiliza la ecuación:
(Ecuacion 2
Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( ) la media de
la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se interpretan:



(g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es bastante difícil
encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar los
valores cercanos (± 0.5 aprox.).
(g2 > 0) la distribución es Leptocúrtica
(g2 < 0) la distribución es Platicúrtica
Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un
coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de suma
importancia ya que para la mayoría de los procedimientos de la estadística de inferencia se
requiere que los datos se distribuyan normalmente.
La principal ventaja de la distribución normal radica en el supuesto que el 95% de los valores
se encuentra dentro de una distancia de dos desviaciones estándar de la media aritmética
(Fig.3); es decir, si tomamos la media y le sumamos dos veces la desviación y después le
restamos a la media dos desviaciones, el 95% de los casos se encontraría dentro del rango que
compongan estos valores.
Figura 3
Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña introducción a las
principales medidas de Estadística Descriptiva; es de gran importancia que profundicen en
estos temas ya que la principal dificultad del paquete SPSS radica en el desconocimiento de
los conceptos estadísticos.
Las definiciones plasmadas en este capítulo han sido extraídas de los libros Estadística para
administradores escrito por Alan Wester de la editorial McGraw-Hill y el libro Estadística y
Muestreo escrito por Ciro Martínez editorial Ecoe editores (Octava edición).
Procedimiento Descriptivos de SPSS
El procedimiento Descriptivos muestra estadísticos de resumen univariados para varias
variables en una única tabla y a su vez, calcula valores tipificados (puntuaciones z). Las
variables se pueden ordenar por el tamaño de sus medias (en orden ascendente o
descendente), alfabéticamente o por el orden en el que se seleccionen las variables (el valor
por defecto).
Cuando se guardan las puntuaciones z, éstas se añaden a los datos del Editor de datos y
quedan disponibles para los gráficos, el listado de los datos y los procedimientos análisis.
Cuando las variables se registran en unidades diferentes (por ejemplo, producto interior bruto
per cápita y porcentaje de alfabetización), una transformación de puntuación z pondrá las
variables en una escala común para poder compararlas visualmente con más facilidad. Desde
luego, estos parámetros (Puntuaciones z), son útiles únicamente en el análisis de inferencia de
la información.
Para comprender los alcances del procedimiento Descriptivos, vamos a generar un ejemplo
con las variables Edad del encuestado (Edad) y Años estudiados (Educaños). Para activar el
procedimiento debemos ir al menú Analizar.. Estadísticos descriptivos y seleccionar la opción
Descriptivos... [Fig. 1], al hacer clic sobre ella aparece el cuadro de diálogo correspondiente
[Fig.2]. Este cuadro tiene una gran semejanza con el empleado en el procedimiento
frecuencias, con la diferencia que solo cuenta con un botón de opción y además nos ofrece la
posibilidad de guardar los valores tipificados como variables para lo cual crea y guarda una
variable de puntuaciones-z para cada variable seleccionada. Se crean nuevos nombres de
variable anteponiendo la letra z a los primeros siete caracteres del nombre original de la
variable, por el momento no profundizaremos en este tema ya que su aplicación esta definida
para el análisis inferencial de los datos.
Figuras 1, 2 y 3
Al igual que en la mayoría de los cuadros de diálogo de los diferentes procedimientos del
paquete, lo primero que debemos hacer es ubicar las variables de interés en el listado de
variables y posteriormente llevarlas hasta la casilla de selección. Una vez definidas las
variables hacemos clic en el botón Opciones con lo que aparecerá el cuadro de diálogo
correspondiente [Fig.4].
En este cuadro encontraremos todas las medidas del procedimiento, así como también las
opciones de orden. Por defecto el programa mantiene seleccionadas las opciones Media,
Desviación típica, Mínimo y Máximo, así como el orden de visualización de acuerdo a la lista
de variables. Para el ejemplo utilizaremos estas medidas pero además le solicitaremos la
varianza, la amplitud, el error típico de la media, la Curtosis y la asimetría, de manera que el
cuadro se vea como la figura 4.
Figuras 4
Una vez seleccionadas las opciones hacemos clic en el botón Continuar con lo que
volveremos al cuadro de diálogo principal. Para finalizar hacemos clic en el botón Aceptar
con lo que se realizan los cálculos de las medidas y las conclusiones son expuestas en el visor
de resultados de SPSS [5].
Figura 5
Por defecto, el programa genera una sola tabla en la que incluye los resultados de todas las
variables seleccionadas. Si nos fijamos en los resultados notaremos que la tabla se extiende en
forma horizontal debido a que ahora las variables se ubican en las filas y los estadísticos en
las columnas, lo cual nos impide observarla en su totalidad, para poder tener una mejor
comprensión de los resultados, en la siguiente lección vamos a cambiar el eje en el que se
encuentran cada uno de los factores, es decir vamos a ubicar las variables en el eje vertical y
los estadísticos en el eje horizontal, con lo que podremos mejorar la percepción de los
resultados.
Resultados Procedimiento Descriptivos de SPSS
Dado que los resultados de la tabla no se pueden apreciar fácilmente, vamos a emplear las
propiedades interactivas de los resultados de SPSS para modificar su forma, con el fin de
aclarar su interpretación. Para realizarlo, debemos activar primero la tabla haciendo doble clic
sobre ella, de modo que aparezca a su alrededor un marco de líneas entrecortadas y a su vez,
se presente la barra de herramientas de formato [6]. Una vez surge la barra de herramientas,
hacemos clic en el botón Controles de pivote ( ), ubicado al costado izquierdo de barra.
Figura 6
Si por algún motivo no aparece la barra de herramienta, SPSS nos ofrece la posibilidad de
abrir los controles de pivoteado a través del menú desplegable. Para realizarlo, basta con
hacer clic derecho sobre la tabla, con lo que surgirá el menú [Fig. 7]. Una vez se activa el
menú, ubicamos en él la opción Paneles de pivoteado y sucesivamente hacemos clic sobre
ella, de modo que emerja el cuadro de pivoteado [Fig.8]. Por defecto el programa ubica las
variables en la dimensión de las Filas, mientras que los Estadísticos y el Tipo de estadístico lo
ubica en la dimensión de las Columnas. El parámetro tipo de estadístico hace referencia si se
trata del estadístico o por el contrario se trata de su corrección (Error típico).
Figuras 7 y 8
Si ubicamos el puntero del ratón sobre cualquiera de los iconos, aparecerá una pequeña
leyenda informativa sobre el parámetro al que representa. Continuando con el ejemplo,
intercambiaremos en el panel de pivotado los parámetros que se encuentran en las Filas con
los que se encuentran en las Columnas. Para lograrlo, debemos hacer clic sobre los iconos
representativos de cada parámetro ( ) y manteniéndolo oprimido lo arrastramos hasta
ubicarlo en el eje deseado, en donde soltamos el clic de manera que el icono se incrusta de
forma fija en la nueva coordenada. Este proceso se debe realizar con cada uno de los
parámetros de la tabla, que para este ejemplo corresponden en las columnas (Estadísticos y
tipo estadístico) y en fila (Variables) ver [Fig.9].
Figura 9
Es de gran importancia mantener el orden estricto de las variables ya que de lo contrario
obtendremos un formato de tabla distinto; para evitar este inconveniente es necesario ubicar el
parámetro Estadístico antes que el parámetro Tipo de estadístico. Estos temas serán
explorados a profundidad en el capítulo 8, por lo que no haremos una explicación más amplia
de los elementos. Una vez realizado el cambio de coordenadas para cada uno de los
parámetros, obtendremos como resultado la tabla ordenada en forma vertical, con las
variables en las Columnas y los estadísticos en las Filas [Fig. 10]. Para finalizar el pivotado
basta con hacer clic en la parte externa de la tabla.
Figura 10
Si nos fijamos en la tabla observaremos que los resultados son muy similares a los obtenidos
con el procedimiento Frecuencias, con la diferencia que a través del procedimiento
Descriptivos se incluyen de forma automática para todas las medidas los errores típicos (sí
existen). Si observamos las etiquetas de las columnas, notaremos que aparece cada una de las
variables (Edad del encuestado y Años estudiados), pero además se anexa la columna N
válido (según lista), la cual identifica los valores validos para las dos variables.
Para calcular este valor, el programa exime los valores perdidos de las dos variables, dado que
en este caso los Años estudiados es la única variable que cuenta con valores perdidos, el
programa sólo exime los cuatro valores perdidos de esta variable. Por otro lado, si
observamos las filas notaremos que cada una de las medidas define una fila y a su vez cada
medida incluye el valor del estadístico y el valor del error típico. Por último notaremos que
este procedimiento no realiza ningún tipo de gráfico de forma automática, lo que nos implica
que si deseamos obtenerlo, es necesario realizarlo mediante los procedimientos gráficos con
que cuenta SPSS.
Si por algún motivo llegamos a encontrarnos con un termino estadístico dentro de los
resultados que desconozcamos o sencillamente no recordemos, SPSS nos permite obtener
información referente a ellos simplemente haciendo doble clic sobre la tabla de forma que se
active el recuadro; una vez activo hacemos clic derecho sobre el termino que deseamos
conocer, de modo que aparezca el menú desplegable [Fig. 11] y posteriormente seleccionar
dentro de el menú la opción Asesor de resultados con lo cual aparecerá una nueva ventana del
Tutorial, en donde encontraremos una leyenda que nos informa su significado [Fig. 12].
Figuras 11 y 12
Debemos recordar que este sistema de ayuda esta basado en ventanas múltiples lo cual nos
garantiza que obtendremos diversa información acerca del elemento deseado. Para poder
explorar la mayoría de las ventanas de esta ayuda, debemos emplear los botones que aparecen
al costado inferior derecho; para avanzar de página debemos hacer clic en el botón Siguiente
( ); si por el contrario deseamos devolvernos una página, entonces debemos oprimir el botón
Anterior ( ). A través del botón Índice ( ) regresaremos a la tabla de contenido del sistema
de ayuda y a su vez con el botón Buscar ( ), podemos ubicar una palabra en los diferentes
contenidos de la ayuda.
En conclusión el procedimiento Descriptivos nos permite obtener los estadísticos de resumen
para varias variables de escala, agrupando los resultados en una sola tabla, con la ventaja que
nos permite obtener y guardar los valores tipificados (puntuaciones z), lo cual es de gran
utilidad para los análisis de inferencia. Su principal desventaja radica en el reducido número
de estadísticos que podemos seleccionar, así como en la imposibilidad de generar un gráfico
con el procedimiento.