Download Notas de Estadistica

Document related concepts

Nivel de medida wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Histograma wikipedia , lookup

Media (matemáticas) wikipedia , lookup

Transcript
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
I. INTRODUCCIÓN. ................................................................................................................................................................... 2
MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN. ..................................................................................................... 2
EVALUANDO MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN. ........................................................................ 3
II. NIVELES DE MEDICIÓN. ...................................................................................................................................................... 5
ESCALAS NOMINALES. ....................................................................................................................................................... 5
TABLA 2.1. DISTRIBUCIÓN DE CRÍMENES ....................................................................................................................... 7
ESCALAS ORDINALES. ....................................................................................................................................................... 8
ESCALAS MÉTRICAS. ......................................................................................................................................................... 9
VARIABLES DICOTÓMICAS. ............................................................................................................................................. 11
REGLAS DE CATEGORIZACIÓN. ...................................................................................................................................... 12
APÉNDICE: NOTACIÓN SUMATORIA. .............................................................................................................................. 12
III. MEDIDAS DE CENTRO. ..................................................................................................................................................... 14
MODA.................................................................................................................................................................................. 14
La moda para datos métricos agrupados. ........................................................................................................................... 17
MEDIANA. ........................................................................................................................................................................... 19
La mediana para datos ordinales. ....................................................................................................................................... 19
La mediana para datos métricos. ........................................................................................................................................ 20
La mediana para datos métricos agrupados. ...................................................................................................................... 21
LA MEDIA ARITMÉTICA. .................................................................................................................................................... 22
La media para datos métricos. ............................................................................................................................................ 22
La media para datos métricos agrupados. .......................................................................................................................... 24
La media para datos dicotómicos. ....................................................................................................................................... 27
DISCUSIÓN. ....................................................................................................................................................................... 28
Comparación de la media, la mediana y la moda. ............................................................................................................... 28
Propiedades matemáticas de las medidas de centro. ......................................................................................................... 30
Otras medidas de centro basadas en valores ordinales. ..................................................................................................... 30
OTRAS MEDIAS. ................................................................................................................................................................ 31
La media geométrica. .......................................................................................................................................................... 32
Media armónica. .................................................................................................................................................................. 34
Media generalizada. ............................................................................................................................................................ 35
Resumen. ............................................................................................................................................................................ 36
IV. MEDIDAS DE DISPERSIÓN .............................................................................................................................................. 37
DESVIACIÓN ESTÁNDAR Y OTRAS MEDIDAS DE DISPERSIÓN BASADAS EN DESVIACIONES. .............................. 37
La desviación media y sus variantes. .................................................................................................................................. 37
La varianza y la desviación estándar de una población. ..................................................................................................... 39
La varianza y la desviación estándar de una muestra. ........................................................................................................ 43
La varianza y la desviación estándar para datos métricos agrupados. ............................................................................... 44
La varianza y la desviación estándar para datos dicotómicos. ............................................................................................ 45
Coeficiente de variación. ..................................................................................................................................................... 45
Diferencia media de Gini. .................................................................................................................................................... 46
Resumen. ........................................................................................................................................................................... 46
USOS DE LA VARIANZA. ................................................................................................................................................... 47
Considerando valores inusuales. ........................................................................................................................................ 47
Evaluando la covariación entre variables. ........................................................................................................................... 48
La selección de variables. ................................................................................................................................................... 49
Fuentes de variabilidad. ...................................................................................................................................................... 49
MEDIDAS DE DISPERSIÓN BASADAS EN EL ORDEN. ................................................................................................... 50
Rango. ................................................................................................................................................................................ 50
El rango intercuartílico y sus variantes. ............................................................................................................................... 50
Generalizaciones útiles más allá de una sola variable. ....................................................................................................... 51
Gráficas de caja. ................................................................................................................................................................. 51
Desviación mediana absoluta. ............................................................................................................................................. 52
Resumen. ............................................................................................................................................................................ 53
MEDIDAS DE DISPERSIÓN BASADAS EN LA FRECUENCIA. ......................................................................................... 54
Razón de variación. ............................................................................................................................................................. 55
Índice de diversidad............................................................................................................................................................. 56
Índice de variación cualitativa. ............................................................................................................................................. 56
Entropía. .............................................................................................................................................................................. 57
Otras medidas. .................................................................................................................................................................... 58
Resumen. ............................................................................................................................................................................ 58
DISCUSIÓN. ....................................................................................................................................................................... 58
Comparaciones entre las medidas de dispersión. ............................................................................................................... 58
Propiedades matemáticas de las medidas de dispersión .................................................................................................... 60
Resumen. ............................................................................................................................................................................ 61
1 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
I. INTRODUCCIÓN.
"La diversidad es la sazón de la vida" o, como dice el Francés, "vive la différence". Los estadistas concuerdan:
el estudio de la diversidad y diferencias es de lo que trata la Estadística. El término estadístico para esto es
"variación". Por ello, la estadística es algunas veces llamada la "ciencia de la variación". El concepto de
variación enfatiza que una variable interesante es aquella que varía, de tal modo que no todas las
observaciones tienen el mismo resultado para la variable.
Si el Francés parece cautivado por "la différence", el Americano parece más fascinado con "lo típico".
Queremos saber qué hace y piensa la gente típica, tal vez porque nosotros podemos estar seguros de no ser
inusuales en nuestros acciones y actitudes. Los estadistas ponen atención en la medida de lo que es típico. El
término estadístico para ello es "tendencia central" o, más simple, "centro". La variación hace énfasis en las
diferencias en tanto el centro enfatiza lo típico.
Esta monografía explica cómo medir el centro y la variación de una sola variable, como un antecedente
para ser capaz de estudiar interrelaciones más complejas entre variables. Juntando el centro y la variación, en
estas páginas se hace hincapié en que ninguna es suficiente por sí misma, es necesario entender ambas.
MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN.
En realidad hay una serie de cuestiones estadísticas que pueden ser preguntadas cuando se analiza una
variable. La primera es ¿cómo puede medirse la variable?. Las variables pueden ser medidas a través de
diferentes propiedades numéricas o no numéricas, y esto debe ser entendido antes de iniciar el análisis
estadístico. Esta preocupación es discutida en términos de "niveles de medición", y se explica en el Capítulo 2.
La siguiente pregunta estadística acerca de una variable es ¿qué tipo de distribución tienen sus
valores?. El resumen estadístico de una variable debe incluir el examen de su distribución, especialmente en
forma gráfica. El Capítulo 2, muestra también algunas formas de examinar distribuciones de variables.
La tercera pregunta estadística acerca de una variable es ¿qué resultado típico se encuentra en ella?.
Esto es lo que llamaremos el centro o tendencia central de la variable. Los promedios son el ejemplo más
familiar de los estadísticos de tendencia central. Las medidas de centro también son llamadas medidas de
"localización" o "valores representativos". Un sólo número no puede hacer justicia a la descripción de una
variable sobre la cual diferentes casos tienen diferentes valores, pero una medida de centro es un punto inicial
útil para resumir variables. El Capítulo 3 explica una serie de medidas de centro.
Pensando en términos de un valor típico de una variable llama la atención inmediatamente a la cuarta
pregunta: ¿Qué tan típico es el valor típico?. Esto lleva a la medida de la dispersión de una variable a fin de ver
cuánto los casos difieren en la variable. Esto es también llamado la "variación" en una variable, su "dispersión"
o su amplitud. El capítulo 4 explica las medidas de dispersión.
La quinta pregunta surge cuando una muestra es estudiada pero el investigador desea describir una
"población" más grande: ¿Cómo generalizar los resultados de la muestra a la población?. La aplicabilidad de la
distinción entre muestras y poblaciones a medidas de centro y de dispersión será presentada en el Capítulo 5.
Una vez que la cantidad de variación en una variable ha sido medida, otras preguntas estadísticas
pueden hacerse acerca de ella. Pueden compararse grupos para determinar cuál varía más, las variables
pueden ser comparadas para verificar que tan similares son sus valores, las diferencias en una variable pueden
ser analizadas para ver si corresponden a diferencias en posibles variables explicativas. Los Capítulos 4 y 5
introducen estos tópicos, mostrando formas en las cuales el concepto de variación se usa en la práctica.
Los niveles de medición, la distribución de las variables, las medidas de centro y las medidas de
dispersión son temas íntimamente ligados. El nivel de medición de una variable ayuda a determinar la forma
apropiada de resumir su distribución, así como el uso de las adecuadas medidas de centro y de dispersión. La
variación mide la dispersión alrededor del valor típico de una variable y la generalización de muestras a
2 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
poblaciones está basada en la variación de la variable. En estos sentidos, los Capítulos 2 al 5 están fuertemente
relacionados.
Los tópicos tratados en esta monografía se refieren a lo más antiguo en estadística. Además de las
maneras clásicas de verlos, hay algunas nuevas formas; en particular, ha habido un movimiento en estadística
aplicada hacia el "análisis exploratorio de datos", usualmente a abreviado como EDA. Este análisis enfatiza la
familiarización con los datos más que el sólo cálculo de uno o dos estadísticos de resumen. En parte la
diferencia es de estilo: el estilo del EDA ha asumido nuevas frases tales como medidas de centro y medidas de
dispersión y, adicionalmente, la escuela del EDA a propuesto nuevas medidas de centro y de dispersión. Esta
monografía introduce las dos perspectivas: la clásica y la del EDA.
EVALUANDO MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN.
Al tratar con la tendencia central y la dispersión veremos que existen una serie de medidas alternativas. ¿Qué
consideraciones afectan la elección entre diferentes alternativas en las medidas?. El primer criterio es que la
medida sea:
1. Apropiada para el nivel de medición de la variable.
Este criterio es explicado en el Capítulo 2. Sin embargo, frecuentemente existe una serie de medidas que
pueden ser usadas dentro del mismo nivel de medición, por lo que deben hacerse elecciones de entre éstas.
Otra forma de preguntar esto es: a una cierta medida, ¿qué la hace un buen estadístico descriptivo?.
Durante los años se han propuesto muchas propiedades deseables para los estadísticos de resumen; Yule y
Kendall (1968: 103-104) establecen que un promedio debe estar:
2. "Rígidamente definido" más que sólo aproximado,
3. Basado en todas las observaciones,
4. Simple y comprensible,
5. Calculado con facilidad,
6. Expresado en términos algebraicos, y
7. Robusto (poco afectado por fluctuaciones entre muestras).
Aunque ninguno de estos criterios es absoluto, éstos son útiles para escoger y evaluar medidas de
tendencia central y de dispersión.
Otras seis propiedades adicionales para los estadísticos son:
8. Único, más que multivaluado;
9. Generalizable a dos o más variables;
10. Resistente a datos raros (no sobre-afectado por casos extremos);
11. No sobre-afectado por combinaciones de categorías;
12. Definido aún cuando la variable tenga categorías con intervalos abiertos; y
13. Igual a los valores reales de los datos, o al menos en su propia métrica.
3 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Como las medidas se describen en los Capítulos 3 y 4, se hará mención cuando un estadístico cumpla
con algunos de estos criterios o sea débil en alguno de ellos.
La distinción entre poblaciones y muestras lleva a otros tres criterios para evaluar las estimaciones
muestrales:
14. Consistente para muestras grandes,
15. Insesgado para muestras pequeñas, y
16. Eficiente cuando es comparado con otros posibles estimadores.
Estos últimos criterios son demasiado técnicos y se considerarán hasta el final de esta monografía.
Ningún estadístico es ideal de acuerdo a todos los 16 criterios, es necesario decidir cuáles criterios son
los más importantes en la situación real de análisis de datos que se enfrente. Más aún, varias medidas podrán
ser útiles para el mismo juego de datos dado que cada una es efectiva en mostrar diferentes aspectos de los
datos.
4 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
II. NIVELES DE MEDICIÓN.
Un punto de inicio necesario en análisis estadístico es entender las propiedades de la medición de los datos.
Esto es usualmente discutido en términos de cada "nivel de medición" de la variable. La medición en sí puede
ser definida como el proceso de asignación de etiquetas o valores a las observaciones. Hay diferentes tipos de
procesos de asignación, resultando en variables con diferentes propiedades matemáticas.
Se distinguen diferentes niveles de medición, pero nosotros encontraremos útil dividir las variables en
tres tipos: Nominales, ordinales y métricas. Las variables nominales consisten en una serie de categorías sin
orden, como cuando se clasifica la religión de una persona en protestante, católico, judío, y así sucesivamente.
La variable es ordinal cuando existe un orden en las categorías, pero no hay una unidad real de medición. Las
variables métricas son aquellas para las cuales las categorías son intrínsecamente numéricas, como la edad de
una persona.
Distinguiremos una situación posterior en la medición: los datos dicotómicos. Una variable dicotómica
tiene sólo dos categorías, como cuando uno trata con el género de una persona. Como veremos, las
consideraciones usuales para los niveles de medición no se ajustan totalmente para cada variable.
El nivel de medición de una variable es importante porque limita así los estadísticos que pueden ser
apropiadamente usados sobre la variable. Por ejemplo, los valores pueden ser sumados y promediados
significativamente sólo para datos estrictamente métricos. Las variables nominales no pueden ser sumadas y
promediadas y usualmente es mejor no sumar y promediar las variables ordinales. Similarmente, el valor de los
casos centrales no puede ser examinado para variables nominales cuyas categorías no siguen un orden.
Deberían impedirse los análisis numéricos de variables ordinales dado que éstas son no numéricas. Sin
embargo, sus categorías ordenadas presumiblemente reflejan una continuidad subyacente en el concepto y
esto provoca la tentación de moverse de una variable ordinal hacia una variable métrica. Se regresará a esta
discusión en varios puntos de la monografía.
El nivel de medición de una variable debe ser considerado antes de desarrollar un análisis estadístico
sobre ella, e incluso antes de la colección de los datos. En la etapa del análisis, aplicar técnicas estadísticas
que requieren datos métricos a variables nominales sería una falacia. En la etapa de la recolección de datos, las
versiones métricas de variables deberían ser obtenidas, si es posible, más que las versiones no métricas, si es
que se planea un análisis a nivel métrico. Estas implicaciones pueden ser bien entendidas explicando cada nivel
de medición con mayor detalle.
ESCALAS NOMINALES.
El nivel más bajo de medición involucra sólo categorías, sin orden entre ellas. Las variables medidas en
esta forma son llamadas "variables nominales". Por ejemplo, la región de un país en la cual vive una persona
(norte, sur, este, oeste) es una variable nominal. Estas regiones son sólo categorías sin ningún orden y sin
propiedades realmente numéricas.
Se pueden asignar números a las variables nominales, ya que facilitan su análisis en la computadora.
Así, las regiones podrían ser codificadas como 1=norte, 2=sur, 3=este y 4=oeste. Sin embargo, éstos son sólo
números arbitrarios. De la misma manera podríamos haber codificado con 300=norte, 20=sur, 4000=este y
1=oeste, dado que no hay un orden significativo en las categorías.
Algunas variables nominales tienen categorías numeradas, si los números son asignados para etiquetar
las categorías, pero el orden numérico no corresponde a una propiedad de los objetos. En estas condiciones, la
variable es todavía nominal. Los números de seguro social son un ejemplo de números usados para etiquetar
categorías. Puede haber algún sistema para asignarlos, pero no está basado en un principio simple de
ordenación. A nadie le importa si su número de seguro social es menor que el de otra persona porque estos
números no miden cuánto de una propiedad ordenada posee el objeto.
5 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Como se verá en el Capítulo 3 y 4, hay medidas de centro y dispersión que han sido desarrolladas para
variables nominales, con base en las frecuencias relativas de las observaciones en cada categoría.
Antes de calcular resúmenes estadísticos de variables es importante examinar sus distribuciones. Una
manera de hacerlo es presentando la distribución de frecuencia de la variable. Cada categoría es listada con su
correspondiente frecuencia (el número de observaciones que cae dentro de dicha categoría). La notación que
se usará para la frecuencia de la última categoría, se representará con la letra "k" y se escribirá fk. El número
total de casos será denotado con "N". Nótese que la suma de las frecuencias de cada categoría separada debe
ser igual al número total de observaciones. El símbolo Σ (la letra griega sigma) es comúnmente usada para
representar una suma (con un subíndice para mostrar que la suma es sobre todos los posibles valores
diferentes de k; esto es, sobre todas las categorías). Usando esta notación (explicada más adelante en el
apéndice de este capítulo),
n
N= fk
k =1
Algunas veces es útil mostrar la proporción de casos que caen dentro de una categoría particular "k". Esta
proporción será denotada por pk. Una proporción es el número de casos en la categoría, dividida por el número
total de casos:
pk =
fk
N
Nótese que las proporciones de las diferentes categorías de una variable siempre sumaran uno. Después
de todo,
n
 fk   1  n
1
p

     f k    N  1


k
 N  k 1
N
k 1
k 1  N 
n
Finalmente, la distribución de una variable puede ser representada por una distribución de porcentajes,
que muestra el porcentaje de los casos que caen en cada categoría. Los porcentajes son justamente las
proporciones multiplicadas por cien. Una distribución de porcentajes siempre deberá sumar 100%.
6 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
TABLA 2.1. DISTRIBUCIÓN DE CRÍMENES
_________________________________________________________________
VARIABLE
DISTRIBUCIÓN
CRIMEN
DISTRIBUCIÓN
DE LA VARIABLE EN DE LA VARIABLE EN
FRECUENCIA
PORCENTAJE
----------------------------------------------------------------------------------------------C
Homicidio
10,000
5
A
Violación
20,000
10
T
Robo
E
Asalto
60,000
30
G
Allanamiento
70,000
35
40,000
20
O
Mayor
30,000
15
R
Menor
40,000
20
--------------------------------------------------------------------------------------------Total
200,000
CINCO CATEGORÍAS MAYORES
ESTADÍSTICO
ALLANAMIENTO
100
ALLANAMIENTOSUBDIVIDIDO
ASALTO
------------------------------------------------------------------------------------------Razón de variación
0.650
0.700
Índice de diversidad
0.735
0.795
I. de variación cualit.
0.919
0.954
Entropía
Entropía estandarizada
2.064
0.889
2.409
0.932
Como ejemplo, considérense los datos de la Tabla 2.1 que muestra las frecuencias de diferentes
crímenes en una ciudad donde se reportaron 200,000 crímenes en una año. Las frecuencias se muestran en la
segunda columna y los porcentajes correspondientes en la tercera columna. De acuerdo con estos datos, el
35% de los crímenes fueron allanamiento, 30% asaltos, 20% robos, 10% violaciones y 5% homicidios.
7 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Las distribuciones de frecuencia pueden ser presentadas de manera efectiva en gráficas; la más común de
todas ellas es la gráfica de barras, como se muestra en la Figura 2.1, Sección A. Cada categoría se representa
con una barra vertical cuya altura muestra la frecuencia de la categoría. Un diagrama relacionado es una
gráfica circular, como se muestra en la Figura 2.1, Sección B. El círculo unitario es dividido en una serie de
piezas, en donde el tamaño de la rebanada representa la proporción de casos que caen en cada categoría.
Dado que la variable es nominal, el orden de las categorías para estos gráficos es arbitrario y por lo tanto no
debe sobreinterpretarse.
Sección A: Barras para crímenes
reportados
80000
60000
40000
20000
0
Homicidio
Violación
Robo
Asalto
Allanam
Sección B: Gráfica circular para crímenes reportados
5%
10%
35%
20%
Frecuencia
Homicidio
Violación
Robo
Asalto
Allan
30%
ESCALAS ORDINALES.
Algunas variables no numéricas tienen un orden para sus categorías, estas son llamadas variables
ordinales. Por ejemplo, en los hospitales se describe la condición de los pacientes como "descansando y
confortable", "estable", "vigilado" o "crítico". Estas categorías son ordenadas pero no numéricas. Nótese
especialmente que los intervalos entre estas categorías no son necesariamente iguales, podría haber sólo una
pequeña diferencia entre describir la condición de un paciente como "confortable" y como "estable", en
contraste con una gran diferencia al calificarlo de "vigilado" o "crítico". Dado que los intervalos entre categorías
no son necesariamente iguales, esto es solamente una medición ordinal.
Los números son frecuentemente asignados a datos ordinales para facilitar su almacenaje y análisis en
una computadora, pero esto no los convierte en datos realmente numéricos. Los números asignados a variables
ordinales pueden ser llamados "números de orden", porque sólo el orden importa. Como resultado, sumarlos o
aplicarles la mayoría de las operaciones aritméticas resulta inapropiado.
Un sistema común para anotar variables ordinales es llamado "notación entera": el número 1 es
asignado a la primer categoría, el 2 a la segunda y así sucesivamente. Pero aún después de la notación entera,
la variable es ordinal dado que las categorías, en realidad, no necesariamente tienen la misma distancia entre
ellas en el continuo de los números enteros.
8 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Un tipo importante de datos ordinales son los datos de rango. Por ejemplo, es una costumbre referirse
a las posiciones de los equipos deportivos en su liga, estas posiciones son numéricas, como tercero o cuarto en
la liga, pero éstos son sólo números de orden. Después de todo, el equipo del segundo lugar puede tener un
porcentaje de partidos ganados muy cercano al del tercer lugar, pero el del tercer lugar puede tener un
porcentaje de partidos ganados mucho mayor que el del cuarto lugar. De esta forma, al examinar las posiciones
de los equipos, hemos convertido en una escala ordinal a los porcentajes numéricos de partidos ganados por
cada uno de los equipos.
Se han desarrollado medidas especiales de tendencia central y de dispersión para datos ordinales,
éstas serán presentadas en los Capítulos 3 y 4.
Al tratar con datos ordinales, es importante entender la notación de un percentil. Un percentil aquella
categoría de la variable bajo la cual cae un cierto porcentaje de las observaciones, por ejemplo, el 50° percentil
es el valor bajo el cual caen el 50% de las observaciones; el 25° percentil (también llamado cuartil inferior), es el
valor bajo el cual caen el 25% de las observaciones; el 75° percentil (el cuartil superior) es el valor bajo el cual
caen el 75% de las observaciones; y así sucesivamente.
Las distribuciones de variables ordinales son presentadas con el mismo tipo de instrumentos que las
variables nominales.
ESCALAS MÉTRICAS.
Una variable métrica es aquella que tiene una unidad de medida, tales como pesos o centímetros.
Típicamente, las variables numéricas contestan a las preguntas de ¿cuánto? y )¿cuántos?. Por ejemplo, el
precio de los objetos es una variable métrica porque contesta a la pregunta de ¿cuánto cuesta el objeto?.
En realidad, hay dos grandes tipos de variables métricas: las de razón y las de intervalo. El nivel más
alto de medición es la escala de razón. Las variables de razón son numéricas, con una unidad definida de
medición y un punto cero real. Por ejemplo, la longitud es una variable de razón; es intrínsecamente numérica,
está definida una unidad de medida (como los centímetros) y tiene un punto cero real (cero centímetros).
El punto cero es esencial aquí. Debido al punto cero real es que los enunciados de razón pueden
hacerse, tales como el de que una persona tiene dos veces la altura de otra. Si tiene sentido considerar un valor
dos veces más grande que otro, entonces la variable es de razón. La multiplicación de una variable de razón
por una constante no destruye se carácter de razón, pero la suma de una constante sí lo hace (por ejemplo, sí
la hermana mayor es exactamente dos veces más alta que su hermano menor y si ambos crecen dos
centímetros, la razón de sus estaturas ya no se conserva como 2:1). Como resultado, las variables de razón
pueden, legítimamente, ser transformadas mediante la multiplicación, pero no por la suma.
Otras variables numéricas tienen una unidad de medición definida, pero carecen de un punto cero real;
éstas son llamadas variables de intervalo y como su más importante característica está el contar con
intervalos iguales entre valores sucesivos. El ejemplo usual para una variable de intervalo es la temperatura
medida en grados Fahrenheit o en grados Centígrados. La temperatura es intrínsecamente numérica y hay una
unidad definida de medición (el grado), pero el punto cero no es real porque cero grados Fahrenheit o
centígrados no significa ausencia de temperatura (la temperatura puede ser medida en una escala de razón, la
escala Kelvin, que se basa en un cero absoluto). Debido a lo anterior, 20 grados centígrados no representan
dos veces más calor que 10 grados centígrados. (Las tallas de los zapatos de los adultos es otro ejemplo de un
nivel de medición de intervalo).
Las unidades son de gran significado para las escalas de intervalo. Hay intervalos iguales, digamos,
entre 20 y 21 grados centígrados, al igual que entre 10 y 11; la cantidad de la propiedad que se está midiendo
(aquí calor), difiere en cada caso por el mimo monto, de ahí que los intervalos son reales. La multiplicación de
una variable de intervalo por una constante no destruye su carácter de intervalo, tampoco lo hace la suma de
una constante; como resultado, se les llama transformables por reglas lineales.
9 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Una complicación adicional para los datos métricos involucra al agrupamiento. Si una variable es
continua, entonces sus valores pueden ser fraccionarios, tales como una temperatura máxima diaria de 31.8765
grados. Más que presentar valores exageradamente precisos, es común agrupar los resultados en clases o
intervalos cuando se preparan presentaciones y análisis estadísticos, como cuando se dice que las
temperaturas máximas están por los 30 grados.
El agrupamiento de datos llama la atención hacia los límites de cada clase. Digamos, por ejemplo, que
las clases están dadas de 70-79, 80-89, etc ¿)dónde clasificar un dato como 79.7 en este agrupamiento?. Los
límites verdaderos o fronteras de una clase muestran de forma exacta dónde termina una clase y dónde inicia
la otra. Así, si a los limites inferiores se les resta 0.5 y a los superiores se les suma esta misma cantidad, las
clases quedarán expresadas como 69.5-79.5, 79.5-89,5, etc., por lo que el valor 79.5 forma parte de la última
clase enumerada, sin ninguna indecisión posible. Nótese que estas clases tienen una anchura o intervalo de
clase de 10, porque sus fronteras o límites reales están separados por 10 unidades; además, sus puntos
medios o marcas de clase son 74.5, 84.5, etc., es decir, el resultado de sumar la frontera inferior y la superior
de cada clase y después dividir entre 2.
Las gráficas son efectivas para representar distribuciones de variables métricas. Una de éstas es el
histograma, como el que muestra temperaturas diarias en la Figura 2.2, Sección A. Aquí, las áreas sobre las
clases y no la altura de las barras es lo que representa las frecuencias, ya sean directas o relativas. El área
total bajo el histograma es igual a 1, así, la proporción del área sobre el rango de valores muestra la proporción
de casos que caen dentro del rango. Una forma relacionada de presentación gráfica el polígono de
frecuencias, el cual se obtiene uniendo las marcas de clase en cada intervalo mediante una línea, como se
muestra en la Figura 2.2, Sección B. Esta gráfica es más suavizada que el histograma.
Un tipo de gráfica más moderna es el diagrama de tallo y hojas (mostrado en la Figura 2.2, Sección
C), el cual lista los valores reales de los datos al tiempo que muestra la forma de la distribución. El primer dígito
se encuentra a la izquierda de la línea; los valores de la derecha muestran los últimos dígitos de los datos. El
primer renglón muestra que 65° ocurre dos veces; el segundo, que 70°, 72° y 73° aparecen una sola vez. El
rango de los 70° ha sido dividido en dos categorías mediante renglones separados para valores de 70° a 74° y
de 75° a 79° (lo mismo para el rango de los 80°). Nótese de la figura 2.2 que es común el uso de agrupamiento
para histogramas, polígonos de frecuencia y el diagrama de tallo y hojas de variables métricas.
FIGURA 2.2
a). Diagrama de tallo y hojas, b). Histograma y c). Polígono de frecuencias para temperaturas.
6 | 55
7 | 023
7|
8 | 12
8 | 67
10 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
40
porcentaje
30
20
10
0
64
68
72
76
80
84
88
40
porcentaje
30
20
10
0
64
68
72
76
80
84
88
VARIABLES DICOTÓMICAS.
Muchas variables sociales son binarias, tales como si una nación participa en una guerra o no o si una
rata da vuelta a la izquierda o a la derecha en un laberinto. La distinción del nivel usual de medición importa
menos, para medir la tendencia central y la dispersión de dichas variables dicotómicas, que para otros datos.
Las variables dicotómicas pueden ser pensadas como nominales, con sólo dos categorías sin orden. O,
la variable puede ser vista como dos extremos de una variable ordinal. Por ejemplo, si una nación va a la guerra
o no, en cierto sentido
40
porcentaje
30
20
10
0
64
68
72
76
80
84
88
mide una variable ordinal subyacente acerca de la propensión de la nación a inmiscuirse en la guerra.
Las variables dicotómicas también son frecuentemente tratadas como métricas mediante la asignación
del valor 1 a una categoría (usualmente para marcar la presencia de algún atributo) y 0 para la otra categoría
(para marcar su ausencia). En estas circunstancias la variable es llamada ficticia (dummy). Como un ejemplo,
11 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
si el país fue o no a la guerra se puede anotar como 1/0, 1 cuando si va y 0 cuando no. Esta notación puede
parece arbitraria, pero no hay pérdida de generalidad.
La distribución para una variable dicotómica puede mostrarse dando la proporción de éxitos para una sola
observación; es decir la proporción de unos como puestos a la proporción de ceros. Esta proporción o
probabilidad es f1 (la frecuencia de los unos) dividida por el total del número de casos:
p=
f
f1
= 1-( 0 )
N
N
REGLAS DE CATEGORIZACIÓN.
Hay dos restricciones en la categorización que deben cumplirse a cualquier nivel de medición: Una
categorización apropiada debe ser mutuamente exclusiva y globalmente exhaustiva. La primera significa
que todos y cada uno de los casos deben caer en una sola categoría, en tanto que el segundo requerimiento
implica que todos los casos queden en algunas de las categorías, es decir, que ninguno de los datos quede
fuera de la clasificación. Una variable que consiste de categorías que no son mutuamente exclusivas o
globalmente exhaustivas debería ser revisada para hacer su categorización más consistente antes del análisis
estadístico.
El hacer una categorización exhaustiva frecuentemente requiere de incluir una o más categorías para
representar valores perdidos. Por ejemplo, en el caso de la colecta de datos sobre la enfermedad de las
personas, algunos hospitales no proveen información completa. Las categorías de datos perdidos son
generalmente omitidas del análisis estadístico, cuando éstas son irrelevantes.
APÉNDICE: NOTACIÓN SUMATORIA.
En varios lugares en el texto es necesario examinar las sumas de una serie de valores. La convención
usual es representar los valores separados por una letra para denotar la variable (como la x) y un subíndice
para mostrar el número de caso: 1 para el primer caso, 2 para el segundo y así sucesivamente hasta N, donde
N es el número total de casos. La suma de los valores de x se denota usando la letra griega sigma mayúscula.
La notación completa para representar la suma de todas las x, de x 1 a xN es:
N
 x = x + x + ...+ x
i
1
2
N
i=1
esto se lee como la sumatoria de los x sub i, de i igual a uno hasta N. Esto es frecuentemente escrito en forma
abreviada como Sxi, o de manera más simple como Sx
Algunas reglas de la sumatoria deben ser bien entendidas a fin de seguir sus derivaciones en el texto:
1. Las suma de una constante N veces es igual a N veces la constante:
N
 c = c + c + ...+ c = Nc
i=1
2. Si cada valor de x es multiplicado separadamente por la misma constante "c" (c puede ser el número
2 o cualquier otro número), su suma es la misma que multiplicar la suma de los valores de x por la
constante:
N
 cxi = cx1+ cx2 + ...+ cx N = c( x1+ x2 + ...+ x N
i=1
N
)= c  x
i
i=1
12 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
3. Si se deben de sumar parejas de valores de dos variables distintas, en donde el primer valor de cada
par corresponde a una variable y el segundo a la otra, el resultado se puede obtener sumado todos
los valores primeros de cada par y separadamente sumando los segundos valores de cada par y
finalmente sumando estas sumas:
N
( x + y ) = ( x + y
i
i
1
1
) + ( x 2 + y 2 ) + ...+ ( x N + y N )
i=1
N
N
= ( x1 + x2 + ...+ x N ) + ( y1 + y 2 + ...+ y N ) = sumfrom i=1 xi +  yi
i=1
13 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
III. MEDIDAS DE CENTRO.
Las medidas de centro resumen el valor típico de una variable. Ellas son a menudo pensadas como promedios,
aunque el promedio familiar no siempre es la vía más apropiada para resumir el centro. Hay tres principales
estadísticos que son usados para indicar diferentes aspectos de lo que es típico en una variable: la moda, que
deberá ser usada para datos nominales; la mediana, que es apropiada para datos ordinales; y la media,
extensamente usada para datos métricos. Estas tres medidas de tendencia central serán presentadas en detalle
en este capítulo, junto con otras medidas que son empleadas en circunstancias de medición específicas. La
selección del estadístico apropiado para una situación de medición particular será enfatizada, pero deberá
recordarse que puede ser útil emplear varias medidas para resumir diferentes aspectos de los datos.
MODA.
El resumen más simple de una variable es indicar qué categoría es la más común. La moda mide el
centro de una variable indicando la categoría más típica.
La moda para datos nominales.
Si los datos son estrictamente nominales, entonces la única forma posible de evaluar la tendencia
central es determinar qué categoría ocurre más frecuentemente:
Moda = Categoría cuya frecuencia es la más grande
La moda puede determinarse también para datos ordinales y métricos, pero especialmente valiosa para
datos nominales. Nótese que la moda es en realidad una categoría, y no la frecuencia de tal categoría.
Como ejemplo, digamos que estamos tratando con datos de crímenes durante el año pasado en alguna
ciudad: hubo 10,000 casos reportados de homicidio, 20,000 violaciones, 40,000 robos, 60,000 asaltos y 70,000
allanamientos (ver Tabla 2.1), entonces el allanamiento sería la moda dado que se reportaron más crímenes de
este tipo que de cualquier otro.
La moda es un estadístico importante para datos nominales porque es imposible trabajar con promedios
para medir el centro de una variable nominal. El crimen promedio no puede ser determinado en la Tabla 2.1, por
ejemplo, porque las categorías no son numéricas; aún si se asignan números a las categorías, calcular un
crimen promedio de 3.80 no tendría significado dado que los números son arbitrarios. Nótese también que no
tendría sentido promediar los porcentajes de las categorías: promediar 5%, 10%, 20%, 30% y 35% para obtener
20% como el índice del crimen promedio es un sinsentido, dado que cualquier distribución de casos entre las
categorías daría un índice promedio de 20% de los casos por crimen. Los promedios sólo funcionan cuando la
variable tiene una unidad de medición.
La moda es una medida de tendencia central en el sentido mostrar cual es la categoría típica en una
variable. El norteamericano promedio o típico es frecuentemente descrito como Protestante debido a que entre
los residentes de Estados Unidos hay más protestantes que de cualquier otra religión. Este es un caso del uso
de la moda como una medida de centro.
Otra interpretación de la moda es que proporciona la mejor conjetura en cuanto a la categoría a la que
pertenece un dato de una variable, si el objetivo es ser certero tan frecuentemente como sea posible; es decir,
ninguna otra suposición sobre la categoría a la que pertenece un caso aleatorio será correcta tan
frecuentemente como lo es la moda. Usando el ejemplo de la Tabla 2.1, digamos que una persona supuso el
tipo de crimen de un reporte particular; dado que se reportaron más allanamientos que cualquier otro crimen, la
mejor conjetura sobre un crimen particular es que sería allanamiento. Esta suposición no siempre sería
correcta, pero sí al menos en 35% de las veces, un índice de éxito mayor que el logrado con cualquier otra
conjetura.
La principal ventaja de la moda como un estadístico es que es fácil de obtener y de interpretar;
consecuentemente, la moda es usualmente simple de comunicar y explicar a la gente.
14 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Hay cuatro problemas involucrados al trabajar con la moda sobre datos no numéricos:
Primero, puede no ser muy descriptiva de los datos dado que la categoría más común puede aún no
ocurrir muy frecuentemente. Que el allanamiento es el crimen más común en una comunidad dice poco, aunque
la prevalencia de tal crimen sea también indicada. Por sí misma, la moda proporciona poca información.
El segundo problema con la moda es que puede no ser única. Por ejemplo, dos categorías pueden ser
igualmente posibles y más comunes que cualquiera otra; una variable con tal distribución es llamada bimodal.
De hecho, varias categorías pueden ser igualmente probables y pueden ocurrir más frecuentemente que el
resto, en cuyo caso la variable es multimodal. En el caso extremo, si cada categoría ocurriera con la misma
frecuencia que las demás, no habría moda para la variable.
Un tercer problema es que la moda puede ser grandemente afectada por la variación muestral.
Imaginemos el tomar una serie de muestras y medir una variable que tiene una distribución bimodal con modas
poblacionales X1 y X2: muchas muestras podrían tener a X 1 como su moda, mientras muchas otras tendrían a
X2. Así, la moda fluctuaría considerablemente de muestra a muestra.
El cuarto problema es que la moda es muy sensible a cómo se combinen las categorías. El esquema de
clasificación deberá estar al mismo nivel de generalidad para todas las categorías y no más general para unas
que para otras. La moda puede, de hecho, ser manipulada tomando niveles de generalidad diferentes para las
categorías. Por ejemplo, la Tabla 2.1 divide los 70,000 casos de allanamiento en 40,000 casos de robo menor y
30,000 casos de robo mayor: si se usaran estas dos últimas categorías en lugar del allanamiento solo, la moda
ya no sería allanamiento sino asaltos, dado que habría más casos de asalto que cualquier otra categoría. Al leer
un análisis estadístico que reporta una moda siempre deberán examinarse las categorías para estar seguros de
que la categoría modal no fue manipulada por el uso de categorías a diferentes niveles de generalidad.
No obstante estos problemas, la moda es comúnmente usada para medir el centro para datos nominales
porque se ajusta exactamente a los supuestos apropiados para tal nivel de medición.
La moda para datos métricos.
Aunque la moda es particularmente importante para datos nominales, puede también ser usada para
otras variables, incluso con datos numéricos. El obtener la moda de datos numéricos es justamente observar
cual valor ocurre más frecuentemente. Si una variable se denota como "x", entonces:
xmodal = valor de x con mayor frecuencia
Por ejemplo, la Tabla 3.1, Sección A reporta datos hipotéticos del número de guerras en las cuales han
participado siete naciones. En este caso la moda es 1 porque tal valor ocurre más con mayor frecuencia.
Ocasionalmente suceden confusiones sobre cuál es el valor modal para datos métricos. Por un lado, la
moda es un valor real y no la frecuencia con que ocurre. Con los datos en la Tabla 3.1, el valor 1 ocurre dos
veces, pero la moda es 1 y no 2; de la misma manera, la moda no es el valor mayor (50), sino el que ocurre
más frecuentemente: el 1.
15 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Tabla 3.1. Guerras del siglo XX (datos hipotéticos)
-------------------------------------------------------------------------------------------------------------------Sección A
Sección B
Núm. de guerras por nación
Distrib. de frecuencia de guerras
Nación y Núm. de guerras
Núm. de guerras
Frec.
%
------------------------------------------------------------------------------------------------------------------Argelia
1
1
2
28.6
Australia
2
2
1
14.3
Inglaterra
3
3
1
14.3
Suiza
50
4
1
14.3
Tanzania
1
9
1
14.3
Togo
9
50
1
14.3
Turquía
4
Número de casos
7
7
100.1
------------------------------------------------------------------------------------------------------------------Centro:
Dispersión:
Población:
Muestra:
Moda
Mediana
Media
1
3
10
Desv. media
Varianza
Desv. estándar
Coef. de variación
Rango medio 25.5
Dif. media de Gini
Cuartil sup. 9(6.5)*
Cuartil inf. 1(2.5)
Punto Medio 5(4.5)
Rango
Rango intercuartílico
11.43
273.14
16.53
1.65
318.67
17.85
1.78
15.71
49
8(4)
Trimedia
4(3.75)
Biponderado 8.03
Desviación cuartílica
4(2)
Coef. de var. cuartíl.
0.8(0.44)
MAD
8.43
Coef. de dispersión
2.81
D de Leik
0.63
Razón de variación
0.71
Índice de diversidad
0.82
Índice de var. cualit.
0.98
Entropía
2.52
Entropía estandarizada
0.98
---------------------------------------------------------------------------------------------------------
Para cambiar a un ejemplo real, la Tabla 3.2, Sección A, lista qué tan frecuente, cada presidente de
Estados Unidos desde Hoover hasta Reagan, fue electo presidente.
La Sección B presenta los mismos datos como una distribución de frecuencias. La primera columna
muestra el número de veces que un presidente fue electo y la segunda muestra cuántos presidentes, durante
este periodo de tiempo, fueron electos dicho número de veces. El valor modal para tal distribución es la
categoría con la frecuencia más alta en la columna de frecuencias. El valor que ocurre con mayor frecuencia lo
hace 5 veces y corresponde a elegir un presidente, por lo tanto, la moda es 1.
16 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Tabla 3.2. Presidentes de Estados Unidos, 1928-1984
------------------------------------------------------------------------------------------------------------------Sección A
Sección B
Presidente
Veces electo
Veces electo
Frec.
%
------------------------------------------------------------------------------------------------------------------Hoover
1
0
1
10.0
Roosevelt
4
1
5
50.0
Truman
1
2
3
30.0
Eisenhower
2
3
0
0.0
Kennedy
1
4
1
10.0
Johnson
1
Nixon
2
Total
10
100.0
Ford
0
Carter
1
Reagan
2
Número de casos
10
------------------------------------------------------------------------------------------------------------------Centro:
Dispersión:
Población:
Muestra:
Moda
1
Desv. media
0.80
Mediana bruta
1
Mediana exacta 1.3
Varianza
1.05
Media
1.5
Desv. estándar
1.02
Coef. de variación 0.68
Rango medio
2
Dif. media de Gini 1.13
Cuartil sup.
2
Cuartil inf.
1
Rango
4
Punto medio
1.5 Rango intercuartílico 1
1.17
1.08
0.72
Trimedia
Biponderada
1.25 Desviación cuartílica 1
1.505 Coef. de var. cuartíl. 0.33
MAD
0.70
Coef. de dispersión
0.70
D de Leik
0.35
Razón de variación
0.50
Índice de diversidad
0.64
Índice de var. cualit.
0.85
Entropía
1.68
Entropía estandarizada 0.84
-------------------------------------------------------------------------------------------------------------------La moda para datos métricos agrupados.
La agrupación es una estrategia común al enfrentarse con variables numéricas. En lugar de enlistar
separadamente cada posible valor de la variable, ésta es dividida en un conjunto de clases que cubre todo su
rango de valores. En estas condiciones, la moda muestra cual clase ocurre más frecuentemente:
Moda = Clase con mayor frecuencia
El ejemplo a ser usado en esta sección involucra a las temperaturas máximas diarias (ver figura 2.2).
tuvieron temperaturas altas del orden de los 70s, 80s, etc.
Algunas complicaciones más surgen al trabajar con datos métricos agrupados. Por un lado, la moda es
fuertemente afectada por el número de clases y su tamaño. Supóngase que tratamos con temperaturas
máximas para una ciudad redondeadas a un número entero (ver Tabla 3.3). Considérese, por ejemplo, las
17 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
temperaturas máximas 65°, 65°, 70°, 72°, 73°, 81°, 82°, 86° y 87°, la moda de estas temperaturas en forma
separada es 65° (Sección A), pero la moda es el rango de 70°-74° si son agrupadas en clases de cinco grados
(Sección B), y el rango de 80°-89° si se agrupan en clases de diez grados (Sección C). La moda puede ser muy
inestable cuando se agrupan los valores.
Cuando se trabaja con datos numéricos agrupados se hace una distinción entre la moda cruda y la
moda refinada. La moda cruda es precisamente el punto medio del intervalo de la categoría con mayor
frecuencia. Esto es:
Moda cruda = Punto medio del intervalo de mayor frecuencia
Usando las clases con anchura 10° en la Tabla 3.3, Sección C, la categoría con mayor frecuencia es
80°-89°, de ahí que la moda cruda sería 84.5°. En contraste, la moda refinada ajusta el valor modal de acuerdo
a las frecuencias relativas de las clases
adyacentes. Empuja el valor modal hacia la clase adyacente que cuenta con mayor frecuencia. Sean: F i la
frontera inferior de la clase modal, w la anchura del intervalo de clase, f mo la frecuencia de la clase modal, fa la
frecuencia de la clase anterior a la clase modal y f p la frecuencia de la clase posterior a la clase modal. La
fórmula para la moda refinada es entonces:
MR = F i +
w( f mo - f a )
( f mo - f a ) + ( f mo - f p )
En la Tabla 3.3, Sección C, la anchura del intervalo de clase es 10°, la clase modal es 80°-89°, la
frontera inferior de esta clase es 79.5°, su frecuencia es 4, la frecuencia de la clase anterior (70°-79°) es 3 y la
frecuencia de la clase posterior (90°-99°) es 0. De esta forma, la moda refinada es:
10(4 - 3)
10
MR = 79.5 +
= 79.5 +
= 81.5
(4 - 3) + (4 - 0)
1+ 4
La moda refinada está en la primera parte de la clase 80°-89°, lo que refleja que la mayor parte de los
días tuvo temperaturas por debajo de la clase en relación con los que las tuvieron por encima de ella.
Tabla 3.3. Temperaturas máximas diarias.
-------------------------------------------------------------------------------------------------Sección A
Sección B
Temperatura Frecuencia
Temperatura
Frecuencia
-------------------------------------------------------------------------------------------------65°
2
65°-69°
2
70°
1
70°-74°
3
72°
1
75°-79°
0
73°
1
80°-84°
2
81°
1
85°-89°
2
82°
1
86°
1
Número de casos
9
87°
1
Moda
70°-74°
Número de casos 9
Moda cruda
72°
Moda refinada
70.75°
Moda
65°
-----------------------------------------------------------Sección C
18 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Temperatura
Frecuencia
----------------------------------------------------------60°-69°
2
70°-79°
3
80°-89°
4
Número de casos 9
Moda
80°-89°
Moda cruda
84.5°
Moda refinada
81.5°
--------------------------------------------------------------------------------------------------------- -------MEDIANA.
Cuando las categorías de una variable están ordenadas, una medida de centro debe tomar en cuenta dicho
orden. La mediana lo hace al encontrar el valor de la variable que corresponde con el caso intermedio. Ésta es
una medida de posición, que muestra la categoría para la observación central.
La mediana para datos ordinales.
La forma usual de resumir un valor típico para una variable ordinal es determinar la categoría en la que cae la
observación central:
Mediana = Categoría del caso central
La mediana es una medida de localización, posicional o de orden con la cual se localiza la posición
de un valor típico a lo largo del ordenamiento de una variable. Recuérdese que la mediana calculada con datos
ordinales no es numérica, dado que la variable ordinal tampoco lo es.
Como ejemplo, digamos que siete personas califican el servicio de una compañía, tres de las cuales
consideran que es "excelente" y cada una de las demás piensan que es "muy bueno", "bueno", "regular" y
"malo". La persona central calificó al servicio de la compañía como "muy bueno", por lo ésta es la mediana para
la presente escala ordinal.
La mediana es importante para datos ordinales, en parte debido a las limitaciones de otras medidas
para tales datos. La moda puede obtenerse para datos ordinales, pero no toma en cuenta el orden de las
categorías, cosa que hace a la
medición un poco mejor que solamente una clasificación nominal; más aún, la moda puede no ser
representativa para una variable ordinal. Supongamos que tres alumnos galardonados en una generación
comparten el primer lugar porque todos ellos tienen promedios de calificación perfectos y cada uno de los 97
estudiantes restantes cae en diferentes categorías, aunque por muy poca diferencia en sus promedios; la moda
en este ejemplo correspondería a los galardonados, aunque ellos son extremadamente poco representativos de
la generación completa.
Al mismo tiempo, no tendría sentido calcular promedios de datos ordinales debido a que los números de
las categorías son arbitrarios. Por ejemplo, digamos que se pide a las personas que califiquen el servicio
proporcionado por una compañía, y usamos números enteros para distinguir las categorías (1 para excelente, 2
para muy bueno, etc). Encontrar que el promedio de calificación del servicio es 2.43 no sería muy significativo,
debido a que las unidades entre las cinco etiquetas verbales no son necesariamente iguales. Después de hacer
esta advertencia, es necesario admitir que se está convirtiendo en práctica común el calcular promedios de
variables ordinales, muchos investigadores están encontrando que es una forma útil de resumir sus datos, aún
cuando al hacerlo se incrementa la probabilidad de llegar a conclusiones falsas.
Hay dos ventajas principales con la mediana: primero, es relativamente fácil de obtener y segundo, está
basada en la distribución completa y sólo en una parte, como sucede con la moda.
19 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Hay dos complicaciones a considerar en el trabajo con la mediana:
La primera es que una categoría es intermedia sólo con respecto a un cierto orden, por lo que es
indispensable pensar en términos de tal ordenamiento al determinar la mediana. Decidir qué es la subyacente
propiedad ordenada y entonces ordenar los casos de acuerdo con esta propiedad antes de calcular la mediana.
Las categorías deben estar ordenadas apropiadamente antes de determinar la mediana. Por ejemplo, si se les
pide a siete personas evaluar el servicio de una compañía y el orden en que dieron las respuestas fue "malo",
"excelente", "excelente", "regular", "excelente", "muy bueno" y "bueno", el dato central es "regular", pero este no
es realmente la categoría mediana; Las categorías deben ponerse primero en un orden evaluativo adecuado:
excelente, excelente, excelente, muy bueno, bueno, regular y malo, así, la categoría mediana para evaluar el
servicio de la compañía es "muy bueno".
La segunda complicación involucra el determinar el caso central. El centro está bien definido cuando el
número de casos es impar, no así cuando es par. Imagínese un pequeño salón de clases donde hay una fila
con sólo tres estudiantes en ella, el estudiante central es claramente el segundo estudiante,
independientemente del lado donde se inicie la cuenta; sin embargo, ¿qué pasa si hay cuatro estudiantes en la
fila?,
¿
en otro sentido, no hay centro: la posición central está entre el segundo y el tercer estudiante. La forma usual de
pensar acerca de la mediana para un número par de casos es que se encuentra a la mitad entre los dos casos
centrales.
Hay una fórmula para determinar qué caso ordenado es el central. Si hay N observaciones, entonces el
caso central es:
Mediana = Categoría del caso (N+1)/2 avo
Así, con tres casos, N=3 y la mediana es la categoría del caso (3+1)/2=2°; con cuatro casos, N=4 y la
mediana es (4+1)/2=2.5avo caso, a la mitad entre el segundo y el tercer caso.
La mediana para datos métricos.
Aunque la mediana es más importante para datos ordinales, algunas veces es también usada para
variables métricas. Para datos métricos, la mediana indica el valor de la variable (que llamamos x) para el caso
central. Al igual que para datos ordinales, es esencial que esté ordenada apropiadamente antes de calcular la
mediana. Si hay N observaciones ordenadas, entonces la observación central es la (N+1)/2 ava. Así, para N
impar:
xmediana = valor de x del (N+1)/2 avo caso ordenado
y para N par:
xmediana = promedio del N/2 avo y [(N/2)+1] avo caso ordenado
por cierto, (N+1)/2 no es la mediana para N impar; es la localización de la mediana en un conjunto ordenado de
valores.
Como ejemplo, regresemos al número de guerras en las cuales diferentes países participaron (Tabla
3.1, Sección A). Con los países listados en orden alfabético, el número de guerras son 1, 2, 3, 50, 1, 9 y 4, lo
cual hace parecer que la clase central es 50, pero no es así. La variable es el número de guerras en las que el
país ha luchado y los valores deben ponerse en un orden apropiado (1, 1, 2, 3, 4, 9 y 50), antes de obtener la
mediana; por lo que, bajo este orden, la mediana resulta ser 3 guerras.
20 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Con datos numéricos para un número par de casos, la mediana es definida como la mitad entre los
valores de los dos casos centrales. Por ejemplo, digamos que tuvimos datos de la participación en las guerras
de solo cuatro países y el número de guerras en las que estuvieron fue 1, 3, 4 y 50 respectivamente. ¿El caso
central sería el segundo con 3 guerras?, o ¿el terc
4, aunque ningún país haya estado en 3.5 guerras.
Hay dos ventajas adicionales de la mediana para datos numéricos:
Primero, no se ve afectada por valores extremos de la variable. Algunas medidas de centro son
considerablemente influenciadas por casos atípicos extremos (como el valor 50 en el ejemplo anterior), pero la
mediana no; amablemente captura el lugar donde se encuentra el centro de la distribución, y no es afectada por
valores extremos inusuales. Como resultado, la mediana es considerada como un estadístico resistente.
Una segunda ventaja especial de la mediana es que algunas veces puede ser calculada aún cuando la
distribución tenga extremos abiertos. Considérese, por ejemplo, el problema de determinar la edad típica de
muerte de varias generaciones de egresados de preparatoria; digamos que una generación tuvo sólo cinco
egresados: uno que murió joven a los 30 años, un segundo que vivió hasta los 67, un tercero que murió a los 80
años y dos más que aún viven tienen ambos 87 años de edad. La edad mediana de muerte de esta generación
es claramente 80 años, la que puede ser determinada sin esperar a que mueran los dos miembros
sobrevivientes. Ni la moda ni el promedio pueden determinarse en este ejemplo, sólo la mediana. Nótese
también en el ejemplo que la mediana no es influenciada por datos extremos (la persona que muere muy joven,
de manera inusual).
Debido a estas dos ventajas especiales, la mediana útil algunas veces aún apara datos métricos. La
mediana debería tomarse en cuanta cuando hay datos extremos o cuando el proceso observado tiene extremos
abiertos.
La mediana tiene en realidad una propiedad óptima especial para datos métricos. El describir esta
propiedad requiere de la introducción de un concepto nuevo: la desviación de una observación respecto de una
cierta medida de centro. Cierta notación es útil aquí: etiquetemos la variable en estudio como "x", entonces x i es
la observación del i-ésimo caso; sea xc la medida de centro usada, así, la desviación di para el i-ésimo caso es
di = xi - xc. Esta desviación muestra qué tanto difiere el valor de la i-ésima observación de la variable respecto
de la medida de centro. A continuación definimos la desviación absoluta como la magnitud con signo positivo
de tal desviación:
І di
i
- xc
І
La propiedad especial de la mediana es que la suma de estas desviaciones absolutas alrededor de la
mediana es mínima. (Una implicación de esta propiedad es que la desviación absoluta promedio es mínima
cuando se toma en relación con la mediana, un resultado que se usará en el próximo capítulo). Esta propiedad
especial da a la mediana una interpretación de "mejor conjetura". La mediana es la mejor suposición del valor
de un caso, si el objetivo es minimizar la desviación absoluta; si el signo del error en la conjetura no importa,
pero su magnitud sí, entonces la mediana es la mejor suposición del valor de un caso de la variable.
La mediana para datos métricos agrupados.
Ocurre un problema con la mediana para datos métricos agrupados al determinar el caso central
cuando hay una serie de casos que comparten el mismo valor. Si el precio de 5 artículos en una ferretería
fueran $2, $4, $4, $7 y $30, entonces, ¿es el primer 4 o el segundo 4 el valor central?. En principio, ésta parece
ser una pregunta sin sentido, porque 4 es 4 (
entero más cercano, en otras palabras, $4 representa un costo de entre $3.50 hasta $4.49. Si los precios son
$2, $4, $4, $7 y $30, entonces hay un sentido real en el que el caso central es el segundo de los artículos de $4.
No conocemos el valor exacto de los artículos, pero podríamos asumir que cualquier valor entre $3.50 y $4.49
es igualmente probable por lo que el artículo más caro esta probablemente más cercano a $4,49 que a $3.50.
Otra manera de conceptualizar esto es preguntarnos qué tan "adentro" de la clase se encuentra el valor central:
21 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
debido a que hay más casos por arriba de $4 que por debajo, debemos avanzar dentro de la categoría de $4
hasta obtener el caso central, de ahí que el valor central estará en el lado mayor de $4.
Al tratar con la mediana de datos métricos agrupados, se hace una distinción entre mediana bruta y
mediana exacta. La mediana bruta es justamente el valor correspondiente a la marca de clase de la clase que
contiene al dato central:
Mediana bruta = Marca de clase de la clase mediana
La fórmula para calcular la mediana exacta en esta situación es:
ME = F i +
w(0.5N - C)
f me
donde Fi es la frontera inferior de la clase que contiene al percentil 50 (o clase mediana), C es la frecuencia
acumulada hasta antes de la clase mediana, f me es la frecuencia de la clase mediana y w es la anchura del
intervalo de la clase mediana. Se considera aquí que los casos se distribuyen uniformemente a lo largo del
intervalo de la clase mediana. En el ejemplo anterior, la mediana bruta es $4, pero la mediana exacta es $4.25.
Usualmente, todo lo que se requiere de un conjunto de números es su mediana bruta, pero algunas veces la
mediana exacta resulta ser de interés.
Si regresamos al ejemplo del número de veces que un presidente fue electo (Tabla 3.2, Sección A), en
el periodo 1928-1984, los valores fueron 1, 4, 1, 2, 1, 1, 2, 0, 1 y 2; puestos en un orden apropiado (Sección B),
los valores se leerían: 0, 1, 1, 1, 1, 1, 2, 2, 2, 4. La mediana bruta es 1 y la mediana exacta es 1.3. La mediana
exacta se encuentra en la parte superior del rango 1 (0.5-1.4999), dado que tenemos que movernos por la
mayoría de los casos 1 hasta obtener el caso central.
LA MEDIA ARITMÉTICA.
Generalmente la forma más efectiva de resumir datos métricos es promediar los valores de la variable.
Este estadístico es conocido técnicamente como la media. Es una medida de tendencia central para variables
netamente numéricas.
La media para datos métricos.
La moda y la mediana pueden ser obtenidas para datos métricos, pero no toman en cuenta toda la
información contenida en este tipo de datos, en tanto la media sí lo hace.
La forma más común para determinar el valor típico de una variable numérica es calcular el promedio
aritmético de sus valores, a lo que se le llama la media. Para obtener la media, se suman todos los valores y el
resultado se divide entre el número de casos. Aunque es fácil calcular la media a partir de la descripción
anterior, resulta importante familiarizarse con la notación que se usará para otros cálculos estadísticos. La
notación para la media de una variable x es:

x
llamada x-barra. La fórmula para la media es entonces:
N
x
x
i 1
N
i

x1  x2     xN
N
22 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
En esta fórmula, N representa el número total de casos, la letra i indica el número de caso (primero, segundo,
etc.), xi es el valor del iapéndice del Capítulo 2, la notación abajo y arriba de la sigma se lee como la suma desde i=1 hasta N y es una
forma de decir que estamos sumando todos los valores de x i. Después de obtener la suma de las x's, se divide
entre N para obtener la media.
Como un ejemplo, la Tabla 3.1, Sección A, presenta valores hipotéticos para el número de guerras en
las que han participado siete países durante el siglo XX. Para obtener la media de los números, primero
sumamos todos los valores (1+2+3+50+1+9+4=70) y luego dividimos entre el número de casos (7 naciones)
para
obtener una media de 10 (=70/7). De forma similar, para obtener el número medio de veces que los
presidentes, desde Hoover hasta Reagan, fueron electos (Tabla 3.2, Sección A), sumamos los números (cuya
suma es 15) y luego dividimos entre el número de presidentes (10), lo que nos lleva al resultado de 1.5
(=15/10).
La media tiene una serie de propiedades que la hacen única y útil. A fin de presentarlas, es necesario
usar la notación de desviaciones respecto a la media: d i = xi - x . Esta desviación muestra la distancia que hay
entre cada valor y la media.
La primera propiedad de importancia para la media es que la suma total de desviaciones con respecto a
ella es cero. La prueba es directa:
  xi 
   xi   xi  0

 N 
 x  x    x   x   x  N x   x  N 
i
i
i
i
La media es única en este sentido: la suma total de desviaciones con respecto a cualquier otro valor será
siempre mayor. Que la suma total de desviaciones respecto a la media sea cero implica también que el
promedio de las desviaciones con signo respecto a la media es cero.
Esta propiedad lleva a una interpretación de la media como un estadístico de "mejor conjetura".
Digamos que queremos suponer el valor de una puntuación particular, tal que la suma de los errores con signo
(o el promedio de los errores con signo) en la suposición sea mínima. Debido a que la suma de las desviaciones
con signo respecto a la media es cero, la media es la mejor conjetura de la puntuación de la variable, si el
objetivo es minimizar la suma (o el promedio) de los errores con signo.
La segunda propiedad importante de la media es que la suma de las desviaciones negativas respecto a
la media es igual a la suma de las desviaciones positivas. Este es el caso porque el gran total de desviaciones
es cero, por lo que las desviaciones negativas se compensan con las desviaciones positivas. Esta propiedad
lleva a una interpretación especial de la media como un punto de balance (o de equilibrio) para la distribución de
los valores. Es un punto de balance en el sentido de que las desviaciones negativas se compensan con las
desviaciones positivas. Para cualquier distancia a que se encuentren los valores por abajo de la media, ésta
será compensada por algunos valores que se encuentran igualmente distantes por arriba de la media.
La tercera propiedad de la media involucra desviaciones al cuadrado: La suma de las desviaciones al
cuadrado respecto a la media es más pequeña que la suma de las desviaciones al cuadrado respecto a
cualquier otro valor. Para probar esto, considérese la desviación de la observación x i respecto a un valor
arbitrario x0. La desviación xi-x0 no cambia si el mismo valor (digamos x
xi  x0  xi  x   x  x0 
Elevando al cuadrado ambos lados de esta identidad se obtiene:
23 de 61
xi  x0 2  xi  x´ 
2
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
 2x  x0 xi  x   x  x0 
2
A continuación se aplica la sumatoria a ambos lados de la igualdad para obtener la suma de desviaciones al
cuadrado respecto a un valor arbitrario x0, la cual se va a minimizar:
xi  x0   xi  x    2x  x0 xi  x   x  x0 
2
2
2
Los tres términos del lado derecho de esta ecuación deberán ser examinados separadamente. El primer
término es la suma de las desviaciones al cuadrado respecto a la media. El segundo término es cero dado que
2x  x0 xi  x   2x  x0 xi  x   2x  x0 0 = 0, porque la suma de desviaciones respecto a la
x  x0 2 porque x  x0 2 es una constante que se debe
media es cero. El tercer término es precisamente N
sumar a si misma N veces. Un término al cuadrado no puede ser negativo, por lo que el tercer término se
minimiza cuando x0 = x
desviaciones al cuadrado respecto a un valor fijo arbitrario x 0 se minimiza cuando dicho valor es la media. Como
se verá en el próximo capítulo esta propiedad de mínimos cuadrados es importante al medir la dispersión de
una variable métrica.
En adición a las propiedades antes descritas, hay dos ventajas adicionales de la media como una
medida de centro. Primero, es más estable que otras medidas posibles: sobre muestras repetidas, la media
tendría menos variación que cualquier otra medida de centro. Segundo, otros estadísticos importantes
(especialmente la varianza y covarianza) están basados en desviaciones respecto a la media. Estas ventajas se
volverán más evidentes en capítulos posteriores.
Tres problemas respecto a la media deben ser mencionados. Primero puede tener valores fraccionarios, aún
cuando la variable misma pueda tomar sólo valores enteros. Este problema es evidente el tabla 3.2, donde el
número medio de veces que los presidentes fueron electos es 1.5, un valor que no puede ocurrir. Este es un
verdadero problema para la interpretación de valores fraccionarios, más que una limitación de la media en sí.
Un segundo problema con la media es que no puede ser calculada cuando las categorías extremas de
la variable tienen límites abiertos. Por ejemplo, el ingreso promedio sería indeterminado si una categoría incluye
ingresos de un millón o más.
Un problema final con la media es el hecho de ser fuertemente afectada por casos extremos. Recuérdese el
primer ejemplo (tabla 3.1) que involucra el número de guerras en las que siete naciones habían participado. La
moda fue uno y la mediana tres, pero la media fue mucho más grande: 10 guerras. La media aquí es mucho
mayor que las otras medidas de tendencia central debido a que se ve afectada por el valor 50, en tanto la moda
y la mediana no son sensible a él. La moda y la mediana tienden a estar alrededor de donde se encuentra la
mayor parte de los datos, pero la media puede ser atraída hacia el caso extremo. Dado que la media es
afectada por extremos atípicos, se le considera no resistente en contraste con medidas de centro más resistes
tales como la mediana.
La media para datos métricos agrupados.
Una versión especial de la fórmula de la media se puede usar cuando los datos están agrupados. Cuando
varias clases tienen el mismo valor la suma en el numerador puede simplificarse. En lugar de sumar los valores
separados, cada valor es multiplicado por su frecuencia y estos productos son sumados posteriormente. Esta
suma es dividida por el número total de casos para obtener la media. La fórmula para la media con datos
agrupados es:
24 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
x
 f i x i   f i x i 

N
f i
donde fi es la frecuencia de la categoría i.
Como un ejemplo, considérense otra vez los datos de la Tabla 3.2 sobre el número de veces que 10
presidentes, desde Hoover hasta Reagan, fueron electos. Podemos resumir los datos como: un presidente fue
electo cero veces, cinco fueron electos una vez, tres lo fueron dos veces y uno, cuatro veces. El cálculo original
de la media se hizo sumando todos los valores separados, pero sería equivalente multiplicar 1(0), 5(1), 3(2) y
1(4), luego sumar los productos y finalmente dividir entre 10 para obtener la media de 1.5. Así, la fórmula de la
media para datos agrupados da el mismo resultado que la fórmula usual; ésta resulta ser una fórmula más fácil
cuando algunos valores ocurren repetidamente.
Cuando una variable continua es agrupara en clases de intervalos mayores que 1, la fórmula de la
media puede ser usada con un ajuste menor: la marca de clase deberá usarse como el representante de la
clase. Por ejemplo, al tratar con temperaturas diarias, si las fronteras de la clase son 79.5° y 89.5°, entonces
84.5° (la marca de clase) deberá usarse para representar a la clase en el cálculo de la media. Cuando sea
posible, es mejor calcular la media y otros estadísticos directamente de los datos originales que usar las
fórmulas para datos agrupados, aunque algunas veces no hay alternativa, como cuando se calculan
estadísticos de tablas de datos publicados en las que las variables ya han sido agrupadas.
Una medida estrechamente relacionada es la media ponderada. En la mayoría de las situaciones de
recolección de datos, cada elemento es muestreado con igual probabilidad; sin embargo algunas veces hay
sobre muestreo de ciertas partes de una población. Por ejemplo, digamos que el objetivo de un estudio es
comparar la tasa de muertes de una enfermedad particular en los hospitales del sur y los hospitales del norte, y
digamos que el 20% de los hospitales de Estados Unidos se encuentran en el sur en tanto que el 80% está en
el norte. Si las investigaciones permitieron estudiar un total de 100 hospitales el muestreo equiprobable llevaría
a seleccionar cerca de 20 hospitales en el sur, lo que podía ser una muestra demasiado pequeña para hacer
inferencias confiables en relación con las tasas de muerte en los hospitales del sur. En esta situación, el
investigador optaría por doblar el tamaño de muestra de los hospitales sureños, por lo que serían seleccionados
40 en lugar de 20. Escoger 40 hospitales del sur y 40 del norte aseguraría suficiente cobertura de ambas áreas
para permitir el cálculo de estadísticos para cada región. Deberían calcularse medias separadas para el norte y
para el sur, utilizando la fórmula usual para la media. Sin embargo, los hospitales del sur han sido sobre
muestreados, por lo que una fórmula especial ponderada es necesaria para calcular la media nacional.
La fórmula para la media ponderada es:
xp 
wi xi 
wi
donde wi representa el peso de la i-ésima observación. Los pesos compensan las altas probabilidades de
seleccionar algunas observaciones en relación con otras. El peso de la i-ésima observación sería:
wi =
pi N
fi
donde fi es la frecuencia de la categoría i en la muestra y p i es la proporción poblacional conocida de tal
categoría. Si una muestra incluye 40 hospitales del sur, en lugar de 20, la muestra fue doblada, por lo que cada
hospital debería ser ponderado por el factor 0.5
(=0.20x100/40). Los hospitales del norte fueron correspondientemente subrepresentados (60 en lugar de 80),
por lo que ellos deberán ser ponderados por un factor de 1.33 (= 0.80x100/60).
25 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Muchas encuestas de opinión pública sobre muestrean partes específicas de la población y entonces usan
variables ponderadas para compensar. Por ejemplo, el estudio de la Elección Nacional Americana de 1964
dobló el tamaño de la muestra de negros a fin de tener más entrevistas para describir las posturas
afroamericanas. El archivo para tal estudio incluye los pesos (los wi) necesarios para calcular las medias
globales y otros estadísticos.
Otra situación de ponderación ocurre cuando hay una serie de muestras con medias separadas para cada una,
pero resulta de interés una media conjunta. Las muestras pueden no ser del mismo tamaño por lo que al
calcular la media global se requiere ponderar cada muestra separada por el número de casos en los que se
basa. Por ejemplo, digamos que una variable se mide cada tres años, con 1000 personas en la muestra para el
primer año, 800 para el segundo y 500 para el tercero; dado que el número de casos es diferente en cada año
sería inapropiado sumar las medias anuales y dividirlas por el número de años. En su lugar una media
combinada debería reflejar la inequidad numérica de cada media, dando mayor peso a los años con más
cantidad de personas. Para una media conjunta, deberá usarse la siguiente fórmula:
x
N j x j 
N j
donde _j es la media de la muestra j y Nj es el número de casos en la muestra j. Un ejemplo de los cálculos
para una media conjunta se encuentra en la tabla 3.4.
Tabla 3.4. Cálculos para la media conjunta.
-------------------------------------------------------------------------------------------------------------------AÑO
TAMAÑO DE MUESTRA (N)
MEDIA
x
SUM DE X=N x i
VARIANZA
-------------------------------------------------------------------------------------------------------------------
2001
1,000
1.3
1,300.00
0.25
2002
800
1.1
880.00
0.36
2003
500
Total
0.9
2,300
450.00
0.16
2,630.00
Media de medias = (1.3 + 1.1 + 0.9)/3 = 1.1
Media conjunta = [(1.3)(1000)+(1.1)(800)+(0.9)(500)]/2300 =1.143
Varianza conjunta=[(999)(0.25)+(799)(0.36)+(499)(0.16)]/2297=0.269
-------------------------------------------------------------------------------------------------------------------
26 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
La media para datos dicotómicos.
¿Los datos dicotómicos deben resumirse mediante modas, medianas o medias?. La respuesta es que se
puede usar cada una de ellas. La moda muestra cuál de las dos categorías ocurre más frecuentemente, al igual
que la mediana bruta. La media tiene una interpretación más especial.
Si la variable dicotómica se codifica como 1 para una categoría (llamada éxito) y 0 para la otra
categoría, entonces la media muestra la proporción de casos que caen en la categoría 1. Si la proporción de
casos con resultado 1 se denota con "p", entonces la media de una variable dicotómica es:
x =p
Para ver esto, úsese la fórmula para datos agrupados. El número de observaciones con resultado 1 sería pN y
el resto de las observaciones, N-pN tendrían como resultado 0. La media es entonces:
x
1 pN   0N  pN    pN  0 
N
N
pN
p
N
Tomemos, por ejemplo, la asistencia a la iglesia: si una persona fue o no a la iglesia la semana pasada.
Digamos que sólo el 15% de las personas asistió (ver Tabla 3.5). La categoría modal es "no asistencia"; de
igual forma, la persona mediana no fue a la iglesia. Si se anota un 1 para asistencia y un 0 para no asistencia, la
media sería 0.15, mostrando que el 15% de la gente asistió. La codificación 1/0 de la variable dicotómica
(conocida como la creación de una variable ficticia o "dummy") lleva a una interpretación intuitiva de la media: la
proporción de casos que caen en la categoría 1.
Tabla 3.5. Distribución de la asistencia a la iglesia.
-------------------------------------------------------------------------------------------------------------------ASISTENCIA
CODIFICACIÓN
FRECUENCIA
PROPORCIÓN
-------------------------------------------------------------------------------------------------------------------Asistió
1
30
0.15 = p
No asistió
0
170
0.85=1-p
Total
200
Media
0.15= [(30)(1)+(170)(0)]/200
Varianza
0.1275 = (0.15)(0.85)
1.00
=p
= p(1-p)
Desviación estándar 0.3571
-------------------------------------------------------------------------------------------------------------------
27 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
DISCUSIÓN.
Comparación de la media, la mediana y la moda.
La Tabla 3.6 resume una serie de propiedades de la moda, la mediana y la media que han sido discutidas
en este capítulo. La gráfica también valora estas medidas de acuerdo con varios criterios para resúmenes
estadísticos que fueron presentados en el capítulo 1. Algunas de las conclusiones en la tabla 3.6 son
debatibles, pero aún así proporcionan un punto de inicio útil. Propiedades técnicas adicionales serán
presentadas al final de capítulo 5.
Tabla 3.6. Propiedades de las medidas de centro.
Seleccionar de entre las tres medidas clásicas de centro depende principalmente de dos consideraciones:
la distribución de los valores de la variable y el nivel de medición.
Primero, hay diferentes formas de distribución para variables métricas. Una de estas es la distribución
simétrica unimodal como se observa en la figura 3.1, sección a. En ésta, la moda, la mediana y la media se
encuentran todas en el centro de la distribución. Dado que la moda, la mediana y la media son iguales para una
distribución simétrica unimodal, el escoger entre ellas no tiene importancia. Un caso contrastante es una
distribución sesgada, como en la sección b. Aquí los valores pequeños predominan, pero hay algunos valores
atípicos muy grandes. A esto se le conoce como sesgo positivo, porque la cola de la distribución se extiende a
la derecha. La moda es el valor que ocurre más frecuentemente, el caso central es más grande y por lo tanto
también la mediana. En vista de que la media es afectada por valores extremos, esta resulta aún más grande.
Así, la moda es la más pequeña, le sigue la mediana y la media es el valor mayor para distribuciones con sesgo
positivo. En contraste, una distribución con sesgo negativo (sección c) tiene la mayor cantidad de valores
grandes, con algunos valores demasiado pequeños; aquí, la moda es la más grande, le sigue la mediana y la
media es el valor más pequeño. La mediana es frecuentemente usada para resumir datos numéricos debido a
que la media puede ser fuertemente afectada por valores extremos.
FIGURA 3.1
a). Distribución simétrica, b). Distribución con sesgo positivo y c) Distribución con sesgo negativo.
Cantidad = 31
Media = 16.0
Mediana = 16.0
Moda = 12.0
* los valores de la media, moda y mediana deben ser iguales
Distribución simétrica
(X 0.001)
25
20
15
10
5
0
-17
3
23
43
63
28 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Datos: -3, -12, 12, 12 –14, 15, -13, 16, 17, -17, 22, 3, 12, 12, 12, 14, 15, 16, 26, 17, 17, 22, 27, 28, 29, 29, 34,
34, 36, 37, 51.
Número de datos = 20
Media = 23.05
Mediana = 19.5
Moda = 12.0
Distribución con sesgo positivo
0.03
0.025
0.02
0.015
0.01
0.005
0
0
10
20
30
40
50
60
Datos 3, 12, 12, 12, 14, 15, 16, 16, 17, 17, 22, 27, 28, 29, 29, 34, 34, 36, 37, 51.
Número de datos = 20
Media = 6.85
Mediana = 19.5
Moda = 16.0
Di st r i buci ón con sesgo negat i vo
(X 0.001)
15
12
9
6
3
0
-70
-40
-10
20
50
80
Había un fuerte sesgo positivo en nuestro ejemplo del número de guerras en las que diferentes naciones
lucharon (tabla 3.1) debido a que una nación participó, en forma exagerada, en 50 guerras. Los valores de las
medidas de centro siguen el esquema de las variables positivamente sesgadas: la moda es 1, la mediana es 3 y
la media es 10. El valor de la mediana es más típico de la distribución global que la media en este caso. La
mediana esta generalmente mucho más cercana a la media que a la moda, aunque este ejemplo muestra que
dicha regla no siempre se cumple.
Más allá de la forma de distribución de los valores, el nivel de medición debe ser considerado al
escoger cuál de estas medidas de centro debe usarse. La regla más simple es usar la moda para datos
29 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
nominales, la mediana para datos ordinales y la media para datos métricos. Adicionalmente un estadístico de
nivel más bajo puede ser usado con seguridad para un nivel más alto de medición, como el usar la moda para
datos ordinales o la mediana para datos métricos
Realmente hay controversias considerables sobre el uso de estadísticos basados en datos numéricos,
como la media, al aplicarse a datos ordinales. La regla estricta del nivel de medición es que las medias jamás
deberían calcularse con datos ordinales, pero dicho análisis se ha convertido en práctica común. Aquellos
investigadores que, bien intencionados, toman la media de variables ordinales arguyen que hay variables
continuas latentes (aunque con error al nivel manifiesto) subyaciendo a las variables ordinales y que los
resultados enteros de variables ordinales usualmente producen resultados estadísticos que podrían estar
sumamente cercanos a lo que sería obtenido por las categorías numeradas realmente desconocidas. Por el
contrario los puristas de la estadística arguyen que hay una probabilidad de llegar a falacias estadísticas serias
porque los resultados basados en puntuaciones enteras podrían ser muy diferentes de aquellos basados en las
puntuaciones reales subyacentes. Esta controversia probablemente no será resuelta en un tiempo corto; entre
tanto, es mejor mantenerse cerca del nivel de medición de los datos como un primer paso y tomar en cuenta
directamente cuando se viola tal nivel.
Al observar las variables no se siente siempre la necesidad de seleccionar una única medida de centro.
Las diferentes medidas proporcionan diferentes partes de información y algunas veces es útil el observar estos
múltiples aspectos de los datos. Así, en el ejemplo de las guerras usado a través de todo este capítulo, la
mediana podría ser la mejor opción si solo una medida debiera reportarse, pero la moda y la media también dan
información relevante. Múltiples medidas se muestran bajo las tablas en esta monografía de tal suerte que los
lectores pueden comparar los resultados proporcionados de cada una.
Hay algunas medidas de centro adicionales, pero son usadas con menos frecuencia por lo que algunos
lectores podrían querer saltar hacía el capítulo siguiente.
Propiedades matemáticas de las medidas de centro.
La media, la mediana y la moda para datos métricos pueden transformarse mediante una regla lineal: sumar
una constante k a todos los valores de la variable incrementa su centro en una cantidad k, multiplicar cada valor
por una constante m multiplica su centro por la cantidad m. Matemáticamente:
Centro(k + mxi ) = k + [(m)centro( xi )]
Como un ejemplo, si una variable x es medida en una escala de 0 a 100, con 50 como punto neutral, y
si el investigador quiere convertir la variable a una escala de -100 a +100, con 0 como punto neutral, la regla de
conversión sería 2x-100, con el valor medio trasladado como 2 x -100.
Otras medidas de centro basadas en valores ordinales.
El interés del análisis exploratorio de datos ha llevado al desarrollo de una serie de nuevas medidas de
centro para variables ordinales. En la filosofía subyacente al análisis exploratorio de datos (EDA), estas
medidas son útiles para proporcionar un entendimiento del centro de una variable. Tienden a ser
particularmente resistentes a datos extremos, es decir, sus valores no son atraídos por datos distantes de la
mayoría.
Algunas de estas medidas requieren del cálculo previo de los cuartiles. Recuérdese que el cuartil
inferior Q1 es donde se encuentra el percentil 25 y el cuartil superior Q 3 está en el percentil 75. En realidad hay
dos diferentes formas de localizar los cuartiles: una dice que el cuartil inferior corresponde al caso (N+1)/4 y el
superior al caso 3(N+1)/4; éstas son fórmulas de uso fácil, pero frecuentemente proporcionan cuartiles que se
encuentran entre dos valores. Por ejemplo, con 6 casos el primer cuartil sería el caso 1.75, a tres cuartas partes
del camino entre el caso 1 y el 2. La otra forma de localizar los cuartiles es pensarlos como las medianas de las
dos mitades del conjunto de datos, incluyendo a la mediana general en cada mitad; así, para 6 casos, la
mediana general está entre el tercero y el cuarto caso, por lo que de acuerdo a lo antes dicho, el primer cuartil
30 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
estará la mitad de los primeros tres casos (esto es, el caso 2) y el tercer cuartil estará a la mitad de los
segundos tres casos (es decir, el caso 5). En este libro se usa la primera forma de determinar los cuartiles.
Un conjunto de medidas basadas en EDA involucra promedios de valores percentiles. El rango medio
es el promedio de los valores más pequeño y más grande:
RM 
xmin  xmáx
2
Regresando al ejemplo de las guerras de la Tabla 3.1. Sección A, el valor mayor es 50 y el menor 1, por lo que
el rango medio es 25.5 guerras. El punto medio es el promedio de los cuartiles inferior y superior:
PM =
Q1 + Q3
2
En el mismo ejemplo, el valor del cuartil inferior es 1 y el del cuartil superior es 9, por lo que el punto medio es 5
guerras. De manera más general, el promedio de los valores de x-ésimo percentil inferior y del x-ésimo percentil
superior proporciona un resumen medio. El rango medio, el punto medio y otros resúmenes medios, pueden
ser usados como medidas de centro.
Comparando estos diferentes estadísticos de resumen medio se obtiene una indicación del grado de
simetría de la distribución. En una distribución simétrica, el rango medio, el punto medio, la mediana y todos los
demás resúmenes medios serían iguales. Si la variable es sesgada con algunos casos inusualmente altos, el
rango medio sería mayor que el punto medio, el cual sería mayor que la mediana (como en el ejemplo de las
guerras). Si la variable tiene sesgo en sentido contrario, el orden mencionado sería inverso.
Otra medida para el centro basada en EDA, es conocida como la trimedia o más fácil estimador sistemático.
Es una combinación de la mediana y los cuartiles, dándole mayor peso a la mediana que a los cuartiles. La
fórmula es:
TM =
Q1 + 2M + Q3
4
En el ejemplo de las guerras, el valor del primer cuartil es 1, el de la mediana es 3 y el del cuartil superior es 4.
La trimedia es en realidad el promedio de la mediana y del punto medio definido antes. Una ventaja de la
trimedia como una medida de centro es que combina el énfasis de la mediana sobre el valor central con la
atención que tiene el punto medio sobre los extremos.
Algunos programas de computadora producen un estadístico de tendencia central adicional, basado en
EDA: el biponderado o bicuadrado ponderado. Su fórmula es muy complicada para calcularla a mano.
Mosteller y Tukey reportan que el biponderado tiene una varianza baja de muestra a muestra, es resistente al
efecto de valores extremos (como lo es la mediana) y es sensible a cambios en la mitad de su rango (al igual
que la media). Puede ser útil para explorar distribuciones de datos, pero es muy poco intuitiva.
OTRAS MEDIAS.
La media común discutida antes (técnicamente llamada media aritmética) es el promedio más
comúnmente usado, pero algunos otros promedios que se usan para evitar el efecto de valores extremos o para
manipular tipos particulares de datos a nivel razón.
Medias equilibradas.
31 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Existen dos formas para controlar los efectos de la sensibilidad de la media a valores extremos:
desecharlos o (***winsorize***) antes de calcular dicha media. Desechar los valores extremos significa excluirlos
definitivamente del análisis, como se hace en las competencias de clavado olímpico cuando las calificaciones
más alta y más baja dadas por los jueces a un clavado son desechadas antes de calcular la evaluación media.
A diferencia, ***winsorizing*** los datos implica cambiar los valores más extremos por los siguientes menos
extremos. Como ejemplos: la media equilibrada 5%, desecha el 5% inferior y el 5% superior de las
observaciones antes de su cálculo; mientras la media ***winsorized*** con 20 observaciones cambia el valor
más alto (el 5% más alto) al segundo valor más alto y el más valor bajo (el 5% más bajo) al segundo valor más
bajo. Estas son soluciones ad hoc que frecuentemente son efectivas para mejorar la resistencia de la media.
Expresar matemáticamente estos estadísticos requiere primero de ordenar los valores de la variable de menor
(x1) a mayor (xN). Entonces, la j/N-ésima media equilibrada, T(j), es:
N- j
x
i
i= j+1
T(j/N) =
N -2j
y la j/N-ésima media ***winsorized***, W(j), es:
N- j
 x + jx
jx j+1 +
W(j/N) =
i
N- j
i= j+1
N
Una media equilibrada que se ha propuesto como un estadístico alternativo a la media aritmética es la media
central, que es el promedio de la mitad central de las observaciones. Si las observaciones se han acomodado
en orden numérico, la fórmula para la media central es:
MC =
2
N
3N
4
x
i=
i
N
4
Este estadístico es mucho más resistente a valores extremos que la media, aunque algunos estadistas
consideran que ignora demasiados casos extremos. Rosenberger y Gasko examinaron las propiedades de una
serie de medidas equilibradas y encontraron que la media central tiene las propiedades más deseables.
La media geométrica.
Algunas veces se usan medias especiales para datos medidos a nivel razón. La media geométrica es
usada para resumir una variable cuando su cambio relativo es el que se mide. En tanto la media aritmética
suma los diferentes valores de la variable antes de dividir entre el número de casos, la media geométrica
multiplica a todos los valores en conjunto y entonces extrae la raíz correspondiente al número de casos. La
fórmula para la media geométrica es:
N
1
MG = {  xi } N
i=1
donde la letra mayúscula pi representa la multiplicación de todos los valores de x i entre sí. Por ejemplo,
considérense los números 2 y 8, su media aritmética es 5, en tanto su media geométrica es 4, obtenida
32 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
mediante la multiplicación de los dos números (8x2=16) y la extracción de la raíz cuadrada de ese producto. Si
tres números fueran multiplicados entre sí, la raíz cúbica de su producto debería extraerse para obtener la
media geométrica, y así sucesivamente.
La media geométrica es útil cuando los valores de una variable se incrementan exponencialmente con
el tiempo; esto es frecuentemente el caso para cuentas de dinero. Digamos que el presupuesto de una agencia
pública se dobla en un año y se incrementa ocho veces al siguiente año (ver tabla 3.7). Dentro de dos años su
presupuesto debería incrementarse por un factor de 16 como se muestra en la sección a; pero, ¿
promedio anual de la tasa de crecimiento para la agencia?. La media aritmética daría una respuesta
equivocada. La media aritmética de 2 y 8 es 5, pero el presupuesto de la agencia se ha incrementado por un
múltiplo de 5 dos años seguidos, su presupuesto se habría incrementado por un factor de 25 (sección b) y no el
factor observado de 16. La media geométrica de 2 y 8 es 4, y aún así la agencia experimentó el mismo
crecimiento como si su presupuesto se hubiera cuadruplicado en ambos años (sección c). La media geométrica
captura adecuadamente la tasa de crecimiento promedio sobre los dos años, mientras que la media aritmética
no mide ninguno de los aspectos del proceso del presupuesto.
Una forma alternativa de calcular la media geométrica utiliza logaritmos. Recuérdese que el logaritmo
de un producto es la suma de los logaritmos de los factores, y que el logaritmo de la raíz N-ésima de x es 1/N
por el logaritmo de x. Por consiguiente la media geométrica puede calcularse obteniendo los logaritmos de
todos los valores, promediándolos después y determinado el antilogaritmo del resultado. Esto es:
log(MG) = promedio [log (xi)]
por lo que:
MG = antilog {promedio [log (xi)]}
donde promedio significa la media aritmética.
La versión logarítmica de la ecuación implica que la media geométrica le da más peso a los valores cuanto más
cercano estén a 1. Los valores mucho mayores que 1 (y fracciones muy pequeñas) tienen menos efecto sobre
la media geométrica que los cercanos a 1, esta la razón por el que una media geométrica de 4 está más cerca
del valor 2 que del 8 en el ejemplo anterior.
Tabla 3.7. Medias para tasas de crecimiento.
-------------------------------------------------------------------------------------------------------------Sección A. Crecimiento del presupuesto de la agencia
Año
Presupuesto
Tasa de crecimiento
----------------------------------------------------------------------------------- --------------------------2000
$100,000
2001
$200,000
2
2002
$1,600,000
8
Media aritmética
5=(2+8)/2
(2x8)
Media geométrica
4=
------------------------------------------------------------------------------------------------------------Sección B. Efectos del 5% anual en la tasa de crecimiento
Año
Presupuesto
Tasa de crecimiento
------------------------------------------------------------------------------------------------------------2000
$100,000
2001
$500,000
5
2002
$2,500,000
5
-------------------------------------------------------------------------------------------------------------Sección C. Efectos del 4% anual en la tasa de crecimiento
Año
Presupuesto
Tasa de crecimiento
33 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
------------------------------------------------------------------------------------------------------ -------2000
$100,000
2001
$400,000
4
2002
$1,600,000
4
-------------------------------------------------------------------------------------------------------------Media armónica.
Otro promedio para datos numéricos es la media armónica, que es usada cuando se promedian tasas.
Mientras la media aritmética toma el promedio de los valores de una variable, la media armónica está basada
en los recíprocos de los valores; es el recíproco de la media de los recíprocos:
MH =
1
1
N
N
1
x
i=1
=
i
N
1

xi
La media armónica se usa principalmente para promediar diferentes tasas. Digamos que en el año
2000, a la ciudad de Chicago le toma 3 meses para alcanzar 150 asesinatos, una tasa de 50 asesinatos por
mes; en el mismo año, a Detroit le lleva 5 meses para llegar a los mismos 150 asesinatos, una tasa de 30 por
mes. ¿Cuál es la tasa promedio combinada de las dos ciudades?. Podría parecer que 40 asesinatos por mes es
la respuesta, pero no es el caso. En total, las dos ciudades experimentan 300 asesinatos en 8 meses, lo que da
una tasa promedio de 37.5 asesinatos por mes (ver tabla 3.8). ¿Cómo puede ser este el caso?. A Detroit le
toma un tiempo mayor en llegar a 150 asesinatos a una tasa menor y un mayor tiempo a menor tasa empuja
hacia abajo la tasa promedio. Para calcular esto como una media armónica:
1
1 
 1  1

 

 2  tasa1 tasa2 

1
 37.5
1
 1  1
   
 2  30 50 
La fórmula de la media armónica también puede representarse a través de los recíprocos de cada uno
de los valores para calcular a continuación el promedio de estos recíprocos y al final tomar el recíproco del
resultado. Esto es:
Recíproco de MH = Promedio de los recíprocos de xi
por lo tanto:
MH = Recíproco del promedio de los recíprocos de xi
TABLA 3.8 Tasas de asesinatos en dos ciudades.
CIUDAD
ASESINATOS
TIEMPO (meses)
TASA (por mes)
Chicago
150
3
50
Detroit
150
5
30
Total
300
8
34 de 61
Media aritmética:
Media armónica:
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
40 = (50+30) /2
37.5 = 2/[(1/50) + (1/30)]
La media armónica da el mayor peso a los valores más pequeños, porque el recíproco de un número
pequeño es mayor que el recíproco de un número grande; este efecto es evidente en el ejemplo anterior donde
la media armónica está más cercana a la tasa menor (30) que a la tasa mayor (50).
Un resultado básico es que la media geométrica está siempre entre los valores de la media armónica y
de la media aritmética:
MH ≤MG ≤ x
Media generalizada.
Las fórmulas alternativas dadas anteriormente para la media geométrica y la media armónica sugieren
una formulación más general de la media. Sea T una transformación (tal como calcular el logaritmo, el recíproco
o el cuadrado) y M una media generalizada, entonces:
T (M) = Promedio de T (xi)
Definamos T1 como la inversa de la transformación T (la transformación que deshace la transformación
original), por lo que:
T1 [T (x)] = x
Como un ejemplo : la raíz cuadrada es la operación inversa de elevar al cuadrado. La media
generalizada M se puede expresar como:
M = T1 {Promedio [T(xi)]}
La media geométrica es un caso especial de esta formulación, donde T es la transformación
logarítmica y la inversa T1 del logaritmo es la transformación antilogaritmo (también llamada exponenciación).
La media armónica es otro caso especial, donde T es el recíproco y T1 es el recíproco del recíproco, dado que
1/(1/x) = x. La media aritmética también se ajusta a esta formulación, donde T es la transformación identidad, es
decir:
T (x), y T1 es también una tranformación identidad.
La formulación de la media generalizada sugiere que las medias aritmética, geométrica y armónica son
solamente tres de un conjunto más grande posible de medias. Como un ejemplo final de esta formulación
general, consideremos la media cuadrática (MC), conocida también como raíz media cuadrada. Sea la
transformación T el elevar al cuadrado un valor, por lo que la inversa T 1 de tal transformación será el extraer la
raíz cuadrada; entonces:
El cuadrado de (MC) = Promedio del cuadrado de (Xi), por lo tanto:
MC  Pr omediocuadradoxi   Pr omedioxi 
2
La media cuadrática da más peso a los valores con mayor magnitud, ya sean positivos o
negativos. Ésta se usará en la discusión de las medidas de dispersión para variables métricas en el Capítulo 4.
35 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
La media geométrica, la media armónica y la media cuadrática no pueden ser transformadas mediante
una transformación lineal, como sucede con la media, la mediana y la moda. En realidad, estas tres medias
generalizadas son transformadas adecuadamente por un multiplicador [Centro (mxi) = (m)centro(xi)], pero no
por una constante sumada a cada valor [ Centro (k+x i) ≠ k+centro (xi) ]. Esto muestra que estas medias son
apropiadas para datos a nivel razón y no para datos a nivel de intervalo.
Resumen.
Una serie de diferentes medidas de centro pueden ser usadas con datos numéricos. La más común es
la media aritmética, con la mediana para cuando existe algún dato extremo o cuando la variable tiene abierto
alguno de sus extremos. Los promedios especiales son apropiados para trabajar con crecimientos relativos y
con tasas. Las medidas basadas en el Análisis Exploratorio de Datos también son útiles al tratar con datos
extremos.
36 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
IV. MEDIDAS DE DISPERSIÓN
La tendencia es sólo una propiedad de interés al resumir la distribución de una variable. No sólo
queremos encontrar el valor típico de una variable, sino también queremos conocer qué tan típico es ese valor.
Esto implica movernos a considerar la dispersión de la variable.
Las medidas de dispersión más importantes han sido desarrolladas para datos numéricos—los
estadísticos estrechamente relacionados: varianza y desviación estándar. Se han desarrollado otras medidas
para la dispersión con niveles más bajos de medición, usando la adaptación del concepto de variación.
Las medidas de dispersión aumentan de valor con una mayor variación en la variable. Todas son iguales
a cero cuando no hay dispersión. La máxima variación para variables métricas y ordinales se define cuando los
casos están igualmente separados en dos categorías extremas—polarización. La máxima dispersión para
variables nominales se define de dos maneras: cuando hay una distribución uniforme de casos entre las
categorías, independientemente del número de ellas (uniformidad) o, cuando cada categoría ocurre solamente
una vez (individualidad). En este capítulo se darán ejemplos de estas definiciones.
Otra complejidad al tratar con medidas de dispersión es su calidad abstracta. No es intuitivamente claro,
por ejemplo, qué significado dar a una dispersión de 10. Como resultado, es común normar los valores de
dispersión. Un procedimiento para normar es dividir el valor de dispersión obtenido entre el máximo valor de
dispersión posible para el estadístico, de tal suerte que un valor de 1 representa la máxima dispersión. Otro
procedimiento para normar, usado en el coeficiente de variación y otros estadísticos, es dividir la dispersión
entre el correspondiente valor de tendencia central; esto en ocasiones es descrito como la obtención de una
medida absoluta de dispersión, porque las unidades de medición de la variable son removidas. Los
procedimientos para normar se usarán varias veces un poco más adelante.
DESVIACIÓN ESTÁNDAR Y OTRAS MEDIDAS DE DISPERSIÓN BASADAS EN DESVIACIONES.
La mayoría de las medidas de dispersión para datos métricos están basadas en desviaciones respecto
al valor de la medida aritmética. Los datos métricos tienen una unidad de medición, por lo que una desviación
muestra el número de unidades en que una observación difiere del valor de la media:

d1  x1  x
Por ejemplo, si el número medio de condenas anteriores de un conjunto de acusados criminales es 4,
entonces la desviación de un acusado con 20 condenas previas es 16 (=20-4) y la desviación para un acusado
sin condenas previas es –4 (=0-4) . Una serie de medidas de dispersión han sido ideadas para resumir el
tamaño de estas desviaciones a través de promediarlas (promediar las desviaciones absolutas o las
desviaciones al cuadrado). Cada una de estas posibilidades serán descritas a continuación. Las medidas de
dispersión para datos métricos más importantes son los estadísticos estrechamente relacionados: varianza y
desviación estándar, pero es útil discutir la desviación media primero.
La desviación media y sus variantes.
Una medida simple de dispersión parecería ser la desviación promedio respecto a la media:



x

x



1

i 1 

n
n
n
d
i 1
1
n
Recuérdese, sin embargo, de la discusión de las propiedades de la media en el capítulo 3, que la suma de
las desviaciones respecto a la media es siempre igual a cero; como resultado, el promedio de las desviaciones
respecto a la media sería igual a cero para cualquier variable. Por ejemplo, la tabla 4.1 muestra el número de
condenas previas de 10 prisioneros: si 8 acusados tuvieron 0 condenas previas y 2 tuvieron 20 condenas, la
media para el número de condenas previas es 4. La suma de las desviaciones es 8 (-4)+2 (16) = -32+32=0, por
lo que el promedio de las desviaciones respecto a la media es cero (ver Tabla 4.1, columna 3). Debido a que
37 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
siempre es cero por definición, el promedio de las desviaciones respecto a la media no puede indicar cuál
distribución de valores tiene mayor dispersión.
Las desviaciones respecto a la media podrían producir una medida de dispersión más útil si
promediáramos los valores absolutos de las desviaciones. A esto se le conoce como desviación media y su
fórmula es:
n
DM 

i 1

xi  x
n
n

d
i 1
1
n
La desviación media tiene un mínimo de R/n y un máximo de R/2, donde R es el rango de los datos, es decir, el
valor mayor menos el menor.
En el ejemplo de crímenes (Tabla 4.1), si 8 acusados no tienen condenas previas y los otros dos tienen
20 cada uno, la suma de las desviaciones absolutas es 64 (4 por cada uno de los 8 acusados, más 16 por cada
uno de los otros 2), y la desviación media es entonces igual a 6.4. Este valor captura bien la noción de medida
de dispersión típica.
Tabla 4.1. Medidas de dispersión basadas en desviaciones.
Acusado
N°. Condenas
Desviación
Previas
Desviación
Desviación
absoluta
Valor
cuadrada cuadrado
A
0
-4
4
16
0
B
0
-4
4
16
0
C
0
-4
4
16
0
D
0
-4
4
16
0
E
0
-4
4
16
0
F
0
-4
4
16
0
G
0
-4
4
16
0
H
0
-4
4
16
0
I
20
J
20
16
16
256
400
16
16
256
400
800
Sumas:
40
0
64
640
Media:
4
0
6.4
64=varianza
8=desv.est
Desviación media =64/10=6.4
Varianza =[800-(40²/10)]/10 = [800-160]/10 =64
Desviación estándar =
Coeficiente de variación = 8/4=2
Diferencia media de Gini =320/45 = 7.11
Mediana = 0
Desviación media absoluta = 40/10 = 4
38 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
La desviación es una medida de dispersión plausible, muestra qué tan lejos están los datos, en promedio,
respecto al valor de la media, cuando se ignoran los
signos de las desviaciones; sin embargo, ésta no es usada con frecuencia. Por un lado, el tratar con valores
absolutos no permite llegar a generalizaciones útiles cuando uno se mueva hacia los estadísticos para más de
una variable; por el otro, la desviación media respecto a la media aritmética no tiene ninguna de las propiedades
estadísticas especiales de unicidad (recuérdese del capítulo 3, que el promedio de las desviaciones absolutas
es realmente mínimo cuando las desviaciones son tomadas respecto de la mediana, y no respecto de la media
aritmética). La desviación media sería un estadístico intuitivamente atractivo, pero carece de propiedades
matemáticas llamativas.
La varianza y la desviación estándar de una población.
Una mejor manera de trabajar con desviaciones respecto a la media es elevarlas al cuadrado. En tanto
el tomar valores absolutos lleva a molestas manipulaciones algebraicas cuando generalizamos más allá de una
variable, el elevar al cuadrado lleva a propiedades estadísticas útiles. Como resultado, la manera usual de
medir la dispersión para variables métricas involucra cuadrar las desviaciones respecto a la media y promediar
estas desviaciones cuadradas. A esto se le llama la varianza de una variable. ( En realidad, esta definición es
para el parámetro varianza de la población completa; estimar el estadístico varianza con base a una muestra
más pequeña de la población, requiere modificar ligeramente esta formulación, tal y como se mostrará en la
siguiente sección).
La varianza poblacional es el promedio de las desviaciones cuadradas respecto de la media:
N
 
2
 x1   
i 1
N
2
N

d
i 1
1
N
donde la letra griega σ² (sigma cuadrada) se usa para representar la varianza poblacional, en tanto la letra
griega μ (mu) es usada para representar a la media poblacional.
El estadístico varianza es inusual en un sentido importante: la operación de elevar al cuadrado implica
que la varianza no está en las unidades originales de medición. Por ejemplo, si quisiéramos medir el producto
interno bruto de los países en dólares, la varianza estaría en dólares al cuadrado. Podemos regresar a las
unidades originales de medición extrayendo la raíz cuadrada a la varianza; el estadístico resultante, llamado
desviación estándar, es una medida de dispersión muy común. La fórmula para la desviación estándar
poblacional es:
N

2
 x1   
i 1
N
N

d
i 1
1
N
Como un ejemplo, consideremos las condenas previas de criminales acusados mostrados en la Tabla
4.1. El número medio de condenas es 4: los primeros 8 acusados tienen 4 condenas menos que la media, lo
que lleva a desviaciones cuadradas de 16; los últimos 2 acusados tienen 16 condenas más que la media, lo que
lleva a desviaciones cuadradas de 256. La suma de desviaciones al cuadrado es (8’ 16) + (2’ 256) = 128+ 512 =
640; el promedio de las desviaciones cuadradas es entonces 640/10 = 64, que es la varianza (ver Tabla 4.1.) .
Dado que la varianza está en unidades inusuales de condenas al cuadrado, extraemos la raíz cuadrada para
obtener 8 condenas.
Aunque las fórmulas anteriores para la varianza y la desviación estándar en términos de desviaciones
respecto a la media son fáciles de seguir conceptualmente, son difíciles de emplear cuando se hacen los
cálculos a mano. Por ejemplo, resultaría tedioso calcular las desviaciones cuadradas respecto a una media de
2.634. Afortunadamente, hay fórmulas de cálculo para la varianza y la desviación estándar que son más fáciles
de emplear. Tres fórmulas de cálculo equivalentes para la varianza poblacional son:
39 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
 N

 Xi 
N
xi2   i 1 

N
 2  i 1
N
N
2 
x
i 1
2
i
2
 N x 2 
N
N
2 
x
i 1
2
i
N
2

x
y las fórmulas de cálculo para la desviación estándar son las correspondientes raíces cuadradas de estas
fórmulas.
Las fórmulas de cálculo involucran la suma de valores al cuadrado, que no es lo mismo que elevar al
cuadrado la suma de los valores. Por ejemplo, tomemos los valores 1 y 2: su suma es 3, por lo que el cuadrado
de la suma es 9; sin embargo, los cuadrados de los datos son 1 y 4, que suman 5, y ésta es la suma de datos al
cuadrado usada antes del signo menos en las fórmulas de cálculo. Las calculadoras científicas pueden calcular
sumas de x y de x² con menos operaciones que las requeridas al usar desviaciones respecto de la media.
Se puede mostrar fácilmente que la fórmula de cálculo es equivalente a la fórmula de definición.
Primero elevemos al cuadrado las desviaciones:
x
 x   xi2  2 xxi  x
2
i
2
aplicando la sumatoria a ambos lados de la expresión:
 x

 x    xi2  2 xxi  x
2
i
2

al aplicar las reglas de la sumatoria se obtiene:
 x
 x
 x
2
i
 x
i
 x    xi2  2 x  xi  N x
2
i
  xi
  x  2
 N

2
i
 x    xi2  2
2
 x
i
2

 xi   N  xi 

 N 

 xi 2   xi 2
N
 x   x
2
2
2
i
N
2

xi 

N
ahora solamente dividimos entre N para obtener la varianza:
40 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
 x  x 
2
2 
i
N

 xi2 
xi 2
N
N
Regresando al ejemplo de los acusados criminales, donde 8 de ellos no tienen condenas previas y los
otros 2 tienen 20 cada uno, el cálculo de la varianza supondría sumar el cuadrado de 0 ocho veces ( lo que da
una suma parcial de 0 ) y sumar el cuadrado de 20 dos veces (2´ 400 = 800); a continuación sumar los valores
originales (=40), elevar al cuadrado dicha suma ( 40² = 1600) y dividirla por el número de casos ( 10 ) para
obtener 160. Finalmente, para obtener la varianza habría de restarse este último 160 de la suma de cuadrados (
800 ) para obtener 640, que se dividiría entre el número de casos ( 10 ), llegando al resultado de 64. La
desviación estándar es, por supuesto, la raíz cuadrada de la varianza, es decir, 8 condenas.
La desviación estándar se incrementa debido a valores extremos; así, en el ejemplo anterior, la
desviación estándar de 8 es mayor que la desviación media de 6.4, dado que el elevar al cuadrado las
desviaciones incrementa el impacto de valores grandes debidos a datos extremos. Esta falta de resistencia a
valores extremos puede parecer un problema de la desviación estándar, pero la ventaja de trabajar con
cuadrados en lugar de valores absolutos lo compensa, por lo que la desviación estándar es la medida usual de
dispersión.
Como otro ejemplo, la Tabla 4.2 muestra precios hipotéticos de casas vendidas en tres ciudades
durante la semana pasada, junto con las medias y las varianzas para cada ciudad. Estas ciudades tienen la
misma media en el precio, pero las varianzas son distintas. Los precios de las casas en la ciudad A muestran
una dispersión muy pequeña, en la ciudad B hay mayor dispersión y en la ciudad C se da una distribución de
precios desde las casas muy baratas hasta las muy caras. Este ejemplo muestra también porqué es útil resumir
una distribución usando su dispersión y su tendencia central: estas tres ciudades tienen centros idénticos, pero
sus diferentes dispersiones llaman la atención hacia las distintas distribuciones de los precios.
Tabla 4.2. Precios de casas en tres ciudades ( en dólares )
Media
Varianza
Desv. Estándar
Coef. De variación
Ciudad A
Ciudad B
Ciudad C
96,000
45,000
45,000
101,000
83,000
47,000
105,000
100,000
43,000
99,000
117,000
155,000
101,000
150,000
154,000
98,000
105,000
156,000
100,000
100,000
100,000
8´000,000 1,021´333,333 3,026´666,667
2,828.43
31,958.31
55,015.15
0.03
0.32
0.55
Puede darse otra serie de interpretaciones de la varianza y de la desviación estándar. Primero, la
desviación estándar frecuentemente es interpretada como una raíz de la media de las desviaciones
cuadradas. Recuérdese la discusión de la media cuadrática en el capítulo previo –es la raíz cuadrada del
41 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
promedio de los valores al cuadrado. La desviación estándar es similar, excepto que eleva al cuadrado las
desviaciones respecto a la media, en lugar de los datos crudos. La desviación estándar es la raíz cuadrada del
promedio de las desviaciones al cuadrado, por lo que es una media cuadrática de las desviaciones, también
conocida como la raíz de la media de las desviaciones cuadradas.
Una segunda interpretación de la varianza y de la desviación estándar está basada en lo que se
denomina una lógica de mínimos cuadrados ( Blalock, 1972: 59 ). Una propiedad de la media mencionada en
el capítulo 3 fue que la suma de las desviaciones al cuadrado respecto a la media es mínima, esto lo podemos
replantear como una propiedad de la varianza: la varianza calculada respecto a la media es la más pequeña en
relación con el promedio de desviaciones respecto de cualquier otro valor. Esta minimización es una propiedad
especial de la varianza. Recuérdese que la desviación promedio respecto a la media es mínima; los únicos
estadísticos de dispersión calculados respecto a la media, que son mínimos, son la varianza y la desviación
estándar. La tercera interpretación de la varianza y la desviación estándar involucra otra posible medida de
dispersión –el promedio de las diferencias al cuadrado entre todos los pares de observaciones:
 x
i
 xj 
2
C2N
donde el coeficiente binomial del denominador se reduce a N ( N-1 )/2. Se puede mostrar que el promedio de
las diferencias al cuadrado es igual a 2σ²N / ( N-1 ); por lo tanto, la varianza es proporcional al promedio de las
diferencias al cuadrado entre todos los pares de observaciones. Cuanto más sean diferentes los valores en los
pares de casos, mayor será la varianza y la desviación estándar del conjunto de datos. En efecto, si tomamos el
promedio de las diferencias cuadradas entre todos los pares de observaciones, incluyendo la observación
consigo misma, tendremos Σ( xi-xj )² = 2σ². Así, la desviación estándar es proporcional a la raíz de la media del
cuadrado de todos los pares posibles de diferencias:

1
2N
 x  x 
2
i
j
N
Esto lleva a la pregunta de cuándo la varianza y la desviación estándar son máximas; de acuerdo al
resultado que se acaba de obtener, son máximas cuando el promedio de las diferencias cuadradas entre todos
los pares de observaciones es máximo, lo que sucede cuando los datos están polarizados, con la mitad de las
observaciones en el valor máximo y la otra mitad en el mínimo, dado que es entonces cuando las desviaciones
cuadradas respecto a la media son máximas. Digamos que hay un número par (N) de observaciones,
exactamente igual a N/2 de estas observaciones equivalen al X máx y el otro N/2 corresponden al Xmín. Las
x  x 
mín , por lo tanto, la suma de las desviaciones cuadradas respecto a la media
desviaciones (Xmáx- x ) = d =
es Nd². La varianza poblacional es d² y la desviación estándar es d. Por ejemplo, una variable cuyos valores
estuvieran entre 0 y 100 tendría su varianza máxima si la media fuera 50, la mitad de los casos valieran 0 y la
otra mitad 100; su varianza seria 2500 y su desviación estándar 50. Más generalmente, si R representa el rango
de la variable (R=xmáx-xmín), entonces la varianza máxima es (R/2)² y la desviación estándar máxima es R/2.
Una propiedad más de la varianza deberá mencionarse aquí: Las varianzas son aditivas bajo una
circunstancia especial: si dos variables son estrictamente independientes una de la otra, entonces la
varianza de su suma es igual a la suma de sus varianzas. Si, por ejemplo una varianza es llamada A y la
otra B y si éstas son independientes entre sí, entonces la varianza de su suma es:
 2 A  B   A2   B2
Esta regla es importante porque algunas veces permite la descomposición de la varianza de una variable “X” en
partes separadas que se deben a elementos independientes, como se discutirá más adelante. Nótese, de paso,
que esta regla para las varianzas no es aplicable a las desviaciones estándar:
 A2  B   A2   B2   A   B
42 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
La desviación estándar satisface la mayoría de las reglas de Yule y Kendall para un buen estadístico,
listadas en el capítulo 1: es rígidamente definida, basada en todas las observaciones, algebraica y
mínimamente afectada por fluctuaciones de muestreo. Sin embargo, es tedioso calcularla, no resistente a
valores extremos y, más importante aún, no es fácilmente comprendida. La desviación estándar que es tan
abstracta, que sus valores son más difíciles de interpretar. No obstante, la desviación estándar es la medida de
dispersión más importante para variables métricas. La utilidad de la desviación estándar se volverá más clara
muy pronto.
La varianza y la desviación estándar de una muestra.
Técnicamente, la varianza y la desviación estándar han sido definidas, hasta aquí, para poblaciones
completas y no para muestras de casos. Sin embargo, la varianza y la desviación estándar así definidas
carecen de algunas propiedades óptimas cuando se trabaja con muestras. Este problema será discutido en el
capítulo 5 más directamente, aquí es suficiente decir que se requiere una pequeña modificación a la fórmula de
definición para ser aplicable a las muestras. En lugar de dividir la suma de desviaciones al cuadrado entre el
número de casos, esta suma deberá dividirse entre el número de casos menos 1. Las fórmulas para las
versiones muestrales de la varianza (denotada como s²) y de la desviación estándar (denotada como s) son:
 x  x 
n
S
i
i 1
d

n 1
 x  x 
n
S
n
2
i 1
i 1
n 1
n
d
2
i

n 1
2
i
i 1
2
i
n 1
Nótese que esta ligera modificación tendrá un impacto despreciable cuando el número de casos sea
grande, después de todo, el resultado es casi el mismo cuando un numerador es dividido entre un número
grande o entre ese número menos 1. La modificación puede tener un impacto más sustancial cuando el número
de casos es pequeño, digamos menos de 100, y particularmente si es menor de 60.
Las fórmulas de cálculo para la varianza de una muestra son:
 x
 x  n
2
 x  x

2
S
2

i
n 1
i
2
i
n 1
Las fórmulas de cálculo para la desviación estándar son sólo las raíces cuadradas de estas fórmulas. Una vez
más, la suma de valores al cuadrado en la fórmula no es lo mismo que elevar al cuadrado la suma de valores.
Una complicación adicional ocurre cuando se muestrea una población finita; las fórmulas dadas hasta
ahora asumen el muestreo de una población finita. Sin embargo, el tamaño de la población debe tomarse en
cuenta cuando se muestrea, sin reemplazo, una población finita. Si el tamaño de una muestra se denota como n
y el de la población como T, entonces la varianza es:
 x  x 

2
S
2
i
n 1

T 1
T
o lo que es lo mismo:
 x  x

2
S
2
i
n 1
 1
1  
 T
43 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
El factor de corrección 1-(1/T) está cercano a 1, excepto para poblaciones pequeñas, por lo que el ajuste
tiene poco impacto a menos que el tamaño de la población sea menor que 100.
La varianza y la desviación estándar para datos métricos agrupados.
Otras versiones de las fórmulas de la varianza y de la desviación estándar se pueden usar cuando los
datos están agrupados: Cuando se trabaja con una distribución de frecuencias en la cual cada valor de la
variable x se enlista junto con su frecuencia correspondiente “f”, la varianza poblacional puede calcularse como:
N
N
 fi xi   
2 
fd
2

i 1
N
i
i 1
2
i
N
o las fórmulas de cálculo:
 N

f
x



i
i
N
i 1


2
f i xi 

N
 2  i 1
N
N
2 
fx
2
i i
i 1
2
 
N x
2
N
N
2 
fx
2
i i
i 1
N
x
2
Las fórmulas apropiadas para la varianza muestral son:
 fi xi  X 
n
S
n
2
i 1
n 1

fd
i 1
i
2
i
n 1
o las fórmulas de cálculo:
S2 

 fi xi  x
n 1

2

fx
2
i i
2

 fi xi 

n 1
n
La desviación estándar es la raíz cuadrada de estas fórmulas de varianza.
Cuando se trabaja con una variable continua que ha sido agrupada en clases, las fórmulas anteriores se
pueden emplear con la marca de clase como representante de cada intervalo y f, como la frecuencia de la
clase. Así, si las fronteras del intervalo son 2 y 3, la marca de clase 2.5 deberá usarse para representar al
intervalo.
44 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Algunas veces es necesario reunir varianzas provenientes de diferentes muestras. Por ejemplo,
considérese la combinación de varianzas de muestras separadas de tres años diferentes (digamos con distinto
número de casos de cada muestra) en una varianza común. Si hay J muestras y representamos la varianza de
la muestra j como s j ², y su correspondiente número de casos como n j , entonces la fórmula de la varianza
conjunta es:
s 
2
n j  1s 2j
 nj  J
Estos cálculos se ilustran en la tabla 3.4. Si todas las muestras tienen el mismo tamaño, digamos n, la fórmula
se reduce al promedio de las varianzas muestrales:
S2 
n  1 s 2j
nJ  J

s
2
j
J
La varianza y la desviación estándar para datos dicotómicos.
Las fórmulas de la varianza y la desviación estándar pueden simplificarse más para datos dicotómicos.
La varianza de una variable dicotómica es:
2
=p (1-p),
donde p es la proporción de éxitos. Para ver esto, digamos que una variable binaria se codifica como 1/0, con p
como la proporción de casos codificados con 1, por lo que 1-p es la proporción de casos codificados con 0. De
acuerdo a la versión de cálculo de la fórmula de la varianza sería:
N
2 
fx
i 1
2
i i
N
2 
 2 
Np12   N 1  p 02   p 2
N
Np  0
 p 2  p  p 2  p1  p 
N
La desviación estándar, por supuesto, es la raíz cuadrada de la varianza. Nótese que la varianza es máxima
cuando la proporción p está cercana a ½; así, la varianza máxima es 0.25 cuando p=0.5, y disminuye a 0.16
cuando p=0.2, o 0.8, y a 0.09 cuando p=0.1 o 0.9.
El género es un ejemplo típico de una variable dicotómica, dado que toma sólo dos posibles valores:
hombre o mujer; digamos que se anota 0 para los hombres y 1 para las mujeres, si el 53% de la población
fueran mujeres, entonces la varianza para el género sería 0.53´0.47=0.249.
Coeficiente de variación.
Los valores de la desviación estándar resultan difíciles de interpretar directamente, dado que su monto
depende de la unidad con la cual se haya
medido la variable. Por ejemplo, una desviación de 100, ¿es grande o pequea?; sería grande si estuviésemos
analizando el peso de las personas, pero sería pequeña si el análisis fuese de ingresos anuales.
45 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
El coeficiente de variación o coeficiente de variación relativa es un estadístico que se usa para dar
un mejor sentido de qué tan grande es una desviación estándar. Diide la desviación estándar entre la media de
la variable, como se muestra en la siguiente fórmula:
CV 

x
Por ejemplo, si un grupo de gente tiene un peso promedio de 150 libras con una desviación estándar de
100, el coeficiente de variación del peso sería 0.667. Si el ingreso anual promedio fuera de $ 20,000 y la
desviación estándar de 100, el coeficiente de variación del ingreso sería 0.005. Estos coeficientes de variación
se pueden comparar en forma legítima para encontrar que los pesos son más variables que los ingresos.
Una interpretación alterna del coeficiente de variación está en términos de la variación relativa.
Definamos la desviación relativa para la observación i como (xi-_) /_, después, elevemos al cuadrado el
coeficiente de variación (s/_). Cuadrar la desviación estándar de una variable dividida entre su media, da la
varianza dividida entre la media al cuadrado. Esto puede simplificarse:

 xi  x
n
x

2

 xi  x 2
2
x

2
n
la segunda parte es precisamente el promedio de las desviaciones relativas al cuadrado; así, el coeficiente de
variación al cuadrado es igual al promedio de las desviaciones relativas al cuadrado. Esto es el porqué al
coeficiente de variación se le conoce algunas veces como el coeficiente de variación relativa.
Diferencia media de Gini.
Una última medida de dispersión para variables métricas está basada en las diferencias, más que en las
desviaciones. La diferencia media de Gini, es la media de los valores absolutos de las diferencias entre todos
los pares de valores:
g
 xi  x j
C2n
para todo i
j
para todo i

o también:
g
 xi  x j
nn  1
j
La diferencia media de Gini tiene atractivo intuitivamente hablando, muestra la diferencia típica entre un
par de valores. Por ejemplo, en la tabla 4.1, la diferencia media es 7.11, mostrando que la diferencia típica en
primeras condenas entre pares de acusados fue de 7.11, un valor que está cercano a la desviación estándar de
8, pero que es más fácilmente interpretable. Sin embargo, no generalizable de forma útil a más de una variable,
por lo que la diferencia media no se usa de manera frecuente en el análisis estadístico.
Resumen.
La varianza y la desviación estándar son las medidas de dispersión más importantes para variables
métricas. La desviación media y la diferencia media de Gini son conceptualmente más simples, pero la varianza
y la desviación estándar son los estadísticos que se generalizan más allá del caso de una variable y que tienen
propiedades matemáticas importantes.
46 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
USOS DE LA VARIANZA.
Hasta ahora se ha afirmado que la desviación estándar y la varianza son estadísticos importantes sin
mostrar el porqué. Algunos de sus usos serán descritos en esta sección, otros se explicarán en el siguiente
capítulo. Esta discusión es breve e introductoria y está diseñada principalmente para enfatizar la multitud de
usos del concepto de varianza en análisis de datos y diseños de investigación.
Considerando valores inusuales.
Uno de los usos de la variación de una variable es evaluar qué tan inusual es un valor de la variable. La
medida empleada para esto es llamada puntuación estándar o puntuación z. Si la variable es x, su i-ésima
observación es xi, su
media esμ y su desviación estándar es σ, entonces la puntuación Z correspondiente a xi es:
Zi 
xi  

Como una ilustración, la puntuación estándar para la gente con 20 condenas previas, en el ejemplo de crímenes
antes usado, es 2.0, si la media es 4 y la desviación estándar es 8. Ellos tienen una puntuación de 2 unidades
de desviación estándar por arriba de la media.
Las puntuaciones Z de una variable se denominan estandarizadas porque siempre tienen una media de
0 y una varianza de 1. Primero consideremos su media:


=
n
1

 x

1
n


1
n
 x
   0
1
dado que la suma de desviaciones respecto a la media siempre es 0. Ahora consideremos su varianza:
 x1   

  

 z2  
n
2 0

1

2
 x
1
n
 
2

1

2
 2 1
Dado que las variables estandarizadas tienen una varianza de 1, tienen también una desviación estándar de 1.
Frecuentemente se estandariza en el análisis estadístico para remover algunas fuentes de diferencias entre
las variables. Un ejemplo típico involucraría la construcción de un índice aditivo de variables separadas.
Usualmente, los índices aditivos se crean precisamente para sumar puntuaciones crudas de las variables. Sin
embargo, eso sería inapropiado si las variables tienen magnitudes o varianzas muy diferentes (como cuando se
construye una medida del estatus de la gente con base en los valores de sus casas y de sus asadores) y
particularmente si son medidas en diferentes unidades (como cuando se construye una medida del estatus con
base en el ingreso en dólares y en la educación en años). En tales casos, las variables deberán estandarizarse
primero para después crear un índice mediante la suma de puntuaciones estandarizadas.
Lo que hace particularmente útiles a las puntuaciones estandarizadas es que las leyes de la estadística y la
probabilidad proporcionan información sobre qué es una puntuación estándar inusual. De acuerdo con la
desigualdad de Chebychev; independientemente de la forma de la distribución de x, no más de la proporción
(1/k)2 de los casos tendrán puntuaciones estándar más grandes que k. Esto es:
47 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
 xi  x
 1
Pr ob
 k  2
 
 k


Por ejemplo, la probabilidad de que el valor absoluto de una puntuación Z sea mayor o igual a 2, no es más
grande que ¼.
Si la variable tiene una distribución simétrica, entonces la probabilidad de una puntuación Z cuyo valor
absoluto es mayor o igual que K, no es mayor que (4/9) (1/k) 2. Esto es:
 xi  x
 4 1
Pr ob
 k 
 
 9 k2


Así, si la variable tiene una distribución simétrica, la probabilidad de que la magnitud de una puntuación Z sea
mayor que 2, es a lo más de 1/9.
Figura 4.1: Distribución Normal
0.4
Media, Desv. Est.
0,1
0.3
y
0.2
0.1
0
-5
-3
-1
1
3
5
Z
Si la variable tiene la distribución acampanada llamada curva normal (Figura 4.1), entonces su
distribución concuerda con resultados ya tabulados. Por ejemplo, la probabilidad de que una puntuación Z sea
mayor o igual 1.96 (o menor o igual que –1.96) es 0.05, contra el ¼ para valores más allá de 2 en la
desigualdad más general de Chevychev o el 1/9 para una distribución simétrica general. La tabla que muestra la
probabilidad de valores particulares bajo la curva normal se incluye en la mayoría de los textos de estadística.
Evaluando la covariación entre variables.
Otro uso estadístico de la varianza involucra la comparación de varianzas en dos variables para ver el
monto con que éstas covarían. Esto se mide usualmente por medio de un coeficiente de correlación. Para el
caso de variables métricas, éste se denomina el “r” de Pearson y es el promedio de los productos de los valores
estandarizados de las variables “x” y “y”.
n
r
Z
i 1
xi
Z yi
n
Los valores de este estadístico van desde 0, cuando no hay covarianza, hasta 1 (o-1), cuando hay covarianza
máxima.
Las correlaciones son examinadas cuando se evalúa una causalidad, sin embargo, por sí solas no
prueban que una variable cause a la otra. De cualquier manera, no encontrar correlación entre dos variables
sugiere una falta de conexión causal entre ellas. Al estudiar la causalidad, se hace una distinción entre la
variable dependiente, que es la causada, y la variable independiente, que puede estar produciendo las
48 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
diferencias observadas en la variable dependiente. El cuadrado del coeficiente de correlación de Pearson (r 2)
muestra la proporción de la varianza de la variable dependiente “y” que puede explicarse mediante una regla de
predicción lineal basada en la variable independiente “x”. Por ejemplo, una correlación arriba de 0.7 muestra
que más de la mitad de la varianza en la variable dependiente puede ser explicada por la variable
independiente, Así, las correlaciones son interpretadas en términos de varianzas.
El estadístico varianza es especialmente importante en análisis de muchas variables, dado que la
varianza de la variable dependiente frecuentemente se puede descomponer en forma útiles. Recuérdese la
regla de la sección previa en que las varianzas (pero no loas desviaciones estándar) son aditivas cuando se
están sumando resultados independientes. Este resultado esa menudo utilizado en análisis multivariado,
cuando se puede probar que los efectos particulares son independientes unos de otros. La interpretación de r 2
en el párrafo anterior estaba basada en esta idea, al descomponer la varianza de la variable dependiente en
varianza explicada, debida a la relación lineal con la variable predictiva, y el reto como varianza del error, que
no puede ser explicada mediante la predicción lineal.
La selección de variables.
Es importante considerar a la variación en la etapa del diseño de la investigación. La lección más simple
es que se requiere variabilidad en una variable, si ésta va a ser útil. Digamos que los determinantes del
comportamiento criminal estuvieran bajo estudio: un investigador podría recabar las edades de los prisioneros y
resumirlas para determinar la edad típica de los criminales. Sin embargo, sin datos similares para los no
criminales, el estudio no podría usarse para checar si los criminales son más viejos o más jóvenes que el resto
de la población. Estudiando sólo a los prisioneros no hay varianza en la variable dependiente. El examen de las
variables que carecen de variación rara vez es útil.
De manera similar, deberá haber variación en las variables independientes. Para examinar los efectos
del género sobre el ingreso, por ejemplo, estudiar sólo mujeres no sería suficiente. La parte interesante es cómo
difieren los hombres de las mujeres, dado que esto permitiría un examen de las causas de variación entre
géneros. Crear un diseño de investigación sin varianza en alguna de las variables destruye la posibilidad de
obtener conclusiones del estudio.
Fuentes de variabilidad.
¿Por qué hay diferencias en los puntajes de una variable?. Una clasificación de las fuentes de
variabilidad en medición se enfoca a la distinción entre valores reales y valores observados. De acuerdo con
esta clasificación, el valor observado de una variable está compuesto de su valor real más un término de error.
Este término de error puede a su vez ser descompuesto en dos términos: un término de tendencia sistemática
y un término de error aleatorio. Asumamos que los valores reales, las tendencias sistemáticas y el error
aleatorio no están correlacionados, esto es que el único tipo de tendencia sistemática sería una constante
sumada a la puntuación real. La varianza observada de una variable puede ser entonces descompuesta en su
varianza real y su varianza de error (porque un término de tendencia constante carecería de varianza). El
término de error aleatorio es dividido algunas veces en sus varias fuentes, tales como: error de medición, error
de codificación y error de muestreo, y cada uno de estos errores pueden tener una varianza asociada a ellos. La
medición es así asunto de minimización de fuentes particulares de varianza de error.
En investigación experimental, la parte de la varianza asociada con las variables manipuladas se
considera como varianza sistemática, que será maximizada. La parte asociada con otros factores es
considerada como varianza
extraña, que será controlada mediante la asignación aleatoria de los sujetos a diferentes grupos
experimentales. La varianza restante debida a fluctuaciones aleatorias se considera como varianza de error,
que será minimizada al controlar las condiciones experimentales o al incrementar la exactitud de las
mediciones. Esta clasificación lleva a la sugerencia de Kerlinger, en su libro de texto de diseños de
investigación, de que el investigador debe “maximizar la varianza sistemática, controlar la varianza extraña y
minimizar la varianza de error”. Así, el diseño de investigación en sí mismo puede ser considerado como un
ejercicio para el control de la varianza. A fin de cuentas, el concepto de varianza es de importancia crítica tanto
en el diseño de investigaciones como en el análisis de datos.
49 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
MEDIDAS DE DISPERSIÓN BASADAS EN EL ORDEN.
El concepto de dispersión también es aplicable a datos ordinales, aunque la dispersión rara vez es
medida a un nivel ordinal puro de medición. Las medidas de dispersión para datos ordinales serán descritas en
esta sección, junto con medidas que están basadas en el orden de los valores numéricos. Las principales
medidas de dispersión discutidas en esta sección son el rango y, especialmente, el rango intercuartílico.
Rango.
La medida de dispersión más simple, basada en el orden, es el rango de los valores: la diferencia entre
el mayor y el menor de los datos:
R = Xmáx – Xmín.
El rango indica cuánto la variable varía en la práctica. Su mínimo valor es 0 cuando no hay dispersión en
la variable. Como un ejemplo, digamos que se cuenta el número de primeras condenas de 10 criminales
acusados; si cada acusado tuvo exactamente 4 condenas previas, el rango será 0. El rango sería 20 sí el
número de condenas anteriores fuera de 20 como máximo y 0 como mínimo.
La principal ventaja del rango como medida de dispersión es su facilidad de cálculo. Sin embargo, se ve
muy afectado por valores extremos, aún en el caso de que éstos no sean atípicos. Por ejemplo, si 9 acusados
no tuvieron condenas previas y el restante tuvo 20, el rango sería de 20 dado este único valor extremo. Como
resultado, al rango se le considera como una medida de dispersión resistente. Generalmente se prefieren
medidas más resistentes.
El rango intercuartílico y sus variantes.
Esta sensibilidad del rango a casos extremos algunas veces se remedia usando alguna de sus variantes
como lo es el rango intercuartílico ( también conocido en la literatura del EDA como la dispersión media,
dispersión H o dispersión F ). Para esta medida, determínese el valor que corresponde al percentil 75 (Q 3:
cuartil superior) y el valor del percentil 25 ( Q1: cuartil inferior); el RIQ es la diferencia entre estos dos valores:
RIQ = Q3 – Q1
Al cortar los casos extremos, el RIQ es menos sensible a valores lejanos que el rango completo, por lo que es
una medida de dispersión más resistente.
Como se describió en el capítulo 1, el análisis exploratorio de datos enfatiza el familiarizarse con los
datos a un nivel intuitivo, así como el uso de estadísticos resistentes. El RIQ es un estadístico favorecido en
EDA, dado que es intuitivo, resistente y tiene propiedades deseables sobre una variedad de distribuciones
diferentes de la variable.
La limitación del RIQ es que hay una cualidad ad hoc para su cálculo, dado que no hay nada mágico en
torno a los percentiles 25 y 75. En efecto, algunos defensores del EDA sugerirían calcular una variedad de
estadísticos del estilo del RIQ, tales como la diferencia entre el octavo superior y el inferior de la distribución, y
así sucesivamente. Esta multiplicidad de posibles rangos sirven como un recordatorio de que los estadísticos
basados en el EDA están pensados para exploración, más que como estadísticos de resumen final.
Una serie de variantes del RIQ también han sido propuestas como medidas de dispersión. La
desviación cuartílica ( o rango semi-intercuartílico o también rango cuartil) es el rango intercuartílico dividido
entre 2:
Q3  Q1
2
DQ

La división entre 2 tiene la intención de dar al estadístico el sabor a una desviación típica respecto al centro,
aquí cuánto los cuartiles típicamente se desvían de la mediana. La DQ también puede pensarse como el
promedio del rango entre el percentil 25 y el 50 y entre éste y el percentil 75.
50 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
El rango intercuartílico y sus rangos relacionados tienen un valor de 0 cuando no hay dispersión en la
variable y sus valores no tienen límite al incrementarse la dispersión. El RIQ es muy fácil de calcular, pero no
lleva a
Generalizaciones útiles más allá de una sola variable.
La interpretación del tamaño de los coeficientes de dispersión basados en rangos depende de las
unidades en las cuales ha sido medida la variable. Siguiendo la lógica de los coeficientes de variación, una
versión normada se puede obtener mediante la división del estadístico de dispersión entre una medida de
centro. El coeficiente de variación cuartílica (CVQ) es la diferencia intercuartílica dividida entre la suma del
primero y del tercer cuartiles:
Q3  Q1
Q  Q3
CVQ = 1
Este estadístico es igual a la desviación cuartílica dividida entre el punto medio (definido en el capítulo 3), el
cual enfatiza el uso de la lógica de los coeficientes de variación.
Gráficas de caja.
Uno de los desarrollos más inventivos en estadística en los años recientes ha sido la creación de nuevos
procedimientos gráficos para la exploración de datos. En particular, las gráficas de caja (también conocidas
como diagramas de caja y bigotes) han sido ideadas para presentar la distribución ordinal de variables. La
gráfica de caja muestra simultáneamente la mediana de una variable, su rango y su rango intercuartílico y
enfatiza cuáles observaciones son extremas. Así, las gráficas de caja dan una visión rápida tanto del centro
como de la dispersión.
(Datos de la Esperanza de vida en Salud de la población Mundial según la OMS, anexos, pág. 9)
Gráfica de caja y extremos
25
35
45
55
65
75
Esperanza de vida en Salud General
Figura 4.2. Sección A: Tasas de la Esperanza de vida en Salud para la población Mundial General.
Número de datos = 191
Moda = 56.8262
Mediana = 60.5
Moda = 65.0
51 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Variance = 151.429
Standard deviation = 12.3056
Minimum = 25.9
Maximum = 74.5
Range = 48.6
Primer Cuartil = 47.8
Tercer Cuartil = 65.8
Nótese las tres líneas verticales en la gráfica: la del centro representa la mediana, mostrando que para
estos datos su valor está alrededor de 60.5; las otras dos barras verticales muestran el primer cuartil (alrededor
de 47.8) y el tercer cuartil (por el 65.8). Hay una caja en torno a estas tres líneas verticales; la longitud
horizontal de ésta representa el rango intercuartílico. Más allá del RIQ, valores dentro del 25.9 al 47.8 igual a
21.9 veces la dispersión del primer cuartil es decir entre el bigote izquierdo y la primer línea vertical (RIQ). Del
primero o del tercer cuartil se muestran y están conectados a la caja principal con líneas, pintorescamente
llamadas bigotes. En algunos casos los valores extremos entre 25.9 y 65.8 veces el RIQ desde el primero o el
tercer cuartil (digamos aquellos que quedan fuera de los cercados interiores) son dibujados con estrellas.
Valores extremos mayores que 65.8 veces el RIQ del primero o del tercer cuartil (aquellos que quedan fuera de
los cercados exteriores) son dibujados con círculos rellenos.
Las gráficas de caja son particularmente útiles al comparar la distribución de la misma variable para
diferentes subgrupos de observaciones. La figura 4.2, sección B, muestra gráficas de caja para la inflación de
1948 a 1966 y de 1967 a 1985, separadamente. La tasa de inflación mediana parece ser más alta en el último
período, así como fue mayor el RIQ, aunque el primer período experimentó más valores mensuales atípicos.
Las diferencias de los subgrupos aparecen a primera vista en estas gráficas. Al comparar diferentes gráficas de
caja pueden resaltarse diferencias en medianas, cuartiles, dispersiones y/o valores extremos.
El resto de las medidas en este capítulo son usadas menos frecuentemente, por lo que algunos lectores
podrían saltar al siguiente capítulo en este punto.
Desviación mediana absoluta.
Otra posible medida de dispersión basada en el orden es el promedio de las desviaciones absolutas
respecto a la mediana. Si la desviación di es definida como la diferencia aritmética entre el valor de una
observación xi y la mediana (di = xi – xmed), entonces la desviación mediana absoluta (DMA), algunas veces
llamada desviación promedio, es el promedio de estas desviaciones con valor absoluto:
n
DMA 
x x
i 1
i
med
n
Como un ejemplo, la mediana para la tabla 4.1 es 0, las desviaciones absolutas respecto a la mediana suman
40 y el número de casos es 10, por lo que la DMA es 4.
Esta desviación promedio respecto a la mediana es mínima comparada con la desviación promedio
respecto de cualquier otra posible medida de centro. El trabajo con EDA sugiere que la DMA tiene propiedades
deseables sobre una variedad de distribuciones de la variable.
52 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Tal y como el coeficiente de variación es la desviación estándar normada a través de dividirla entre su
media, el coeficiente de dispersión (CD) es la desviación mediana absoluta normada a través de dividirla entre
la mediana:
CD 
x
i
 xmed
nxmed
Esta es una medida de dispersión que corrige el efecto de la magnitud de la variable.
Aunque la DMA tiene algunas interpretaciones útiles, los valores absolutos son tediosos de manipular
algebraicamente. Por esta razón, la DMA no permite generalizaciones útiles cuando uno considera estadísticos
para más de una variable. Como resultado, esta medida de dispersión se usa raramente.
La D de Leik.
La medida de dispersión ordinal más pura fue desarrollada por Leik (1966) en su estudio de consenso.
Primero, asúmase que la variable ha sido acomodada en su orden apropiado. Denotemos las proporciones de
las observaciones en cada una de las k diferentes categorías como p1, p2, ..., pk. Definamos la proporción
acumulada para las k categorías como ck = Σpj para j  k. Entonces se la diferencia dk = ck si ck £0.5 y 1 – ck en
cualquier otro caso. Leik propone como medida de dispersión:
D
2 d k
k 1
como un ejemplo, digamos que hay cuatro individuos y tres categorías, con una persona en la primera
categoría, dos en la segunda y una en la última (ver tabla 4.3, sección A). Las proporciones acumuladas para
las tres categorías son c1= 0.25, c2= 0.75 y c3= 1.00. Las correspondientes diferencias son d1= 0.25, d2= 0.25 y
d3= 0. La D de Leik es 2 (0.25+0.25+0)/(3-1)=0.5. Este estadístico es 0 si no hay dispersión: si toda la gente cae
en la misma categoría (sección B). La máxima dispersión ocurre cuando los casos están polarizados, con la
mitad en cada extremo, en cuyo caso D toma un valor máximo de 1 (sección C).
La lógica de la D de Leik es completamente apropiada para datos ordinales, sin requerir una conversión
a puntuaciones numéricas, pero es usada con muy poca frecuencia.
Resumen.
Hay una serie de medidas de dispersión basadas en el orden. El rango es muy poco resistente para ser
útil. El RIQ y la desviación mediana absoluta tienen algunas propiedades útiles, pero no se pueden generalizar
a más de una variable. La D de Leik es estrictamente ordinal, pero rara vez es usada. Al poner estas
consideraciones juntas, las medidas de dispersión basadas en el orden están limitadas en su valia. Como
resultado, la varianza y la desviación estándar son usadas frecuentemente, aún con datos ordinales.
53 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Tabla 4.3. Ejemplos para ilustrar la D de Leik.
Sección A. Cálculo de la D de Leik
Categoría 1
Categoría 2
Categoría 3
Suma
Frecuencia
1
2
1
4
Proporción
0.25
0.5
0.25
1.0
Prop. Acumulada
0.25
0.75
1.00
Diferencia
0.25
0.25
0.00
0.5
D=2 x 0.5/ (3-1 ) =0.5
Sección B. Sin dispersión
Categoría 1
Categoría 2
Categoría 3
Suma
Frecuencia
0
4
0
4
Proporción
0.00
1.0
0.00
1.0
Prop. Acumulada
0.00
1.00
1.00
Diferencia
0.00
0.00
0.00
0.0
D= 2 x 0/ (3-1) = 0
Sección C. Máxima dispersión
Categoría 1
Categoría 2
Categoría 3
Suma
Frecuencia
2
0
2
4
Proporción
0.5
0.0
0.5
1.0
Prop. Acumulada
0.5
0.5
1.00
Diferencia
0.50
0.50
0.00
1.0
D= 2 x 1/ (3-1) = 1.0
MEDIDAS DE DISPERSIÓN BASADAS EN LA FRECUENCIA.
La dispersión puede medirse para variables nominales en términos del grado de heterogeneidad de la
variable. Dispersión 0 denota homogeneidad completa (todos los casos caen en la misma categoría), mientras
que valores mayores indican mayor heterogeneidad. Las medidas de dispersión para variables nominales están
basadas en las frecuencias de las categorías. Al leer esta sección deberá tenerse en mente que no existe un
acuerdo simple sobre las medidas de dispersión para datos nominales.
54 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Razón de variación.
La medida de dispersión más simple para datos nominales se llama razón de variación. Es precisamente
la proporción de casos que no caen en la categoría modal:
f mod al
n
RV = 1donde se usa f para denotar la frecuencia, por lo que f modal es la frecuencia de la categoría modal y n es el
número total de casos. Ésta es una medida de dispersión útil porque muestra qué tan descriptiva es la moda de
sus datos.
Para un ejemplo de la razón de variación ver los datos de la afiliación religiosa en la tabla 4.4. La religión
modal para la columna 2 es protestante, con 40% de la muestra. La razón de variación es
0.6.
Tabla 4.4. Distribuciones de religiones.
__________________________________________________________________
Religión
Real
Unanimidad
Protestante
80
6
3
1
2
Católica
60
0
3
1
2
Judía
10
0
0
1
2
Musulmana
--
0
0
1
0
Otra
20
0
0
1
0
Ninguna
30
0
0
1
0
Total
200
6
6
6
6
Moda
Protest.
no única
no única
no única
Protest.
Polarizada
Individualidad
Uniforme
__________________________________________________________________
Religión
Real
Unanimidad
Polarizada
Individualidad
Uniforme
__________________________________________________________________
Razón de var. 0.6
0.0
0.5
0.83
0.67
Índice div. 0.715
0.0
0.5
0.83
0.67
IVQ
0.894
0.0
1.0
1.0
1.0
Entropía
2.009
0.0
1.0
2.58
1.58
Entropía est. 0.865
0.0
1.0
1.0
1.0
55 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
La razón de variación sería 0 si todos los casos cayeran en la misma categoría. Su máximo valor
depende del número de categorías de la variable. Si hay k categorías y cada una ocurre con igual frecuencia n/k
( una distribución uniforme ), entonces la razón de variación es 1-(1/k), que se aproxima a 1 cuando el número
de categorías tiende al infinito. Así, su máximo valor es bajo individualidad –cuando cada caso está en una
categoría separada.
La razón de variación es simple de calcular, pero tiene la desventaja de estar basada sólo en la
proporción de casos de la categoría modal. Otras medidas de dispersión nominales toman en cuenta a todos los
casos.
Índice de diversidad.
Una segunda medida de dispersión para variables nominales es el índice de diversidad (ID). Ésta es una
medida de dispersión basada en la proporción de casos en cada categoría. Eleva al cuadrado cada una de
estas proporciones, suma los cuadrados y sustrae esta suma de cuadrados de 1:


k
ID  1  p12  p22   pk2 1   p12
i 1
donde p, es la proporción de casos en la categoría i, k es el número de categorías y Σ se utiliza para la suma de
2
los términos p i para cada categoría. Este índice muestra el grado de concentración de los casos en unas
cuantas categorías, dado que al elevar al cuadrado las proporciones, se enfatizan más las proporciones
grandes que las pequeñas.
En el ejemplo de las religiones (Tabla 4.4), con 40% de protestantes, 30% de católicos, 5% de judíos,
10% de otra y 15% de ninguna, la suma de las proporciones cuadradas es 0.16 + 0.09 + 00025 + 0.0225 =
0.285, por lo que ID = 1 – 0.285 = 0.715.
El índice de diversidad ha sido desarrollado de manera independiente en muchos campos como una
medida de heterogeneidad. Por ejemplo, es lo mismo que la medida de fraccionalización desarrollada por Taylor
y Hudson y también Waldman, para resumir la dispersión entre los números de votos recibidos por los partidos
políticos en elecciones con varios partidos.
El índice de diversidad se aproxima a 0 si casi todos los casos caen en la misma categoría y es máximo
bajo individualidad, cuando cada caso está en una categoría separada. Sin embargo, su máximo valor depende
del número de categorías, por lo que el ID no puede ser comparado entre distribuciones con diferente número
de categorías. Si hubiera k categorías con igual proporción de casos en cada una, el ID tendría el valor máximo
de (k-1)/k. Así, en el ejemplo de las religiones, la diversidad máxima es 0.8 (=4/5), dado que hay 5 grupos
religiosos. Lo que hace esto inusual es que el valor máximo se incrementaría si el número de categorías fuese
mayor. Por ejemplo, si subdividiéramos a los protestantes en bautistas, presbiterianos, metodistas, luteranos y
otros protestantes, tendríamos 10 categorías, con una diversidad máxima de 0.9 (=9/10). Para muchos
propósitos es más útil que el índice de diversidad sea normado para ir de 0 a 1, independientemente del número
de categorías.
Índice de variación cualitativa.
Una tercera medida de dispersión para datos nominales, el índice de variación cualitativa (IVQ), norma
el índice de diversidad, por lo que el valor 1 siempre representa la máxima dispersión. Para hacer esto,
simplemente se divide el ID entre su máximo valor para el número de categorías que se tengan. (k-1)/k. La
fórmula es:
56 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
IVQ 

1  p12  p22    pk2
k 1
k

En el ejemplo de las religiones de la tabla 4.4 con 5 categorías, el índice de variación cualitativa es
0.715/0.8 = 0.894. Este valor alto del IVQ indica que hay una considerable dispersión entre las religiones en
esta muestra. El IVQ es 0 cuando todos los casos caen en una sola categoría y 1 bajo uniformidad, cuando los
casos están repartidos uniformemente entre todas las categorías.
Cuál de las medidas de dispersión nominales es más útil depende en parte de cómo se defina la
dispersión nominal. Digamos que comparamos la competencia de partidos políticos en dos naciones: un
sistema bipartidista en el que cada partido ganó el 50 % de los votos y un sistema multipartidista en el que cada
uno de los 10 partidos obtuvo el 10 % de los votos. El IVQ sería 1 en cada caso, dado que la diversidad es
máxima dado el número de categorías. Todavía hay un sentimiento real de que existe más dispersión en el
sistema con 10 partidos respecto al bipartidista. Si sentimos que es importante capturar esta dispersión,
deberíamos regresar al índice de diversidad, donde encontraríamos un valor de 0.9 para el sistema
multipartidista, respecto a 0.5 para el bipartidista. Así, la corrección por el número de categorías seria
inapropiada cuando la existencia de más categorías, por si misma, significa mayor diversidad.
Entropía.
Una cuarta medida de dispersión para variables nominales está basada en la teoría de la información.
Los estadísticos basados en esta teoría calibran cuánta información es transportada por una distribución. No
hay incertidumbre cuando todos los casos caen en la misma categoría y a mayor dispersión de los casos entre
las categorías, mayor incertidumbre.
Se cuentan los distintos “bits” o trozos independientes de información. Por definición, hay exactamente
un bit de incertidumbre en una elección entre dos alternativas iguales. Menos incertidumbre existiría si una
alternativa fuera más popular que la otra. Una elección equitativa entre dos opciones provee un bit de
incertidumbre, una elección nivelada entre 4 (22) alternativas proporciona 2 bits de incertidumbre, si la elección
fuese 8 (24) opciones, se producirían 3 bits, y así sucesivamente. Así, el número de bits independientes de
información puede ser calculado mediante el logaritmo, de base 2, del número de alternativas, ajustado por sus
popularidades diferenciales.
La entropía (o incertidumbre) se mide al tomar en cuenta la proporción de casos en cada categoría. Esta
proporción se multiplica por el negativo de su logaritmo ( usualmente de base 2 ), lo cual da: -p1log2 (p1). La
incertidumbre de una distribución es definida como la suma de estos valores para todas las categorías:
k
k
i 1
i 1
H ' x     pi log 2  pi   3.3219  pi log 10  pi 
La segunda versión de la fórmula para la entropía está en términos de los logaritmos comunes de base
10.
En el ejemplo de las religiones de la tabla 4.4, la entropía es 2.009, esto puede ser interpretado diciendo
que la dispersión entre las categorías es aproximadamente igual a la incertidumbre al escoger entre 4 religiones
de igual prevalencia.
No hay incertidumbre cuando todas las observaciones están en la misma categoría, en tal caso p 1= 1.
Por definición, el logaritmo de 1 es 0, por lo que la entropía vale 0 en estas circunstancias. En contraste, si hay
una distribución uniforme entre todas las categorías, entonces la entropía es – Σ(1/k) log2(1/k) = -k (1/k)[log2(1)
– log2 (k)] = -1 [0-log2(k)] = log2 (k). En otras palabras, a mayor número de categorías, mayor será la
incertidumbre; así, su máximo valor depende del número de categorías, con el valor más grande bajo
condiciones de individualidad.
57 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
El estadístico entropía puede normarse, de tal suerte que su máximo valor sea 1, independientemente
del número de categorías que tenga la variable. La fórmula de entropía se puede modificar para tener esta
característica al dividirla entre su valor máximo y obtener así lo que se conoce como entropía estandarizada:
k
  p1 log 2  p1 
i 1
J1=
log 2 k 
En el ejemplo de las religiones, la entropía estandarizada es 0.865
El estadístico entropía es poco usado porque los logaritmos de base 2 son tediosos de calcular y porque
la mayoría de los investigadores no se sienten cómodos con los logaritmos. Sin embargo, las bases teóricas de
este estadístico son muy fuertes. Otras medidas de dispersión nominales tienen una base ad hoc para ellas, en
tanto la entropía está elegantemente basada en la teoría de la información. Una ventaja adicional es que la
entropía se generaliza fácilmente a varias variables, por lo que las medidas de asociación, basadas en la
incertidumbre, entre dos variables pueden usarse para determinar cuánto una variable explicativa ayuda a
reducir la incertidumbre de la categoría de la variable dependiente a la cual pertenece un caso.
Otras medidas.
Se han ideado otra serie de medidas de dispersión para datos nominales, usualmente por
investigadores al resolver sus propios problemas. Así, los científicos del área política desarrollaron una serie de
medidas de dispersión para las curules ganadas por diferentes partidos en legislaturas multipartidistas. Un
ejemplo es el estadístico de fragmentación de Rae y Taylor, que es la proporción de pares de casos que no
están en la misma categoría; es aproximadamente igual al índice de diversidad para un número grande de
casos. De manera similar, los biólogos construyeron una serie de índices de diversidad ecológica, donde la
existencia de un número grande de especies muy semejantes en cantidad es considerada como alta diversidad.
También otra serie de disciplinas desarrollaron medidas de equidad o integración, tales como 1-Σ |pk – (1/k)|,
que está basado en la diferencia entre las partes proporcionales y la parte proporcional promedio.
Resumen.
No hay un acuerdo común sobre cuál de las medidas de dispersión basadas en frecuencias es la mejor.
En efecto, los programas de cómputo rara vez proporcionan alguna de éstas. Cada una tiene un valor de 0
cuando todos los casos están en la misma categoría. A mayor heterogeneidad en las observaciones, más
grande es el valor de estos estadísticos. Como se muestra en las últimas cuatro columnas de la tabla 4.4, entre
ellos difieren en su valor máximo. El índice de variación cualitativa y la entropía estandarizada tienen valores
máximos de 1 cuando la distribución es uniforme, las otras son máximas cuando cada caso está en una
categoría separada, con su valor mayor dependiendo del número de categorías.
DISCUSIÓN.
Comparaciones entre las medidas de dispersión.
Todas las medidas de dispersión aceptan la misma definición de 0 variación, pero usan diferentes
interpretaciones de lo que es máxima dispersión (ver tabla 4.5). Las medidas métricas y ordinales son máximas
cuando la variable está polarizada, con la mitad de los casos en el valor máximo y la otra mitad en el valor
mínimo. Las medidas basadas en las frecuencias, en cambio, son máximas cuando hay una distribución
uniforme de casos entre las categorías o cuando hay tantas categorías como número de observaciones.
También, algunas medidas de dispersión están normadas, ya sea para tener un valor máximo de 1 o mediante
la división entre un valor de tendencia central para controlar el efecto de la unidad de medición de la variable.
Los valores normados son generalmente más interpretables, aunque con los valores crudos las medidas de
dispersión ser puras.
58 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Tabla 4.5. Condiciones de valor máximo para medidas de dispersión.
Medida
Valor
Máximo
Desv. Media
ilimitado
Cond. Máx.
Máx. depend.
p/núm. De
del núm. De
Casos fijo
categorías.
polarizado
no
Normada
no
Varianza
ilimitado
polarizado
no
no
Desv. Estándar
ilimitado
polarizado
no
no
Coef. De variac.
ilimitado
no
si
Dif. Media de Gini
ilimitado
polarizado
no
Rango
ilimitado
Rango intercuart.
ilimitado
polarizado
no
no
Desv. Cuartílica
ilimitado
polarizado
no
no
Coef. Var. Cuart.
ilimitado
no
si
Desv. Med. Absol.
ilimitado
Coef. De dispers.
Ilimitado
D de Leik
1
no
no
polarizado
polarizado
no
no
no
no
si
si
no
Razón de variac.
→1
individualidad
si
no
Índice de divers.
→1
individualidad
si
no
Índice var. Cualit.
→1
uniformidad
no
0-1
Entropía
ilimitado
individualidad
si
no
Entropía estándar
→1
uniformidad
no
0-1
La tabla 4.6 compara las principales medidas de dispersión descritas en este capítulo respecto a los
criterios deseables para estadísticos descriptivos listados en el capítulo 1. Algunas de las evaluaciones de la
tabla son debatibles, pero proporcionan un punto de inicio útil para la consideración de los estadísticos. Las
ventajas de la desviación estándar ( y la varianza) son el ser algebraicas, estables bajo el muestreo y
generalizables a dos o más variables. El rango intercuartílico es más fácil de entender y de calcular, más
resistente a valores extremos y con frecuencia puede ser calculado para variables con extremos abiertos. Las
medidas basadas en frecuencias generalmente no cumplen con los criterios, pero son las apropiadas para
datos nominales. Más que escoger una sola medida de dispersión, con frecuencia es más apropiado usar varias
de ellas al mismo tiempo para resaltar diferentes aspectos de la dispersión.
59 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
Tabla 4.6. Propiedades de las medidas de dispersión.
Propiedad
índice de diversidad
Rango Inter.Cuartílico
Nivel de medición
Nominal o >
Ordinal o >
Desviación
estándar
Métrico
Rígidamente definido
si
si
si
Basado todos los casos
si
si
si
medio
si
no
Simple de entender
Fácil de calcular
si
si
Algebraico
si
no
Estable bajo muestreo
Valor único
desconocido
desconocido
si
medio
si
si
si
si
Resistente a extremos
si
si
no
Generalizable a 2 var.
no
no
si
Insensible a combinar cat.
no
si
si
Calculado p/ var. abiertas
no
si
no
Mismas unidades que datos no
si
si
Los valores de estas medidas pueden compararse con algunas distribuciones conocidas. En particular,
digamos que la variable tiene una distribución normal, la distribución acampanada mostrada en la figura 4.1.
Esta distribución tiene propiedades matemáticas bien conocidas que han sido extensamente estudiadas a
través de los años. Para tal distribución, el rango intercuartílico es 1.349 veces la desviación estándar y la
desviación promedio es 0.7979 veces la desviación estándar. Esto sugiere que la desviación estándar
generalmente será más grande que el promedio de las desviaciones sin signo respecto a la media ( medidas
por la desviación promedio ) y más pequeñas que el rango intercuartílico. Estos valores podrían diferir
considerablemente respecto a otras distribuciones, aunque el valor 1-349 para el rango intercuartílico no
debería ser exageradamente sensible a la distribución exacta, dado que esta medida está medida está basada
en los cuartiles.
Propiedades matemáticas de las medidas de dispersión
Una medida de dispersión debe tener dos propiedades matemáticas cuando se aplica a datos métricos.
Primero, si una constante k es sumada a cada uno de los valores de la variable, el estadístico de dispersión
debe mantenerse sin cambio. Sumar tal constante cambia la localización de los números, pero no la dispersión
entre ellos. Segundo, si un factor m multiplica a cada uno de los valores de la variable, entonces la dispersión
debe ser multiplicada por el valor absoluto de m. Poniendo estas dos propiedades juntas, la medida de
dispersión de una variable transformada en forma lineal debería ser:
Dispersión ( k + mxi ) = | m | x Dispersión (xi)
60 de 61
Centro Universitario de Educación Superior
Hermosa Provincia
Fac. de Administración
Notas de Estadística I
El rango, el rango intercuartílico, la desviación media y la desviación estándar satisfacen estas
condiciones. Las transformaciones lineales de los valores incrementan estas medidas de dispersión en forma
lineal. Considérense, por ejemplo, una variable medida en una escala de 0 a 100, con 50 como el punto neutral;
si un investigador quisiera convertir esta variable a una escala de –100 a 100, con 0 como punto neutral, la
regla de conversión sería 2x – 100, por lo que su dispersión se doblaría. Nótese que la varianza no satisface
estas condiciones, su valor debería ser multiplicado por m 2, el cuadrado del factor.
Resumen.
Las medidas más comunes para datos métricos son la varianza y su primo sin el cuadrado, la desviación
estándar. Estas dos medidas deberán ser bien comprendidas si han de entenderse adecuadamente los
estadísticos de relaciones entre dos o más variables. Existen medidas de dispersión para otros tipos de datos,
algunas (particularmente el rango intercuartílico ) basadas en las propiedades de orden de los datos y otras
basadas en las frecuencias de las categorías. La mayoría de estas medidas no son generalizables a más allá
de un variable, pero son efectivas al calibrar la cantidad de dispersión cuando la variable no es métrica.
61 de 61