Download estadística básica aplicada a la gestión

Document related concepts

Medidas de tendencia central wikipedia , lookup

Distribución de frecuencias wikipedia , lookup

Histograma wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Mediana (estadística) wikipedia , lookup

Transcript
CURSO DE ESTADÍSTICA BÁSICA
APLICADA A LA GESTIÓN
OFICINA NACIONAL DE SERVICIO CIVIL
ESCUELA DE FUNCIONARIOS PÚLICOS
AÑO 2009.
Responsable: Lic. Daniella M. Repetto Pereira
[email protected]
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
1
1.- CONCEPTOS BÁSICOS DE ESTADÍSTICA
Estadística
es algo más que la recolección y publicación (tal cual se ven en revistas y
diarios) de hechos y datos numéricos
Se puede considerar como la aplicación del método científico de análisis de
datos numéricos, con el fin de tomar decisiones racionales.
Estadística será tratada aquí como una Ciencia que trata de la recopilación,
presentación, análisis e interpretación de datos numéricos (estadísticas) con el
fin de realizar una toma de decisiones más efectiva
Funciones de la Estadística:
• Resumen de los datos y extracción de información relevante, esto es de las
mediciones observadas, sean estas numéricas, clasificatorias, ordinales o
de otro tipo.
• Búsqueda y evaluación de los modelos y pautas que ofrecen los datos, pero
que se encuentran ocultos por la inherente variabilidad de los mismos.
• Contribuir al diseño eficiente de experimentos y encuestas.
• Facilitar la comunicación entre los científicos, ya que siempre será más fácil
comprender la referencia a un procedimiento estándar, sin necesidad de
mayor detalle.
• La autentificación científica que sería el utilizar adecuadamente los métodos
estadísticos de acuerdo a los estudios que se estén realizando; y la no
exageración de producción de datos en trabajos que de repente no lo
requieren.
Divisiones dentro de la estadística:
Estadística Descriptiva:
Consiste en un conjunto de instrumentos y temas relacionados con la
descripción de colecciones de observaciones estadísticas, se refiere tanto al
total de la población como a la muestra, y su finalidad es “resumir” un conjunto
de datos numéricos.
Estadística Inferencial o Inductiva:
Se ocupa de la lógica y el procedimiento para la inferencia y la inducción de
propiedades de una población en bases a resultados obtenidos de una muestra
conocida.
A MODO DE EJEMPLO:
Analizaremos las Estadísticas sobre la Violencia y la Criminalidad en el
Uruguay.
Objetivo general: Realizar un Anuario sobre la Violencia y la Criminalidad en el
Uruguay.
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
2
•Objetivo específico: Describir las condiciones de la Violencia y la Criminalidad
según, los Delitos y Faltas, hechos y la cantidad de personas asignadas a
tareas de seguridad.
Para poder realizar este estudio descriptivo se deben tener en cuenta los
conceptos de universo, población, muestra, unidad de análisis y unidad de
relevamiento
UNIVERSO DE ANÁLISIS
El universo se compone por todos los objetos, cosas, individuos,
características del fenómeno que se quiere estudiar, en nuestro ejemplo serían
“Todos los delitos denunciados en el Uruguay desde 2000 hasta el 2006.”
POBLACIÓN
La población objeto de estudio se compone por todos los objetos, cosas,
individuos, características del fenómeno que se quiere estudiar se podría definir
como
el conjunto de las unidades que constituyen el objeto de
investigación, debe estar acotada en espacio y tiempo para así poder
definirla con mayor precisión y exactitud.
Para nuestro ejemplo la población objeto de estudio se definiría como
“Todos los delitos denunciados en el Uruguay durante el primer semestre
del año 2002”
MUESTRA
La muestra es una parte de esa población o universo objeto de estudio. Debe
de estar compuesta por los mismas cosas, objetos, individuos, de la población
a la cual pertenece; la muestra es una parte representativa de esa población
y se selecciona para que represente a la población total del estudio en la
ejecución del proyecto de investigación empírico, debe también estar
acotada en espacio y tiempo.
Para nuestro ejemplo la muestra serían “algunos delitos denunciados en el
Uruguay durante el primer semestre del 2002.”
UNIDAD DE ANÁLISIS
La unidad de análisis serían los elementos (cosas, objetos, individuos, grupos
etc. cada uno de ellos) que componen la muestra pertenecientes a la población
objeto de estudio la unidad de análisis se definiría como la unidad básica
de ese conjunto.
En nuestro ejemplo la unidad de análisis sería “un delito denunciado en
Uruguay” .
UNIDAD DE RELEVAMIENTO
Es la unidad que aporta la información, es aquel individuo, grupo u objeto
que trasmite o brinda la información para la construcción del dato estadístico.
En nuestro ejemplo, la unidad de relevamiento “es el.”
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
3
Muchas veces la unidad de análisis y de relevamiento coincide.
UNIVERSO
POBLACIÓN
POBLACIÓN
MUESTRA
UNIDADES DE ANÁLISIS
RECOLLECIÓN DE DATOS
Para poder efectuar el estudio de la descripción de la violencia y criminalidad
en el Uruguay, debemos definir previamente qué técnicas metodológicas de
investigación aplicaremos en nuestro estudio, teniendo en cuenta el tipo de
diseño de investigación que se está planteando, el objeto de estudio que se va
a analizar y la teoría sobre la que se va a sustentar el estudio.
También se podrían utilizar fuentes secundarias de datos ya existentes que
aportaran información sobre el objeto de estudio, así como encuestas oficiales,
censos (por ejemplo el del Instituto Nacional de Estadística de 1996), Encuesta
Continua de Hogares, datos publicados por organismos públicos o privados,
entre otros.
Supongamos que para estudiar la descripción de la delincuencia en el Uruguay
se realiza un relevamiento de la información contenida en los formularios
de denuncias de los mismos.
Para esto, se requiere determinar los tipos de datos con los cuales se va a
trabajar, es decir las variables que aportarán la información a nuestro
problema de estudio.
VARIABLES
Representan y sintetizan conceptualmente las propiedades o características de
las unidades de análisis, a las cuales se les pueden adjudicar distintos valores
numéricos.
Son conceptos que pueden asumir diferentes valores.
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
4
Del punto de vista estadístico se manejan variables aleatorias o sean
fenómenos de interés, cuyos resultados (datos) observados pueden diferir
entre una y otra respuesta (valores), a estas posibles respuestas se les llama
categorías de la variable.
Las categorías de una variable deben cumplir dos requisitos fundamentales,
deben de ser exhaustivas (deben estar todas las respuestas posibles) y
excluyentes (no se pueden ubicar las respuestas en dos categorías al
mismo tiempo, pertenece a una categoría u a otra).
Por ejemplo:
Variable
Respuestas
(Categorías)
Variable
Respuestas
(Categorías)
Variable
Respuestas
Delitos contra la persona
lesiones, homicidios, sexuales
Nivel Educativo
Alto, Medio, Bajo.
Cantidad de Intervenciones Policiales
las veces que se registran las mismas (una, cinco,
ocho....etc.)
Existen dos tipos básicos de variables aleatorias que producen datos de tipo:
cualitativo y cuantitativos.
Las variables que producen datos cualitativos producen
categóricas “Delitos contra la propiedad”, “nivel educativo”
respuestas
Las variables que producen datos cuantitativos producen respuestas
numéricas “cantidad de intervenciones policiales”
Los datos cuantitativos se pueden considerar también como discretos o
continuos.
Los datos cuantitativos discretos son respuestas numéricas que surgen de
un proceso de conteo, ejemplo
Los datos cuantitativos continuos son respuestas numéricas que surgen de
un proceso de medición, ya que las repuestas puede encontrarse en un
intervalo según sea la exactitud del instrumento de medición.;
La Estadística Descriptiva puede ser univariada, referirse a una sola
variable, o bivariada más de una variable simultáneamente.
La estadística descriptiva univariada, es aquella rama de la estadística que
analiza y describe la distribución de una variable.
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
5
Las variables reflejan el dato (las repuestas) y se distribuyen a través de sus
diferentes valores, generando una distribución de frecuencias.
Esta distribución de frecuencias puede ser original (los datos brutos) o una
distribución de datos agrupados (una tabla de datos).
Distribución de Datos Originales
Ejemplo: distribución de la variable “delitos contra la persona”
Lesiones, lesiones, homicidios,
homicidios, sexuales, lesiones,
homicidios, lesiones, homicidios,
homicidios, sexuales, lesiones,
homicidios, homicidios
homicidios, sexuales, lesiones, sexuales,
lesiones, lesiones, sexuales, homicidios,
homicidios, sexuales, lesiones, sexuales,
lesiones, lesiones, sexuales, homicidios,
La distribución de frecuencias originales podría aparecer también con las
categorías codificadas.
Donde 1 = lesiones
2= homicidios
3= sexuales
1 - 1 – 2 – 2 – 3 – 1 –3 – 2 –3 - 1 – 1 – 1 – 3 – 2 – 2 - 1– 2 – 2 –3 – 1 –3 – 1 –
2- 3 – 1 – 1 –1 – 3 –2 - 2 –2
Distribución de Datos Agrupados
TABLA DE DISTRIBUCIÓN DE LOS DELITOS CONTRA LA PERSONA
Para poder armar una tabla de frecuencias de este tipo se debe definir
previamente los elementos de las misma.
VARIABLE
1 (LESIONES)
2 (HOMICIDIOS)
3 (SEXUALES)
TOTAL
fi
12
11
7
30
hi
0,4
0,36
0,24
1
%
40
36
24
100
Porcentajes de Delitos contra la Persona
23%
40%
1 (LESIONES)
2 (HOMICIDIOS)
3 (SEXUALES)
37%
Fuente: Elaboración propia.
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
6
Frecuencias Absolutas ( fi o ni)
Número de elementos en la población o en las muestras, que adoptan un
mismo valor para la variable. Significa la cantidad de veces que se repite ese
valor (categoría) en la distribución.
Ejemplo: frecuencia absoluta de lesiones igual 12; frecuencia absoluta de
homicidios igual 11, frecuencia absoluta de sexuales igual 7.
Frecuencia Relativa (fr o hi)
Proporción de la unidad que representa la frecuencia absoluta. Se obtiene de
dividir cada frecuencia absoluta entre el total de la población. fr = fi / n
Ejemplo: frecuencia relativa de lesiones es igual a 12/30, es decir, 0,40; para
los homicidios es 11/30, es decir, 0,36; sexuales 7/30, es decir 0,24. La suma
de las frecuencias relativas debe ser igual a 1.
La descripción de una variable depende del tipo de escala de medición a la
cual pertenece, luego de definida la misma se describirá a través de la
realización de tablas (resumen de la información), gráficos e indicadores de
posición y/o dispersión que dependerá en ambos casos de la escala de
medición que se esté trabajando.
2.- CLASIFICACIÓN DE ESCALAS DE MEDICIÓN Y SUS GRÁFICOS
RESPECTIVOS.
Las escalas de medición pueden ser nominales, ordinales, intervales o de
razón, se definen a partir de su nivel de medición.
Comenzaremos por las escalas de menor nivel, nominales y ordinales que se
representan a través de variables cualitativas.
Para continuar posteriormente con las escalas de mayor nivel, intervales y
de razón representadas por las variables cuantitativas.
INTERVAL
RAZÓN
NOMINAL
ORDINAL
ORDINAL
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
7
ESCALA NOMINAL
Es una escala que clasifica unidades en dos o más categorías que se excluyen
mutuamente, estableciéndose equivalencias o diferencias, no establece ningún
tipo de orden para las respuestas. Los valores de las respuestas es decir las
categorías son atributos o cualidades, si por algún motivo aparecen números
como respuestas, estos son códigos de clasificación, nunca sus verdaderos
valores.
Ejemplos:
Sexo (masculino, femenino); Delitos contra la Persona (lesiones, homicidios,
sexuales); Estado civil (soltero, casado, viudo, divorciado, unión libre); Delitos
contra la propiedad (hurto, rapiña, daños).
ESCALA ORDINAL
Cuando las unidades o valores son clasificados y ordenados según su
magnitud (de menor que o mayor que) se está en presencia de una escala
ordinal.
Los números indican un orden pero no muestran con exactitud la respuesta y
estos números muchas veces son códigos, o una manera jerárquica de
describir las categorías de una variable.
EJEMPLOS:
Nivel Educativo (Alto, Medio, Bajo)
Opinión sobre las condiciones del celdario (Muy Bueno, Bueno, Malo, Muy
Malo, otro)
ESCALA DE INTERVALOS
Son escalas de medida que clasifican y ordenan las unidades presuponiendo la
existencia de intervalos iguales para que la distancia entre cualquiera de los
pares de unidades sea conocida y pueda ser objeto de comparación.
Ejemplos:
La edad
La cantidad de Intervenciones Policiales
ESCALAS DE RAZÓN
Cuando una medición tiene todas las características de una medida de
intervalo (de una escala interval), y además se le puede asignar un punto de
origen verdadero de valor 0. Es decir que e punto de origen se conoce y no es
ambiguo, porque su valor puede ser cero o menor a cero.
Ejemplo:
Número de años de la Escolaridad ( puede ser 0, 1, 3, 8 ....,etc)
Ingreso mensual por actividad principal (0, $1.000, $ 1.500, $ 3.500........)
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
8
DESCRIPCIÓN DE VARIABLES SEGÚN SU ESCALA DE MEDICIÓN.
Como ya se dijo anteriormente, para describir una variable se deben tener
tres elementos fundamentales, tablas, gráficos y medidas resumen
(indicadores de posición, centralidad y dispersión).
Comenzaremos por definir como se deben construir las tablas de
frecuencias, para cada una de las escalas de medición nominal, ordinal,
interval y ratio (cociente o razón), para luego establecer qué tipo de gráficos
se pueden realizar y finalmente definir cuáles son los indicadores de
posición y dispersión más adecuados para cada una de las escalas
mencionadas.
TABLA PARA ESCALAS NOMINALES.
Las tablas de distribución de frecuencias para variables que pertenecen a
una escala nominal, deben tener los siguientes componentes:
Xi = es la variable con la cual se está trabajando y sus respectivas
categorías.
fi ó ni = Frecuencia Absoluta Simple: Número de elementos en la
Población o en la muestra, que adoptan un mismo valor para la
Variable. Significa la cantidad de
veces que aparece o se
presenta ese valor (categoría) en la distribución.
N = Tamaño de la Población: es el total de casos por los que está compuesta
la población objeto de estudio que se está trabajando.
n = Tamaño de la Muestra: es el total de casos que contiene la muestra
sobre la que se está trabajando.
fr ó hi = Frecuencia Relativa Simple: Proporción de la unidad que
representa la frecuencia absoluta para cada una de las categorías
de la variable, tomando un valor que varía entre 0 y 1; se pueden
expresar también en porcentajes (%), variando su valor de 0 a 100 %.
Se obtiene dividiendo cada frecuencia absoluta entre el total de la
población o de la muestra. Si se quiere expresar en porcentajes (%) se
deben multiplicar por 100, el resultado obtenido en la división anterior.
Para la Población
fr = fi / N
Para la Muestra
fr = fi / n
La suma de las frecuencias relativas simples siempre debe dar 1 (uno) si
se está trabajando con la proporción y 100 % si se expresa en porcentajes.
Nunca los valores que asuman las frecuencias pueden ser negativos, ya
que denotan las veces que aparecen esas respuestas (características) en la
distribución de la variable que se esté trabajando.
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
9
Distribución de DELITOS contra la persona para el Año 2002.
Xi (delitos contra la persona)
LESIONES
HOMICIDIOS
SEXUALES
n (total)
Fi
2524
124
461
3109
fr (%)
81
4
15
100 %
FUENTE: Anuario Estadístico sobre Violencia y Criminalidad en el Uruguay 1990 – 2002. Programa de Seguridad
Ciudadana – Ministerio del Interior
Para obtener las frecuencias relativas simples (fr) que aparecen en la
tabla se debió realizar los siguientes pasos:
fr = fi / n
2524/3109 = 0,81 como lo expresamos en porcentajes (%)
lo que se hizo a posteriori fue multiplicarlo por 100. Donde 81% se deduce
de la siguiente manera: (2524 % 3109) x 100 = 81 %
Este procedimiento se aplica sobre cada una de las frecuencias absolutas
simples de la tabla de distribución de frecuencias, de acuerdo a las
categorías que posee la variable, lo cual significa que tendrá para cada una
de las categorías respectivas una frecuencia absoluta simple y una
frecuencia relativa simple (la proporción o porcentaje de acuerdo a las
veces que se reiteran esas respuestas para cada categoría).
GRÁFICOS PARA ESCALA NOMINAL
Para las escalas nominales los gráficos que se pueden realizar son los
siguientes:
•
•
•
Sectores o Torta. (se debe realizar en porcentajes y es fundamental
la presentación de las referencias para cada una de las categorías de
la variable en estudio)
Barras Simples, Barras acostadas y Bastones.( Se pueden utilizar
las frecuencias absolutas o relativas simples en forma indistinta las
cuales se deben ubicar en el eje Y, mientras que en el eje X de
deben ubicar las categorías de la variable en estudio).
Pictogramas. (Se debe recordar que siempre la figura que se
seleccione debe ser utilizada teniendo en cuanto la unidad a la que
pertenece, es decir: si una casa es igual a 1000 casas y esto se toma
como la unidad de medida, 2 casas serán igual a 2000 casas)
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
10
GRÁFICO DE SECTORES
Porcentajes de Delitos contra la
Persona.
Año 2002.
15%
4%
LESIONES
HOMICIDIOS
SEXUALES
81%
FUENTE: Anuario Estadístico sobre Violencia y Criminalidad en el Uruguay 1990 – 2002. Programa de Seguridad
Ciudadana – Ministerio del Interior
Cantidad de Casos
GRÁFICO DE BARRAS.
Delitos contra la Persona. Año 2002.
3000
2500
2000
Serie1
1500
1000
500
0
LESIONES
HOMICIDIOS
SEXUALES
Delitos
FUENTE: Anuario Estadístico sobre Violencia y Criminalidad en el Uruguay 1990 – 2002. Programa de Seguridad
Ciudadana – Ministerio del Interior
GRÁFICO DE BARRAS ACOSTADAS
Delitos contra la Persona. Año 2002.
Delitos
SEXUALES
HOMICIDIOS
LESIONES
0
1000
2000
3000
SEXUALES
HOMICIDIOS
LESIONES
Cantidad de Casos
FUENTE: Anuario Estadístico sobre Violencia y Criminalidad en el Uruguay 1990 – 2002. Programa de Seguridad
Ciudadana – Ministerio del Interior.
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
11
TABLA PARA ESCALA ORDINAL.
La tabla de distribución de frecuencias para escalas ordinales, contiene los
mismos elementos que la escala nominal, a diferencia de la anterior se le
deben agregar las frecuencias absolutas y relativas acumuladas.
Las frecuencias acumuladas se generan a partir de que, la distribución de
frecuencias se clasifica en una tabla en donde las categorías son ordenadas
en forma natural de menor a mayor, generándose las frecuencias absolutas y
relativas acumuladas.
Para Manuel García Ferrando (1) las distribuciones de frecuencias acumuladas
“son útiles en la comparación cuando se desea comparar la forma en que los
casos se distribuyen a lo largo de una escala” .
Fi ó Ni = Frecuencias Absolutas Acumuladas Significan la cantidad de casos
(respuestas posibles) que se pueden obtener hasta un determinado nivel de la
escala de medición.
Fr ó Hi = Frecuencias Relativas Acumuladas es la proporción o el porcentaje
de casos (proporción de las respuestas posibles) que se pueden lograr hasta
un determinado nivel de la escala de medición.
Distribución del total de encuestados según el Nivel Educativo.
Xi (Nivel Educativo).
BAJO
MEDIO
ALTO
n (total)
fi
95
25
7
127
fr (%)
75
20
5
100 %
Fi
95
120
127
Fr
75%
95 %
100 %
FUENTE: Elaboración propia......
Para obtener las frecuencias absolutas y relativas acumuladas se debe
tener en cuenta que la escala de medición de la variable al menos debe ser
“ordinal”, ya que el procedimiento que se debe seguir para obtener cada una
de estas frecuencias parte de la base, que la escala a la cual pertenece la
variable tiene un orden, y que las categorías de la variable en la tabla están
ordenadas según un criterio que puede ser creciente (de menor a mayor) o
decreciente (de mayor a menor) generándose así las frecuencias acumuladas
crecientes o decrecientes. En general se trabajará con el orden natural
creciente (de menor a mayor) generándose así las frecuencias absolutas
acumuladas (Fi ó Ni) y las frecuencias relativas acumuladas (Fr ó Hi).
(1)
García Ferrando M.: Siocioestadística. Introducción a la Estadística en Sociología. Pág. 60.
Alianza Editorial. Madrid 1985
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
12
GRÁFICOS PARA ESCALA ORDINAL
Para realizar una descripción gráfica de las variables de escala ordinal
utilizando las distribuciones de frecuencias simples, se debe seguir el
mismo procedimiento que para las escalas nominales, generándose
gráficos de sectores o torta, barras simples o acostadas y bastones; la
diferencia entre estas escalas está dada por las frecuencias acumuladas
absolutas o relativas ya que con las mismas se puede construir el gráfico
de escalera.
GRÁFICO DE SECTORES O TORTA
Distribución del Nivel Educativo.
6%
20%
BAJO
MEDIO
ALTO
74%
FUENTE: Elaboración propia ........
Frecuencias
Absolutas Simples
GRÁFICO DE BARRAS.
Distribución del Nivel Educativo
100
80
BAJO
MEDIO
ALTO
60
40
20
0
BAJO
MEDIO
ALTO
Nivel Educativo
FUENTE: Elaboración propia......
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
13
Nivel Educativo
GRÁFICO DE BARRAS ACOSTADAS.
Distribución porcentual del Nivel Educativo
5
ALTO
ALTO
MEDIO
BAJO
20
MEDIO
75
BAJO
0
20
40
60
80
Frecuencias Relativas Simples
FUENTE: Elaboración propia......
Frecuencias Absolutas
Acumuladas
GRÁFICO DE ESCALERA.
Nivel Educativo
140
120
100
80
60
40
20
0
120
127
95
BAJO
MEDIO
ALTO
BAJO
MEDIO
ALTO
Nivel Educativo
FUENTE: Elaboración propia......
TABLAS PARA ESCALAS INTERVALES Y/O RATIO (RAZÓN)
La tabla de distribución de frecuencias para escalas intervales o de ratio,
posee todos los elementos de las escalas nominales y ordinales, con la
diferencia que en estas escalas las categorías de la variable pasan a ser
“clases o intervalos de clases” ; ya que estas escalas clasifican y
ordenan las unidades presuponiendo la existencia de intervalos iguales,
para que la distancia entre cualquiera de los pares de unidades sea
conocida y pueda ser objeto de comparación.
Los elementos que componen la tabla de distribución de frecuencias para
escalas intervales y/o de ratio (razón) son los siguientes:
L. Inf. = Límite inferior de la clase o del Intervalo de clase.
L. Sup. = Límite Superior de la clase o del Intervalo de clase.
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
14
L.Inf. – L.Sup. = Clase o Intervalo de clase.
Xc = Marca de Clase. Es el valor representante de esa clase, es él punto
medio de cada clase o intervalo de clase y se obtiene realizando la
siguiente operación matemática :
Límite Inferior + Límite Superior
2
A i = Amplitud de clase. Es la distancia que existe entre el límite inferior
(Xi – 1) y el límite superior (Xi + 1). Se obtiene restando el valor del límite
superior menos el valor del límite inferior para cada clase o intervalo de clase.
Límite Superior - Límite Inferior
fi ó ni = Frecuencia Absoluta Simple.
fr ó hi = Frecuencia Relativa Simple.
Fi ó Ni = Frecuencia Absoluta Acumulada.
Fr ó Hi = Frecuencia Relativa Acumulada.
Para construir la tabla de distribución de frecuencias para estas escalas se
debe tener en cuenta algunos criterios:
•
Selección del número apropiado de clases o intervalos. Las
clases o intervalos dependen de la cantidad de observaciones con
que se esté trabajando, cuanto mayor es el número de
observaciones, mayor es el número de clases y viceversa. Se debe
tener una cantidad de clases adecuadas ya que si existen pocas
clases, los datos se encontrarán concentrados y si ocurre lo
contrario, una excesiva cantidad de clases los datos estarán poco
concentrados, obteniéndose poca información en ambos casos.
•
Obtener un intervalo de clase apropiado. Lo ideal es que las clases
o intervalos sean de la misma amplitud “ancho”. Para determinar la
amplitud en una tabla de frecuencias (la diferencia entre la
observación más grande y la más pequeña) se debe seguir los
siguientes pasos:
1. Definir la cantidad de clases que se desean trabajar.
2. Amplitud = Recorrido de la variable
Número de Clases
El recorrido de la variable es igual al Rango de la distribución, la
observación más grande “el valor máximo”, menos el valor más pequeño
“el valor mínimo”.
Rango = Valor Máximo – Valor Mínimo
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
•
15
Establecer los límites y fronteras de cada clase para evitar
superposiciones de las frecuencias, e incluir al mismo tiempo todo el
recorrido de la variable es decir todas las posibles respuestas, el
criterio que utilizaremos para elaborar los mismos será que cada
clase o intervalo sea abierto por la derecha y cerrado por la
izquierda. Esto lo que hace es que el límite superior de la primera
clase, sea igual al límite inferior de la segunda y así sucesivamente
hasta la última clase en la que termina nuestra tabla de distribución
de frecuencias.
La desventaja que tiene la tabla de distribución de frecuencias para
estas escalas cuantitativas (intervales y ratio o razón), es que no resulta
posible saber como se distribuyen los valores individuales dentro de un
intervalo particular de clase, solamente se podrían conocer estos valores
si se tiene acceso a la distribución de datos originales.
Distribución del total de encuestados según el Ingreso Mensual de los
Hogares
El ingreso está medido en pesos uruguayos (unidad de medida)
L. Inf. - L. Sup.
Xc
fi
Fr (%)
Fi
Fr
500 a 2.500
1.500
66
40
66
40
2.500 a 4.500
3.500
76
45
142
85
4.500 a 6.500
5.500
17
10
159
95
6.500 a 8.500
7.500
5
3
164
98
8.500 a 10.500
9.500
4
2
168
100
168
100
n (total)
Ai
2.000
2.000
2.000
2.000
2.000
FUENTE: Elaboración propia......
Para determinar la marca de clase (Xc) para cada uno de los intervalos se
debe realizar la siguiente operación:
L. Inf. + L. Sup. = Xc Para la primera clase de 500 pesos a 2.500 pesos
2
(500 + 2.500) % 2 = 1.500 pesos.
Para la segunda clase de 2,.500 pesos a 4.500
pesos ( 2.500 + 4.500)%2 = 3.500 pesos.
Así sucesivamente para cada clase o intervalo de
clase.
Para determinar la amplitud (Ai) de cada clase o intervalo de clase se debe
realizar la siguiente operación:
L. Inf. - L. Sup. = Ai Para la primera clase de 500 pesos a 2.500 pesos.
2.500 – 500 = 2000 pesos.
Para la segunda clase de 2.500 pesos a 4.500 pesos
4.500 – 2.500 = 2000 pesos y así sucesivamente para
cada una de las clases o intervalos de clase.
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
16
Distribución del total de encuestados según horas semanales de trabajo.
L. Inf. – L.Sup.
Xc
fi
Fr (%)
Fi
Fr
Ai
0 a 64
32
50
30
30
30
64
64 a 72
68
39
23
89
53
8
72 a 77
74,5
37
22
126
75
5
77 a 98
87,5
42
25
168
100
21
168
100
n (total)
FUENTE: Elaboración propia......
GRÁFICOS PARA ESCALAS INTERVALES Y DE RATIO O RAZÓN.
Las escalas cuantitativas se describen gráficamente a través de los
siguientes gráficos:
Histograma de Frecuencias: se debe utilizar la distribución de
frecuencias simples absolutas o relativa, el histograma representa a las
frecuencias mediante áreas; la variable aleatoria se representa a través del
eje “X” (eje horizontal) donde se ubican los intervalos de clase, mientras
que en el eje “Y” (vertical) se representan las frecuencias simples
absolutas o relativas. Al ser continuo el eje “X “ lo que se pretende mostrar
es que la variable es cuantitativa continua, donde la altura de los
rectángulos que forman el histograma dan idea de densidad o
concentración de los datos en esa zona, es decir que cuanto más alta sea
el área de una clase más cantidad de datos posee y cuanto más baja y más
cerca del eje “X” esté el área correspondiente a otra clase, menos cantidad
de datos posee. Cuando se utilizan frecuencias relativas para la confección
del histograma el área que queda por debajo de él (área total encerrada) es
igual a 1. Si se realizara un histograma de frecuencias simples con una sola
clase, éste tomaría la forma de un rectángulo, por lo que el histograma se
verá afectado por la cantidad de clases y por la amplitud de cada una de
ellas. Es importante destacar que si alguna de las clases definidas posee un
solo dato, el área correspondiente a la misma será casi imperceptible ya
que su altura será mínima, y no cumpliría el objetivo de poder observar la
distribución a través de un gráfico.
GRÁFICO HISTOGRAMA DE FRECUENCIAS.
Horas Semanales de Trabajo.
50
40
Frecuencias 30
Absolutas
20
Simples
10
0
0 a 64
64 a 72
72 a 77
77 a 98
0 a 64
64 a 72
72 a 77
77 a 98
Intervalos de Clase
FUENTE: Elaboración propia......
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
17
Frecuencias Relativas
Simples
GRÁFICO HISTOGRAMA DE FRECUENCIAS RELATIVAS
Ingreso Mensual de los Hogares.
50
40
40
45
30
20
10
10
3
2
6.500 a
8.500
8.500 a
10.500
500 a 2.500
2.500 a 4.500
4.500 a 6.500
6.500 a 8.500
8.500 a 10.500
0
500 a
2.500
2.500 a
4.500
4.500 a
6.500
Intervalo de Clase
FUENTE: Elaboración propia......
Polígono de Frecuencias: al igual que el histograma de frecuencias , el
polígono se construye con las frecuencias absolutas o relativas simples,
las cuales se ubican en el eje “Y”, mientras que en el eje “X” se ubican las
clases, la diferencia está dada en que el polígono une los puntos medios
de cada clase es decir las marcas de clase (Xc). El área que queda por
debajo de la totalidad del polígono debe ser 100% o 1 si se utilizan las
frecuencias relativas y se debe cerrar el primero y el último punto medio o
marca de clase con el eje “X” (horizontal), a fin de encerrar el área de la
distribución observada, esto se logra al conectar el primer punto medio
observado con el punto medio de una clase “precedente ficticia” y el último
punto medio observado con el punto medio de una clase “sucesiva ficticia”.
La ventaja que otorga el polígono con respecto al histograma es que se
pueden plantear en un mismo plano varias distribuciones de frecuencias
simultáneamente, y sirve a los efectos de comparación de distintas
distribuciones univariadas sobre un mismo fenómeno al mismo tiempo,
mientras que sería imposible de visualizar distribuciones univariadas en un
mismo plano a través de los histogramas de frecuencias, ya que sería
dificultoso identificar las diferentes distribuciones.
No se presentarán aquí las formas correspondientes a cada gráfico de
distribución de frecuencias para las escalas mencionadas, ya que serán
vistos a través de la instrumentación de clases de apoyo de SPSS. Sus
formas pueden ser consultadas también en la bibliografía recomendada en
el curso.
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
18
Ojiva: este gráfico tiene la característica de utilizar las frecuencias
absolutas o relativas acumuladas en el eje “Y”, mientras que el eje “X” se
mantienen los intervalos de clase, pero su forma surge de unir los límites
superiores de cada clase en forma creciente a partir del eje horizontal (X).
Es decir desde donde comienza la distribución (en el primer límite inferior)
hasta la culminación de la misma (el último límite superior).
Frecuencias Absolutas
Acumuladas
GRÁFICO DE OJIVA
Ingreso Mensual de los Hogares
200
150
100
50
0
500 a 2.500
2.500 a 4.500
4.500 a 6.500
6.500 a 8.500
8.500 a 10.500
Intervalos de Clase
FUENTE: Elaboración propia......
_____________________________________________________
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
19
3.- MEDIDAS DE TENDENCIA CENTRAL.
Las medidas de posición y centralidad.
Son las medidas que nos facilitan determinar cuáles son las posiciones en la
distribución o cómo es esta distribución a través de las distintas medidas que
se pueden obtener.
Cabe destacar que algunos autores hacen referencia a medidas de tendencia
central y otros a medidas de posición, la forma de denominación depende del
tipo de análisis que se quiera realizar; es decir las medidas de posición marcan
la posición sobre la que se concentran los datos y las medidas de tendencia
central implican diferentes definiciones en una puntuación central
Las medidas de centralidad más usadas son: la moda, la mediana, la media,.
Las medidas de posición que trabajaremos serán los cuantiles o cuartiles,
deciles y percentiles.
LA MODA
Es aquel valor de la distribución que más se repite, es decir el valor más
frecuente.
Puede ocurrir que la distribución no tenga moda o que exista más de una
moda. Cuando la distribución tiene dos modas se denomina bimodal, si tiene
más de dos modas es multimodal. Si tiene una sola moda unimodal.
Es el indicador más adecuado para describir escalas nominales, aunque
se puede utilizar para el resto de las escalas es decir, ordinales, intervales y de
razón o ratio.
Cuando los datos están agrupados la moda para variables de escala
nominales u ordinales se ubica observando en las frecuencias absolutas
simples, el o los valores más frecuentes, la moda sería para este caso el valor
que toma la variable es decir la categoría donde se ubica.
Si analizamos la tabla de distribución de frecuencias de los Encuestados según
su “Lugar de Nacimiento”, la moda o modo se ubicaría en la “ciudad de Rivera”
ya que allí se concentra la mayor cantidad de observaciones de la distribución
(104 de 168).
Si se analiza la tabla de distribución de frecuencias de los Encuestados según
el “Nivel de Instrucción”, la moda se ubicaría en el nivel “Secundaria – UTU
Incompleta” ya que allí está el 45 % de la distribución (76 casos de 168).
Para variables intervales o de razón, la moda es el punto medio de la clase
que contiene la mayor frecuencia de casos, es decir la marca de clase “Xc” de
ese intervalo de clase; en este caso de debe hablar de intervalo modal o
clase modal que sería el que contiene a la moda.
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
20
Al analizar la distribución de frecuencias de los Encuestados según el “Ingreso
mensual de los Hogares”, la moda se ubicaría en la clase de 2.500 a 4.500
pesos uruguayos, siendo su valor respectivo la Marca de Clase de ese
Intervalo, es decir 3.500 pesos uruguayos.
Cuando se analiza la tabla de distribución de encuestados según las “horas
semanales en las bancas”, la clase modal se ubica entre 0 y 64 horas
semanales, siendo su valor 32 horas semanales respectivamente.
El inconveniente que tiene este estadístico es que si todos los valores
numéricos son diferentes no es calculable porque no existe.
La ventaja es que la moda no es sensible a los valores extremos.
LA MEDIANA
La mediana es una medida de centralidad que expresa el centro de los datos
como el punto o valor numérico que deja por debajo de sí y por encima
de sí el 50 % de los datos, es decir la mitad de las puntuaciones de una
distribución. Por lo que divide a la distribución en dos partes iguales,
dejando la misma cantidad de datos a ambos lados de su ubicación.
Su forma de cálculo depende de si se trabaja con datos originales o datos
agrupados.
Al trabajar con datos originales, la primera apreciación es que deben estar
ordenados de menor a mayor o en orden creciente; la segunda apreciación es
tener en cuenta el tamaño de la muestra estableciendo si n es par o impar. La
mediana los que hace en este caso, es dividir las observaciones originales en 2
partes iguales, quedando la misma cantidad de observaciones hacia la derecha
como hacia la izquierda de la misma.
50 %
L
MEDIANA
l
50 %
l
DISTRIBUCIÓN
Cuando n es impar la mediana pertenece al valor central de la distribución.
Si tenemos los siguientes valores
3
5
6
8
9
Generalmente se calcula K = N + 1 k nos da la ubicación de la MEDIANA,
2
K = 5+1 = 3 este es el lugar donde se ubica la mediana
2
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
21
El valor de la MEDIANA pertenece aquella observación que se encuentra en
dicha posición, en este caso es igual a 6.
Se puede decir que para este caso, la mediana se ubica en el lugar 6 ya que
este valor numérico divide a la distribución en dos partes iguales, la misma
cantidad de casos para un lado que para el otro y su valor también es 6.
Si n e par
3
6¡ 8
9
Entonces K = N + 1 = 4+1 = 2,5 nos da la ubicación de la MEDIANA
2
2
la mediana se ubicaría en el centro de los dos términos centrales (entre 6 y 8)
y su valor sería la suma de estos dos valores (6 y 8) dividido entre 2, lo que
sería el promedio de los puntos centrales
Valor de la Mediana = 6 + 8 = 14 = 7
2
2
En este caso la mediana se ubica en el lugar (posición) 2,5 y su valor es 7.
Para los datos agrupados la mediana se identifica en las frecuencias relativas
acumuladas cuando el valor de dicha frecuencia supera al 50 %.
Para el caso de la tabla de distribución de frecuencias de los Encuestados
según su ”Nivel de Instrucción “, la mediana se ubicaría en las frecuencias
absolutas acumuladas que superaran el valor 168/ 2 = 84 o si se observa las
frecuencias relativas acumuladas en el valor que superara el 50 %, siguiendo
cualquiera de los dos procedimientos la mediana estaría en el “Nivel de
Instrucción Secundaria – UTU Incompleta”.
Si se trabaja con datos agrupados para variables intervales, entones la fórmula
de cálculo de la mediana es
Mdn=
L. inf + (1/2 N - Fi-1) x Ai
fi
L. inf: es el límite inferior del intervalo que contiene a la mediana
N ó n : es el total de casos (población o muestra)
Fi - 1 ; la frecuencia acumulada absoluta anterior a la que contiene a la
Mediana
Ai : es la amplitud o distancia del intervalo que contiene a la mediana
fi
: es la frecuencia absoluta simple de la clase que contiene a la mediana
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
22
Lo primero es identificar el intervalo o clase que contiene a la mediana que
puede realizarse con la frecuencia relativa acumulada que supere al 50 %, ó
identificando en las frecuencias absolutas acumuladas el valor que supere
a n / 2.
Para la tabla de distribución de frecuencias de los Encuestados según el
“Ingreso mensual de los Hogares”, la mediana se ubicaría en la clase de 2.500
a 4.500 pesos uruguayos ya que si se observan las frecuencias relativas
acumuladas esta es la primera clase que supera el 50 % de la distribución (85
%) y si se observan las frecuencias absolutas acumuladas, en esta clase se
ubican 142 observaciones, siendo la primera clase que supera al valor de n/2
que es igual a 168/2 = 84.
Para obtener el valor de la mediana se debe aplicar la fórmula que se definió
anteriormente:
Mdn = 2.500 + ( ½ 168 – 66) x 2.000 = 2960 pesos uruguayos.
76
Finalmente llegamos a obtener el valor de la mediana que es 2960 pesos
uruguayos, como es evidente el valor que se obtiene del cálculo de la mediana
tiene que estar comprendido dentro de los valores entre los cuales se define
esa clase o intervalo de clase.
Para este caso concreto 2960 pesos uruguayos, son los que dividen la
distribución del ingreso mensual de los Hogares de los encuestados dejando
por debajo de sí el 50 % de las observaciones y por encima de sí el otro 50 %.
La mediana es el indicador más adecuado para las variables ordinales ya
que el concepto mismo proporciona dirección puntuaciones por encima y por
debajo de la mediana, no presupone conocimiento de la distancia, excepto para
el caso de amplitud de intervalos en el que cae la mediana cuando se tienen
datos agrupados, esto significa que si se trabaja con los datos agrupados se
pierde un poco de información, al igual que si se utiliza la moda en estas
condiciones.
La MEDIANA tiene la ventaja que al igual que la MODA, sus valores no se ven
afectados por los valores extremos de la distribución.
LA MEDIA
Existen diferentes tipos de medias, tal como la media aritmética, la media
geométrica y la media armónica; se hará referencia a la media aritmética.
La media aritmética es el promedio o medida de tendencia central más
conocida y de mayor uso, es muy fácil de calcular ya sea para datos originales
__
o agrupados. El estadístico X es simplemente la suma de todos las
puntuaciones de una distribución dividida por el número de casos.
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
23
Por ejemplo si se quiere saber la media o el valor promedio de recaudación de
los encuestados en las bancas, se suma el valor de todas las recaudaciones y
se divide por el total de recaudaciones efectuadas.
Si se cuentan con las recaudaciones en una distribución original el promedio
o la media se calcularía de la siguiente forma:
Así dado n valores de X, es decir n cantidad de recaudaciones efectuadas por
los encuestados de las bancas con una valor X1, X2, X3 ....hasta Xn, si se
parte de la distribución que se plantea a continuación donde cada valor
corresponde al monto de las recaudaciones en miles de pesos uruguayos, el
promedio se las mismas aplicando la fórmula sería:
5
5,4
_
X=
6
6,6
7
n=5
( 5 + 5,4 + 6 + 6,6 + 7) = 30 = 6 es decir 6 mil pesos uruguayos.
5
5
Si se trabajara con una distribución de datos agrupados, la media se
obtendría aplicando la siguiente fórmula:
Para escalas cuantitativas.
Para escalas cuantitativas que se trabajan en
tablas de intervalos o clases.
Si volvemos al ejemplo de la distribución de encuestados según las horas
semanales trabajadas en las bancas, el promedio o media de horas trabajadas
sería:
_
X = Σ ( 32 x 50) + ( 68 x 39) + (74,5 x 37) +(87,5 x 42) = 63,59 horas
168
La media aritmética es el indicador de posición más adecuado para
describir variables cuantitativas es decir variables intervales y de razón.;
es imposible pensar en el cálculo del promedio en variables cualitativas como
el “lugar de nacimiento” , ó , “nivel de instrucción”, ya que las escalas de
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
24
medición de estas variables no permiten realizar promedios, sería impensable
hablar del promedio de los encuestados de la Ciudad de Rivera, con los de la
Ciudad de Sant’ Ana o de Otros lugares ya que no puede existir el promedio de
las combinaciones de estas categorías, tampoco sería posible calcular un
promedio para las categorías de Nivel Educativo ya que no se podrían
combinar los encuestados que pertenecen al nivel primaria incompleta, con los
de primaria completa, ni los de secundaria incompleta, etc.
En la media aritmética cada valor o puntuación contribuye a la suma de los
mismos de una forma diferente, esto quiere decir que si yo tengo n cantidad de
valores de “horas semanales trabajadas en las bancas” o “ingreso mensual de
los hogares en miles de pesos uruguayos” al efectuar la suma de cada uno de
los valores para cada variable se puede tener en cada una de las distribuciones
mencionadas valores denominados extremos. Los valores extremos, son
aquellos valores que tienen una distancia considerable con respecto al grueso
de los valores obtenidos.
Si se tiene una distribución de “ingreso mensual por hogar” con valores bajos y
valores altos el promedio dará un valor medio es decir ni alto ni bajo.
También puede ocurrir que se tengan muchos valores de “ingreso mensual
por hogar” bajos y homogéneos es decir similares y pocos valores altos, esto
hará que la media tienda a un valor medio por estar cargada por los valores
altos, ocurriría lo inverso si la mayoría de los valores fueran altos y se tuvieran
algunos bajos, la media tendería a un valor medio en la distribución.
Por dicho motivo se debe tener en cuenta que la Media es sensible a los
valores extremos.
También se puede hacer referencia a la media ponderada que se utiliza
cuando se desea calcular la media de una distribución cuyos valores tienen
diferente significado o importancia para el estudio final.
Volvamos al ejemplo del monto de las recaudaciones en miles de pesos
uruguayos, y démosle más importancia al valor de la última recaudación bajo
el supuesto que pertenezca al día de la semana de más venta por lo cuál su
valor lo ponderaremos 3 veces más de lo que es;
5
5,4
6
6,6
7
n=5
1x 5 + 1 x 5,4 + 1 x 6+ 1 x 6,6 +3 x 7 = 44% 5 = 8,8
5
Ppropiedades de la media
_
Tomando la convención x = X - X, llamada variable centrada,
−
1. La suma de los desvíos respecto de la media es cero: ∑x = ∑( X - X) = 0
Ejemplo de los desvíos de la distribución anterior:
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
25
(5 – 6) + (5,4 – 6 ) + (6 –6 ) + (6,6 – 6) + (7-6) = 0
2. La suma de los cuadrados de los desvíos en torno a la media es un mínimo.
Es decir que la suma del cuadrado de las diferencias entre cada observación y
su media, debe ser menor, que la suma de las diferencias al cuadrado entre
cada observación y cualquier otro valor seleccionado.
−
−
∑( X - X) 2 < ∑( X - a)2 para cualquiera.
2
2
2
2
(5 – 6) + (5,4 – 6 ) + (6 –6 ) + (6,6 – 6) + (7-6) = 2,72
2
Supongamos que arbitrariamente seleccionamos el valor 6,2.
2
2
2
2
(5 – 6,2) + (5,4 – 6,2) + (6 –6,2 ) + (6,6 – 6,2) + (7-6,2) = 2,92
2
3. La media del producto de una constante es igual a la media de la variable
por la constante:
−
b*X = b* X
Utilizaremos como constante el valor 2
__
X = (5 x 2) + (5,4 x 2 ) + (6 x 2) + (6,6 x 2) + (7x 2) = 12
5
_
X = ( 5 + 5,4 + 6 + 6,6 + 7) = 30 = 6
6 x 2 = 12
5
5
4. Si n1 numeros tiene de media; n2 números tienen de media m2; ni números
tiene de media mi, entonces la media de todos los números es:
_
X = n1m1 + n2m2 +...ni mi
se trata de una media ponderada de todas las
n1 + n2 + ...+ ni
medias posibles.
5. Si la media Y1 = Ax1 + B1, la media de Y2 = Ax2 + B2, la media de
Yn = Axn + B siendo A y B dos constantes arbitrarias entonces la media de
todas la Yi es
_
__
Y = A X + B, ya que por definición siendo y = 1,2,...n
_
Y=
 i
Y
n
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
26
RELACION Y COMPARACIÓN DE LAS MEDIDAS DE TENDENCIA
CENTRAL
Se han planteado diferentes ventajas y desventajas para cada una de las
medidas referidas, ahora se destacara algunas comparaciones relevantes entre
las mismas.
•
•
•
•
•
•
•
La media utiliza más información que la mediana, esto se debe a que
en fórmula de cálculo se tienen en cuenta todas las puntuaciones
(respuestas) de la distribución, mientras que para el cálculo de la
mediana se tiene en cuenta la puntuación del caso medio. Por este
motivo es que la media es sensible a los valores extremos.
La media es más estable que la mediana, ya que varía menos de una
muestra a otra en una misma población.
La media debe ser utilizada únicamente en variables que pertenezcan a
escalas cuantitativas.
La mediana es el indicador de posición más adecuado para las escalas
ordinales, pero además puede ser utilizado para escalas cuantitativas.
La moda es el único indicador de posición que admiten las escalas
nominales, pero se puede utilizar también para las escalas ordinales y
para las escalas cuantitativas, con la salvedad que si la distribución
está medida a través de intervalos o clases se debe hablar de “Clase
Modal”.
Una de las primeras características que se deben tener en cuenta en
una distribución, son la cantidad de picos o puntas (modas) que tiene la
misma. Si la distribución tiene un pico solo entonces se denomina
unimodal posee una sola moda. Si posee dos picos entonces es
bimodal posee dos modas y finalmente si tienen más puntas entonces
es multimodal, donde las puntas pueden tener diferentes alturas.
El grado de simetría de las distribuciones. Para poder hablar de
simetría tendríamos que tener en cuenta la forma de un histograma de
frecuencias, donde ya sabemos que la mediana divide a la distribución
en dos partes iguales, cada una de las áreas es imagen de la otra, por lo
tanto la superficie de cada una de las áreas es idéntica, pero a pesar de
que las áreas pueden tener la misma superficie no tienen porque
representar imágenes recíprocas. Cuando la distribución es simétrica.
las medidas de tendencia central se concentran sobre un mismo punto
de la distribución (eje vertical) y si la misma es una distribución
unimodal, la moda también coincide con la media y la mediana. Si las
medidas no coinciden en un mismo punto porque tienden más hacia un
lado o hacia el otro se dice que la distribución es asimétrica.
Simetría Perfecta
Es cuando la media, la mediana y la moda coinciden en el mismo punto
(valor).
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
27
Asimetría
Cuando las medidas de tendencia central no coinciden y sus valores
varían de acuerdo a un sesgo de asimetría, generándose la asimetría
positiva que es cuando las medidas se ubican en el siguiente orden
según sus valores de menor a mayor (en forma creciente); primero la
moda, luego la mediana y finalmente la media y la asimetría negativa
cuando las medidas se ubican en la distribución, ordenadas en forma
creciente pero en el siguiente orden de aparición, primero la media,
luego la mediana y por último la moda.
Para aquellas distribuciones en donde exista únicamente una moda
(distribuciones unimodales) y las mismas sean moderadamente
sesgadas se cumple la siguiente relación empírica:
Media – Moda = 3 (Media – Mediana)
•
La curtosis o el grado de apilamiento de los casos alrededor de un
punto de la distribución. En una distribución unimodal y simétrica
pueden aparecer formas en donde el apuntamiento es importante y
donde la distribución tiene una concentración importante de frecuencias
sobre ese punto, esta forma de acuerdo a su curtosis se denomina
Leptocúrtica. Si la distribución de frecuencias es más achatada, es
decir más uniforme, esta forma según su curtosis es platicúrtica y
finalmente si la distribución no es ni muy apuntada ni achatada, donde
su forma es más parecida a una campana, estamos en presencia de una
curtosis denominada mesocúrtica.
4.- MEDIDAS DE DISPERSIÓN.
Dan cuenta de la variación o dispersión de una distribución, lo que indican es si
en la distribución los valores son muy parecidos o muy distintos entre si, es
decir si están desperdigados a lo largo de toda la distribución o están próximos
unos de otros.
Las medidas de dispersión de una distribución son importantes, debido a que
nos suministran información complementaria que nos permite juzgar la
confiabilidad de nuestras medidas de tendencia central.
Las medidas de dispersión que se trabajarán en el curso son: el rango o
recorrido de una variable, el rango intercuartílico, la varianza, el desvío
estándar o típico y el coeficiente de variación.
RANGO O RECORRIDO
Es el recorrido total de la variable, ya que es la distancia existente entre el valor
máximo y el valor mínimo de una distribución.
Rango = Valor Máximo - Valor Mínimo
Su fórmula de cálculo es aplicable tanto a distribuciones de datos originales
como, a distribuciones de datos agrupados (tablas de distribución de
frecuencias).
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
28
Si analizamos nuestros ejemplos anteriores, se puede observar que el rango
en la “Distribución de encuestados según el Ingreso Mensual de los Hogares”
es igual a:
RANGO = 10.500 – 500 = 10.000 pesos uruguayos.
Lo cual significa que entre el ingreso mensual más bajo de los hogares, hasta
el ingreso mensual más alto hay una diferencia de 10.000 pesos uruguayos,
por lo cual el recorrido de los ingresos desde el más bajo hasta el más alto
para los encuestados es de 10.000 pesos uruguayos.
Si se analiza la “Distribución de los encuestados según las horas semanales de
trabajo en las bancas” se obtiene que el rango de la distribución es igual a 98
horas semanales, ya que es la diferencia entre el que trabaja 0 hora semanal
que son los que trabajan menos horas, con los que trabajan semanalmente 98
horas que son por cierto los que trabajan más horas de toda la distribución.
La desventaja de esta medida es que, solamente tiene en cuenta los valores
extremos de la distribución y deja de lado los valores intermedios (interiores) de
la misma.
VARIANZA
Es similar a la desviación media, ya que se basa en las diferencias existentes
entre la media aritmética y cada una de las puntuaciones, pero utilizando el
cuadrado de estas diferencias. Es una de las medidas de dispersión más
importantes ya que considera todos los valores de la distribución.
2
La varianza (S) es el promedio de los cuadrados de las distancias de las
observaciones hechas a partir de la media, por lo cual su valor oscilará entre 0
y mayor que 0, nunca la varianza puede dar un valor negativo.
La varianza expresa el cuadrado de las unidades usadas en los datos de la
variable, no hablamos de un resultado expresado en las mismas unidades de
los datos originales, ya que su valor está elevado al cuadrado, por lo cuál es
considerado un valor abstracto.
La fórmula de cálculo de la Varianza dependerá si la distribución es de “datos
originales o de datos agrupados”. Además se debería tener en cuenta si se
está trabajando, con muestras o poblaciones, ya que en el cálculo de la misma,
al igual que de las medidas de dispersión derivadas de la varianza la fórmula
varía de acuerdo a esta situación.
Para el caso de cálculo de la Varianza en una Población en el denominador el
término correcto a utilizar es N, mientras que en la muestra se utiliza “n – 1” ya
que es insesgada. También es bueno aclarar que cuando se trabaja con
indicadores o medidas resumen muéstrales estas se denominan
“estadísticos”, mientras que cuando se trabajan con los mismos indicadores
pero para la población estos se denominan “parámetros”.
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
29
2
Supongamos que se decide calcular la varianza (S) de los datos originales
que utilizamos en el repartido anterior para calcular la media.
5
5,4
6
6,6
7
n=5
La media que ya se había calculado es:
_
X = ( 5 + 5,4 + 6 + 6,6 + 7) = 30 = 6 mil pesos uruguayos.
5
5
La VARIANZA
2
2
2
2
2
2
S = (5 –6) + (5,4 – 6) + (6 – 6) + (6,6 – 6) + (7 – 6) =
5–1
2
2
2
2
2
2
S = (−1) + (–0,36) + (0) + (0,36) + (1) = 1 + 0.36 + 0 + 0,36 + 1 =
5–1
4
2
S = 2,72 % 4 = 0,68
Si aplicáramos una de las fórmulas definidas para datos agrupados en la
“Distribución de encuestados según horas semanales de trabajo en las
bancas”, el resultado de la varianza sería:
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
30
Primero presentaremos la fórmula de la media para datos agrupados:
L.Inf.–
L.Sup.
2
fr (%) (Xc x fi)
Xc
Xc
fi
0 a 64
32
50
30
32x50= 1600
64 a 72
68
39
23
68x39= 2652
72 a 77
74,5
37
22
74.5x37= 2756.5 74,5= 5550.25
2
32 = 1024
2
68= 4624
2
2
77 a 98
87,5
42
168
n (total)
25
100
87.5x42= 3675
∑ (Xc x fi) =
10683,5
87.5=7656.25
2
(Xc x fi)
1024x50 =
51200
4624x39=
180336
5550.25x37=
205359.25
7656.25x42=
321562.5
2
∑ (Xc x fi)=
758457.75
Donde la Media es igual a:
_
X = 10683,5 % 168 = 63,59 horas semanales.
2
2
S = 758457.75 – 168x (63,59) = 758457.75 – 168 x 4043.69 =
168 – 1
167
2
S = 758457.75 – 679339.92 = 79117.83 = 473.76 es la varianza de
167
167
horas semanales
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
31
DESVIACIÓN ESTÁNDAR ó DESVIO TÍPICO
Es por definición la raíz cuadrada de la Varianza. Dado que se define a partir
de la varianza, tiene todas las propiedades de ésta. Es decir que, valores
pequeños de desvío típico corresponden a muestras o valores originales
concentrados alrededor de su media y valores grandes corresponden a
muestras o valores originales muy distribuidos respecto a su media.
La desviación estándar o desvío típico (S) nos permite determinar con mayor
grado de precisión, dónde se sitúan los valores de una distribución de
frecuencia en relación con la media.
La desviación estándar se simboliza con la letra S y su formula es indistinta
para distribuciones de datos originales o agrupados:
S=
S2
Si se planteara el Desvío estándar de las “Horas semanales de trabajo en las
bancas”, el mismo sería:
S=
473,76 = 21,77 horas semanales.
Entonces se podría decir que la variabilidad de las distribution de las horas
semanles de los encuestados que trabajan en las bancas es de 21,77 horas.
Una ventaja que presenta la desviación típica respecto a la varianza son las
unidades en las que se expresa, ya que en la varianza las unidades están
expresadas al cuadrado, en el desvío estándar o típico el resultado del mismo
se expresa en las unidades originales de la variable que se esté trabajando;
dado a que se obtiene tomando la raíz cuadrada de las varianza.
Es importante tener en cuenta que tanto la Varianza, como el Desvío
Estándar, hacen referencia sobre la variabilidad absoluta de los valores, en
una distribución, cuanto más pequeños son sus valores más homogénea
es la distribución, cuanto más elevado son sus valores más heterogénea
es la distribución.
COEFICIENTE DE VARIACIÓN
Es la medida de dispersión que hace referencia a la variabilidad relativa, ya
que relaciona una medida de posición como la media y una medida de
dispersión como el desvío estándar, que al multiplicarlo por 100, nos da el
porcentaje de variación que existe con respecto al valor promedio de la
distribución.
Su fórmula es igual para datos originales que para datos agrupados
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009.
C.V . ≡
32
S
x 100 =
X
Entonces se podría decir, que el porcentaje de variación de las horas
semanales de los encuestados que trabajan en las bancas con respecto al su
valor promedio es de 34,23 %.
C.V. = 21,77
63,59
x 100 = 34,23 %
El coeficiente de variación como medida relativa, es de vital importancia a la
hora de comparar la variabilidad de dos o más conjuntos de datos
(distribuciones) que se expresan en diferentes o iguales unidades de medida.
BIBLIOGRAFÍA:
•
•
•
•
Glass G. – Stanley J.C. : “ METÓDOS ESTADÍSTICOS APLICADOS A
CIENCIAS SOCIALES”. Ed. Prentice – Hispanoamericana S.A.
Lind – Marchal – Mason “ESTADÍSTICA PARA ADMINISTRACIÓN Y
ECONOMÍA” 11 edición. Ed. Alfaomega 2005.
Peña D. – Romo J. : “INTRODUCCIÓN A LA ESTADÍSTICA PARA LAS
CIENCIAS SOCIALES”. Ed. Mc Graw Hill – Interamericana de España,
S.A.U.1999.
García Ferrando Manuel : “SOCIOESTADÍSTICA”. Ed. Alianza. Madrid
1996.
ESTADÍSTICA BÁSICA APLICADA. A LA GESTIÓN LIC. DANIELLA MARÍA REPETTO PEREIRA. – ONSC 2009