Download Modulo #1: DISTRIBUCIÓN DE FRECUENCIAS

Document related concepts

no text concepts found

Transcript

ESTADISTICA I
UNIDAD 1: ESTADISTICA DESCRIPTIVA1
Carlos Maggi y Mariano Lanza
1.
CONCEPTOS GENERALES
Si bien no hay una definición de estadística exacta, se puede decir que la
"estadística es el estudio de los métodos y procedimientos para recoger, clasificar,
resumir y analizar datos y para hacer inferencias científicas partiendo de tales datos".
Esta definición cubre gran parte de la actividad del científico. Es importante
observar que el objeto del que realiza el análisis estadístico son los datos y las
observaciones científicas por sí mismos, mas que el material que interviene en el
estudio.
La estadística se puede dividir en 2 categorías, la "estadística descriptiva" y la
"inferencia estadística".
La estadística descriptiva implica la abstracción de varias propiedades de
conjuntos de observaciones, mediante el empleo de métodos gráficos, tabulares ó
numéricos. Entre estas propiedades, están la frecuencia con que se dan varios valores
en la observación, la noción de un valor típico o usual, la cantidad de variabilidad en un
conjunto de datos observados y la medida de relaciones entre 2 ó mas variables.
El campo de la estadística descriptiva no tiene que ver con las implicaciones o
conclusiones que se puedan deducir de conjuntos de datos. La estadística descriptiva
sirve como método para organizar datos y poner de manifiesto sus características
esenciales con el propósito de llegar a conclusiones.
La inferencia estadística se basa en las conclusiones a la que se llega por la
ciencia experimental basándose en información incompleta.
Por ejemplo, Mendel al estudiar la manera como diferían entre sí las plantas de
guisantes en altura, color de las semillas, color de las vainas y color de las flores, tuvo
que hacer sus conclusiones necesariamente basándose en un grupo de plantas
relativamente poco numeroso comparado con toda la población de plantas de
guisantes de un tipo particular.
Al hacer un enunciado, como por ejemplo, sobre el color de las flores, las
conclusiones de Mendel dependían de la muestra particular de plantas disponibles para
este estudio.
En la terminología estadística, el procedimiento inductivo implica el hacer
inferencias acerca de una población adecuada ó universo a la luz de lo averiguado en
un subconjunto aparte o muestra.
La inferencia estadística se refiere a los procedimientos mediante los cuales se
pueden hacer tales generalizaciones ó inducciones.
Bibliografía consultada:
Spiegel M. R y Stephens L. J. (2001): “Estadística”. McGraw-Hill. México.
Lind D. A, Marachal W. G. y Mason R. D. (2004): “Estadística para Administración y Economía”. Ed. Alfaomega.
México.
De la Horra Navarro J. (2003): “Estadística Aplicada”. Ediciones Díaz de Santos. España.
Moore D. S. ( 2000): “Estadística Aplicada Básica”. Antoni Bosch Editor S.A. España.
Navidi William (2006): “Estadística para Ingenieros y Científicos”. Ed. McGraw-Hil.
1
Es importante por todo lo dicho anteriormente, que el proceso de la inferencia
científica, implica el grado mas elevado de cooperación entre la estadística y el estudio
experimental.
2.
ELEMENTOS CONCEPTUALES DE ESTADÍSTICA DESCRIPTIVA
Como se ha señalado anteriormente, el objetivo de la estadística descriptiva, es
la descripción mediante el empleo de técnicas que permitan obtener una síntesis de la
información con el objetivo de conocer el fenómeno en estudio y extraer los aspectos
importantes.
Todo estudio estadístico ha de estar referido a un conjunto o colección de
elementos. Al conjunto de todas las unidades objeto de estudio es lo que se denomina
población.
En sentido estadístico un elemento puede ser algo con existencia real (tangible y
observable), como un automóvil o una casa, o algo más abstracto como la temperatura,
un voto, o un intervalo de tiempo.
A su vez cada elemento de la población tiene una serie de característica que
puede ser objeto del estudio estadístico. Así por ejemplo, si consideramos como
elemento a una persona, podemos distinguir en ella los siguientes caracteres: sexo,
edad, nivel de estudios, profesión, peso, altura, color de cabellos, etc. Luego por tanto
de cada elemento de la población podremos estudiar uno o más aspectos cualidades o
caracteres.
La población puede ser según su tamaño de dos tipos:

Población finita: cuando el número de elementos es finito, por ejemplo el
número de estudiantes de la Universidad de Panamá, o de una facultad o
especialidad.

Población infinita: cuando el número de elementos es infinito, o tan grande
que pudiese considerarse infinitos. Como por ejemplo si se realizase un
estudio sobre los productos disponibles en el mercado, hay tantos y de tantas
cualidades y precios que esta población podría considerarse infinita.
Cuando se toman todas las unidades o elementos de la población, se habla de
una investigación exhaustiva o censo. Si sólo se investiga una parte, se le considera
como investigación parcial o muestra.
Ahora bien, normalmente en un estudio estadístico, no se puede trabajar con
todos los elementos de la población sino que se realiza sobre un subconjunto de la
misma. Este subconjunto se denomina muestra, cuando se toman para realizar un
estudio solo a un determinado número de elementos de la población. Por ejemplo de
los alumnos de la UNRN se realiza una encuesta a una parte de los alumnos mediante
una elección aleatoria para conocer, por ejemplo, su nivel socioeconómico.
El objetivo de trabajar con muestras es que muchas veces no se dispone de toda
la información o es muy costosa obtenerla, por lo tanto, se intenta obtener una muestra
que sea representativa de la población, lo cual requiere que las unidades o elementos
sean seleccionadas al azar, en tal forma que cada elemento de la población (alumnos
de la UNRN) tengan la misma posibilidad de ser seleccionados en la muestra.
Por lo general, para las medidas obtenidas en poblaciones se usan letras
mayúsculas o griegas, en cambio para las muestras, se emplean letras minúsculas.
2
2.1-
Tipos de variables:
Los tipos de variables fundamentales, por lo menos para este tema, serán los
siguientes:
a. Variables Cuantitativas o Cardinales: susceptibles de medición cuantitativa; o
sea son las que se describen por medio de números y las que a su vez
comprenden:
i. Variable Cuantitativa Discretas: son aquellas cuyo conjunto de valores es a
lo sumo numerable. Sus valores pueden representarse siempre por X1, X2, … ,
Xn.; y sólo se pueden asociar a un número entero, es decir, aquellas que por
su naturaleza no admiten un fraccionamiento de la unidad
Ejemplos:
o Número de hijos en el hogar
o .Páginas de un libro
ii. Variable Cuantitativa Continua: son aquellas que pueden tomar todos los
valores de un intervalo de números reales, o sea que no se pueden expresar
mediante un número entero, es decir, aquellas que por su naturaleza admiten
que entre dos valores cualesquiera la variable puede tomar cualquier valor
intermedio.
Ejemplos:
o variable temperatura en grados Celsius (escala de intervalos).
o variable longitud en cm. (escala de razón).
o variable peso.
o variable tiempo
b. Variables Cualitativas (Atributos) o Ordinales: susceptibles de ordenación,
pero no de medición cuantitativa, reflejan generalmente los atributos del
fenómeno. Los atributos son aquellos caracteres que para su definición precisan
de palabras, es decir, no le podemos asignar un número, y a su vez las podemos
clasificar en:
i. Ordenables: aquellas que sugieren una ordenación, por ejemplo la graduación
militar, el nivel de estudios, etc.
ii. No Ordenables: aquellas que sólo admiten un ordenamiento alfabético, pero
no establece orden por su naturaleza,, por ejemplo el color del cabello, sexo,
estado civil, etc.
Nota: en muchos casos el tratamiento estadístico hace que a variables discretas
las trabajemos como si fuesen continua y viceversa (por ejemplo la edad de las
personas –variable continua- se trabaja en años cumplidos –variable discreta-. En
otros casos las variables cualitativas (atributos) se trabajan como variables
cuantitativas, por ejemplo en los concursos de belleza se recurre a un sistema de
calificación por puntos.
2.2-
Escalas de medición:
a. Escala Nominal:
Es una escala en que se establece un número determinado de clases o
categorías de tal modo que cada elemento de la población pertenece a una y sólo
una clase. Matemáticamente se dice que se ha establecido una relación de
3
equivalencia entre los elementos de la población. Si sólo existen dos clases se
denomina escala dicotómica. La única operación matemática que se puede realizar
con las clases de cualquier escala nominal es determinar las cantidades de
elementos que les corresponden determinar sus frecuencias.
Por ejemplo:
o Sexo: las clases son masculino o femenino.
o Especialidad: las diferentes especialidades (carreras) del CRUSAM.
o
Número de cedula de identidad personal.
o Temperatura de una persona: sanguíneo, flemático, melancólico,
colérico.
o
Número de placa de automóviles del país.
b. Escala Ordinal:
Es una escala nominal entre cuyas clases está definido un orden, de modo
que cualquiera que sean dos de ellas, una será mayor o superior, en algún sentido,
que la otra.
Por ejemplo:
o Evaluaciones en un examen: 5, 4, 3 y 2.
o Grado de satisfacción de una necesidad: alto, medio, bajo
o Conocimiento de un idioma: excelente, bien, regular, mal
c. Escala de Intervalos:
No es más que una escala ordinal con una distancia, una unidad de
medida entre sus clases de modo tal que, dado dos puntajes cualesquiera, se puede
saber cuan distante está uno del otro. La unidad de medida es arbitraria, pero común
y el punto de inicio (cero) es también arbitrario.
Cuando se tiene una escala de intervalo se pueden realizar las operaciones de
adición y sustracción, pero no necesariamente la multiplicación y división dentro de la
escala.
Por ejemplo:
o La temperatura del aire. (caluroso, fresco, agradable, etc.)
d. Escala de Razones:
Es una escala de intervalos donde existe un cero absoluto que marca la
ausencia total del atributo en estudio.
La proporción entre los atributos de dos
individuos cualesquiera es independiente de la escala de medida utilizada. En ella la
razón entre dos clases (puntajes) cualesquiera permanece invariable ante toda la
transformación de la escala de razón, o sea ante toda transformación del tipo y=Φ(x).
De aquí que siempre el cero de la escala transformada coincide con el cero de la
escala original.
En las escalas de razones es posible realizar todas las operaciones aritméticas
con los puntajes.
Por ejemplo:
o Estatura de los alumnos: la estatura en metros es proporcional a la
estatura en pulgadas.
o Peso de los alumnos: (en libras o kilogramos)
4
o El tiempo invertido en una prueba de velocidad en educación
física (en minutos o segundos).
2.3-
La representación de los datos: FRECUENCIAS.
Cuando se reúne gran cantidad de datos primarios es útil distribuirlos en
clases y categorías y determinar las frecuencias de las clases, o sea, el número de
elementos que pertenecen a una clase. El ordenamiento tabular de los datos por
clases conjuntamente con las frecuencias de clases se denomina distribución de
frecuencias
El caso que se describe a continuación, variables discretas se denomina
distribución por conteo de valores individuales. Supongamos que un determinado
colectivo, representado por la variable estadística Xi, que para mayor sencillez
consideraremos como unidimensional; sean los datos de esta variable (representativo
cada uno de ellos de un suceso) X1, X2, … , Xn (supuesto que sean n los valores de
la variable considerada.)
Definiremos como frecuencia de un dato el número de veces que este aparece
en el colectivo; consecuentemente, si una variable estadística toma r valores, cada
uno de los cuales puede repetirse un cierto número de veces, podríamos decir que el
número de datos representado por la variable serían N, siendo N la suma de las
respectivas frecuencias de cada dato (N=ΣXi).
Este valor N será denominado como frecuencia total, mientras que la
frecuencia de cada dato recibirá el nombre de frecuencia absoluta o simplemente
frecuencia (fi). La frecuencia absoluta nos habla del número de veces que un dato
aparece en un colectivo, más ello no nos dice demasiado en orden al establecimiento
de comparaciones sobre la importancia de este dato. Para obtener una idea de la
importancia que un dato posee en el seno de un colectivo, puesto que no es
suficiente concepto de frecuencia, se utiliza el concepto frecuencia relativa, que se
definirá como: el coeficiente entre la frecuencia absoluta del dato considerado y la
frecuencia total (fr=fi/ΣXi).
Para efectos prácticos, asumiremos las siguientes definiciones de frecuencias:

frecuencias absolutas: es el número de veces que aparece en la muestra
dicho valor de la variable y se representa por fi.

frecuencias relativas: es el cociente entre la frecuencia absoluta y el
tamaño de la muestra. La denotaremos por fri

frecuencias absoluta acumulada: para poder calcular este tipo de
frecuencias hay que tener en cuenta que la variable estadística ha de ser
cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido el
cálculo de esta frecuencia. La frecuencia absoluta acumulada de un valor de
la variable, es el número de veces que ha aparecido en la muestra un valor
menor o igual que el de la variable y lo representaremos por fa, se puede
acumular, en la tabla estadística) en orden ascendente (fa↑) o descendente
(fa↓).

frecuencia relativa acumulada: al igual que en el caso anterior se calcula
como el cociente entre la frecuencia absoluta acumulada dividido por el
tamaño de la muestra (N) y la denotaremos por fra.
Resumiendo lo expuesto, si Xi es un valor de la variable, podemos
representar por fi a su frecuencia y por fi/ΣXi a su frecuencia relativa (siendo ΣXi=N
o la frecuencia total). Para el conjunto de los valores de la variable X i tendríamos,
5
así la tabla #1, compresiva de la información sobre dicha variable, a través de las
respectivas frecuencias:
Valores de la variable
Xi
(datos)
X1
X2
…
…
Xn
Tabla 1: Variables Discretas
frecuencias absolutas
frecuencias relativas
fi
fi/N
F1
F2
…
…
fn
f1/N
f2/N
…
…
fn/N
Donde: N=Σfi y Σfi/N=1
Otro es el caso de las clases representadas en forma de intervalos, variables
continuas, llamados intervalos de clases que poseen extremos llamados limite inferior y
limite superior, Un intervalo se dice que es abierto o no cerrado, por un extremo si no
contiene el límite correspondiente.
La longitud, tamaño o amplitud de un intervalo de clases (C) es la diferencia
entre los limites superior e inferior (C=lim sup – lim inf). El Recorrido (R) es la
diferencia entre el dato mayor y el menor del conjunto da datos en estudio (R=Xn – X1)
En el caso de variables continuas será necesario fijar intervalos de
frecuencias para llegar a un resumen efectivo de la información original. A menudo es
necesario representar una clase, o más particularmente, un intervalo por un único valor,
este representará a todo el intervalo y se denominará marca de clases.
Matemáticamente el punto medio de cada intervalo corresponde a lo que denominamos
marca de clase, se denotará por Xi, y constituirá el valor representativo de cada
intervalo. El número de observaciones que correspondan a cada intervalo se
denominará frecuencias absolutas.
Intervalos
(C)
X1-X2
X2-X3
…
…
Xn-1-Xn
Tabla 2: Variables Continuas
Marcas de Clases
Frecuencias Absolutas
Xi
fi
X1
f1
X2
f2
…
…
…
…
Xn
fn
Donde
X’ – X”
Xmi = ------------- = Marca de clases
2
N = Σfi = Número de observaciones
C = X’ – X” = Amplitud del intervalo
6
Por último, en el caso de variables no mensurables, dicha tabla adoptará una
forma como la siguiente:
Tabla3: Variable Ordinales
Variable
Frecuencias
Característica A
fA
Característica B
fB
…
…
…
…
Característica Z
fZ
2.4-
Método para agrupar la información en intervalos de clase
La forma de cómo agrupar los datos muchas veces depende del objeto de
estudio para el cual se realiza el análisis de los datos, con lo cual, no hay una única
manera de presentar los datos en intervalos de clase.
Sin embargo, si a priori no se sabe como agruparlos, existe una técnica que sirve
para determinar la forma en que podríamos presentar dichos datos de manera
agrupada (o en clases).
Dicha técnica es la siguiente:

El primer paso consiste en determinar la cantidad de intervalos (k). Por lo
general se utilizan 2 formas, que dependen del tamaño de la muestra, es decir,
de n.
Si n < 100, entonces k  1  3,3 * log( n)
Si n > 100, entonces k  n
(Como dichas formas no garantizan un nº entero, se recomienda aproximar por
derecha)

Luego, se debe obtener el rango de variación de los datos (w), que no es más
que obtener la diferencia entre el mayor valor observado y el menor.
w = max (xi) – min(xi), para todo i = 1, 2, ….,n (n= Nº de observaciones)

Una vez ello, se puede obtener la amplitud de cada intervalo de clase, que lo
llamamos h. En el caso que se busquen amplitudes regulares, entonces la
amplitud de cada intervalo se obtiene de la siguiente manera:
w
h
k

1
Por último, debe definirse el límite inferior de la primear clase ( linf
) . Por lo
general se toma el valor mínimo observado, aunque ello también dependerá de
la conveniencia, ya que tal vez sea mejor recurrir a otro valor. Por ejemplo, si
tenemos un mínimo de 1,503 m, tal vez convenga empezar con 1,5m.
Nota aclaratoria: como los valores verdaderos a utilizar de k, h y l 1 inf no siempre son
exactamente los valores que surgen de las relaciones antes planteadas (ya sea por
temas de redondeo en el caso de k o por aproximación, según conveniencia, en los
casos de h o l 1 inf ), entonces para garantizar que los intervalos cubran todo el rango de
variación de los datos observados, necesariamente debe cumplirse que:
k * h + l 1 inf > max(xi)
7
Ejemplo:
La tienda CANTORAS Y ASOC. estaba interesada en efectuar un análisis
de sus cuentas por comprar. Uno de los factores que más interesaba a la
administración de la tienda era el de los saldos de las cuentas de crédito. Se escogió
al azar una muestra aleatoria de 30 cuentas y se anotó el saldo de cada cuenta (en
unidades monetarias) como sigue:
77.97 13.02 17.97 89.19 12.18 8.15 34.40 43.13 79.61 90.99
43.66 29.75 7.42 93.91 20.64 21.10 17.64 81.59 60.94 43.97
32.67 43.66 51.69 53.40 68.13 11.10 12.98 38.74 70.15 25.68
Solución:
1- Efectuar el arreglo ordenado de la población o muestra:
A= ( 7.42, 8.15, …, …, …, 90.99, 93.91 )
donde: X1 = valor mínimo = 7.42
Xn= valor máximo = 93.91
2 - Encontrar el rengo o recorrido de los datos: “w”
w = valor mayor – valor menor = Xn – X1 = 93.91 – 7.42 = 86.49
3- Encontrar en número de clases “k”, según la fórmula del logaritmo, dado que
n<100. :
k=1+3.322(log N)
Nota: en el ejemplo en estudio N=30 por cuanto que son 30 clientes en la muestra:
K = 1 + 3.322 (log 30)
= 1 + 3.322 (1.477) el log fue obtenido según calculadora
= 1+ 4.9069
= 5.9069 ~6 aproximado al siguiente entero
4- Determinar la amplitud de la clase: “h”
w
86.49
h = -------- = ---------- = 14.415
k
6
Clases
7.420 – 21.835
21.835 – 36.250
36.250 – 50.665
50.665 – 65.080
65.080 – 79.495
79.495 – 93.910
Total
X mi
fi
fr
fa↓
fa↑
14.628 10 0.33 10
30
29.043 4 0.13 14
20
43.458 5 0.17 19
16
57.873 3 0.10 22
11
72.288 3 0.10 25
8
86.703 5 0.17 30
5
XXX 30 1.00 XXX XXX
fra↓
fra↑
0.33
0.46
0.63
0.73
0.83
1.00
XXX
1.00
0.67
0.54
0.37
0.27
0.17
XXX
Nota: obsérvese que se va a trabajar con una cifra significativa más cómoda, o sea
como los datos están dados en centésimos, se calculo C hasta los milésimos para
evitar que algún dato coincida con el límite de clases
8
Simbología utilizada:
X mi = Punto medio o marca de clases
fi
= frecuencia absoluta
fr
= frecuencia relativa
fa↓ = frecuencia absoluta acumulada descendente
fa↑ = frecuencia absoluta acumulada ascendente
fra↓ = frecuencia relativa acumulada descendente
fra↑ = frecuencia relativa acumulada ascendente
Nota:
iObsérvese que el límite inferior de la primera clase es el valor mínimo
( X1=7.42 ) y el límite superior es el resultado de X 1+h = 7.42+14.415 =
21.835.
iiEl límite inferior de la siguiente clase es igual al límite superior de la
clase anterior y el límite superior es el resultado de adicionarle
nuevamente la amplitud de la clase (h ).
iiiObsérvese que el límite superior de la última clase es igual al valor
mayor
( Xn=93.91 )
3. TABLA DE DISTRIBUCIÓN DE FRECUENCIAS.
Una de los primeros pasos que se realizan en cualquier estudio estadístico es la
tabulación de resultados, es decir, recoger la información de la muestra resumida en
una tabla, que denominaremos distribución de frecuencias, en la que cada valor de la
variable se le asocian determinados números que representan el número de veces que
ha aparecido, su proporción con respecto a otros valores de la variable, etc.
Por tanto, llamaremos distribución de frecuencias a un agrupamiento de datos
en clases acompañada de sus frecuencias: frecuencias absolutas, frecuencias relativa
o frecuencia porcentuales. En caso de que las variables estén al menos en escala
ordinal aparecen opcionalmente las frecuencias acumuladas absolutas, y frecuencias
acumuladas porcentuales. Las distribuciones de frecuencias varían en dependencia si
corresponden a una variable discreta o a una variable continua.
3.1-
Tipos de distribuciones de frecuencias
Las curvas de frecuencia presentan determinadas formas características que les
distinguen como se indica en la Figura 3.
a - Las curvas de frecuencia simétricas o bien formadas se caracterizan por el hecho
de que las observaciones que equidistan del máximo central tienen la misma
frecuencia. Un ejemplo importante es la curva normal.
b- En las curvas de frecuencia moderadamente asimétricas o sesgadas la cola de la
curva a un lado del máximo central es mayor que al otro lado. Si la cola mayor se
presenta a la derecha de la curva se dice que ésta está sesgada a la derecha o
que tiene sesgo positivo, mientras que si ocurre lo contrario se dice que la curva
está sesgada a la izquierda o que tiene un sesgo negativo.
c- En las curvas en forma de J o de J invertida, el máximo se presenta en un extremo.
d- Las curvas de frecuencias en forma de U tienen el máximo en ambos extremos.
e- Una curva de frecuencias bimodal tiene dos máximos.
f- Una curva de frecuencias multimodal tiene más de dos máximos.:
9
3.2 Representaciones Gráficas de la Distribución de Frecuencias
a. Cuadros estadísticos:
La estadística es una disciplina que nos enseña a organizar los datos recogidos
para poder analizar sus características y posteriormente inferir, a partir de las muestras
tomadas, las características de la población investigada. Los cuadros o tablas
corresponden a arreglos sistemáticos de los datos por filas y columnas y son un buen
complemento del texto en los informes
El primer procedimiento estadístico consiste en tabular los datos según el tipo
de escala de medición utilizada. La tabulación de los datos conlleva a representar la
información a través de tablas que de forma general contiene las siguientes partes
fundamentales:
1- Numeración (siempre que se presenten dos o más cuadros)
2- Título: es la descripción que precede al cuadro, la cuál deberá estar redactada
en forma breve y clara, de tal manera que exprese su contenido, siguiendo el
ordenamiento del mismo. Es necesario abarcar las características: Qué, Dónde,
Cómo y Cuándo
3- Encabezamiento: se refiere al número de atributos o variables que se quieren
representar en el cuadro y se anotan como denominaciones de las columnas y
subcolumnas; puede ser unidimensional, bidimensonial o multidimensional. Los
títulos de las columnas van en mayúsculas y los subtítulos en minúsculas
4- Cuerpo: es el conjunto de columnas y líneas que contiene el cuadro en orden
vertical y horizontal, donde se colocan los datos sobre los hechos observados
10
5- Pie: se refiere a la información adicional necesaria a saber: notas, llamadas,
fuentes de información y otras. Se anotan en el espacio debajo de la línea
inferior que limita el cuerpo del cuadro.
b -Gráficos Estadísticos:
El gráfico es quizás el auxiliar más valioso y utilizado para expresar datos
estadísticos, este elemento no le añade novedad a las tablas o cuadros estadísticos, es
de fácil comprensión y accesible a un número mayor de usuarios. El gráfico además
de expresar visualmente los hechos más importantes de la información numérica,
permite una mejor y más fácil comprensión y ahorra tiempo y esfuerzo en el análisis de
datos estadísticos al facilitar su apreciación visual en forma conjunta:
-Histogramas de frecuencias:
Un histograma es un gráfico que sirve para representar una distribución de
frecuencias. Este gráfico está formado por un conjunto de rectángulos (caso de
variables continuas) que tienen como base un eje horizontal (generalmente el eje de las
abscisas o de las X), y como centro los puntos medios de las clases. Los anchos de
las clases y las áreas de los rectángulos son proporcionales a las frecuencias de las
clases. En el caso de las variables discretas el gráfico consiste de un conjunto de
barras verticales en lugar de rectángulos, hallándose cada barra sobre la observación
respectiva y con una altura proporcional a la frecuencia de la observación
-
- Polígono de frecuencias:
El polígono de frecuencias es un gráfico formado por líneas quebradas, que
tiene los centros de las clases representadas en un eje horizontal (eje de las X) y las
frecuencias de las clases en un eje vertical (eje de las Y).
La frecuencia
correspondiente a cada centro de clase se señala mediante un punto y luego los puntos
consecutivos se unen por líneas rectas. Del correspondiente histograma se puede
lograr el polígono de frecuencia uniendo los puntos medios de las bases superiores de
cada rectángulo mediante líneas rectas.
11
-Ojivas:
Las ojivas se refieren a los gráficos que se construyen utilizando una distribución
acumulativa de frecuencias, el orden de acumulación se aplica al cuadro de distribución
de frecuencia y puede ser descendente (fa↓, fra↓) o ascendente (fa↑, fra↑). La figura
que se forma al unir los puntos del polígono de frecuencias acumulativas es lo contrario
del orden anunciado (por ejemplo si se utilizó el orden descendente en la acumulación
de los datos en el cuadro, la ojiva resulta ser ascendente).
4- MEDIDAS DE TENDENCIA CENTRAL
Al describir grupos de observaciones, con frecuencia se desea describir el grupo
con un solo número. Para tal fin, desde luego, no se usará el valor más elevado ni el
valor más pequeño como único representante, ya que solo representan los extremos,
más bien que valores típicos. Entonces sería más adecuado buscar un valor central.
Las medidas que describen un valor típico en un grupo de observaciones suelen
llamarse medidas de tendencia central. Es importante tener en cuenta que estas
medidas se aplican a grupos más bien que a individuos. Un promedio es una
característica de grupo, no individual.
Media aritmética: Por lo general si la media se refiera a una población se lo denota
con la letra griega  x y si proviene de una muestra con la letra x .
12
n
x
X
i 1
i
n
Es la medida de tendencia central más obvia que se puede elegir, y es el simple
promedio de las observaciones del grupo, el cual se obtiene sumando todas las
observaciones y dividiendo esta suma por el número de observaciones que hay en el
grupo.
En realidad hay muchas clases de promedios y ésta se la llama media aritmética
para denotar la suma de un grupo de observaciones dividida por su número.
Mediana me  : es otra medida de tendencia central que se utiliza con mucha
frecuencia es la mediana, que es el valor situado en medio en un conjunto de
observaciones ordenadas por magnitud.
Moda mo  : es otra medida de tendencia central es la moda o modo y es el valor que
ocurre con más frecuencia en un conjunto de observaciones.
4.1 -Otras Medidas de Tendencia Central
Centro de amplitud: Es el valor que queda en medio de los valores mínimo y máximo.
ca 
xmax  xmin
2
Media geométrica: La media geométrica de un conjunto de observaciones es la raíz n
ésima de su producto. El cálculo de la media geométrica exige que todas las
observaciones sean positivas.
G  n x1 * x2 * ... * xn
El logaritmo de la media geométrica es igual a la media aritmética de los
N
log( xi )
logaritmos de la variable: log( G )  
N
i 1
La media geométrica, a diferencia de la media aritmética no está influenciada por
valores extremos grandes, pero sí se ve afectada por valores extremos chicos y no
puede calcularse para valores de la variable negativos. Suele utilizarse en la
construcción de números índices.
Media armónica: Es el inverso de la media aritmética de los inversos de las
observaciones.
H
n
n
1

i 1 xi
13
La recíproca de la media armónica es igual a la media aritmética. Esta medida se
la utiliza para promediar cocientes donde el denominador es variable.
Propiedades de las medias: H < G < 
Media ponderada: En ciertas circunstancias no todas las observaciones tienen igual
peso. En general si se tienen observaciones con sus respectivos pesos es:
n
xw 
w x
i 1
n
i
i
w
i 1
i
Cuartiles, Deciles y Percentiles: Son medidas similares a la mediana. Mientras la
mediana divide la población en dos mitades, los cuarteles la dividen en cuatro cuartos,
los deciles en 10 partes y los percentiles en 100 partes. Si denotamos a los cuartiles,
deciles y percentiles respectivamente como Qi ; Di yPi , donde el subíndice i hace
referencia al orden o número del cuartil (decil o percentil). Por ejemplo: el cuarlil 1
(Q1 ) representa el valor de x, tal que conforme a un ordenamiento ascendente de las
observaciones, contiene al primer cuarto de las observaciones (25% de la población).
i * n 1 
Qi  x 
 
2
 4
i * n 1 
Di  x 

 10 2 
i * n 1 
Pi  x 

 100 2 
Las fórmulas nos dan el número de la observación, según el ordenamiento
ascendente que represente el cuartil (decil, percentil). Así, por ejemplo, si Q3=6, nos
indica que el cuartil 3 está representado por el sexto valor según el ordenamiento
ascendente. P40=62,5, nos indica que el percentil 40 está ubicado entre el valor 62 y
63 del ordenamiento ascendente.
Nótese que la mediana se corresponde con Q2, D5 y P50.
5. MEDIDAS DE VARIABILIDAD
Amplitud: Se obtiene restando el valor mínimo del máximo en un conjunto de
observaciones. La amplitud tiene la ventaja de que es fácil de calcular y sus unidades
son las mismas que las de la variable que se mide. La amplitud no toma en
consideración el número de observaciones de la muestra estadística, sino solamente
la observación del valor máximo y la del valor mínimo. Sería deseable utilizar también
los valores intermedios del conjunto de observaciones.
14
Desviación media: Esta medida es más acorde que la de amplitud, ya que involucra a
todos los valores del conjunto de observaciones corrigiendo la desviación. Ésta medida
se obtiene calculando la media aritmética de la muestra, y luego realizando la
sumatoria de valor absoluto de las diferencias de todos los valores con respecto de la
media. Luego se divide por el número de observaciones.
Una medida como ésta tiene la ventaja de que utiliza cada observación y corrige
la variación en el número de observaciones al hacer la división final. Y por último
también se expresa en las mismas unidades que las observaciones mismas.


n
i 1
DM x
( xi   x ) * f i
n
Varianza: Ésta medida se obtiene calculando la media aritmética de la muestra, y
luego realizando la sumatoria de las diferencias al cuadrado de todos los valores con
respecto de la media. Luego se divide por el número de observaciones, el cual es otro
mecanismo para solucionar el efecto de cancelación para entre diferencias positivas y
negativas. Si elevamos al cuadrado cada diferencia antes de sumar, desaparece la
cancelación.
Varianza muestral: S
2
x


Varianza Poblacional: 
n
i 1
2
x
( xi  x) 2 * f i
n 1


n
i 1
( xi   x ) 2 * f i
N
Esta fórmula tiene una desventaja, y es que sus unidades no son las mismas
que las de las observaciones, ya que son unidades cuadradas.
Esta dificultad se soluciona, tomando la raíz cuadrada de la ecuación anterior,
que es la desviación típica.
La diferencia entre la varianza muestral y poblacional es que se divide a la
sumatoria de las diferencias al cuadrado por el total de la población (N) y para las
muestras por (n-1), que es el numero de observaciones de la muestra menos uno. Ello,
por desgracia ahora no podemos analizarlo, ni dar una respuesta entendible, tema que
se analizará en la unidad correspondiente a estimadores.
Desviación típica: Es la raíz cuadrada de la varianza.

n
Desvío muestral: S x  S 
2
x
i 1
( xi  m x ) 2 * f i
n 1

n
Desvío poblacional:  x   
2
x
i 1
( xi   x ) 2 * f i
N
15
Entonces en este caso la unidad de  x o S x es la misma que la del conjunto de
observaciones de la muestra estadística.
Coeficiente De variación: Es el cociente entre la desviación típica y la meria
aritmética. Al ser un cociente entre magnitudes que están expresadas en las mismas
unidades, tla cociente no posee unidades y es una medida de razón, lo cual permite la
comparación entre datos alternativos que presentad diferentes unidades de medida.
6.
FÓRMULAS PARA DATOS AGRUPADOS
k
Media muestral: x 
x
i 1
mi
* fi
n
Donde:
k = cantidad de intervalos; n= nº de observaciones;
xmi = valor medio del intervalo i; fi = frecuencia absoluta del intervalo i
k
Media Poblacional: x 
x
i 1
mi
* fi
n
Donde:
k = cantidad de intervalos; n= nº de observaciones;
xmi = valor medio del intervalo i; fi = frecuencia absoluta del intervalo i
k
 (x
Varianza muestral:
i 1
mi
 x) 2 * f i
(n  1)
Donde:
k = cantidad de intervalos; n= número de observaciones;
xmi = valor medio del intervalo i
x = media muestral para datos agrupados
k
 (x
Varianza poblacional:
i 1
mi
 mx ) 2 * f i
n
Donde:
k = cantidad de intervalos; n= número de observaciones.
xmi = valor medio del intervalo i.
mx  media poblacional.
n
(  f an ) * I
Mediana: Li  2
=
fa
16
Donde: fan = Frecuencia acumulada del intervalo anterior al que contiene la mediana.
I = longitud del intervalo o clase que contiene la median.
Li = límite inferior del intervalo que contiene la mediana.
fa = frecuencia absoluta del intervalo que contiene la mediana.
Modo: Li  (
d1
)*I =
d1  d 2
Donde: d1 = diferencia entre la frecuencia de la clase modal y la anterior.
d2 = diferencia entre la frecuencia de la clase modal y la posterior.
I = longitud del intervalo modal (o clase modal).
Li = límite inferior del intervalo modal.
Cuartiles, Deciles y Percentiles para datos agrupados:
Qi  Linf
i*n
 Fant )
[ 4
]* I
fa
;
Di  Linf
i*n
 Fant )
 [ 10
]* I ;
fa
(
Qi  Linf
(
i*n
 Fant )
 [ 100
]* I
fa
(
Donde:
Qi= cuartil i ; Di = decil i ; Pi = percentil i;i = numero de cuartil / decil / percentil; n= total
de observaciones.
Linf  Límite exactamente inferior del intervalo que contiene el cuartil / decil/ percentil.
Fant  frecuencia acumulada simple del intervalo anterior al que contiene el cuartil / decil
/ percentil.
f a  frecuencia absoluta del intervalo que contiene el cuartel /decil / percentil.
I= amplitud del intervalo que contiene el cuartil /decil / percentil.
7. MEDIDAS DE DEFORMACIÓN
Las medidas de deformación, nos sirven para comparar una distribución dada
con una distribución normal estándar (campana de gauss).
ASIMETRÍA: Una función de distribución de frecuencias es simétrica cuando las
frecuencias simples correspondientes a valores de la variable equidistantes de la media
son iguales.
17
s  R
f (m  s )  f (m  s)
(nota aclaratoria: Si la distribución es simétrica, los momentos centrados de orden
impar son nulos debido a que las desviaciones positivas y negativas multiplicadas por
sus respectivas frecuencias se compensan.)
Para calcular la asimetría se utiliza la siguiente forma:

As=
u3

n
i 1
( Xi  X ) 3 * fi
n
i 1 ( xi  x) 2 * fi
Resultados posibles:
n
3
(
n
)
3
2
As = 0 la distribución es simétrica ( me = m = mo)
As > 0 la distribución es asimétrica positiva (m > mo). Las desviaciones positivas
superan a las negativas.
As < 0, la distribución es asimétrica negativa (m < mo). Las desviaciones negativas
superan a las positivas.
Si bien la anterior fórmula es la general, en muchos paquetes estadísticos se
utilizan otras como:

1º coeficiente de Pearson: CA1 =
m  me
, donde si Cam - me
s
CA1  0 La distribución es simétrica
CA1  0 La distribución presenta asimetría positiva.
CA1  0 La distribución presenta asimetría negativa.


3 * ( m  me )
,
s
En este caso el rango de variación es (-3;3), donde:
CA2  0 La distribución es simétrica
CA1  0 La distribución presenta asimetría positiva.
CA1  0 La distribución presenta asimetría negativa.
2º coeficiente de Pearson: CA2 =
Paquetes estadísticos:
n
( xi  x) 3
[ (
) ],
(n  1) * (n  2)
s
Los valores significan lo mismo que para los casos anteriores.
CA3 
CURTOSIS (o KURTOSIS): Se refiere al apuntamiento de una distribución comparada
con el de una normal. Permite comparar la altura de la distribución con la de una
normal. Para calcular la curtosis, normalmente se utiliza la siguiente fórmula:
K

4
3
4
n
i 1
( xi  x) 4 * fi
n
(

n
i 1
( xi  x) * fi
3
2
n
)4
18
Resultados posibles:
K = 0 la distribución es MESOCÚTICA (posee la misma altura que una distribución
normal estándar).
K > 0 la distribución es LEPTOCÚRTICA (posee MAYOR altura que una distribución
normal estándar).
K < 0 la distribución es PLATOCÚRTICA (posee MENOR altura que una distribución
normal estándar).
As < 0, la distribución es asimétrica negativa (m < mo). Las desviaciones negativas
superan a las positivas.
Al igual que en la asimetría, en algunos paquetes estadísticos la curtosis se
calcula como:
n(n  1)
xi  x 4
3(n  1) 2
n
, cuyos resultados representan lo
(
)
}


(n  1)( n  2)(n  3) i 1 s
(n.  2)(n  3)
mismo que el caso anterior.
K {
8. DATOS MULTIVARIADOS
A veces, los elementos de una población pueden tener algunos valores
asociados entre si. Por ejemplo, si en cada observación se analizan varias
características estamos ante la presencia de datos multivariados. En el caso particular
que se analicen dos características, de dice que los datos son BIVARIADOS.
En el caso particular de datos bivariados, tendremos entonces por cada
observación, un par de valores, cada uno correspondiente a la característica que se
desea estudiar. Por ejemplo, al analizar el largo y el ancho del caparazón de las
tortugas, tendremos que por cada tortuga dos valores (largo; ancho). De esta forma, si
los datos constan de pares de arreglos (x1; y1); (x2; y2);….; (xn; yn). Podemos
entonces representar dichos datos mediante un diagrama de dispersión, que consiste
en representar cada par ordenado en un sistema coordenado bidimensional.
De esta forma el grafico nos permite ver si visualmente puede hallarse algún tipo
de asociación entre los valores de x e y. Por ejemplo, puede verse que los datos no
siguen ningún patrón de comportamiento general (relación entre x e y), se sigue una
relación casi lineal o tal vez una relación no lineal (parábola, hipérbola, logarítmica,
exponencial, etc).
A parte de esta representación gráfica puede establecerse analíticamente si
existe algún tipo de asociación entre las variables. Una de las medidas que
generalmente se utiliza para saber si existe algún grado de asociación entre variables
es la Covarianza.
Se defina la covarianza entre X e Y como: Cov( x; y ) 
 (x  m
x
) * ( y  my )
n
o alternativamente:
n
Cov( x; y ) 
 ( xi * y i )
i 1
n
n
(
n
 xi
i 1
n
y
*
i 1
n
i
)  media( xy)  media( x) * media( y )
Es una medida que sirve para diagnosticas si dos variables son independientes.
En este sentido, se entiende que la variable X es independiente de Y, si no existe
19
relación entre los valores que toma la variable X con respecto a los valores que toma la
variable Y (asociar con eventos independientes en probabilidad).
De este modo, la covarianza da idea del grado de asociación lineal entre
variables. Es como una medida de intensidad de asociación lineal. Si Cov(X;Y) = 0,
entonces se entiende que no existe asociación lineal entre las variables lo cual indica
que son independientes.

Cov(X;Y) > 0, nos indica una asociación lineal positiva, es decir, que si los valores
de X crecen, por lo general también lo harán los valores de la variable Y.

Cov(X;Y) < 0, nos indica una asociación lineal negativa, es decir, que si los valores
de X crecen respecto a su media, por lo general los valores de Y caerán respecto
de su media.
La Covarianza posee la característica que posee unidades, las cuales está dada
por la multiplicación de las unidades de la variable X e Y. Ello en la práctica genera
algunas desventajas dado que a los efectos de comparar covarianzas para variables
diferentes, no es posible determinar cual de los dos pares de variables aleatorias está
mas relacionado, dado que las dos covarianzas presentan unidades diferentes.
Para ello, se utiliza el concepto de correlación, que no posee unidades.
Correlación:  ( x;Y ) 
Cov( X ; Y )
 x y
Para dos variables aleatorias X e Y:  1   ( x;Y )  1
Es evidente que si Cov(X;Y)=0, entonces  ( x;Y ) 
Cov( X ; Y )
 x y
=0, lo cual indica que
X e Y no están correlacionadas.
Así, entonces diremos que si dos variables aleatorias (X e Y) son
independientes, entonces X e Y no están correlacionadas.
20

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Top subcategories

Download Modulo #1: DISTRIBUCIÓN DE FRECUENCIAS