Download Ejemplo

Document related concepts

Parámetro estadístico wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Desviación típica wikipedia , lookup

Varianza wikipedia , lookup

Histograma wikipedia , lookup

Transcript
II. ESTADÍSTICA DESCRIPTIVA
Que el alumno conozca los diferentes parámetros estadísticos de una muestra, las
distribuciones y representaciones gráficas de los datos, así como su descripción numérica.
II.1. Conceptos de población y muestra. Parámetros y estadísticos.
Población Habitualmente se considera a una población como una colección de entidades,
una población o colección de entidades puede estar compuesta de animales, maquinas,
plantas, etc. Con una característica de interés para nuestro estudio.
Por ejemplo, si se tiene interés en conocer el peso de todos los niños inscritos en el sistema
de educación primaria del estado, la población está formada por todos esos pesos. Si se
tiene interés solo en el peso de los estudiantes inscritos en el primer grado, se tiene una
población diferente, compuesta por los pesos de los estudiantes de primer grado. Por lo
tanto, las poblaciones se determinan o definen con base en el campo de interés. Las
poblaciones pueden ser finitas o infinitas. Si una población de valores consiste en un
número fijo de esos valores, se dice que la población es finita. Si, por otra parte, una
población consiste en una sucesión interminable de valores, entonces es una población
infinita.
Muestra Una muestra puede definirse simple mente como una parte de una poblaci6n.
Suponga que una población se compone de los pesos de todos los niños inscritos en el
sistema de educación primaria del estado, y se escoge para el análisis solo una fracción de
los niños; entonces se tiene únicamente una parte de la población, es decir, se tiene una
muestra.
Parámetro: Es cualquier medida descriptiva de la población completa de observaciones que
tienen interés para el investigador.
Aunque las características de una población y los atributos pueden tener aspectos en
común, no son lo mismo. Los atributos hacen referencia a parámetros. Por ejemplo,
considere el parámetro “edad media” en la población de ciudadanos del estado de BCS.
Estadístico: Es cualquier medida descriptiva de la muestra y sirve para estimar el parámetro
de la población. El estadístico es a la muestra lo que el parámetro es a la población. Por
ejemplo el ingreso promedio de los docentes universitario de la Universidad Mundial (UM)
es el estadístico cuando la UM es una muestra de las universidades sudcalifornianas.
II.2. Tipos de variables y escalas de medición.
Variable: Es una característica de la muestra o de la población que se analiza en un estudio
estadístico. Una variable puede ser categórica o cualitativa y numérica o cuantitativa.
a) Variable cualitativa. Es aquella que se puede expresar normalmente por medio de
palabra y no de números, por ejemplo, el estado civil, la nacionalidad, el sexo, la
profesión, la raza. Las variables cualitativas pueden ser dicotómicas o politómicas.
a.1) Variable cualitativa dicotómicas Se pueden hacer observaciones solo en dos
categorías, por ejemplo, hombre o mujer, bueno o malo, rico o pobre, ausente o
presente, empleado o desempleado.
a.2) Variable cualitativa politómicas se pueden hacer observaciones en más de dos
categorías, por ejemplo, en puestos de trabajo, colores, idiomas, estratos,
nacionalidades, religiones, etc.
b) Variable cuantitativa: Es aquella que se expresa numéricamente, por ejemplo, las
exportaciones de café, las ventas de acero, el ingreso per cápita, la producción de
autos, las hectáreas fumigadas, etc. Las variables cuantitativas pueden ser discretas o
continuas.
b.1) Variable continua: Es aquella que toma cualquier valor dentro de un intervalo
dado. Por muy cerca que estén dos observaciones siempre es posible hacer otra
medición que caiga dentro de esas dos. Los valores de una variable continua
provienen de las mediciones y de los pesajes.
b.2) Variable discreta: Es aquella que solo puede tomar determinados valores por lo
general, números enteros, por ejemplo, el número de hijos de una familia, número
de empleados de una empresa, numero de vacas en una hacienda, numero de
carros fabricados, etc.
Escalas de medición
Los diferentes tipos de variables nos han llevado a otra clasificación de las variables basada
en la escala de medida que usan para determinar su valor. Hay cuatro escalas clásicas de
medida:
1. Escala nominal. Es más bien un sistema de etiquetaje. Las variables categóricas,
como el género y la carrera universitaria, se miden de esta forma. Aunque se asignen
números a las categorías, estos no tiene un valor numérico real.
2. Escala ordinal. En esta escala se da un valor a la variable basado en la posición
dentro de una serie. La posición relativa de la variable tiene algún sentido numérico,
por ejemplo, si queremos medir el puesto en que los corredores cruzan la línea de
meta. Esta escala solo presta atención a la posición.
3. Escala de intervalo. Esta se usa para medir variables continuas que tienen valores
matemáticos legítimos.
4. Escala de razón. Esta tiene un valor cero real (que indica “ausencia de”). Es útil para
realizar comparaciones entre conjuntos de variables que usan escalas diferentes.
II.3. Representaciones gráficas de un conjunto de datos: Diagramas de barras,
Pictogramas, Gráficas circulares, Diagrama de tallo y hoja, Diagrama de caja, Histograma,
Polígono de frecuencias, Diagramas x, y.
1) Diagramas de barras: Siguiendo la figura 1.1, representamos en el eje de ordenadas
las modalidades y en abscisas las frecuencias absolutas o bien, las frecuencias
relativas. Si, mediante el grafico, se intenta comparar varias poblaciones entre sı,
existen otras modalidades, como las mostradas en la figura 1.2. Cuando los tamaños
de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias
relativas, ya que en otro caso podrían resultar engañosas.
Figura 1.1: Diagrama de barras para una variable cualitativa.
Tenemos una tabla donde
Estado civil de maestros de la UM
Casado
Soltero Divorciado
No. De maestros
6
5
2
Estado civil de maestros de la UM
7
6
5
4
3
2
1
0
Casado
Soltero
Divorciado
Viudo
Viudo
1
Estado civil
UM
UNIPAZ
Casado
6
10
Soltero
5
3
Divorciado Viudo
2
1
1
0
Estado civil de los maestros de dos
universidades
No. de maestros
12
10
8
6
UM
4
UNIPAZ
2
0
Casado
Soltero
Divorciado
Viudo
Estado civil
*Tratar de acomodar los valores de mayor a menor si es posible…
La idea es una ayuda a la explicación y la decoración no debe interferir con su propósito.
Estado civil de maestros de la UM
Casado
Soltero Divorciado
No. De maestros
6
5
2
Estado civil de maestros de la UM
6
4
2
0
Casado
Soltero
Divorciado
Viudo
Viudo
1
2) Pictogramas
Son gráficas comparativas de imágenes donde se usan símbolos para representar las
magnitudes que se están usando. Este tipo de gráficos suele usarse en los medios de
comunicación, para que sean comprendidos por el público no especializado, sin que sea
necesaria una explicación compleja. Por ejemplo, si el tema tratando es el número de
nacimientos, se hace un esquema de un bebé. De esa forma, el lector puede captar más
rápido la idea.
Para formar los pictogramas deben tenerse en cuenta los puntos siguientes:
 Una vez adoptado el símbolo a usar, se le asigna un tamaño fijo y una cantidad de
unidades.
 El escalamiento de los dibujos debe ser tal que el área* de cada uno de ellos sea
proporcional a la frecuencia de la modalidad que representa.
 Para cantidades mucho mayores conviene combinar el pictograma con otro
diagrama.
 El símbolo adoptado como pictograma debe explicarse por sí mismo.
Si bien el pictograma es el gráfico más llamativo a su vez es el más engañoso, por la
propensión que se tiene a comparar áreas y volúmenes, antes que líneas.
*Es un error hacer la representación con una escala tal que el perímetro del dibujo sea
proporcional a la frecuencia, ya que a frecuencia doble, correspondería un dibujo de área
cuádruple, lo que da un efecto visual engañoso. En este caso se multiplico por raíz de 2 la
base y la altura para controlar la relación de aspecto y el área a la vez.
3) Gráficas circulares
Se divide un círculo en tantas porciones como clases existan, de modo que a cada clase le
corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa (figura 1.3).
Fumadores
No fumadores
20
33
No. fumadores en la UM
Fumadores
No fumadores
No. fumadores en la UM
Fumadores
No fumadores
4) Diagrama de Tallo y hoja
¿Cómo construirlo?
En un gráfico de tallo y hoja cada valor de datos es partido en "un tallo" "y una hoja". "La
hoja" es por lo general el último dígito del número y los otros dígitos a la izquierda "de la
hoja" forman "el tallo".
Por ejemplo, el número 136 sería partido como:
TALLO: 13
HOJA: 6
1. Puede ordenar los datos de menor a mayor, esto ayudara a la organización de los
datos (Opcional)
2. Separe cada número en un tallo y una hoja.
3. Agrupe los números con los mismos tallos. Ponga los tallos en una lista en orden
creciente.
Veamos un Ejemplo con los siguientes 15 datos:
35,
36,
38,
40,
42,
42,
44,
Tallo
3
4
5
45,
45,
Hoja
568
022455789
000
47,
48,
49,
50,
50,
50
Ejemplo considerando que la precipitación anual (mm) registrada en los años de 1994 a
2002 en el Mpio de los Cabos, presentados en la tabla, se realiza a continuación el diagrama
de tallos y hojas para la precipitación del mes de enero y el mes de octubre, durante los
años de 1994 a 2002.
Precipitación del mes de enero:
63.5 58.4 60.2 70.2 98.2 57.3 68.2 59.8 68.1 (mm)
Estos datos transformados a numero enteros quedan como 635 584 602 702 982 573 682
598 681
Los datos ordenados son: 573 584 598 602 635 681 682 702 982
En este caso es conveniente escoger el primer número como el tallo y los dos últimos
términos como las hojas. El diagrama de tallos y hojas queda así:
Tallos
5
6
7
8
9
Enero
Hojas (n=9)
73 84 98
02 35 81 82
02
82
Como se puede apreciar, las mayores frecuencias de precipitación para el mes de enero se
presentan en los rangos de 50mm y 60mm, muy poca frecuencia en los rangos de70mm a
90mm.
Precipitación en el mes de octubre:
158.9 166.2 171.3 169.2 160.5 149.7 168.4 170.2 165.9 (mm)
Estos datos transformados en enteros son:
1589 1662 1713 1692 1605 1497 1684 1702 1659
En este caso es conveniente escoger los dos primeros términos como el tallo y los dos
últimos como la hoja, tal como se presenta:
Octubre
tallos
Hojas (n=9)
14 97
15 89
16 05 59 62 84 92
17 02 13
Como se puede apreciar, las mayores frecuencias para el mes de octubre se presentan
alrededor de 160 mm y muy pocas frecuencias entre 140mm y 150mm
Otra ventaja de los diagramas de tallos y hojas consiste en la comparación de dos
distribuciones, tal como se presenta en el siguiente ejemplo.
Mediante un diagrama de tallos y hojas, comparar la distribución de la precipitación de los
años 1995 y 2000, indicados.
(Los datos transformados, son)
Año 1995: 584 783 1689 1100 956 807 1152 1203 1662 1030 897 (mm)
Año 2000: 682 756 589 1120 989 881 1084 1098 1684 863 798 (mm)
Generando el siguiente diagrama:
Año 1995
Hojas
84
83
97 07
56
30 00
52
03
89 62
Año 2000
Hojas
Tallos
5
6
7
8
9
10
11
12
15
16
82
56 98
63 81
89
84 98
20
89
84
Como se puede apreciar, las distribuciones de precipitación de los años 1995 y 2000 no
presentaron grandes diferencias, concentrándose las mayores frecuencias entre 70mm y
110mm.
5) Diagrama de caja
Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual
que describe varias características importantes, al mismo tiempo, tales como la dispersión y
simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los
datos, sobre un rectángulo, alineado horizontal o verticalmente.
Construcción:
Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos
muestran el recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical
que indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero
y tercero recordemos que el segundo cuartil coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo
y máximo de la variable. Las líneas que sobresalen de la caja se llaman bigotes. Estos bigotes
tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre
dentro de este rango es marcado e identificado individualmente
EJEMPLO DISTRIBUCIÓN DE EDADES
Representan la edad de un colectivo de 20 personas.
36 25 37 24 39 20 36 45 31 31 39 24 29 23 41 40 33 24 34 40
ORDENAR LOS DATOS
Para calcular los parámetros estadístico, lo primero es ordenar la distribución
20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
CALCULO DE CUARTILES
Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N
= 20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el
siguiente:
Q1=(24 + 25) / 2 = 24,5
Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la
variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la
mediana es la media aritmética de dicho valor y el siguiente:
me= Q2 = (33 + 34)/ 2 =33,5
Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En
nuestro caso, como 3N / 4 = 15, resulta
Q3=(39 + 39) / 2 = 39
DIBUJAR LA CAJA Y LOS BIGOTES
El bigote de la izquierda representa al colectivo de edades ( Xmín, Q1)
La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmáx).
INFORMACIÓN DEL DIAGRAMA
Podemos obtener abundante información de una distribución a partir de estas
representaciones. Veamos alguna:



La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las
edades comprendidas entre el 25% y el 50% de la población está más dispersa que
entre el 50% y el 75%.
El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el
25% de los más jóvenes están más concentrados que el 25% de los mayores.
El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está
comprendido en 14,5 años.
Comparar distribuciones
La mayor utilidad de los diagramas caja-bigotes es para comparar dos o más conjuntos de
datos.
COMPARACIÓN DISTRIBUCIÓN DE EDADES
35 38 32 28 30 29 27 19 48 40 39 24 24 34 26 41 29 48 28 22
COMPARACIÓN ENTRENAMIENTOS DE UN CORREDOR
Un corredor entrena para una determinada carrera y se toman los tiempos que necesita
para recorrer los 100m, durante 10 días consecutivos (cada día se toman varios tiempos y se
calculan mediana, cuartiles, valores mínimo y máximo)
Observamos que el desplazamiento de las gráficas de caja hacia la izquierda indica que el
entrenamiento ha dado resultado, ya que se tardan menos segundos en recorrer la misma
distancia, siendo la diferencia entre el máximo y el mínimo menor, como así también la
diferencia intercuartílica.
6) Histograma
Un histograma se construye a partir de la tabla estadística, representando sobre cada
intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la
altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias
absolutas (o relativas) de cada intervalo y el área de los mismos.
Es el método más utilizado cuando se tienen muchos datos obtenidos al medir una
magnitud clínica, algunos de los cuales pueden repetirse varias veces. Para armarlo, se
deben colocar en el eje de abscisas (X) los valores que adopta la magnitud, y en ordenadas
(Y) se muestra el número de veces que se repite el dato, o sea, su frecuencia.
El procedimiento es simple. Primero se buscan el valor máximo y el mínimo de todo el grupo
de datos. Luego se ordenan los valores en forma creciente y se hace el recuento, anotando
el número de veces que se repite cada uno. La forma más sencilla para hacer el recuento es
contando de 5 en 5 (////).
En los histogramas se agrupan los datos en clases para evitar un número muy grande de
valores en las abscisas, que dificultaría su representación.
Además, esto simplifica el recuento. Cuando la cantidad de datos supera el medio millar, se
acostumbra usar entre 10 y 20 clases. Cuando son menos, se usan de 5 a 10 clases, según
convenga, por estética y por practicidad. Para determinar la cantidad de clases conviene
definir primero el ancho de clase (a).
CUADRO 3.1: Datos obtenidos de un Servicio de Unidad Coronaria.
Se le tomo a una persona el ritmo cardiaco durante siete días.
No.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Fecha
01/11/2006
01/11/2006
02/11/2006
02/11/2006
03/11/2006
03/11/2006
04/11/2006
04/11/2006
05/11/2006
05/11/2006
06/11/2006
06/11/2006
07/11/2006
07/11/2006
Toma
Por la mañana
A última hora de la tarde
Por la mañana
A última hora de la tarde
Por la mañana
A última hora de la tarde
Por la mañana
A última hora de la tarde
Por la mañana
A última hora de la tarde
Por la mañana
A última hora de la tarde
Por la mañana
A última hora de la tarde
Ritmo Cardiaco
72
75
70
68
70
72
78
69
75
72
69
66
67
72

Obtener el rango: Se define al rango, como la diferencia entre el valor máximo y el
mínimo del grupo de datos. 78 – 66 = 12

Obtener en número de clases: Existen varios criterios para determinar el número de
clases. Sin embargo ninguno de ellos es exacto. Un criterio usado frecuentemente es
que el número de clases debe ser aproximadamente a la raíz cuadrada del número
de datos √14 = 3.74 por conveniencia se usaran números enteros = 4.

Determinar la longitud del intervalo: Longitud de intervalo = Rango / Núm. De
clases. 12/4= 3

Construir los intervalos: Tomar la medida individual más pequeña en el conjunto de
datos (66), se debe tomar este número y sumar la longitud del intervalo (3) de forma
consecutiva manteniendo el rango de todos los números.
Intervalo 1.
Intervalo 2.
Intervalo 3.
Intervalo 4.
66 – 69
70 – 73
74 – 77
78 – 81

Construir una tabla de frecuencias
Frecuencia absoluta: Es el número de veces que aparece en la muestra dicho valor de la
variable.
66-67-68-69-69-70-70-72-72-72-72-75-75-78
Intervalo
66 – 69
70 – 73
74 – 77
78 – 81
Total
Frecuencia
5
6
2
1
14
Frecuencia relativa: Es la frecuencia absoluta dividida por el número total de datos
Frecuencia acumulada: Es la suma de los distintos valores de la frecuencia
Clase
Intervalo
Frecuencia
1
2
3
4
66 – 69
70 – 73
74 – 77
78 – 81
Total
5
6
2
1
14
Frecuencia
relativa
.357
.428
.142
.071
1
Al agrupar en clases se pierde información. Ya no se sabe la frecuencia de cada dato
individual, sino la de todo el grupo incluido en esa clase. Pero por otra parte, se simplifican
los recuentos y los gráficos. Se pierde precisión en aras de la simpleza.
Trazar y marcar los ejes horizontales y verticales
FRECUENCIAS

CLASES
H ISTOGRAMA
7
Frecuencia
6
5
4
3
2
1
0
66 – 69
70 – 73
74 – 77
78 – 81
Clases
El histograma permite reconocer y analizar patrones de comportamiento en la información
que no son aparentes a primera vista al calcular un porcentaje o la media, el histograma se
usa en el control de la calidad.
7) Polígono de frecuencias
El polígono de frecuencias se construye fácilmente si tenemos representado previamente el
histograma, ya que consiste en unir mediante líneas rectas los puntos del histograma que corresponden
a las marcas de clase.
Límites de Clase (LC): son los dos valores extremos del intervalo de cada clase. Por ejemplo,
el límite de clase inferior de la primera clase es 66, mientras que 69 es el superior.
Límites Reales de Clase (LRC): son los valores obtenidos al sumarle la mitad de la menor
unidad de la escala empleada al límite de clase superior, y restarle al inferior. En el ejemplo
anterior serían: 33 y 102.
Marcas de clase: es el punto medio del intervalo de clase. Se obtiene como la semisuma de
los dos límites reales de clase. En el ejemplo sería: (33 + 102) /2 = 67.5.
Histograma
7
Frecuencia
6
5
4
3
2
1
0
66 – 69
70 – 73
74 – 77
Intervalo
78 – 81
8) Diagramas x, y.
Los gráficos XY o de dispersión muestran las series como un conjunto de puntos. Los valores
se representan mediante la posición de los puntos en el espacio. Las categorías, por su
parte, mediante diferentes puntos del gráfico. Los gráficos de dispersión suelen utilizarse
para comparar valores distintos de las categorías
Los Gráficos de dispersión o diagrama de dispersión se emplean cuando existe una variable
que está bajo el control del experimentador. Si existe un parámetro que se incrementa o
disminuye de forma sistemática por el experimentador, se le denomina parámetro de
control o variable independiente y habitualmente se representa a lo largo del eje horizontal.
La variable medida o dependiente usualmente se representa a lo largo del eje vertical. Si no
existe una variable dependiente, cualquier variable se puede representar en cada eje y el
diagrama de dispersión mostrará el grado de correlación (no causalidad) entre las dos
variables.
Puede sugerir varios tipos de correlaciones entre las variables con un intervalo de
confianza determinado. La correlación puede ser positiva (aumento), negativa (descenso), o
nula (las variables no están correlacionadas). Se puede dibujar una línea de ajuste (llamada
también "línea de tendencia") con el fin de estudiar la correlación entre las variables. Una
ecuación para la correlación entre las variables puede ser determinada por procedimientos
de ajuste. Para una correlación lineal, el procedimiento de ajuste es conocido
como regresión lineal y garantiza una solución correcta en un tiempo finito.
Uno de los aspectos más poderosos de un gráfico de dispersión, sin embargo, es su
capacidad para mostrar las relaciones no lineales entre las variables. Además, si los datos
son representados por un modelo de mezcla de relaciones simples, estas relaciones son
visualmente evidentes como patrones superpuestos.
Tipos de gráficos de dispersión:
140
120
Axis Title
100
80
60
a
40
b
20
0
0
2
4
6
8
Axis Title
10
12
14
16
Errores…..
II.4. Descripción numérica de un conjunto de datos: Medidas de tendencia central.
Medidas de dispersión.
Ahora nos ocuparemos exclusivamente de las variables cuantitativas, puesto que con los
atributos no se pueden realizar operaciones aritméticas. Como hemos estudiado, las
variables estadísticas cuantitativas se dividen o clasifican en discretas o continuas, por lo
que necesitaremos precisar cómo se calculan dichas medidas en cada caso.
Las medidas estadísticas pretenden "resumir" la información de la "muestra" para poder
tener así un mejor conocimiento de la población.
Las medidas de tendencia central corresponden a valores que generalmente se ubican en
la parte central de un conjunto de datos. (Ellas permiten analizar los datos en torno a un
valor central). Entre éstas están la media aritmética, la moda y la mediana.

Media Aritmética.- Es la suma de un conjunto de cantidades dividida entre el número
de ellas
𝑿 =
𝚺𝒙
𝑵
En matemáticas, un alumno tiene las siguientes notas: 4, 7, 7, 2, 5, 3
n = 6 (número total de datos)
X
=
4+7+7+2+5+3
6
=
28
6
=
4,8
Ejemplo 2:
Cuando se tienen muchos datos es más conveniente agruparlos en una tabla de frecuencias
y luego calcular la media aritmética. El siguiente cuadro lo ilustra.
3,3,3,3,3,3,3,3,3,3,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,7,7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7,
7,8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8,9, 9, 9, 9, 9, 9,
Largo (en m)
Frecuencia absoluta
Largo por Frecuencia absoluta
3
10
3
.
10 = 30
6
15
6
.
15 = 90
7
20
7
.
20 = 140
8
12
8
.
12 = 96
9
6
9
Frecuencia total = 63
430
X
=
430
63
=
.
6 = 54
6,825
Se debe recordar que la frecuencia absoluta indica cuántas veces se repite cada valor, por lo
tanto, la tabla es una manera más corta de anotar los datos (si la frecuencia absoluta es 10,
significa que el valor a que corresponde se repite 10 veces).

MEDIANA.- Es el punto dentro del recorrido de una variable que supera a no más de la
mitad de los datos y es superado por no más e la otra mitad.
Para calcularla en un conjunto de datos basta con ordenarlos en forma ascendente o
descendente
Ejemplo:
5, 6, 7, 8, 9 Datos impar Me = 7
5, 6, 7, 8, 9, 10 Datos par Me = 7 + 8 entre 2 = 7.5

Para el cálculo da la Mediana en Datos Agrupados se utiliza la siguiente Fórmula:
𝑛
− 𝑓𝑎𝑐𝑢𝑚 (𝑖 − 1)
𝑀𝑒 = 𝐿𝑖 + [2
(𝐴)]
𝑓𝑖
Me = Mediana
L i = Límite real inferior
n = Total de frecuencias de la distribución
f acum ( i – 1 ) = Frecuencia acumulada anterior al intervalo analizado
f i = Frecuencia del intervalo de clase
A = Amplitud real
Edades
5-10
11-16
17-22
23-28
29-34
35-40
41-46
47…
n=
𝑛
𝑀𝑒 = 𝐿𝑖 +
[2
− 𝑓𝑎𝑐𝑢𝑚(𝑖 − 1)
𝑓𝑖
Frecuencia
11
23
61
60
45
20
15
15
250
facum
11
34
95
155
200
220
235
250
250
(𝐴)]
= 𝑀𝑒 = 23 + [
2
− 95
60
(5)] = 25.5 años

MODA

Llamada Modo o Valor Modal, es el dato de la variable que aparece mas veces en una distribución

Es el dato de la variable que tiene mayor frecuencia
17
20
23
18
a) bimodal
19
20
19
21
18
20
20
17
24
19
19
20
b) Multimodal
# Mat
Frec
5
4
6
11
7
11
8
11
9
5
10
3
 En datos agrupados
Cant equipos
Frec
1-3
3
3-5
15
5-7
5
7-9
5
𝟑+𝟓
𝟐
=4
23
21
22
19
Moda
Medidas de variabilidad o dispersión
Son estadígrafos de dispersión que permiten evaluar el grado de homogeneidad, dispersión
o variabilidad de un conjunto de datos. Estas medidas son:
1. Amplitud o Rango
2. Varianza
3. Desviación Estándar
4. Coeficiente de Variabilidad
1. Amplitud o Rango
La forma más sencilla de medir la variabilidad es el rango. Es la diferencia entre los más altos y más
bajos valores en un conjunto de datos. En la forma de una ecuación:
Rango = valor más alto - valor más bajo
El rango tiene la ventaja de ser fácil de calcular y entender. Y la desventaja de verse muy afectada por
alguna observación extrema.
Ejemplo:
Las calificaciones de cinco estudiantes de estadística son: 8, 8, 10, 6, y 8. ¿Cuál es el rango de las
calificaciones?
Rango = valor más alto - valor más bajo = 10 - 6 = 4
 Rango para datos agrupados
Para estimar el rango de una distribución de frecuencia se resta el límite inferior del intervalo de clase
más chico del límite superior del intervalo de clase más grande
Ejemplo:
Una muestra de las edades del público de un concierto se encuentra distribuida de la siguiente manera:
Edades
Número de personas
15 - 19
2
20 - 24
1
25 - 29
4
30 - 34
15
35 - 39
10
40 - 44
5
45 - 49
3
Rango = mayor límite superior - menor límite inferior = 49 - 15 = 34
Desviación media
La desviación media mide la cantidad promedio que varían los datos respecto a su media. La definición
es:
Desviación media es la media aritmética de los valores absolutos de las desviaciones de los datos
respecto a su media.
La fórmula de la desviación media (Dm) es:
𝐃𝐦 =
∑ [𝐱 −
]
𝐧
Ejemplo:
Las calificaciones de cinco estudiantes de estadística son: 8, 8, 10, 6, y 8. ¿Cuál es la desviación media de
las calificaciones?
X
8
8
10
6
8
̅= 8
𝐗
𝐃𝐦 = ∑
̅
X-𝐗
0
0
+2
-2
0
̅]
[𝐱 − 𝐗
𝐧
̅|
|X - 𝐗
0
0
2
2
0
∑= 4
𝐃𝐦 =
𝟒
= 𝟎. 𝟖
𝟓
Desviación media para datos agrupados
En el caso de que los datos se encuentren agrupados en una distribución de frecuencia la fórmula es:
̅]
[𝐱 − 𝐗
𝐃𝐦 = ∑𝐟
𝐧
Ventajas y Desventajas de la desviación media
La desviación media tiene dos ventajas. Utiliza para su cómputo todos los elementos de la serie de datos
y es fácil de entender. Sin embargo, es difícil trabajar con valores absolutos y por ello la desviación
media no es usada frecuentemente.
La varianza y la desviación estándar
La varianza y la desviación estándar sirven para cuantificar la variabilidad de una muestra midiendo su
dispersión alrededor de la media. La definición es la siguiente:
Varianza. Es la media aritmética de las desviaciones cuadradas de los datos respecto a la media.
Desviación estándar. Es la raíz cuadrada de la varianza.
La varianza no tiene la misma magnitud que las observaciones (ej. si las observaciones se miden en
metros, la varianza lo hace en metros2). Si queremos que la medida de dispersión sea de la misma
dimensionalidad que las observaciones bastará con tomar su raíz cuadrada. Por ello se define
la desviación típica o estándar.
Varianza (S2 o 𝝈 2) y Desviación Estándar (S o 𝝈 ) para datos no agrupados
Las fórmulas de la varianza de una población y de una muestra son ligeramente diferentes. Las fórmulas
son:
𝟐
𝑺 =
Varianza de una población
𝚺𝐱 𝟐 −
(𝚺𝐱)²
𝐍
𝐍
𝟐
𝑺 =
Varianza de una muestra
𝚺𝐱 𝟐 −
(𝚺𝐱)²
𝐧
𝐧−𝟏
Las desviaciones estándar de la población y muestra se calculan simplemente sacando la raíz cuadrada a
la respectiva varianza.
𝑺 = √𝑺²
Desviación estándar de una población y/o muestra
Ejemplo
El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de producción
son (en ml): 85.4, 85.3, 84.9, 85.4, y 84.0.
¿Cuál es la varianza y la desviación estándar de las observaciones muestreadas?
X2
7293.16
7276.09
7208.01
7293.16
7056.00
𝛴x2= 36126.42
X
85.4
85.3
84.9
85.4
84.0
𝜮𝒙 =425
2
𝑆 =
Σx 2 −
(Σx)²
n
n−1
𝑆 = √𝑆²
2
𝑆 =
36126.42 −
(425)²
5
5−1
𝑆 = √0.355 = 0.5958
= 0.355
Varianza y Desviación Estándar para datos agrupados
Si los datos están agrupados en una distribución de frecuencia, la varianza y la desviación estándar de la
muestra se pueden aproximar sustituyendo Sfx² por Sx² y Sfx por Sx. Las fórmulas quedarían de la
siguiente manera:
𝑺𝟐 =
Varianza de una población
𝚺𝐟𝐱 𝟐 −
(𝚺𝐟𝐱)²
𝐍
𝐍
𝑺𝟐 =
Varianza de una muestra
𝚺𝐟𝐱 𝟐 −
(𝚺𝐟𝐱)²
𝐧
𝐧−𝟏
𝑺 = √𝑺²
Desviación estándar de una población y/o muestra
Ejemplo:
Calcular la varianza y la desviación estándar de la siguiente distribución de frecuencia del número de
meses de duración de una muestra de 40 baterías para coche.
Duración de las baterías (meses) Número de baterías
15 - 19
2
20 - 24
1
25 - 29
4
30 - 34
15
35 - 39
10
40 - 44
5
45 - 49
3
Primeramente, calculamos la marca de clase(X)(es el punto medio del intervalo de clase. Se obtiene
como la suma de los dos límites de clase entre dos), para después calcular los productos fX y fx2para
proceder finalmente a calcular las sumatorias ΣfX y Σfx2 y aplicar las fórmulas.
li
15
20
25
30
35
40
45
2
S =
Σfx 2 −
(Σfx)²
n−1
n
2
S =
ls
19
24
29
34
39
44
49
48475 −
x
17
22
27
32
37
42
47
f
2
1
4
15
10
5
3
n =40
fx
34
22
108
480
370
210
141
ΣfX = 1365
fx2
588
484
2916
15360
13690
8820
6627
2
Σfx = 48475
(1365)²
40 − 1
40
= 48.573
S = √S² S = √48.573= 6.969
Coeficiente de variación
Hemos visto que las medidas de centralización y dispersión nos dan información sobre una muestra.
Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. Por
ejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones de elefantes de dos circos
diferentes, S nos dará información útil. ¿Pero qué ocurre si lo que comparamos es la altura de unos
elefantes con respecto a su peso? Tanto la media como la desviación típica, y S, se expresan en las
mismas unidades que la variable. Por ejemplo, en la variable altura podemos usar como unidad de
longitud el metro y en la variable peso, el kilogramo. Comparar una desviación (con respecto a la media)
medida en metros con otra en kilogramos no tiene ningún sentido.
El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de masa. El mismo
problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos poblaciones, pero con
distintas unidades. Este es el caso en que comparamos el peso en toneladas de una población de 100
elefantes con el correspondiente en miligramos de una población de 50 hormigas.
El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por ejemplo, se nos
puede ocurrir medir a las hormigas con las mismas unidades que los elefantes (toneladas).
El coeficiente de variación es lo que nos permite evitar estos problemas, pues elimina la
dimensionalidad de las variables y tiene en cuenta la proporción existente entre medias y desviación
típica. Es frecuente mostrarla en porcentajes y se define del siguiente modo:
Cv =
𝑺𝒙
̅
𝒙
(100)
Basta dar una rápida mirada a la definición del coeficiente de variación, para ver que las siguientes
consideraciones deben ser tenidas en cuenta:

Sólo se debe calcular para variables con todos los valores positivos. Todo índice de variabilidad
es esencialmente no negativo. Las observaciones pueden ser positivas o nulas, pero su
variabilidad debe ser siempre positiva. De ahí que sólo debemos trabajar con variables positivas,
̅ > 0.
para la que tenemos con seguridad que 𝒙
Si la media es 80Kg y la desviación estándar 20 entonces
Cv =
𝑆𝑥
𝑥̅
(100)
20
Cv = 80 (100) = 25% (Variabilidad relativa)
Peso promedio de 80kg con una variabilidad del 25%
En un grupo de niños se tiene una altura media de 150cm con desviación típica de 10cm. La edad media
es 12 años, con desviación típica de 3 años. ¿Dónde se presenta mayor dispersión?
Cv =
𝑆𝑥
𝑥̅
(100)
10
Altura: Cv = 150 (100)= 6.6%
3
Edades: Cv = 12 (100)= 25%
II.5. Regla empírica y teorema de Chebyshev.
Teorema de Chebyshev
Al menos (1 - 1/k2) de los elementos en un conjunto de datos estará dentro de las k desviaciones
estándar del promedio donde k es cualquier valor mayor que 1.
𝑥̅ − 𝑘(𝑠) & 𝑥̅ + 𝑘(𝑠)
•
k = 2 desviaciones estándar Al menos 75% de los elementos deben estar entre de la media.
•
k = 3 desviaciones estándar Al menos 89% de los elementos deben estar entre de la media.
•
k = 4 desviaciones estándar Al menos 94% de los elementos deben estar entre de la media.
𝑥̅ = media
s= desviación estándar
Ejemplo: tenemos el costo de renta de 70 deptos…
Sea k = 1.5
𝑥̅ = 490.80 y s = 54.74
Al menos (1 - 1/k2) (1 - 1/(1.5)2) = 1 - 0.44 = 0.56 o 56% de los costos de renta deben estar entre
𝑥̅ - k(s) = 490.80 - 1.5 (54.74) = 409
y
𝑥̅ + k(s) = 490.80 + 1.5 (54.74) = 573
425
440
450
465
480
510
575
430
440
450
470
485
515
575
430
440
450
470
490
525
580
435
445
450
472
490
525
590
435
445
450
475
490
525
600
435
445
460
475
500
535
600
435
445
460
475
500
549
600
435
445
460
480
500
550
600
440
450
465
480
500
570
615
440
450
465
480
510
570
615
Regla empírica: Dada una distribución de las observaciones con forma aproximadamente acampanada, entonces, el intervalo:
o
(Media ± S) contiene aproximadamente al 68% de las observaciones
o
(Media ± 2S) contiene aproximadamente al 95% de las observaciones
o
(Media ± 3S) contiene casi todas las observaciones
o
𝑥̅ = 490.80 y s = 54.74
48∗100
o
𝑥̅ ± s =
490.80± 54.74 = 436.06 to 545.54
= 68%
(
o
𝑥̅ ± 2s=
490.80± 2(54.74)= 381.32 to 600.28 = 95%
(
o
𝑥̅ ± 3s=
490.80± 3(54.74)= 326.58 to 655.02 = 100% (
425
440
450
465
480
510
575
70
64∗100
70
70∗100
430
440
450
470
485
515
575
430
440
450
470
490
525
580
435
445
450
472
490
525
590
435
445
450
475
490
525
600
435
445
460
475
500
535
600
70
435
445
460
475
500
549
600
)
)
)
435
445
460
480
500
550
600
440
450
465
480
500
570
615
440
450
465
480
510
570
615