Download observados datos de numero n = = fn

Document related concepts
no text concepts found
Transcript
Capítulo 2: ANÁLISIS ESTADÍSTICO
El análisis estadístico es todo el proceso de organización, procesamiento, reducción e interpretación
de datos para realizar inferencias. Recordemos que los datos se transformarán en información útil para la
toma de decisiones, por lo tanto a la hora de recopilarlos, debemos ordenarlos de manera tal que nos
permitan trabajar con ellos para obtener la información requerida.
Los datos son medidas o valores de las características susceptibles de observar y contar, se originan
por la observación de una o más variables de un grupo de elementos o unidades, para que sean útiles se
deben organizar de manera que faciliten su análisis, se puedan seleccionar tendencias, describir relaciones,
determinar causas y efectos y permitan llegar a conclusiones lógicas y tomar decisiones bien fundamentadas;
por esa razón es necesario conocer lo métodos de Organización y Representación, la finalidad de éstos
métodos es permitir ver rápidamente todas las características posibles de los datos que se han recolectado.
DATOS CRUDOS
Son los datos que no tienen repeticiones, el total de los datos (n) se calcula como la suma de los
valores observados:
n = numero de datos observados
Ejemplo: Recaudación anual del impuesto a los Ingresos Brutos
ARREGLO Y DISTRIBUCIÓN DE FRECUENCIAS
Esto se da cuando un dato se repite más de una vez en un conjunto de datos.
Definiremos como frecuencia de un dato el número de veces que este aparece en el colectivo;
consecuentemente, si una variable estadística toma x valores, cada uno de los cuales puede repetirse un cierto
número de veces, podríamos decir que el número de datos representado por la variable serían n, siendo n la
suma de las respectivas frecuencias de cada dato:
n
n = ∑ fi
i =1
Este valor n será denominado como frecuencia total, mientras que la frecuencia de cada dato recibirá el
nombre de frecuencia absoluta o simplemente frecuencia (fi). La frecuencia absoluta nos habla del número de
veces que un dato aparece más ello no nos dice demasiado en orden al establecimiento de comparaciones
sobre la importancia de este dato. Para obtener una idea de la importancia que un dato posee en una
muestra, se utiliza el concepto frecuencia relativa. Para efectos prácticos, asumiremos las siguientes
definiciones de frecuencias:
Lic. Eliana Arcoraci / Lic. Eduardo Grossi
P á g i n a | 18
Unidad 2- Análisis Estadístico
• Frecuencias absolutas (fi): es el número de veces que aparece en la muestra dicho valor de la
variable.
• Frecuencias relativas (fr): es el cociente entre la frecuencia absoluta y el tamaño de la muestra.
fr =
fi
n
∑f
i
i =1
• Frecuencia acumulada (fa): para poder calcular este tipo de frecuencias hay que tener en cuenta
que la variable estadística ha de ser cuantitativa o cualitativa ordenable. Es la suma sistemática
de las frecuencias absolutas y se anota el resultado en el valor o clase respectiva a la
acumulación. (según estemos trabajando con arreglo o distribución de frecuencias). lo
representaremos por
• Frecuencia relativa acumulada (fra.): al igual que en el caso anterior se calcula como el cociente
entre la frecuencia acumulada dividida por el tamaño de la muestra.
Arreglo de Frecuencias
Se usa cuando hay pocos datos. Se ordenan los datos de forma ascendente o descendente en columnas (xi)
y se determina el número de veces que se repiten esos datos, esto es lo que se denomina frecuencia absoluta
(fi)
Ejemplo:
Datos13,7,8,8,8,5,5,8,13,21,7,7,7,5,5,5,5,8,8,21,8,7,7,7,5,5,5,13,13,7,5,5,8,8,7,5,8,7,8,8,5,5,5
xi
fi
fa
fr
fra
5
7
8
13
21
15
10
12
14
2
53
15
25
37
51
53
0,283018868
0,188679245
0,226415094
0,264150943
0,037735849
1
0,283018868
0,471698113
0,698113208
0,962264151
1
Distribución de frecuencias
Cuando se reúne gran cantidad de datos primarios es útil distribuirlos en clases y categorías y determinar
las frecuencias absolutas de las clases, o sea, el número de elementos que pertenecen a una clase. El
ordenamiento tabular de los datos por clases conjuntamente con las frecuencias de clases se denomina
distribución de frecuencias
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 19
Unidad 2- Análisis Estadístico
Es una forma de sintetizar los datos y consiste en valerse de una tabla para clasificar los datos según su
magnitud, en ella se señala el número de veces que aparece cada uno de los valores. Cuando se dispone de un
gran número de valores discretos o cuando las variables son continuas, tiene sentido formar una tabla que
presente la distribución de frecuencias de los datos agrupados en intervalos o clases, de igual tamaño si es
posible, sin embargo una tabla de este tipo supone una concentración de datos que produce pérdida de
información.
• Clases o intervalos de clase: Grupo de valores que describen una característica. Deben incluir todas
las observaciones y ser excluyentes. Los intervalos contienen los límites de clase que son los puntos
extremos del intervalo. Están compuestos por:
o
Limite inferior: punto mínimo de cada clase
o
Limite Superior: punto máximo de cada clase
• Clase real: Sirven para mantener la continuidad de las clases. Se calcula sumándole al Limite Inferior
0,5 y restándole al limite superior 0,5
• Intervalo (i): se puede obtener de la diferencia entre dos límites inferiores consecutivos o dos
límites superiores consecutivos. Para calcular el ancho del intervalo se debe dividir el dato mayor
menos el dato menor por la cantidad de clases que contiene la distribución, esto es:
Intervalo =
Valor mayor − valor menor
N º de clases
• Número de clases (k): es el número total de grupos en que se clasifica la información, se recomienda
que no sea menor que 5 ni mayor que 15. En general una distribución de frecuencias que emplea
muy pocas o demasiadas clases no contiene mucha información. El número de clases debe aumentar
en función de la cantidad de datos que se posean (n). En la práctica, si la cantidad de datos es
pequeña, digamos menor a 75 datos se obtienen buenos resultados si se hace la selección del
número de clases aproximadamente igual a la raíz cuadrada del número de observaciones.
k= n
A medida que crece la cantidad de datos, la determinación del número que clases que debe
contener una tabla de distribución de frecuencias, se realiza mediante la siguiente fórmula, que se
conoce como fórmula de Sturges, gracias a su creador.
k: 1+ 3,3*log n
Nota: en este caso debe calcularse el logaritmo en base 10 de la cantidad de datos y no el
logaritmo natural (ln).
• Marca de Clase o Punto medio: Es el punto medio del intervalo de clase, se calcula de la siguiente
forma:
xi =
Limite Inferior + Limite Superior
2
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 20
Unidad 2- Análisis Estadístico
Ejemplo: La siguiente tabla muestra el número de visitantes, clasificados según su edad, que asistieron
a una muestra de pintura.
Edad
1-14
15-28
29-42
43-56
57-70
71-84
Nº de
visitantes
(fi)
175
215
340
200
70
15
1015
xi =
Li + Ls
2
7,5
21,5
35,5
49,5
63,5
77,5
fa
fr
175
390
730
930
1000
1015
0,172413793
0,21182266
0,334975369
0,197044335
0,068965517
0,014778325
1
fra
0,17241379
0,38423645
0,71921182
0,91625616
0,98522167
1
Representación grafica -Histograma:
Esta formado por rectángulos cuya base es la amplitud del intervalo y tiene la característica que la
superficie que corresponde a las barras es representativa de la cantidad de casos o frecuencia de cada tramo
de valores, puede construirse con clases que tienen el mismo tamaño o diferente (intervalo variable). La
utilización de los intervalos de amplitud variable se recomienda cuando en alguno de los intervalos, de
amplitud constante, se presente la frecuencia cero o la frecuencia de alguno o algunos de los intervalos sea
mucho mayor que la de los demás, logrando así que las observaciones se hallen mejor repartidas dentro del
intervalo. Si los intervalos de clase no tienen el mismo ancho, entonces se acostumbra dibujar rectángulos
cuyas áreas sean proporcionales a las frecuencias. Sin embargo, los histogramas son más fáciles de interpretar
si los intervalos de clase tienen todo el mismo ancho. El histograma proporciona una impresión visual del
aspecto que tiene una distribución de las mediciones, así como información sobre la dispersión de los datos.
MEDIDAS DE POSICIÓN
Con estas medidas se persigue reducir en pocas cifras significativas el conjunto de observaciones de
una variable y describir con ellas ciertas características de los conjuntos, logrando una comparación más
precisa de los datos que la que se puede conseguir con tablas y gráficas.
Se emplean para:
a) Representar a un conjunto mediante un solo valor y a través del el se puede establecer el
comportamiento del conjunto.
Ejemplo: salario promedio de los habitantes de una ciudad, gasto promedio de una familia, etc.
b) Efectuar comparaciones entre diferentes conjuntos estadísticos
Ejemplo: Comparar el promedio de edad de estudiantes de distintos cursos, compara promedio de
ventas mensuales entre dos o mas empresas, etc.
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 21
Unidad 2- Análisis Estadístico
MEDIDAS DE TENDENCIA CENTRAL
Los promedios son una medida de posición que dan una descripción compacta de como están
centrados los datos y una visualización más clara del nivel que alcanza la variable, pueden servir de base para
medir o evaluar valores extremos o raros y brinda mayor facilidad para efectuar comparaciones.
Es importante poner en relieve que la notación de promedio lleva implícita la idea de variación y que
este número promedio debe cumplir con la condición de ser representativo de conjunto de datos.
El promedio como punto típico de los datos es el valor alrededor del cual se agrupan los demás valores
de la variable.
Media Aritmética ( X )
Es una medida matemática, un número individual que representa razonablemente el comportamiento
de todos los datos.
Se deben distinguir dos casos, si se trabaja con una muestra el media aritmética se representa con
X , se denomina media muestral, y representa el valor promedio de todas las observaciones de la muestra.
También es posible pensar en el cálculo del valor promedio de todas las observaciones de una población. Este
promedio se conoce como media poblacional y se denota con la letra griega μ
Nos abocaremos ahora al cálculo de la media muestral.
Debemos distinguir si estamos trabajando con datos crudos o si los datos están bajo arreglo o
distribución de frecuencia.
Calculo de X :
• Datos crudos:
n
x + x 2 + x3 + ....... + x n
X= 1
=
n
∑x
i
i =1
n
donde n=cantidad de datos
• Arreglo y distribución de frecuencias:
n
f x + f 2 x 2 + f 3 x 3 + ....... + f n x n
X= 1 1
=
f 1 + f 2 + f 3 + ....... + f n
∑fx
i
i
i =1
n
∑f
i
i =1
n
donde
∑f
i
= cantidad de datos
i =1
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 22
Unidad 2- Análisis Estadístico
Características de la Media:
1. En su cálculo intervienen todos los valores del conjunto de datos por lo que cada uno afecta la
media.
2. La fuerte presencia de valores pequeños dentro del conjunto ocasiona que X tienda hacia ellos.
Cuando hay una fuerte presencia de valores grandes se tiene el mismo efecto, por lo tanto la
representatividad de la media aritmética puede ser cuestionada ante la presencia de datos extremos.
3. Una vez calculada X , la suma de las diferencias entre los valores del conjunto y X es igual a 0; esto
no se cumple en la distribución de frecuencia ya que se esta trabajando con valores medios
n
∑ (x
i
)
− X =0
para Datos Crudos
i =1
n
∑ f (x
i
i
)
− X =0
para Arreglo de frecuencia
i =1
4. La suma de las diferencias al cuadrado entre los datos del conjunto y X es menor o igual a la suma
de las diferencias al cuadrado de los datos del conjunto y un valor arbitrario A :
2
n
∑ (x
i
)
n
2
− X ∠∑ ( x i − A )
i =1
i =1
5. Aunque es confiable porque refleja todos los valores del conjunto de datos puede ser afectada por
los valores extremos, y de esa forma llegar a ser una medida menos representativa, por lo que si la
distribución es asimétrica, la media aritmética no constituye un valor típico.
6. Cada uno de los datos del conjunto puede ser sustituido por la media aritmética ( X ) sin que se
altere el valor de esta, ni la suma de los valores de los conjuntos.
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 23
Unidad 2- Análisis Estadístico
Ejemplo practico:
• Datos crudos-El siguiente conjunto de datos que indica la recaudación anual de impuestos de Mendoza,
en millones de pesos, entre 1999-2007.
Año
Recaudación (millones de pesos)
1999
2000
2001
2002
2003
2004
2005
2006
2007
378,23
380,27
392,27
371,51
548,85
662,89
831,94
1083,27
1275,56
n
∑x
X=
i
i =1
n
X=
378.23 + 380.27 + 392.37 + 371.51 + 548.85 + 662.89 + 831.94 + 1083.27 + 1275.56
9
X=
5924.79
9
X =658.31 (en millones)
La recaudación promedio anual de la provincia de Mendoza es de $658.310.000
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 24
Unidad 2- Análisis Estadístico
• Arreglo de frecuencia: Una empresa de conservas desea conocer su producción promedio de
botellas de salsa , para lo cual observo la producción durante 25 días, la que se detalla a
continuación:
60
63
124
80
100
85
60
160
85
124
99
132
65
124
99
100
124
71
75
100
80
145
124
132
124
xi
fi
60
2
63
1
65
1
71
1
75
1
80
2
85
2
99
2
100
3
124
5
132
2
145
2
160
1
25
n
∑fx
i
X=
i
i =1
n
∑f
i
i =1
X = 2 * 60 + 1 * 63 + 1 * 65 + 1 * 71 + 1 * 75 + 2 * 80 + 2 * 85 + 2 * 99 + 3 * 100 + 5 * 124 + 2 * 132 + 2 * 145 + 1 * 160
2 +1+1+1+1+ 2 + 2 + 2 + 3 + 5 + 2 + 2 +1
X=
2556
25
X =102.24 La producción promedio de la empresa de conservas es de 102 latas
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 25
Unidad 2- Análisis Estadístico
• Distribución de frecuencias-La siguiente tabla muestra el número de turistas, clasificados según su
edad, que se hospedaron en un hotel tres estrellas.
Edad
1-14
15-28
29-42
43-56
57-70
71-84
Edad
Nº de turistas
Nº de turistas
127
324
455
165
75
97
1243
xi
fa
fixi
Clase real
1-14
127
7,5
127
952,5
0,5
14,5
15-28
324
21,50
451
6966,00
14,50
28,50
29-42
455
35,50
906
16152,50
28,50
42,50
43-56
165
49,50
1071
8167,50
42,50
56,50
57-70
75
63,50
1146
4762,50
56,50
70,50
71-84
97
77,50
1243
7517,50
70,50
84,50
1243
44518,50
n
∑fx
i
X=
i
i =1
n
∑f
i
i =1
X=
127 * 7.5 + 324 * 21.5 + 455 * 35.5 + 165 * 49.5 + 75 * 63.5 + 97 * 77.5
127 + 324 + 455 + 165 + 75 + 97
X=
44518.8
1243
X =35.82
El promedio de edad de los turistas hospedados en el hotel es de 36 años.
Histograma
Cantidad de turistas
500
400
(fi) 300
200
100
0
1-14
15-28
29-42
43-56
57-70
Edad (xi)
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 26
71-85
Unidad 2- Análisis Estadístico
La Mediana (Me)
Es la medida de tendencia central que por su ubicación dentro del conjunto de datos lo divide
exactamente a la mitad. Geométricamente la mediana es el valor de la variable que corresponde a la vertical
que divide al histograma en dos áreas iguales.
Cuando determinados valores de un conjunto de observaciones son muy grandes o pequeños con
respecto a los demás, entonces la media aritmética se puede distorsionar y perder su carácter representativo,
en esos casos es conveniente utilizar la mediana como medida de tendencia central.
Calculo de Me
• Datos crudos y Arreglo de frecuencias:
Debemos tener en cuenta si los datos son pares o impares:
o
Impares: la Me pertenece al conjunto de datos
o
Pares: la Me es un valor agregado determinado por la semisuma de los datos centrales
1º) Se listan los datos de forma ascendente y/o descendente de los datos
2º) Se determina la ubicación de la Me:
n n
^ +1
2 2
n
Impares + 0.5
2
Pares→
3º) Se determina el valor de la Me
• Distribución de frecuencias:
 n

 ∑ fi

 i =1 − f 
ai
 2





M e = LIV +
i
fi
donde:
LIV=Limite Inferior Verdadero de la clase donde est
a ubicada la Me
n
∑f
i =1
2
i
= ubicación de la Me
fai=frecuencia acumulada de la clase anterior a la
ubicación de Me
fi = frecuencia absoluta de la clase donde esta ubicada
la Me
i= intervalo de clase
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 27
Unidad 2- Análisis Estadístico
Características de la mediana
1. Es un promedio de posición no afectado por los valores extremos.
2. No está definida algebraicamente
3. Cuando la localización del elemento central puede ser determinada y los límites de clase mediana
son conocidos, la mediana para la distribución de frecuencias puede ser calculada por interpolación,
no importando que ésta contenga intervalos abiertos, cerrados, iguales o diferentes.
4. La suma en valor absoluto de las diferencias entre los datos y la Me es menor o igual a la suma en
valor absoluto de la diferencia entre los valores del conjunto y un valor arbitrario A:
n
∑x
n
i
− M e ∠∑ x i − A
i =1
i =1
5. La mediana en caso de una distribución asimétrica, no resulta desplazada del punto de tendencia
central.
6. Si la mediana se calcula por interpolación y hay lagunas en los valores de la clase mediana o los datos
son irregulares, esta medida no es buena ya que su ubicación puede resultar falsa.
7. Si se desea ubicar las condiciones de un elemento en una clase, la mediana resulta se indicada, ya
que por comparación pone en evidencia si un elemento está en la mitad superior a ella o en la
inferior.
Ejemplo practico
• Datos crudos. Si seguimos con el ejemplo de la recaudación provincial, observamos que tenemos
9 años, por lo tanto 9 datos, es decir , los datos son impares por lo tanto:
n
+ 0.5
2
9
+ 0.5 = 5 El dato que ocupa la posición 5 es la Me,
2
El 50% de la recaudación de la provincia es inferior a $548.85 (en millones de pesos) y el 50% de la
recaudación es superior a ese monto.
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 28
Unidad 2- Análisis Estadístico
• Arreglo de frecuencia. Si continuamos con el ejemplo de la fabrica de conservas:
xi
fi
fa
60
2
2
63
1
3
65
1
4
71
1
5
75
1
6
80
2
8
85
2
10
99
2
12
100
3
15
124
5
20
132
2
22
145
2
24
160
1
25
25
Los datos en este cado también son impares por lo tanto:
n
+ 0.5
2
25
+ 0.5 = 14 En este caso se busca el numero mas cercano a 14 en la fa y esa es la Me, (en este caso el
2
numero mas cercano al 14 es el 15, por lo tanto el valor que corresponde es 100)
El 50% de la producción de la fábrica es inferior a 100 botellas y el 50% restante es superior a ese valor
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 29
Unidad 2- Análisis Estadístico
• Distribución de frecuencias. En este caso se aplica la formula por interpolación
Edad
Nº de turistas
xi
fa
fixi
Clase real
1-14
127
7,5
127
952,5
0,5
14,5
15-28
324
21,50
451
6966,00
14,50
28,50
29-42
455
35,50
906
16152,50
28,50
42,50
43-56
165
49,50
1071
8167,50
42,50
56,50
57-70
75
63,50
1146
4762,50
56,50
70,50
71-84
97
77,50
1243
7517,50
70,50
84,50
1243
44518,50
Lo primero que debemos hacer es ubicar la Me:
n
∑f
i
i =1
=
2
1243
= 621.5 Esta es la ubicación de la Me, lo que hacemos en buscar en la fa, empezamos a restar
2
sistemáticamente y el primer valor que nos da negativo es donde esta ubicada la Me, en este caso cuando
restamos 621.5 a 906 nos da negativo, entonces en esa clase esta ubicada la Me. Lo que hacemos a continuación
es aplicar la formula:
 n

 ∑ fi

 i =1 − f 
ai
 2



 (621.5 − 451) 


M e = LIV +
i = 28.5 + 
14 =33.75
fi
455


El 50% de los turistas tienen menos de 34 años y el 50% tienen más de esa edad.
La Moda (Mo)
Es el valor de un conjunto de datos que ocurre más frecuentemente, se considera como el valor más
típico de una serie de datos.
La moda puede no ser única, las distribuciones que presentan dos o más máximos relativos se
designan de modo general como bimodales o multimodales.
Calculo de la Mo:
• Arreglo de frecuencia: en este caso la moda se determina por observación de los datos
Ejemplo: Para la fábrica de conservas vemos que el valor que mas se repite es 124, es decir, que la
mayoría de las veces se fabrican 124 botellas
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 30
Unidad 2- Análisis Estadístico
• Distribución de frecuencias: hay dos métodos para el calculo, el método algebraico y el método
grafico
o
Método Algebraico
1. Moda cruda(MoC): es la semisuma de los limites de la clase modal, es decir la clase donde esta
ubicada la Mo
M oC =
LS cMo + LI cmo
2
donde:
Lscmo= Limite Superior de la clase donde esta ubicada la Mo
LIcmo= Limite Inferior de la clase donde esta ubicada la Mo
Ejemplo: Para el caso de los turistas 455 es el valor que más se repite, por lo tanto:
MoC=: 42 + 29 = 35.5 la mayoría de los turistas tienen 35 años
2
2. Moda por interpolación(Mo):
 d1
M o = LIVcmo + 
 d1 + d 2

i

donde:
d1=ficmo-fia
d2=ficmo-fip
LIVcmo= limite inferior verdadero de la clase modal
ficmo=frecuencia absoluta de la clase modal
fia= frecuencia absoluta de la clase anterior a la clase modal
fip=frecuencia absoluta de la clase posterior a la clase modal
i= intervalo de clase
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 31
Unidad 2- Análisis Estadístico
Ejemplo:
d1=455-324=131
d2=455-165=290
 131 
 131 
14 = 28.5 + 
14 = 32.85 la
 131 + 290 
 421 
Mo= 28.5 + 
mayoría
de
los
turistas
tienen
aproximadamente 33 años
o
Método Grafico: se utiliza el histograma de frecuencia. En el cual se realiza el siguiente
procedimiento
1. Obtenemos el histograma
2. Obtenemos los limites verdaderos de la o las clases modales
3. Se identifica el LSV de la clase anterior a la que esta ubicada la Mo el LIV de la clase posterior
donde está ubicada la Mo:
4. Se une el LIV de la clase modal con el LIV de la clase posterior a la clase modal
5. Se une el LSV de la clase modal con el LSV de la clase anterior a la clase modal
6. El punto donde se interceptan las curvas se proyecta en forma perpendicular el eje horizontal,
y es en este punto donde está ubicada la Mo:
Cantidad de
turistas
LIVcmo
LSVcmo
455
324
LSVcmo
165
LIVcpcmo
127
97
75
0.5
14.5
28.5
42.5 56.5 70.5 84.5
Edad (Clase Real)
La Mo ronda los 33 años
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 32
Unidad 2- Análisis Estadístico
Características de la Moda.
1. Representa más elementos que cualquier otro valor
2. No está afectada por los valores extremos pero para datos continuos es dudoso su cálculo.
3. La moda para una distribución de frecuencias de datos agrupados no puede ser calculada
exactamente, el valor de la moda puede ser afectado por el método de agrupación de los
intervalos de clase.
4. La moda no permite conocer la mayor parte de los datos
5. Algunas veces el azar interviene de manera importante y hace que un valor no representativo
se repita frecuentemente.
6. Puede usarse para datos cuantitativos como cualitativos
7. La moda como estadístico, varía mucho de una muestra a otra
8. Cuando se tienen dos o más modas es difícil su interpretación
9. Tiene la ventaja de que los datos desproporcionados con respecto al resto no la distorsionan,
pero no se presta para un tratamiento matemático.
Comparación entre la media la mediana y la moda.
1. Si los datos son simétricos, la media, la mediana y la moda ( en el caso de ser única) coinciden.
Si los datos son sesgados, esto es, son asimétricos, con una larga cola en uno de los extremos,
generalmente se encuentra que moda<mediana<media si la distribución está sesagada hacia la
derecha, mientras que moda>mediana>media si la distribución es sesgada hacia la izquierda.
X < Me
Sesgo negativo o a la
izquierda
X = Me
Me < X
Simétrica
Sesgo positivo o a la
derecha
2. La media muestral es más estable que la mediana muestral, en el sentido en que la media no
cambia mucho de una muestra a otra de la misma población. En consecuencia, muchas
técnicas estadísticas analíticas utilizan la media muestral Sin embargo, la mediana y la moda se
utilizan mucho como medidas descriptivas de los datos.
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 33
Unidad 2- Análisis Estadístico
MEDIDAS DE POSICIÓN- CUANTILES
Son valores que dividen a la distribución en n partes iguales
Cuartiles (Cr)
Dividen al conjunto en cuatro partes mutuamente excluyentes e iguales, donde cada parte representa
el 25% de total. Se pueden determinar tres cuantiles donde el C2=Me
25%
25%
C1
25%
C2
25%
C3
C4
• Datos crudos y arreglo de frecuencia: Se determina la ubicación del cuartil en el conjunto de los
datos
o
Datos crudos:
Cr =
r*n
4
donde:
r=cuartil a determinar
n=cantidad de datos
Ejemplo: si queremos determinar el cuartil 3, entonces:
C3 =
3*9
= 6.75 este numero esta mas cerca del 7, entonces el dato que ocupa la posición 7
4
representa el 75% de los datos. Para el caso de la recaudación de Mendoza, el 75% de la recaudación es
inferior a $ 1083.27 millones o lo que es lo mismo podría decirse que el 25% de la recaudación es
superior o igual a $ 1083.27 millones
o
Arreglo de frecuencia
n
r∑ fi
Cr =
i =1
4
donde:
r=cuartil a determinar
n
∑f
i
=cantidad de datos
i =1
Ejemplo: Si queremos determinar el C3, debemos ubicar el cuartil, lo que hacemos en buscar en la fa,
empezamos a restar sistemáticamente y el primer valor que nos da negativo es donde esta ubicado el cuartil,
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 34
Unidad 2- Análisis Estadístico
Para el caso de la empresa de conservas:
3 * 25
= 18.75 En este caso cuando restamos 18.75 a 20 nos da negativo, entonces el valor que le
4
C3 =
corresponde a esta ubicación es 124, es decir, en el 75% de los casos la producción es menor o igual a 124 botellas y
análogamente en el 25 de los casos la producción es superior o igual a 124 botellas.
• Distribución de frecuencias
 n


 r∑ fi
  i =1 − f aa  

 4






C r = LIVcr +
i
f ir












donde:
LIVcr=Limite Inferior Verdadero de la clase cuartilica
n
r ∑ fi
i =1
4
= ubicación del cuartil
Ejemplo: para el caso de los turistas alojados en el hotel, si queremos determinar el C3, lo primero que
debemos hacer es ubicar el cuartil:
n
r * ∑ fi
i =1
4
=
3 * 1243
= 932.25 Esta es la ubicación, lo que hacemos en buscar en la fa, empezamos a restar
4
sistemáticamente y el primer valor que nos da negativo es donde esta ubicado el cuartil, en este caso cuando
restamos 932.25 a 1071 nos da negativo, entonces en esa clase esta ubicado. Lo que hacemos a continuación es
aplicar la formula:
 (932.25 - 906 ) 
C 3 = 42.5 + 
14 = 44.73
165


El 75% de los turistas alojados en el hotel tienen una edad igual o inferior a 45 años. Otra forma de
explicar esto es diciendo que el 25% de los turistas alojados en el hotel tienen una edad superior o igual a
los 45 años.
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 35
Unidad 2- Análisis Estadístico
Quintiles (Qr).
Dividen al conjunto es 5 partes mutuamente excluyentes e iguales, donde cada parte representa el
20% de total. Se pueden determinar cuatro quintiles
20%
20%
Q1
20%
Q2
20%
Q3
Q4
20%
Q5
• Datos crudos y arreglo de frecuencia: Se determina la ubicación del cuartil en el conjunto de los
datos
o
Datos crudos:
Qr =
r*n
5
donde:
r=cuartil a determinar
n=cantidad de datos
o
Arreglo de frecuencia
n
r∑ fi
Qr =
i =1
5
donde:
r=cuartil a determinar
n
∑f
i
=cantidad de datos
i =1
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 36
Unidad 2- Análisis Estadístico
• Distribución de frecuencias
 n


 r∑ f i
i
=
1


− f aa  

 4




Qr = LIV qr + 
i
f ir












donde:
LIVcr=Limite Inferior Verdadero de la clase quintilica
n
r∑ fi
i =1
5
= ubicación del quintil
faa= frecuencia acumulada anterior a la clase quintílica
fir= frecuencia absoluta de la clase quintílica
Deciles.
Dividen al conjunto en diez pares iguales mutuamente excluyentes e iguales, donde cada parte
representa el 10% de total. Se pueden determinar 9 deciles
10%
10%
D1
D2
10%................................................................................................10%
D3…………….............................................................……………………………………………….….D9
D10
• Datos crudos y arreglo de frecuencia: Se determina la ubicación del cuartil en el conjunto de los
datos
o
Datos crudos:
Dr =
r*n
10
donde:
r=decil a determinar
n=cantidad de datos
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 37
Unidad 2- Análisis Estadístico
o
Arreglo de frecuencia
n
r∑ fi
Dr =
i =1
10
donde:
r=decil a determinar
n
∑f
i
=cantidad de datos
i =1
• Distribución de frecuencias
 n


 r∑ fi
=
1
i


− f aa  


 10




Dr = LIVdr + 
i
f ir












donde:
LIVcr=Limite Inferior Verdadero de la clase decilica
n
r∑ f i
i =1
10
= ubicación del decil
faa= frecuencia acumulada anterior a la clase decílica
fir= frecuencia absoluta de la clase decílica
Percentiles.
Dividen al conjunto en cien partes mutuamente excluyentes e iguales, donde cada parte representa el
1% de total. Se pueden determinar 99 percentiles
1%
1%
1%........................................................................................................1% 1%
P1 P2 P3 P4……….............................................................……………………………………………………………..………. P98 P99 P100
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 38
Unidad 2- Análisis Estadístico
• Datos crudos y arreglo de frecuencia: Se determina la ubicación del cuartil en el conjunto de los
datos
o
Datos crudos:
Pr =
r*n
100
donde:
r=percentil a determinar
n=cantidad de datos
o
Arreglo de frecuencia
n
r∑ f i
Pr =
i =1
100
donde:
r=percentil a determinar
n
∑f
i
=cantidad de datos
i =1
• Distribución de frecuencias
Pr = LIV pr
 n


 r∑ fi
i
=
1


− f aa  

  100




+
i
f ir












donde:
LIVcr=Limite Inferior Verdadero de la clase percentilica
n
r∑ f i
i =1
100
= ubicación del percentil
faa= frecuencia acumulada anterior a la clase percentílica
fir= frecuencia absoluta de la clase percentílica
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 39
Unidad 2- Análisis Estadístico
MEDIDAS DE DISPERSIÓN
Permiten determinar el grado de esparcimiento de los datos de un conjunto con respecto a la medida
de tendencia central elegida, es decir, cuanto se desvían los datos del promedio.
¿Por qué es importante medir la desviación?
• Al menudo una medida de posición de un conjunto de datos se vincula con la indicación de cuán
típico o representativo es para la población y para ello es necesario contar con la información
que proporcionan las medidas de dispersión. Solo el conocimiento de un estadístico de
tendencia central no aclara o define toda la distribución, además que no existe un valor de
tendencia central ideal, por lo que es significativo tener una idea de la dispersión de los valores
y determinar si es mucha o poca al rededor de la media, pues si la variación es muy grande
entonces esta medida de tendencia central no es buena selección como valor típico.
• La medida de tendencia central no indica la relación de un dato con los otros, es necesario para
ello las medidas de variabilidad o dispersión.
• Al tratar problemas con datos dispersos se requiere conocer que problemas puede traer esto,
hasta que punto la dispersión tiene un riesgo aceptable o inaceptable en la toma de decisiones.
Recorrido o Rango
Mide la dispersión de la totalidad de los datos. Es la más obvia de las medidas ya que es la distancia
entre los valores máximo y mínimo.
R = x n − x1
donde:
xn=dato de mayor valor del conjunto
x1= dato de menor valor del conjunto
Cuando estamos trabajando con distribución de frecuencia xn esta dado por el LSV de la ultima clase y
x1 esta determinado por el LIV de la primera clase.
Ejemplo:
• Datos crudos. En el caso de la recaudación provincial:
R = 1275.56 − 378.23 = 897.33 esto quiere decir que la diferencia entre el período que más se
recaudó y el período en el que menos se recaudó se registró una diferencia de 897.33 millones de
pesos.
• Arreglo de frecuencia. En el caso de la producción de botellas de salsa, observamos que entre el
día que menos botellas se produjeron y el día en el que más botellas se produjeron hay una
diferencia de 100 botellas:
R = 160 − 60 = 100
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 40
Unidad 2- Análisis Estadístico
• Distribución de frecuencias. En el caso de la edad de los turistas observamos que la diferencia
entre las edades del turista más viejo y el más joven es de 84 años:
R = 84.5 − 0.5 = 84
Características de R
1. Es la medida de dispersión mas simple, ya indica la diferencia existente entre el menor y el
mayor valor del conjunto
2. Su valor esta influido por datos extremos, por lo cual no es una medida adecuada para medir
el grado de dispersión
3. El rango o recorrido da alguna idea del grado de variación que ocurre en la población, pero con
frecuencia los resultados pueden ser engañosos, pues este sólo depende de los valores
extremos e ignora la variación de las demás observaciones. Está afectado por ocurrencias
raras o extraordinarias.
Coeficiente de R
x n − x1
x n + x1
2
R=
Desviación Media (DM)
La desviación Media o Desviación absoluta promedio, es la media aritmética de las desviaciones
absolutas de cada una de las observaciones con respecto a su valor central, la media aritmética, o la mediana
Cuanto mayor es su valor, mayor es la dispersión de los datos
Calculo de la DM
• Datos crudos:
n
∑x
o
Con respecto a X : DM X =
−X
i
i =1
n
n
∑x
o
Con respecto a Me: DM Me =
i
− Me
i =1
n
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 41
Unidad 2- Análisis Estadístico
• Arreglo y distribución de frecuencias:
n
∑f
o
xi − X
i
i =1
Con respecto a X : DM X =
n
∑f
i
i =1
n
∑f
o
Con respecto a Me: DM Me =
i
xi − M e
i =1
n
∑f
i
i =1
Características de la DM
1. Su valor depende del valor de cada observación.
2. Se puede calcular alrededor de la media o de la mediana.
3. La desviación promedio respecto a la mediana es un mínimo
4. Mide la desviación de una observación sin notar si está por encima o por debajo del promedio.
Coeficiente de la DM
• Respecto de X : CDM X =
DM X
X
• Respecto de la Me: CDM M e =
DM Me
Me
Ejemplo:
• Datos Crudos: en el caso de la recaudación debemos tener en cuenta la media y la mediana
calculadas:
Año
1999
2000
2001
2002
2003
2004
2005
2006
2007
Recaudación
(millones de pesos)
378,23
380,27
392,27
371,51
548,85
662,89
831,94
1083,27
1275,56
5924,79
xi − X
xi − M e
280,08
278,04
266,04
286,8
109,46
4,58
173,63
424,96
617,25
170,62
168,58
156,58
177,34
0
114,04
283,09
534,42
726,71
2440,84
2331,38
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 42
Unidad 2- Análisis Estadístico
n
n
∑
DM X =
xi − X
2440.84
= 271.2 DM Me =
=
9
i =1
n
CDM X =
DM X
=
X
271.21
= 0.41
658.31
∑x
i
− Me
i =1
CDM M e =
=
n
2331.38
= 259.04
9
DM Me 259.04
=
= 0.47
Me
548.85
• Arreglo y distribución de frecuencia:
o
Arreglo de frecuencia:
xi
60
63
65
71
75
80
85
99
100
124
132
145
160
fi
2
1
1
1
1
2
2
2
3
5
2
2
1
25
f i xi − X
f i xi
120
63
65
71
75
160
170
198
300
620
264
290
160
2556
f i xi − M e
84,48
39,24
37,24
31,24
27,24
44,48
34,48
6,48
6,72
108,8
59,52
85,52
57,76
623,2
80
37
35
29
25
40
30
2
0
120
64
90
60
612
n
∑f
DM X =
xi − X
i
i =1
=
n
∑f
623.2
= 24.93
25
CDM X =
DM X
X
=
24.93
= 0.24
102.24
i
i =1
n
∑f
DM Me =
i
xi − M e
i =1
=
n
∑f
612
= 24.48
25
CDM M e =
DM Me 24.48
=
= 0.24
Me
100
i
i =1
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 43
Unidad 2- Análisis Estadístico
Distribución de frecuencias:
o
Nº de
turistas
127
324
455
165
75
97
1243
Edad
1-14
15-28
29-42
43-56
57-70
71-84
xi
7,5
21,5
35,5
49,5
63,5
77,5
f i xi − X
fixi
952,5
6966
16152,5
8167,5
4762,5
7517,5
44518,5
f i xi − M e
3596,05149
4638,1786
143,491553
2257,9646
2076,34755
4043,40949
16755,4433
3333,75
3969
796,25
2598,75
2231,25
4243,75
17172,75
n
∑f
DM X =
xi − X
i
i =1
=
n
∑f
16755.44
= 13.48
1243
CDM X =
DM X
X
=
13.48
= 0.38
35.81
i
i =1
n
∑f
DM Me =
i
xi − M e
i =1
=
n
∑f
17172.75
= 13.81
1243
CDM M e =
DM Me 13.81
=
= 0.41
Me
33.75
i
i =1
Varianza y Desviación Estándar
Varianza
Es la más importante de las medidas de variación porque tiene la ventaja de no prescindir de los signos
de las desviaciones, pero al igual que la desviación media los valores extremos pueden distorsionarla
La varianza pretende descubrir cuanto varían los datos al rededor de la media poblacional.
Las unidades de medición de la varianza son iguales al cuadrado de las unidades con que se mide la
variable. De esta manera, si x mide la cantidad de turistas alojados en un hotel, las unidades de la varianza
muestral son turistas al cuadrado.
Calculo de la varianza:
n
∑ (x
• Datos crudos: σ 2 =
)
2
i
−X
i =1
n
n
∑ f (x
i
• Arreglo y distribución de frecuencia: σ 2 =
)
2
i
−X
i =1
n
∑f
i
i =1
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 44
Unidad 2- Análisis Estadístico
Desviación Estándar
Cuando se utiliza la varianza como medida de dispersión, para salvar el problema de trabajar con
distintas dimensiones en la media y en la medida de variabilidad es necesario definir la Desviación Estándar
como la raíz cuadrada de la varianza:
σ = σ2
De esta manera la Desviación Estándar tiene la deseable propiedad de medir la variabilidad den las
unidades originales de la variable de interés, es decir, y siguiendo con lo dicho para la varianza, que si x es el
número de turistas ingresados a un hotel, la varianza también tendrá la misma unidad de medida, es decir
turistas ingresados al hotel.
La Desviación Estándar es útil para describir cuanto se apartan de la media de la distribución los
elementos individuales. Una medida de ello se denomina puntuación estándar, es decir el número de
desviaciones a las que determinada observación se encuentra con respecto a la media.
Característica de la Varianza y Desviación Estándar:
1. El calculo de estas medidas esta basado en todos los datos del conjunto
2. Son medidas totalmente lógicas ya que consideran tanto los signos positivos como los negativos para
el cálculo
3. Establecen la desviación de los datos respecto de la media aritmética y no con respecto a otros valores
4. No se ven afectadas por la suma de las cantidades constantes a los datos del conjunto, pero si están
afectadas si los datos son multiplicados o divididos por cantidades constantes, variando estas en la
misma proporción, se toma para su calculo el principio de los mínimos cuadrados
5. Como consecuencia de considerar desviaciones cuadráticas pone mayor énfasis en las desviaciones
extremas que en las demás desviaciones.
6. Al construir la tabla de frecuencias de una variable discreta y calcular a partir de ella la desviación
estándar no hay pérdida de información por lo que la desviación para los datos observados es igual
que para los datos tabulados.
7. En la construcción de una tabla de una variable continua hay pérdida de información por el
agrupamiento de los valores en intervalos y se traduce en la discrepancia entre el valor de la
desviación observada y tabulada.
Coeficiente de desviación (CV)
CV =
σ
X
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 45
Unidad 2- Análisis Estadístico
Ejemplo:
• Datos crudos:
Año
1999
2000
2001
2002
2003
2004
2005
2006
2007
n
∑ (x
σ2 =
)
Recaudación
(millones de pesos)
378,23
380,27
392,27
371,51
548,85
662,89
831,94
1083,27
1275,56
5924,79
(x
)
2
i
−X
78444,8064
77306,2416
70777,2816
82254,24
11981,4916
20,9764
30147,3769
180591,002
380997,563
912520,979
2
i
−X
i =1
n
=
912520.979
= 101391.22
9
σ = σ 2 = 101391.22 = 318.42
CV =
σ
X
=
318.42
= 0.48
658.31
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 46
Unidad 2- Análisis Estadístico
• Arreglo y distribución de frecuencias
o
Arreglo de frecuencias:
xi
60
63
65
71
75
80
85
99
100
124
132
145
160
n
∑ f (x
i
σ2 =
)
f i xi
fi
2
1
1
1
1
2
2
2
3
5
2
2
1
25
c
120
63
65
71
75
160
170
198
300
620
264
290
160
2556
3568,4352
1539,7776
1386,8176
975,9376
742,0176
989,2352
594,4352
20,9952
15,0528
2367,488
1771,3152
3656,8352
3336,2176
20964,56
2
i
−X
i =1
=
n
∑f
20964.56
= 838.58
25
i
i =1
σ = σ 2 = 838.58 = 28.96
CV =
σ
X
o
=
28.96
= 0.28
102.24
Distribución de frecuencias:
Edad
Nº de turistas
127
324
455
165
75
97
1243
1-14
15-28
29-42
43-56
57-70
71-84
n
∑ f (x
i
σ2 =
)
xi
7,5
21,5
35,5
49,5
63,5
77,5
(
)
2
f i xi − X
fixi
952,5
6966
16152,5
8167,5
4762,5
7517,5
44518,5
101823,514
66397,2245
45,2523642
30899,419
57482,9218
168548,045
425196,377
2
i
−X
i =1
=
n
∑f
425196.377
= 342.07
1243
i
i =1
σ = σ 2 = 342.07 = 18.49
CV =
σ
X
=
18.49
= 0.52
35.81
Probabilidad y Estadística –Unidad 2. Análisis Estadístico
Lic. Eliana Arcoraci /Lic. Eduardo Grossi
P á g i n a | 47