Download PROBABILIDAD Y ESTADISTICA UNIDAD I ESTADISTICA

Document related concepts
no text concepts found
Transcript
PROBABILIDAD Y ESTADISTICA
UNIDAD I ESTADISTICA DESCRIPTIVA
1.1 Introducción y notación de sumatoria
La estadística es una rama de la matemática que tiene
por objetivo el estudio e las técnicas de recolección,
análisis y presentación de información estadística
obtenida por una muestra y a partir de esta tomar
decisiones sobre la población.
Una población es el conjunto de elementos de interés
en un estudio, puede ser finita o infinita. Una muestra
es una parte de los elementos de la población, la cual
debe ser representativa de esta, generalmente es
tomada de forma aleatoria.
Para tomar muestras aleatorias se usan las técnicas de
muestreo, las más utilizadas son:
a) Muestreo aleatorio simple
b) Muestreo sistemático
c) Muestreo estratificado
d) Muestreo por conglomerados
La estadística para su estudio se divide en:
a) Estadística Descriptiva.- Estudia las técnicas de
recolección, análisis y presentación de datos
estadísticos.
b) Inferencia estadística.- Estudia los métodos para
obtener conclusiones de una población a partir
de la información que proporciona una
muestra.
c) Teoría de probabilidades.- Estudia los modelos
matemáticos para representar fenómenos
aleatorios.
La información estadística obtenida de una población da
origen a datos estadísticos que a su vez se representan
por variables estadísticas, las cuales pueden ser
numéricas o categóricas, los primeros se dividen en
discretos y continuos, los segundos en nominales y
ordinales, al obtener los valores es necesario utilizar
escalas de medición, estas se clasifican:
a) Escala nominal
b) Escala ordinal
c) Escala de intervalo
d) Escala de razón
Las variables estadísticas se representan por medio de
letras mayúsculas 𝑋, 𝑌 …, mientras que los valores que
toman se representan con letras minúsculas con
subíndice 𝑥𝑖 donde 𝑖 = 1,2,3,4, … , 𝑛 donde n es el
tamaño de la muestra.
Una operación que se utiliza al analizar los datos
estadísticos es la suma:
𝑛
𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛 = ∑ 𝑥𝑖
𝑖=1
La suma se representa por medio de la letra sigma
donde el subíndice 𝑖 toma valores de 1 hasta n.
Este símbolo tiene las siguientes propiedades:
𝑛
∑ 𝑐 = 𝑛𝑐
𝑖=1
𝑛
𝑛
∑ 𝑐𝑥𝑖 = 𝑐 ∑ 𝑥𝑖
𝑖=1
𝑛
𝑖=1
𝑛
𝑛
∑(𝑥𝑖 + 𝑦𝑖 ) = ∑ 𝑥𝑖 + ∑ 𝑦𝑖
𝑖=1
𝑖¿1
𝑖=1
Estas propiedades se usan para desarrollar expresiones
y escribirlas en forma equivalente.
1.2 Análisis de datos
Una de los objetivos principales de la estadística es el
análisis de datos, en el caso de tener pocos datos
(𝑛 < 30), se analizan en forma no agrupada en el caso
de cantidades mayores los datos se agrupan en una
distribución de frecuencias.
1.2.1 Medidas de tendencia central
Medidas de tendencia central, se utilizan para
determinar el valor que tiende a representar un
conjunto de datos, las más usadas son la media,
mediana y moda.
La media se puede calcular en diferentes formas:
a) Media aritmética 𝑥̅ =
∑ 𝑥𝑖
𝑛
b) Media geométrica 𝑥̅𝑔 = 𝑛√𝑥1 ∙ 𝑥2 ∙ 𝑥3 … 𝑥𝑛
c) Media ponderada 𝑥̅𝑝 =
∑ 𝑥 𝑖 𝑤𝑖
∑ 𝑤𝑖
La mediana es el valor que divide al conjunto de datos
en dos partes iguales, para calcularla se deben ordenar
los datos del menor el mayor, si el número de datos es
impar la mediana es 𝑥̃ = 𝑥𝑛 si el número de datos es
𝑥𝑛
par 𝑥̃ =
2
+
𝑥𝑛
2
2
+1
2
, se toma el promedio de los datos
centrales.
La moda es el dato que presenta la mayor frecuencia y
se representa 𝑥̂.
1.2.2 Medidas de dispersión
Se utilizan para medir el grado de dispersión de los
datos, la más sencilla es el rango la cual se calcula como
la diferencia entre el valor mayor y el menor:
𝑅 = 𝑥𝑚𝑎𝑦 − 𝑥𝑚𝑒𝑛
Otra medida es la desviación media la cual es el
promedio de las diferencias en valor absoluto de cada
valor con respecto a la media aritmética:
∑|𝑥𝑖 − 𝑥̅ |
𝑑𝑚 =
𝑛
La más utilizada es la varianza, la cual se calcula como
un promedio de las diferencias al cuadrado de de cada
valor con respecto a la media aritmética:
∑(𝑥𝑖 − 𝑥̅ )2
𝑠2 =
𝑛
Cuando se usa la varianza para hacer estimaciones se
usa la varianza insesgada o cuasivarianza:
∑(𝑥𝑖 − 𝑥̅ )2
2
𝑠̂ =
𝑛−1
La raíz cuadrada de la varianza se le llama desviación
estándar:
∑(𝑥𝑖 − 𝑥̅ )2
𝑠̂ = √
𝑛−1
1.3 Agrupamiento de datos
Si el número de datos en grande, se agrupan en
subgrupos llamados clases y se determina el número de
valores que pertenecen a cada clase a lo que se le
denomina frecuencia de clase. Si el número de valores
diferentes es menor de 10 se hace el agrupamiento
considerando cada valor como clase:
Clase
𝑖
1
2
.
.
K
Marca de
clase
𝑥𝑖
𝑥1
𝑥2
.
.
𝑥𝑘
Frecuencia
De clase
𝑓𝑖
𝑓1
𝑓2
.
.
𝑘
𝑥𝑖 𝑓𝑖
(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖
𝑥1 𝑓1
𝑥2 𝑓2
.
.
𝑥𝑘 𝑓𝑘
(𝑥1 − 𝑥̅ )2 𝑓1
(𝑥2 − 𝑥̅ )2 𝑓2
.
.
(𝑥𝑘 − 𝑥̅ )2 𝑓𝑘
a las formulas para la media aritmética y varianza se les
agrega la frecuencia de clase:
∑ 𝑥𝑖 𝑓𝑖
𝑥̅ =
𝑛
∑(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖
𝑠̂ 2 = √
𝑛−1
Si el rango de los datos es muy grande la distribución de
frecuencias se elabora a partir de intervalos de clase, no
existe un criterio único para realizar estas
distribuciones, a continuación se presentan los criterios
para elaborar los intervalos de clase:
1.- Determinar el rango de los datos
𝑅 = 𝑥𝑚𝑎𝑦 − 𝑥𝑚𝑒𝑛
2.- Calcular el número de clases, se recomienda usar
entre 5 y 15 clases, se puede utilizar la fórmula de
Sturges:
𝑘 = 1 + 3.322 log 𝑛
Redondeando el entero más próximo.
3.- Calcular el tamaño de clase:
𝑅
𝑐=
𝑘
Este valor se puede redondear o no, dependiendo del
criterio para formar los intervalos de clase.
4.- Determinar los límites de clase, se pueden usar dos
criterios:
a) Intervalos de clase contiguos, se usa el tamaño de
clase sin redondear
Clase
LRI
LRS
𝑓𝑖
1
2
.
.
k
𝐿𝑅𝐼1 = 𝑥𝑚𝑒𝑛
𝐿𝑅𝐼2 = 𝐿𝑅𝑆1
.
.
𝐿𝑅𝐼𝑘 = 𝐿𝑅𝑆𝑘−1
< 𝐿𝑅𝑆1 = 𝐿𝑅𝐼1 + 𝑐
< 𝐿𝑅𝑆2 = 𝐿𝑅𝐼2 + 𝑐
.
.
< 𝐿𝑅𝑆𝑘 = 𝑥𝑚𝑎𝑦
𝑓1
𝑓2
.
.
𝑓𝑘
b) Intervalos de clase no contiguos, separados por un
incremento ∆ el cual se establece de acuerdo al tipo de
datos, para valores enteros ∆=1, si tiene un decimal
∆=0.1, si tienen dos decimales ∆=0.01, etc.
En este caso el tamaño de clase se debe redondear de
acuerdo al tipo de dato, entero o con decimales.
Clase
1
LI
𝐿𝐼1 = 𝑥𝑚𝑒𝑛
LS
𝐿𝑆1 = 𝐿𝐼1 + (𝑐 − ∆)
𝑓𝑖
𝑓1
2
𝐿𝐼2 = 𝐿𝑆1 + ∆
𝐿𝑆1 = 𝐿𝐼1 + (𝑐 − ∆)
𝑓2
.
.
k
𝐿𝐼2 = 𝐿𝑆1 + ∆
𝐿𝑆1 = 𝐿𝐼1 + (𝑐 − ∆)
≥ 𝑥𝑚𝑎𝑦
𝑓𝑘
LRI
LRS
∆
2
∆
𝐿𝐼2 −
2
𝐿𝐼1 −
𝐿𝐼𝑘 −
∆
2
∆
2
∆
𝐿𝑆2 +
2
𝐿𝑆1 +
𝐿𝑆𝑘 +
∆
2
Se debe cuidar que el límite superior de la última clase
sea mayor o igual a dato mayor, si no se cumple lo
anterior se debe ajustar el tamaño de clase hasta lograr
que se cumpla.
Para calcular las medidas de tendencia central y de
dispersión se usan las fórmulas:
∑ 𝑥𝑖 𝑓𝑖
𝑥̅ =
𝑛
∑(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖
𝑠̂ = √
𝑛−1
2
Donde 𝑥𝑖 son las marcas de clase 𝑥𝑖 =
𝐿𝑅𝐼𝑖 +𝐿𝑅𝑆𝑖
2
y 𝑓𝑖 son
las frecuencias de clase.
Cuartiles 𝑄𝑖 = 𝐿𝑅𝐼𝑖 + [
Para realizar los cálculos de forma más eficiente se
elabora la tabla de cálculos:
Clase
𝑖
𝑑2 es el exceso de frecuencia de la clase que contiene a
la mediana con la posterior
Otras medidas de posición son los cuantiles, los cuales
se calculan con las expresiones:
Frecuencia
De clase
𝑓𝑖
𝑥𝑖 𝑓𝑖
(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖
1
2
Marca
de
clase
𝑥𝑖
𝑥1
𝑥2
𝑓1
𝑓2
𝑥1 𝑓1
𝑥2 𝑓2
(𝑥1 − 𝑥̅ )2 𝑓1
(𝑥2 − 𝑥̅ )2 𝑓2
.
.
K
.
.
𝑥𝑘
.
.
𝑘
.
.
𝑥𝑘 𝑓𝑘
.
.
(𝑥𝑘 − 𝑥̅ )2 𝑓𝑘
∑ 𝑥𝑖 𝑓𝑖
Sumas
Frecuencia
acumulada
𝐹𝑖
𝑖𝑛
−
10
Deciles 𝐷𝑖 = 𝐿𝑅𝐼𝑖 + [
− 𝐹𝑚
𝑓𝑚
𝑓𝑖
𝐹𝑖
∑(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖
]𝑐
] 𝑐 𝑖 = 1,2,3 dividen a los
] 𝑐 𝑖 = 1,2,3,4 … 9 dividen
los datos en 10 partes
𝑖𝑛
𝐹1 = 𝑓1
𝐹2
= 𝐹1 + 𝑓2
.
.
𝐹𝑘
= 𝐹𝑘−1 + 𝑓𝑛
Una medida de dispersión muy utilizada es el
coeficiente de variación, el cual se calcula:
𝑠̂
𝐶𝑉 = × 100%
𝑥̅
Para la mediana y moda se usan las fórmulas:
𝑛
𝐹𝑖
𝑓𝑖
datos en cuatro partes iguales
− 𝐹𝑖
Percentiles 𝑃𝑖 = 𝐿𝑅𝐼𝑖 + [100 𝑓
𝑖
]𝑐
𝑖 = 1,2,3, … 99
dividen a los datos en 100 partes
El criterio para aplicar estas formulas es el mismo que el
de la mediana. Se busca la clase que contiene al cuantil,
que es aquella cuya frecuencia acumulada es mayor o
igual a
Mediana 𝑥̃ = 𝐿𝑅𝐼𝑚 + [2
𝑖𝑛
−
4
𝑖𝑛
𝑘
donde k=4 para los cuartiles, k=10 para los
deciles y k=100 para los percentiles.
1.4 Gráficos de distribuciones de frecuencias
Para presentar la información de una distribución de
frecuencias se usan diferentes gráficos:
Histograma.- Es un grafico de barras, en el cual ,en el
eje horizontal se colocan las marcas de clase o los
límites reales de clase y en el eje vertical las frecuencias
de clase, ya sean absolutas o relativas.
Para aplicar la fórmula se debe encontrar la clase que
contiene la mediana, la cual es aquella cuya frecuencia
𝑛
acumulada es mayor o igual a 2
Donde
𝐿𝑅𝐼𝑚 es el límite real inferior de la clase que contiene a
la mediana
𝐹𝑚 es la frecuencia acumulada de la clase anterior a la
clase que contiene a la mediana
𝑓𝑚 frecuencia de la clase que contiene a la mediana
𝑐 tamaño de clase
Moda 𝑥̂ = 𝐿𝑅𝐼𝑚𝑜 + (𝑑
𝑑1
1 +𝑑2
)𝑐
La clase que contiene a la mediana es aquella cuya
frecuencia es la mayor
Donde:
𝐿𝑅𝐼𝑚𝑜 es el límite real inferior de la clase que contiene
a la moda
𝑑1 es el exceso de frecuencia de la clase que contiene a
la mediana con la anterior
Polígono de frecuencias.- es un gráfico de línea, en el
cual en el eje horizontal se colocan las marcas de clase y
el vertical las frecuencias de clase.
Ojiva.- Es un gráfico de línea en el cual en el eje
horizontal se colocan las marcas de clase o los límites
reales de clase y en el vertical las frecuencias
acumuladas.
Diagrama de cajas y bigotes.- Es un diagrama que se
usa para representar como se distribuyen los datos
alrededor de la mediana, los extremos de la caja son el
primer y tercer cuartil y en los bigotes se colocan el
valor mayor y menor, se emplean para comparar
distribuciones.
Diagrama de sectores o circular.- se usa para
representar como agrupan los datos con respecto a la
totalidad, se divide la circunferencia en forma
proporcional a las frecuencias de clase
1.5 Medidas de forma
Uno de los objetivos más importantes del agrupamiento
de datos, es determinar si la distribución se aproxima a
la distribución normal, la cual es una distribución teórica
que tiene forma de campana
Tiene la propiedad de que es simétrica, es decir la
media, mediana y moda son iguales. En la distribución
de los datos empíricos es poco probable que se cumpla
esta condición, como se muestra en la figura el
histograma se puede aproximar a la distribución
normal, existen dos medidas para determinar si se tiene
una buena aproximación como son la asimetría y la
curtosis.
Asimetría.- Determina como se distribuyen los datos
alrededor de la media aritmética, para datos agrupados
se calcula:
1
∑(𝑥𝑖 − 𝑥̅ )3 𝑓𝑖
𝑛
𝑔1 =
3
2
1
[𝑛 (𝑥𝑖 − 𝑥̅ )2 𝑓𝑖 ]
Si 𝑔1 = 0, la distribución es simétrica, se considera que
si |𝑔1 | ≤ 0.5 la distribución se aproxima a la normal. En
la siguiente figura se muestran los tipos de asimetría
Curtosis.- Mide el grado de apuntalamiento de la curva,
la distribución normal es mesocurtica, es decir su
coeficiente de asimetría es cero, para calcular la
asimetría se usa la expresión:
1
∑(𝑥𝑖 − 𝑥̅ )4 𝑓𝑖
𝑛
𝑔2 =
2−3
1
2
[𝑛 (𝑥𝑖 − 𝑥̅ ) 𝑓𝑖 ]
Se considera que si |𝑔2 | ≤ 0.5 la distribución se
aproxima a la normalidad.
Curvas de acuerdo a la curtosis.
𝑔2 > 0
𝑔2 = 0
𝑔2 < 0