Download Distribución Muestral - ENM-UCN - Universidad Católica del Norte

Document related concepts

Estadístico muestral wikipedia , lookup

Distribución t de Student wikipedia , lookup

Muestra estadística wikipedia , lookup

Varianza wikipedia , lookup

Intervalo de confianza wikipedia , lookup

Transcript
Universidad Católica del Norte
Escuela de Negocios Mineros
Magíster en Gestión Minera
Análisis de Datos y Métodos
Cuantitativos para la Toma de
Decisiones
8va versión MGM
Antofagasta, Diciembre de 2014
Freddy Higuera Cartes
Doctor en Ciencias de la Ingeniería
Mención Ingeniería Civil de Industrias
A partir de una misma población se pueden tomar muchas
muestras diferentes del mismo tamaño
Desarrollaremos un ejercicio para comprender cómo se
obtienen los valores muestrales de una variable, como la
media muestral, de acuerdo con los datos observados
Además, sabremos cómo se obtienen los valores de
probabilidad para cada uno de los valores muestrales, esto
es, veremos el concepto distribución muestral
Supongamos que la variable aleatoria X puede tomar los
cuatro valores 2, 4, 6, 8 y que de esta población se toman
muestras de tamaño 2 elegidas al azar (lotería)
Muestra
X1
X2
Media muestral
1
2
2
2
2
2
4
3
3
2
6
4
4
2
8
5
5
4
2
3
6
4
4
4
7
4
6
5
8
4
8
6
9
6
2
4
10
6
4
5
11
6
6
6
12
6
8
7
13
8
2
5
14
8
4
6
15
8
6
7
16
8
8
8
En total existen 16 (42, en general, Nn donde N es el número
de elementos de la población y n el tamaño muestral)
muestras posibles que se pueden seleccionar de esta
población
Para cada una de las 16 muestras se obtiene la media
muestral ( X ), que toma cualquiera de los siete valores del
conjunto 2, 3, 4, 5, 6, 7, 8 ( X )
De las 16 muestras posibles, una tiene media 2; dos tienen
media 3; tres media 4; cuatro media 5; tres media 6; dos
media 7 y una media 8
Con esto podemos construir una tabla en que aparezcan los
valores de x junto a sus respectivas probabilidades
Para obtener la distribución de X se debe tener presente
que al efectuarse un muestreo con reemplazamiento cada
elemento de la muestra tiene una probabilidad 1/4 de ser
escogido, por lo tanto, cada muestra de tamaño 2 tiene
probabilidad de (1/4)(1/4) = 1/16 de darse
Media muestral X
Número de muestras
Probabilidad P( x)
2
1
1/16
3
2
2/16
4
3
3/16
5
4
4/16
6
3
3/16
7
2
2/16
8
1
1/16
Total
16
1,0
Así, la probabilidad de obtener una media muestral 2 es
1/16, de 3 es 2/16, y así sucesivamente
Antes de continuar con el concepto de muestra aleatoria, es
importante recordar el de independencia
Dadas dos variables aleatorias discretas X e Y, decimos que
son independientes si se cumple que:
P(X = x, Y = y) = P(X = x) P(Y = y)
La expresión del lado izquierdo se denomina distribución
conjunta de X e Y, mientras que cada uno de los factores
que aparecen a la derecha se llama distribución marginal
de X e Y respectivamente
En estos términos, X e Y son independientes cuando la
distribución conjunta es igual al producto de las
distribuciones marginales
Intuitivamente, y tal como ya lo habíamos usado en el
ejemplo previo, dos variables aleatorias X e Y se dicen
independientes cuando los valores que asume cada una de
ellas no influyen ni está influenciados por los valores de la
otra
Por ejemplo, si lanzamos un par de dados y consideramos
las variables aleatorias:
X = Número de puntos que muestra la cara que queda hacia arriba
del primer dado
Y = Número de puntos que muestra la cara que queda hacia arriba
del segundo dado
Los valores posibles de X e Y son los mismos, a saber: 1, 2,
3, 4, 5, 6
Las distribuciones marginales de X e Y son:
X
1
2
3
4
5
6
P(X = x)
1/6
1/6
1/6
1/6
1/6
1/6
Y
1
2
3
4
5
6
P(Y = y)
1/6
1/6
1/6
1/6
1/6
1/6
¿Qué podemos decir de la independencia de X e Y?
Al considerar las dos variables conjuntamente obtenemos
las parejas de valores que constituyen el espacio muestral S
= {1 - 1, ..., 1 - 6, 2 - 1, ..., 2 - 6, ..., 6 - 1, ..., 6 - 6}, por lo
tanto, N = 36
1
2
3
4
5
6
1
1/36
1/36
1/36
1/36
1/36
1/36
2
1/36
1/36
1/36
1/36
1/36
1/36
3
1/36
1/36
1/36
1/36
1/36
1/36
4
1/36
1/36
1/36
1/36
1/36
1/36
5
1/36
1/36
1/36
1/36
1/36
1/36
6
1/36
1/36
1/36
1/36
1/36
1/36
Los valores del cuadro se interpretan de la siguiente forma:
P(X = 1, Y = 1) = 1/36, P(X = 1, Y = 2) = 1/36 y así
sucesivamente
Por otra parte, P(X = 1) = 1/6 y P(Y = 1) = 1/6, por lo tanto, P(X
= 1, Y = 1) = 1/36 = (1/6)(1/6) =P(X = 1) P(Y = 1)
De este modo, X e Y son independientes
Ahora estamos en condiciones de comprender el concepto de
muestra aleatoria
Supongamos que X es la variable aleatoria que asociada a la
característica en estudio y que vamos a hacer n observaciones
en la población respectiva
Estas observaciones serán datos concretos una vez que
hayamos llevado a cabo el acto físico de tomarlas; antes, sólo
podemos considerar valores posibles de acuerdo con la
distribución de X
Por ello, cada una de estas observaciones que luego se
materializarán, las denotaremos X1, X2, …, Xn y se consideran n
“representaciones” de la variable X y, por tanto, con la misma
distribución de X
Si además, éstas variables se consideran independientes,
tenemos lo que se llama una muestra aleatoria
Así, una muestra aleatoria de una población X es una
sucesión X1, …, Xn de n variables aleatorias i.i.d.
Donde, i.i.d. significa independientes e igualmente
distribuidas y que, por tanto, tienen la misma función
de densidad con igual media y varianza
Una estadística es cualquier fórmula matemática que
relaciona las variables de una muestra aleatoria X1, …,
Xn y que no incluye constantes desconocidas
El proceso inferencial se lleva a cabo utilizando las
estadísticas como medio para tal fin y son las de mayor
uso las denominadas media y varianza muestral:
∑i=1 X i
Media muestral: X =
n
2
(
X
−
X
)
∑i=1 i
n
n
Varianza muestral: S 2 =
(n − 1)
Las estadísticas son de por sí variables aleatorias; por ello es
de esperarse que tengan asociadas distribuciones
La distribución muestral de una estadística T es la distribución
de probabilidad de T, tomada ésta como una variable
aleatoria
Un parámetro es una caracterización numérica de la
distribución de la población, de forma que describe total o
parcialmente la función de densidad de la variable aleatoria
de interés
Ejemplos de parámetros son la media y varianza de una
variable aleatoria con distribución normal
En resumen, la estadística se calcula de acuerdo con las
variables aleatorias de la muestra, por consiguiente cambia de
muestra a muestra, pero sigue cierta ley de probabilidad, lo
que constituye la distribución muestral
Por otro lado, el parámetro es una característica de la
población y como tal permanece constante y generalmente es
desconocido
A cada parámetro se le puede asociar una estadística,
mediante la cual podemos obtener alguna información acerca
del parámetro desconocido
Ésta es la esencia de la inferencia estadística, trátese de
estimación o prueba de hipótesis
Sea X1, …, Xn una muestra aleatoria proveniente de una
población de media µX y varianza σ X2 ; y X la media muestral,
entonces:
2
σ
E( X) = µ X = E( X) = µ X
y
V( X) = σ X2 = X
n
A partir de la varianza de X se obtiene la desviación estándar
de X o error estándar de la media, que es:
σX
σX =
n
Estos resultados pueden comprobarse a partir del ejemplo
dado al inicio
Así, tenemos que: E( X) = E(X) = 5
σ X2
5
= = 2,5
Por otro lado, se tiene que: σ =
n
2
Ahora ya conocemos las propiedades de la media muestral
( µ X y σ X2 ), pero ¿qué distribución tiene X cuando X se
distribuye normalmente?
2
X
Si X1, …, Xn es una muestra aleatoria proveniente de una
población con distribución normal de media µ y varianza σ2,
entonces:
 σ2 

X ~ N µ ,

n 
Por lo tanto, Z =
(X − µ )
σ
n
=
n (X − µ )
σ
~ N(0,1)
Por ejemplo, supongamos que la cantidad que envasa una
máquina dispensadora de bebidas gaseosas es una variable
aleatoria X, que tiene distribución normal con media µ = 10
onzas y desviación estándar de σ = 1, ¿cuál es la
probabilidad que X sea por lo menos 10,3 si nos
proponemos hacer 25 mediciones del líquido dispensado?
1 

La media muestral X ~ N10, 
25 

Por lo tanto, P( X ≥ 10,3) = 1 - P( X < 10,3) = 0,0668
Alternativamente, P(Z ≥ 1,5) = 1 - P(Z < 1,5) = 0,0668
Pero, ¿qué sucede si la variable aleatoria en estudio no sigue
una distribución normal?
Al respecto el teorema del límite central plantea: “si X es una
variable aleatoria de media µ y varianza σ2, la distribución
muestral de la media X de una muestra aleatoria de tamaño
n es aproximadamente normal con media µ y varianza σ2/n si
n es suficientemente grande”, es decir, X ~
ɺ N( µ , σ 2 n)
¿A partir de qué valor n puede considerarse
“suficientemente” grande?
Si bien se prefiere n ≥ 100, en la mayoría de las aplicaciones
se considera suficiente n ≥ 30
Por ejemplo, para cierta prueba de aptitud se sabe con base
en la experiencia que el número de aciertos es en promedio
500 con una desviación estándar de 60, si se aplica esta
prueba a 100 personas seleccionadas al azar ¿cuál es la
probabilidad de que tengan un promedio de aciertos menor
que 495?
Como n = 100, podemos emplear el teorema del límite central
ɺ N(500, 3.600 100)
En este caso X ~
Por lo tanto, P( X < 495) = 0,2023
O, equivalentemente, P(Z < -0,833) = 0,2023
Una consecuencia importante del teorema del límite
central es la que atañe a la distribución de la proporción
muestral
Sea p la proporción muestral asociada a una característica,
la cual se presenta en la población en una proporción π,
entonces:
 π (1 − π ) 
ɺ N π ,
p~


n

En términos de la distribución normal estandarizada:
p −π
ɺ N(0,1)
Z=
~
π (1 − π ) n
Se sabe que la proporción de artículos defectuosos en un
proceso industrial es de 0,10, si el proceso se vigila
periódicamente al tomar muestras aleatorias de tamaño 100
¿Cuál es la probabilidad de que esta muestra arroje una
proporción de defectuosos mayor a 0,17?
Como n = 100, podemos emplear el teorema del límite central
ɺ N(0,10, (0,10)(0,90) 100)
En este caso p ~
Por lo tanto, P( p > 0,17) = 0,0098
O, equivalentemente, P(Z > 2,333) = 0,0098
Si X1, …, Xn es una muestra aleatoria proveniente de
una población con distribución normal de media µ y
varianza σ2, entonces:
X=
(n − 1)S 2
~ χ (2n−1)
σ2
Es decir, X se distribuye chi-cuadrado con (n - 1) grados
de libertad
Así, la variable X describe la distribución de la varianza
muestral y empleando los valores de la distribución
chi-cuadrado podemos calcular la probabilidad de que
S2 se encuentre en algún intervalo dado
Por ejemplo, si el espesor de cierto material está
normalmente distribuido con desviación estándar 0,01 cm. y
una muestra aleatoria de 25 piezas de este material arroja
como resultado una desviación estándar muestral de 0,008
¿cuál es la probabilidad de observar un valor muestral como
éste u otro menor?
Denotando como S a la desviación estándar muestral, se pide
P(S ≤ 0,008)

(24)(0,008) 2 
 =
Así, tenemos que P(S ≤ 0,008) = P X ≤
2
(0,01)


P(X ≤ 15,36) = 0,09
Hasta ahora hemos asumido en la distribución de X de una
muestra aleatoria normal que σ es conocida
Pero, lo más común es que σ también sea desconocida y por
ello debe ser estimada
Así, si en la expresión para Z = n (σX − µ ) reemplazamos σ por S
(desviación estándar muestral) obtenemos:
n (X − µ )
T=
~ t (n−1)
S
Es decir, T se distribuye t de Student con (n - 1) grados de
libertad
Por ejemplo, el gerente de una fábrica de cierto tipo de
alimentos asegura que el peso promedio del producto que
elabora es de 165 gr.
Un consumidor desconfiado para probar lo afirmado por el
gerente decide escoger 16 paquetes del producto y
pesarlos
Los resultados fueron: 165, 158, 153, 162, 171, 175, 173,
169, 166, 170, 164, 177, 148, 167, 152, 149
Suponiendo que los pesos se distribuyen normalmente
¿Evidencian estos datos que el gerente está en lo cierto?
A partir de lo datos obtenemos que la media y desviación
estándar muestral están dadas por:
X = 163,6875
S = 9,24
Si lo planteado por el gerente es correcto entonces:
163,7
165
x
Ahora debemos responder si pertenece o no 163,7 a una
distribución con valor esperado de 165, considerando una
probabilidad mínima del 5%
Esto es, P( X ≤ 163,7) =


16
(
163
,
7
−
165
)

P T ≤


9
,
24


=
P(T ≤ -0,57) = 0,29 ⇒ No se puede rechazar lo garantizado por
el gerente
Universidad Católica del Norte
Escuela de Negocios Mineros
Magíster en Gestión Minera
Análisis de Datos y Métodos
Cuantitativos para la Toma de
Decisiones
8va versión MGM
Antofagasta, Diciembre de 2014
Freddy Higuera Cartes
Doctor en Ciencias de la Ingeniería
Mención Ingeniería Civil de Industrias