Download Teoría del muestreo

Document related concepts

Error cuadrático medio wikipedia, lookup

Estimador wikipedia, lookup

Varianza wikipedia, lookup

Estadístico muestral wikipedia, lookup

Distribución normal wikipedia, lookup

Transcript
Suma de variables aleatorias Normales
Sean X1, X2,...,Xn, variables aleatorias con distribución normal de media
n
 i y desvío  i entoncesladistribuci óndeX   X i es normal con parámetros :
i 1
n
n
i 1
i 1
 X    i y V(X)   V  X i 
Si 1   2  ...   n   y  1   2  ...   n   entonces los parámetros de X son  X  n.
y V(X)  n. V(X i )
Teorema Central del Límite
Sean X1, X2,...,Xn, variables aleatorias con
finitas
media y varianzas conocidas y
n
 i (es la media de la variable X i y su desvío  i entoncesladistribuci óndeX   X i
i 1
se aproxima a la distribuci ón normal, cuando el tamaño de la muestra tiende a infinito, con parámetros :
n
n
i 1
i 1
 X    i y V(X)   V  X i 
Si 1   2  ...   n   y  1   2  ...   n   entonces los parámetros de X son  X  n.
y V(X)  n. V(X i )
Teoría del muestreo
Muestra: Es un subconjunto de elementos de la población. Cada elemento representa una
variable aleatoria y cada una de las variables son independientes y se encuentran
idénticamente distribuidas.
Selección de una muestra:
1. Aleatoria: cualquier elemento de la población tiene la misma posibilidad de ser elegido.
2. Representativa: si la población presenta rasgos peculiares la muestra debe reflejar este
comportamiento.
Método aleatorio simple: la población debe ser factible de ser ordenada, listada.
Ejemplo: para elegir 100 personas de un archivo se selecciona al azar el primero y luego se
eligen los 99 siguientes. La aleatoriedad está dada por el primer valor que se llama semilla.
( Si se eligiera este método para personas de la guía de teléfono podría seleccionar todos los
de la letra C).
Muestreo al azar sistemático: Se elige al azar el primer valor o semilla y además en forma
arbitraria un cierto valor, por ejemplo 5. El primero es al azar y luego se seleccionan de a 5.
Estos tipos de selección se emplean cuando se dispone de una población homogénea.
Si la distribución no es homogénea se emplea: Muestreo Estratificado: Se deben respetar
los estratos naturales de ciertas poblaciones: factor económico, nivel educacional,
Se debe respetar la dimensión del estrato, se elige una muestra aleatoria simple de cada
estrato.
1
Si el tamaño de los estratos es muy disímil se emplea es Muestreo estratificado de
asignación óptima, se selecciona de cada estrato una muestra de tamaño óptimo. Las
técnicas de muestreo corresponden a un capítulo de la estadística que se llama Diseño de
Experimentos.
En general, lo que más se emplea son los valores al azar, Random Numbers.
Teóricamente: una sucesión de valores es aleatoria si es igual a las muestras de sucesiones
de variables aleatorias independientes igualmente distribuidas definidas en el espacio de
pruebas repetidas.
Cada número de la secuencia es una variable aleatoria dentro del espacio muestral de
pruebas repetidas y todos igualmente probables e independientes.
Empíricamente: una sucesión de números es aleatoria si sus propiedades estadísticas son las
mismas que poseen los datos aleatorios obtenidos a partir del experimento aleatorio.
Existen una serie de técnicas estadísticas que nos permiten determinar si la secuencia de
variables aleatorias es realmente aleatoria o no.
Ejemplo:
Si se considera una variable aleatoria uniforme en un intervalo [a; b] , la secuencia de
valores al azar debe reunir las mismas características que admite la variable aleatoria y la
misma media y desvío.
En la computadora se trabaja en el intervalo [0,1].
Si partiéramos de una variable Poisson con parámetro, deberíamos partir de una
distribución uniforme. ¿Cómo se hace?.
F
1
x
X
Función de distribución acumulada.
Se selecciona un valor al azar en el intervalo [0,1] que representa un valor de función de
distribución acumulada se interpola luego un valor de x para obtener un valor de la variable
y así se obtienen el resto de los valores para el posterior análisis estadístico.
Distribución de la variable media muestral
A partir de una muestra se puede calcular, por ejemplo, el promedio de los valores
obtenidos.
n
X
X
i 1
i
y si la varianza de la población se conoce y es igual a V(X) entonces la
n
V (X )
V( X) 
n
2
y la distribución es aproximadamente normal si el tamaño de la muestra es grande en la
práctica se considera grande a un tamaño mayor o igual a 30.
Estimación puntual de parámetros
Los parámetros son constantes que caracterizan a la población que pueden ser desconocidos
y la inferencia estadística permite obtener alguna conclusión acerca de uno o más
parámetros.
Una estimación puntual de un parámetro  es un solo número que se obtiene al seleccionar
un estadístico adecuado y calcular su valor a partir de los datos muestrales seleccionados.
Lo simbolizaremos con ˆ .
Un estadístico, estimador o estadígrafo es una función que depende de la muestra, que no
involucra al parámetro desconocido ni a ningún otro parámetro que no se conozca.
Es una variable aleatoria con cierta distribución de probabilidad que en algunos casos se
puede encontrar.
ˆ = g(X1, X2,...,Xn)
Por ejemplo, para estimar la media poblacional usamos la media muestral
n
X
X
i 1
i
que es una variable aleatoria con su distribución de muestreo.
n
Una vez que se selecciona una muestra en particular se obtiene un valor numérico que
es un punto muestral.
Lo óptimo sería que ˆ fuera siempre igual al parámetro que estima, pero como ˆ es
una variable aleatoria en algunos casos lo sobreestima y en otros lo subestima y esto
cambia muestra a muestra que se selecciona para estimar un parámetro determinado.
Puede escribirse: ˆ =  +error de estimación
Un estimador preciso sería uno que dé como resultado errores de estimación pequeños,
de modo que los valores estimados estarán cerca del valor real.
Un estimador que tiene las propiedades de insesgamiento y varianza mínima, suele ser
preciso es este sentido.
Estimadores insesgados
Se dice que un estimador puntual ˆ es un estimador insesgado de  si E( ˆ )=  para
todo valor posible de  . Si ˆ no es insesgado, la diferencia E( ˆ )-  se llama sesgo de
ˆ y lo simbolizamos con la letra B.
Un ejemplo de estimador insesgado es la media muestral.
También, si
X1, X2,...,Xn, es una muestra de variables aleatorias con distribución de media
 y desvío  . Entonces el estimador
ˆ  S
2
3
2
X

X
2
i
n 1
Es insesgado, si se hubiera dividido por n no sería insesgado


2
Xi 
1 

2

S 
. X i 
n 1 
n


1 
1
E S2 
.. E ( X i2 )  E
n 1 
n
2
 
 
E S2 
 


 X  
2
i

  X   E  X  
1 
1
 2   2  .V


n 1 
n
2
i
i

1  2
1
1
2
n  n 2  n 2  n  

n 1 
n
n

1

n 2   2   2
n 1
E S2 
 
E S2


Estimadores con varianza mínima
Si entre los estimadores insesgados se elige uno de varianza mínima el estimador
resultante se llama estimador insesgado de varianza mínima que resulta ser el más
eficiente.
Además de informar el valor de la estimación puntual, se debe proporcionar alguna
indicación de la precisión. La medida usual de precisión es el error estándar del
estimador estimado, si por si mismo tiene que ver con parámetros desconocidos este
error también se estima.
Si un estimador no es insesgado una idea de la dispersión la brinda el error cuadrático
medio
ECM( ˆ ) = E( ˆ -  )2
ECM( ˆ ) = E( ˆ 2-2 ˆ  +  )
Aplicando las propiedades de la esperanza
ECM(ˆ ) = E( ˆ 2 ) - 2E ˆ    2 sumando y restando E( ˆ )2 y reescribiendo
2
ECM(ˆ ) = V( ˆ 2 )  B 2 siendo B    E ˆ 
Estimadores consistentes
Es razonable esperar que un buen estimador de un parámetro sea cada vez mejor
conforme crece el tamaño de la muestra. Esto es, conforme la información en una
muestra aleatoria es más completa, la estimación de muestreo se encuentra más
concentrada alrededor del parámetro lim P ˆn      1 este requisito se denomina
n 
convergencia en probabilidad
4


Otras propiedades de los estimadores así como su construcción no se evalúan en este
curso.
Algunas notas de Estadística
Cuantiles muestrales
Un cuantil  de F* es cualquier número x  , tal que F*(t)   si t < x  y que F*(t)  
si t > x 
Como F* es una escalera, los cuantiles no quedan unívocamente definidos.
Para que x  quede bien definido, y sea además una función creciente y continúa de  , se
introduce una modificación, definiendo:
x  = (1 − h) x(k) + h x(k+1) para ) para todo  del intervalo [1/2n, 1 − 1/2n]
donde k y h son respectivamente la parte entera y la parte fraccionaria de u = n.  +0.5; o
sea, k = [u] y h = u − [u].
Para  = 0.5 se tiene la mediana muestral. Si n es par, n = 2m con m entero, lo
que implica u = m + 0.5, y por lo tanto k = m = n/2 y h = 0.5, con lo que resulta
x*0.5 = (x(k) + x(k+1))/2, o sea, el promedio de las dos observaciones centrales. Si n es
impar: n = 2m− 1, que implica u = m = (n + 1)/2, y por lo tanto k = m y h = 0, de lo
que resulta x0.5 = x(m) , o sea, la observación central.
5