Download Teoría del muestreo
Document related concepts
Transcript
Suma de variables aleatorias Normales Sean X1, X2,...,Xn, variables aleatorias con distribución normal de media n i y desvío i entoncesladistribuci óndeX X i es normal con parámetros : i 1 n n i 1 i 1 X i y V(X) V X i Si 1 2 ... n y 1 2 ... n entonces los parámetros de X son X n. y V(X) n. V(X i ) Teorema Central del Límite Sean X1, X2,...,Xn, variables aleatorias con finitas media y varianzas conocidas y n i (es la media de la variable X i y su desvío i entoncesladistribuci óndeX X i i 1 se aproxima a la distribuci ón normal, cuando el tamaño de la muestra tiende a infinito, con parámetros : n n i 1 i 1 X i y V(X) V X i Si 1 2 ... n y 1 2 ... n entonces los parámetros de X son X n. y V(X) n. V(X i ) Teoría del muestreo Muestra: Es un subconjunto de elementos de la población. Cada elemento representa una variable aleatoria y cada una de las variables son independientes y se encuentran idénticamente distribuidas. Selección de una muestra: 1. Aleatoria: cualquier elemento de la población tiene la misma posibilidad de ser elegido. 2. Representativa: si la población presenta rasgos peculiares la muestra debe reflejar este comportamiento. Método aleatorio simple: la población debe ser factible de ser ordenada, listada. Ejemplo: para elegir 100 personas de un archivo se selecciona al azar el primero y luego se eligen los 99 siguientes. La aleatoriedad está dada por el primer valor que se llama semilla. ( Si se eligiera este método para personas de la guía de teléfono podría seleccionar todos los de la letra C). Muestreo al azar sistemático: Se elige al azar el primer valor o semilla y además en forma arbitraria un cierto valor, por ejemplo 5. El primero es al azar y luego se seleccionan de a 5. Estos tipos de selección se emplean cuando se dispone de una población homogénea. Si la distribución no es homogénea se emplea: Muestreo Estratificado: Se deben respetar los estratos naturales de ciertas poblaciones: factor económico, nivel educacional, Se debe respetar la dimensión del estrato, se elige una muestra aleatoria simple de cada estrato. 1 Si el tamaño de los estratos es muy disímil se emplea es Muestreo estratificado de asignación óptima, se selecciona de cada estrato una muestra de tamaño óptimo. Las técnicas de muestreo corresponden a un capítulo de la estadística que se llama Diseño de Experimentos. En general, lo que más se emplea son los valores al azar, Random Numbers. Teóricamente: una sucesión de valores es aleatoria si es igual a las muestras de sucesiones de variables aleatorias independientes igualmente distribuidas definidas en el espacio de pruebas repetidas. Cada número de la secuencia es una variable aleatoria dentro del espacio muestral de pruebas repetidas y todos igualmente probables e independientes. Empíricamente: una sucesión de números es aleatoria si sus propiedades estadísticas son las mismas que poseen los datos aleatorios obtenidos a partir del experimento aleatorio. Existen una serie de técnicas estadísticas que nos permiten determinar si la secuencia de variables aleatorias es realmente aleatoria o no. Ejemplo: Si se considera una variable aleatoria uniforme en un intervalo [a; b] , la secuencia de valores al azar debe reunir las mismas características que admite la variable aleatoria y la misma media y desvío. En la computadora se trabaja en el intervalo [0,1]. Si partiéramos de una variable Poisson con parámetro, deberíamos partir de una distribución uniforme. ¿Cómo se hace?. F 1 x X Función de distribución acumulada. Se selecciona un valor al azar en el intervalo [0,1] que representa un valor de función de distribución acumulada se interpola luego un valor de x para obtener un valor de la variable y así se obtienen el resto de los valores para el posterior análisis estadístico. Distribución de la variable media muestral A partir de una muestra se puede calcular, por ejemplo, el promedio de los valores obtenidos. n X X i 1 i y si la varianza de la población se conoce y es igual a V(X) entonces la n V (X ) V( X) n 2 y la distribución es aproximadamente normal si el tamaño de la muestra es grande en la práctica se considera grande a un tamaño mayor o igual a 30. Estimación puntual de parámetros Los parámetros son constantes que caracterizan a la población que pueden ser desconocidos y la inferencia estadística permite obtener alguna conclusión acerca de uno o más parámetros. Una estimación puntual de un parámetro es un solo número que se obtiene al seleccionar un estadístico adecuado y calcular su valor a partir de los datos muestrales seleccionados. Lo simbolizaremos con ˆ . Un estadístico, estimador o estadígrafo es una función que depende de la muestra, que no involucra al parámetro desconocido ni a ningún otro parámetro que no se conozca. Es una variable aleatoria con cierta distribución de probabilidad que en algunos casos se puede encontrar. ˆ = g(X1, X2,...,Xn) Por ejemplo, para estimar la media poblacional usamos la media muestral n X X i 1 i que es una variable aleatoria con su distribución de muestreo. n Una vez que se selecciona una muestra en particular se obtiene un valor numérico que es un punto muestral. Lo óptimo sería que ˆ fuera siempre igual al parámetro que estima, pero como ˆ es una variable aleatoria en algunos casos lo sobreestima y en otros lo subestima y esto cambia muestra a muestra que se selecciona para estimar un parámetro determinado. Puede escribirse: ˆ = +error de estimación Un estimador preciso sería uno que dé como resultado errores de estimación pequeños, de modo que los valores estimados estarán cerca del valor real. Un estimador que tiene las propiedades de insesgamiento y varianza mínima, suele ser preciso es este sentido. Estimadores insesgados Se dice que un estimador puntual ˆ es un estimador insesgado de si E( ˆ )= para todo valor posible de . Si ˆ no es insesgado, la diferencia E( ˆ )- se llama sesgo de ˆ y lo simbolizamos con la letra B. Un ejemplo de estimador insesgado es la media muestral. También, si X1, X2,...,Xn, es una muestra de variables aleatorias con distribución de media y desvío . Entonces el estimador ˆ S 2 3 2 X X 2 i n 1 Es insesgado, si se hubiera dividido por n no sería insesgado 2 Xi 1 2 S . X i n 1 n 1 1 E S2 .. E ( X i2 ) E n 1 n 2 E S2 X 2 i X E X 1 1 2 2 .V n 1 n 2 i i 1 2 1 1 2 n n 2 n 2 n n 1 n n 1 n 2 2 2 n 1 E S2 E S2 Estimadores con varianza mínima Si entre los estimadores insesgados se elige uno de varianza mínima el estimador resultante se llama estimador insesgado de varianza mínima que resulta ser el más eficiente. Además de informar el valor de la estimación puntual, se debe proporcionar alguna indicación de la precisión. La medida usual de precisión es el error estándar del estimador estimado, si por si mismo tiene que ver con parámetros desconocidos este error también se estima. Si un estimador no es insesgado una idea de la dispersión la brinda el error cuadrático medio ECM( ˆ ) = E( ˆ - )2 ECM( ˆ ) = E( ˆ 2-2 ˆ + ) Aplicando las propiedades de la esperanza ECM(ˆ ) = E( ˆ 2 ) - 2E ˆ 2 sumando y restando E( ˆ )2 y reescribiendo 2 ECM(ˆ ) = V( ˆ 2 ) B 2 siendo B E ˆ Estimadores consistentes Es razonable esperar que un buen estimador de un parámetro sea cada vez mejor conforme crece el tamaño de la muestra. Esto es, conforme la información en una muestra aleatoria es más completa, la estimación de muestreo se encuentra más concentrada alrededor del parámetro lim P ˆn 1 este requisito se denomina n convergencia en probabilidad 4 Otras propiedades de los estimadores así como su construcción no se evalúan en este curso. Algunas notas de Estadística Cuantiles muestrales Un cuantil de F* es cualquier número x , tal que F*(t) si t < x y que F*(t) si t > x Como F* es una escalera, los cuantiles no quedan unívocamente definidos. Para que x quede bien definido, y sea además una función creciente y continúa de , se introduce una modificación, definiendo: x = (1 − h) x(k) + h x(k+1) para ) para todo del intervalo [1/2n, 1 − 1/2n] donde k y h son respectivamente la parte entera y la parte fraccionaria de u = n. +0.5; o sea, k = [u] y h = u − [u]. Para = 0.5 se tiene la mediana muestral. Si n es par, n = 2m con m entero, lo que implica u = m + 0.5, y por lo tanto k = m = n/2 y h = 0.5, con lo que resulta x*0.5 = (x(k) + x(k+1))/2, o sea, el promedio de las dos observaciones centrales. Si n es impar: n = 2m− 1, que implica u = m = (n + 1)/2, y por lo tanto k = m y h = 0, de lo que resulta x0.5 = x(m) , o sea, la observación central. 5