Download Objetivos 1. Muestreo e Inferencia Estadística
Document related concepts
no text concepts found
Transcript
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Tema 6: Introducción a la Inferencia Estadística Ob jetivos Introducir los conceptos elementales en esta parte de la asignatura. Tratar con muestras aleatorias y su distribución muestral en ejemplos de tamaño reducido. Conocer la distribución de la media muestral. Conocer los procedimientos usuales de inferencia paramétrica. 1. Muestreo e Inferencia Estadística Los procedimientos de Inferencia Estadística permiten establecer conclusiones acerca de una población, a partir de las propiedades estudiadas en una muestra de ella. Además, como dichas conclusiones dependen de sucesos aleatorios, se les asociará un nivel de conanza o de verosimilitud. Respecto del objetivo que resuelve, las técnicas de Inferencia Estadística se clasican en: Resuelve objetivos relacionados con parámetros de la población (media, varianzas, proporciones, etc.,) es decir, se conoce el tipo de distribución de probabilidad asociado a dicha población aunque se desconoce algún parámetro de dicho modelo. Por ejemplo, podemos suponer que los pesos de los recién nacidos de madres diabéticas son normales, pero de media y/o varianza desconocidas. O podemos suponer que el número de mensajes por minuto que llegan a un servidor de correo electrónico sigue un modelo de Poisson pero de parámetro λ desconocido. Técnicas de Inferencia Paramétrica Resuelve objetivos relacionados con el tipo de distribución de probabilidad asociado a la población u otros objetivos no relacionados directamente con parámetros. Estos procedimientos no se estudiarán. Técnicas de Inferencia No Paramétrica Para resolver un problema de Inferencia Paramétrica se usan tres tipos de procedimientos: Obtenemos valores aproximados del parámetro desconocido y una medida del error asociado. Estimación Puntual Obtenemos un intervalo de valores, que contiene al verdadero valor del parámetro con probabilidad prejada por nosotros. Estimación por Intervalos Obtenemos la aceptación o el rechazo de una hipótesis relacionada con el parámetro desconocido, con niveles de error controlados. Test de Hipótesis Tema 6 Página: 1 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Ejemplos de problemas de inferencia paramétrica serán los siguientes: Conocer el nivel de apoyo de los ciudadanos a la gestión del gobierno, la cantidad de glucosa por 100 g de un nuevo tipo de mermelada, o las diferencias salariales entre hombres y mujeres. En estos y en otros muchos posibles problemas sería imposible observar las variables de interés en todos los individuos de la población, por lo que habremos de establecer nuestras conclusiones a partir del estudio una parte de la población, es decir, a partir de una muestra de individuos de la misma. Llamaremos muestreo al procedimiento mediante el cual seleccionamos una muestra para llevar a cabo un estudio determinado. Básicamente podemos hablar de muestreo intencional o no aleatorio y muestreo aleatorio. En el primero la persona que realiza el estudio decide qué individuos de la población formarán parte de la muestra mientras que en el segundo se incorpora el azar como recurso en el proceso de selección y sería posible asignar una probabilidad a cada una de las posibles muestras que pueden ser extraídas de la población. En principio es más recomendable el muestreo aleatorio pues el muestreo intencional puede dar lugar a conclusiones sesgadas. Por otra parte, se requiere que la muestra sea representativa de toda la población y que el tamaño de la misma sea el adecuado para que los posibles errores en nuestras conclusiones estén controlados de antemano. Hay muchas maneras de seleccionar una muestra y que ésta sea aleatoria, sin embargo nosotros deniremos únicamente el muestreo aleatorio simple. Decimos que una muestra es aleatoria simple de tamaño n si se obtuvo de forma aleatoria de una población innita o de una población nita con reemplazamiento. Lo anterior signica que las observaciones han de provenir de la misma población y ser independientes unas de otras, por lo que en poblaciones nitas habrá que extraerlas sucesivamente y con reposición. Sin embargo, en los problemas de inferencia estadística trataremos más con el concepto de muestra aleatoria simple procedente de una variable aleatoria X , concepto que surge en el caso particular de que la población de la que estamos extrayendo individuos para formar parte de la muestra sea precisamente el espacio muestral de la variable X . Decimos que (X1 , ....., Xn ) es una muestra aleatoria simple de tamaño n procedente de la variable aleatoria X si cada Xi sigue el mismo modelo de probabilidad que X y son mutuamente independientes. Al igual que X = x signica que se ha observado X y que se ha obtenido del punto muestral x, la expresión (X1 , ....., Xn ) = (x1 , ....., xn ) signica que se ha observado la variable X n veces produciendo una muestra de n puntos muestrales, donde el subíndice i lo podemos asociar al orden en que han sido obtenidos dichos puntos. Lo anterior signica, entre otras cosas, que si E(X) = µ y D(X) = σ , entonces E(Xi ) = µ y D(Xi ) = σ para todo i = 1, ...., n. O que si X sigue un cierto modelo, también lo harían cada una de las Xi . Ejemplo 1.1 En una urna tenemos 50 bolas blancas, 30 rojas y 20 verdes. Supongamos que queremos extraer una muestra aleatoria simple de tamaño dos (X1 , X2 ), (muestras de tamaño 2 con reemplazamiento). Si sólo nos interesa el color de las bolas, sólo hay 32 muestras posibles. En la siguiente tabla aparecen las muestras posibles y las probabilidades asociadas a cada una de tales muestras. Tema 6 Página: 2 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia 2 blancas (0.25) 1 roja y una blanca (0.15) 1 verde y una blanca (0.10) 1 blanca y 1 roja (0.15) 2 rojas (0.09) 1 roja y 1 verde (0.06) 1 blanca y 1 verde (0.10) 1 verde y 1 roja (0.06) 2 verdes (0.04) Supongamos una moneda de la que desconocemos la probabilidad de cara. Sea X una variable aleatoria con distribución de Bernoulli de parámetro p, donde p es la probabilidad de cara. Para estimar dicha probabilidad lo haremos en base a una muestra aleatoria simple procedente de dicha variable X de tamaño 25 (X1 , ....., X25 ). En este caso, la población (espacio muestral de la variable X ) consta de dos puntos muestrales χ = {0, 1} y sin embargo hay en total 225 = 33554432 posibles muestras aleatorias simples de tamaño 25. Por ejemplo, (X1 , ....., X25 ) = (0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1) es una posible muestra pero nos haría falta mucho tiempo y mucho papel si quisiéramos ponerlas todas ellas. En denitiva, cualquier sucesión de ceros y unos será una una posible muestra. Sin embargo, lo auténticamente relevante para estimar la probabilidad de cara p no es la sucesión de ceros y de unos, sino el número de ceros y de unos. En particular, la muestra anterior tiene 15 ceros y 10 unos. Ejemplo 1.2 Ejemplo 1.3 Supongamos que la cuantiad de azúcar utilizada para la elaboración de 100 g. de mermelada es una variable aleatoria X donde X ∼ N (µ, σ = 10) y µ es desconocido. Pongamos que, con la nalidad de estimar el contenido medio de azúcar µ, se usa una muestra aleatoria simple de tamaño 16 (X1 , ....., X16 ) procedente de X . Podemos tomar 16 muestras de dicha variable X y obtener 80.98, 73.84, 75.93, 56.91, 86.66, 83.49, 76.28, 78.72, 65.03, 64.08, 72.52, 69.77, 68.37, 72.44, 68.80, 62.43. Aquí, el conjunto de valores posibles de la variable X es innito y por tanto también es innito el número de posibles muestras de tamaño 16. 2. Estadísticos y Distribución en el muestreo Si (X1 , ...., Xn ) es una m.a.s. procedente de X , cualquier función real de la muestra H(X1 , ...., Xn ) = H se denomina estadístico. Un estadístico es por tanto una variable aleatoria y como tal posee su distribución de probabilidad. Ésta se denomina Distribución del estadístico en el muestreo. Un ejemplo importante de estadístico es el denominado media muestral que se denotará como X y se dene como Pn X= i=1 Xi n Este estadístico se usa para estimar el valor de la media teórica E(X) cuando ésta es desconocida. Muchos estadísticos, como la media muestral, se usan como estimadores, es decir, para proporcionar valores aproximados de ciertos parámetros desconocidos. Los valores que proporcionan como aproximaciones de dichos parámetros se llaman estimaciones. Si del ejemplo 1.1, las bolas blancas llevan un 1, las rojas un 2 y las verdes 2 un 3, la media muestral X = X1 +X posee una distribución de probabilidad en el 2 muestreo que es la siguiente: Ejemplo 2.1 Tema 6 Página: 3 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos x p(X = x) Universidad de Murcia 1 1.5 2 2.5 3 0.25 0.30 0.29 0.12 0.04 Es decir, a partir de una muestra de tamaño 2, los únicos valores de la media muestral son los de la tabla anterior con sus probabilidades respectivas; sin embargo, si calculamos la media poblacional µ = E(X) E(X) = 1 × 0.5 + 2 × 0.3 + 3 × 0.2 = 1.7 Es decir, ninguna posible estimación, a partir de una muestra de tamaño 2, proporcionaría el valor exacto de la media. Es intuitivo pensar que conforme el tamaño de la muestra crece, es ésta más representativa de la población, y podremos hallar estimaciones mejores de los parámetros desconocidos. Al menos, si deberíamos de evaluar, en cada caso, el posible error que se comete cuando damos una estimación de un parámetro desconocido. 3. Ejemplos de Estadísticos útiles para inferencia En los ejemplos siguientes se supone una muestra aleatoria simple (X1 , ...., Xn ) de tamaño n procedente de X para denir los estadísticos siguientes: Si X ∼ N (µ, σ): Si σ es conocida Z= X̄ − µ ∼ N (0, 1) √σ n El numerador de esta expresión marca la diferencia entre la media muestral, que ofrece valores aproximados del parámetro µ, y el propio parámetro µ, mientras que el denominador √σn es la desviación típica de la media. Si la distribución de X no es normal o σ es desconocida pero n es grande, n > 20, Z= X̄ − µ ∼ N (0, 1) √S n aproximadamente, donde s S= Pn − X)2 n−1 i=1 (Xi es la cuasi desviación típica. En este caso, al denominador √Sn se le llama error típico de la media Si X ∼ B(p) (Bernoulli), donde p = P (A) Si n ≥ 20, X̄ − p Z=q ∼ N (0, 1) p(1−p) n aproximadamente. Tema 6 Página: 4 M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia En esta situación X̄ indica la frecuencia relativa del suceso A, es decir, la proporción del número de veces que sucede A en n pruebas independientes y que también denotaremos mediante pb. Si X ∼ P(λ) Si n ≥ 20, X −λ ∼ N (0, 1) Z=p λ/n aproximadamente. 4. Bibliografía 1. Tema 4, sección 1 del texto Estadística para Ciencias Agropecuarias. Autor: Di Riezo, J. A. 2. Tema 3, sección 1 del texto Probabilidad y Estadística para Ciencias e Ingenierías. Rosario Delgado de la Torre. Editorial Delta. 3. Tema 4, sección 10 del texto Estadística para ingenieros y cientícos. William Navidi. Editorial McGraw-Hill. Tema 6 Página: 5