Download Objetivos 1. Muestreo e Inferencia Estadística

Document related concepts
no text concepts found
Transcript
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Tema 6:
Introducción a la Inferencia Estadística
Ob jetivos
Introducir los conceptos elementales en esta parte de la asignatura.
Tratar con muestras aleatorias y su distribución muestral en ejemplos de tamaño
reducido.
Conocer la distribución de la media muestral.
Conocer los procedimientos usuales de inferencia paramétrica.
1.
Muestreo e Inferencia Estadística
Los procedimientos de Inferencia Estadística permiten establecer conclusiones
acerca de una población, a partir de las propiedades estudiadas en una muestra de
ella. Además, como dichas conclusiones dependen de sucesos aleatorios, se les asociará
un nivel de conanza o de verosimilitud.
Respecto del objetivo que resuelve, las técnicas de Inferencia Estadística se clasican
en:
Resuelve objetivos relacionados con parámetros de la población (media, varianzas, proporciones, etc.,) es decir, se conoce el
tipo de distribución de probabilidad asociado a dicha población aunque se desconoce algún parámetro de dicho modelo. Por ejemplo, podemos suponer que los
pesos de los recién nacidos de madres diabéticas son normales, pero de media y/o
varianza desconocidas. O podemos suponer que el número de mensajes por minuto
que llegan a un servidor de correo electrónico sigue un modelo de Poisson pero de
parámetro λ desconocido.
Técnicas de Inferencia Paramétrica
Resuelve objetivos relacionados con el tipo de distribución de probabilidad asociado a la población u otros objetivos no
relacionados directamente con parámetros. Estos procedimientos no se estudiarán.
Técnicas de Inferencia No Paramétrica
Para resolver un problema de Inferencia Paramétrica se usan tres tipos de procedimientos:
Obtenemos valores aproximados del parámetro desconocido y
una medida del error asociado.
Estimación Puntual
Obtenemos un intervalo de valores, que contiene al verdadero valor del parámetro con probabilidad prejada por nosotros.
Estimación por Intervalos
Obtenemos la aceptación o el rechazo de una hipótesis relacionada
con el parámetro desconocido, con niveles de error controlados.
Test de Hipótesis
Tema 6
Página: 1
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Ejemplos de problemas de inferencia paramétrica serán los siguientes: Conocer el
nivel de apoyo de los ciudadanos a la gestión del gobierno, la cantidad de glucosa por
100 g de un nuevo tipo de mermelada, o las diferencias salariales entre hombres y mujeres.
En estos y en otros muchos posibles problemas sería imposible observar las variables
de interés en todos los individuos de la población, por lo que habremos de establecer
nuestras conclusiones a partir del estudio una parte de la población, es decir, a partir de
una muestra de individuos de la misma.
Llamaremos muestreo al procedimiento mediante el cual seleccionamos una muestra
para llevar a cabo un estudio determinado. Básicamente podemos hablar de muestreo
intencional o no aleatorio y muestreo aleatorio. En el primero la persona que
realiza el estudio decide qué individuos de la población formarán parte de la muestra
mientras que en el segundo se incorpora el azar como recurso en el proceso de selección
y sería posible asignar una probabilidad a cada una de las posibles muestras que pueden
ser extraídas de la población. En principio es más recomendable el muestreo aleatorio
pues el muestreo intencional puede dar lugar a conclusiones sesgadas. Por otra parte,
se requiere que la muestra sea representativa de toda la población y que el tamaño de
la misma sea el adecuado para que los posibles errores en nuestras conclusiones estén
controlados de antemano.
Hay muchas maneras de seleccionar una muestra y que ésta sea aleatoria, sin embargo
nosotros deniremos únicamente el muestreo aleatorio simple.
Decimos que una muestra es aleatoria simple de tamaño n si se obtuvo de forma
aleatoria de una población innita o de una población nita con reemplazamiento.
Lo anterior signica que las observaciones han de provenir de la misma población y
ser independientes unas de otras, por lo que en poblaciones nitas habrá que extraerlas
sucesivamente y con reposición.
Sin embargo, en los problemas de inferencia estadística trataremos más con el concepto de muestra aleatoria simple procedente de una variable aleatoria X , concepto que
surge en el caso particular de que la población de la que estamos extrayendo individuos
para formar parte de la muestra sea precisamente el espacio muestral de la variable X .
Decimos que (X1 , ....., Xn ) es una muestra aleatoria simple de tamaño n procedente de
la variable aleatoria X si cada Xi sigue el mismo modelo de probabilidad que X y son
mutuamente independientes. Al igual que X = x signica que se ha observado X y que se
ha obtenido del punto muestral x, la expresión (X1 , ....., Xn ) = (x1 , ....., xn ) signica que
se ha observado la variable X n veces produciendo una muestra de n puntos muestrales,
donde el subíndice i lo podemos asociar al orden en que han sido obtenidos dichos puntos.
Lo anterior signica, entre otras cosas, que si E(X) = µ y D(X) = σ , entonces
E(Xi ) = µ y D(Xi ) = σ para todo i = 1, ...., n. O que si X sigue un cierto modelo,
también lo harían cada una de las Xi .
Ejemplo 1.1 En una urna tenemos 50 bolas blancas, 30 rojas y 20 verdes. Supongamos
que queremos extraer una muestra aleatoria simple de tamaño dos (X1 , X2 ), (muestras
de tamaño 2 con reemplazamiento). Si sólo nos interesa el color de las bolas, sólo hay 32
muestras posibles. En la siguiente tabla aparecen las muestras posibles y las probabilidades
asociadas a cada una de tales muestras.
Tema 6
Página: 2
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
2 blancas (0.25)
1 roja y una blanca (0.15) 1 verde y una blanca (0.10)
1 blanca y 1 roja (0.15) 2 rojas (0.09)
1 roja y 1 verde (0.06)
1 blanca y 1 verde (0.10) 1 verde y 1 roja (0.06)
2 verdes (0.04)
Supongamos una moneda de la que desconocemos la probabilidad de cara.
Sea X una variable aleatoria con distribución de Bernoulli de parámetro p, donde p es la
probabilidad de cara. Para estimar dicha probabilidad lo haremos en base a una muestra
aleatoria simple procedente de dicha variable X de tamaño 25 (X1 , ....., X25 ). En este
caso, la población (espacio muestral de la variable X ) consta de dos puntos muestrales
χ = {0, 1} y sin embargo hay en total 225 = 33554432 posibles muestras aleatorias
simples de tamaño 25.
Por ejemplo, (X1 , ....., X25 ) = (0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1)
es una posible muestra pero nos haría falta mucho tiempo y mucho papel si quisiéramos
ponerlas todas ellas. En denitiva, cualquier sucesión de ceros y unos será una una posible muestra. Sin embargo, lo auténticamente relevante para estimar la probabilidad de
cara p no es la sucesión de ceros y de unos, sino el número de ceros y de unos. En
particular, la muestra anterior tiene 15 ceros y 10 unos.
Ejemplo 1.2
Ejemplo 1.3 Supongamos que la cuantiad de azúcar utilizada para la elaboración de
100 g. de mermelada es una variable aleatoria X donde X ∼ N (µ, σ = 10) y µ es
desconocido. Pongamos que, con la nalidad de estimar el contenido medio de azúcar
µ, se usa una muestra aleatoria simple de tamaño 16 (X1 , ....., X16 ) procedente de X .
Podemos tomar 16 muestras de dicha variable X y obtener 80.98, 73.84, 75.93, 56.91,
86.66, 83.49, 76.28, 78.72, 65.03, 64.08, 72.52, 69.77, 68.37, 72.44, 68.80, 62.43. Aquí,
el conjunto de valores posibles de la variable X es innito y por tanto también es innito
el número de posibles muestras de tamaño 16.
2.
Estadísticos y Distribución en el muestreo
Si (X1 , ...., Xn ) es una m.a.s. procedente de X , cualquier función real de la muestra
H(X1 , ...., Xn ) = H se denomina estadístico.
Un estadístico es por tanto una variable aleatoria y como tal posee su distribución
de probabilidad. Ésta se denomina Distribución del estadístico en el muestreo.
Un ejemplo importante de estadístico es el denominado media muestral que se
denotará como X y se dene como
Pn
X=
i=1
Xi
n
Este estadístico se usa para estimar el valor de la media teórica E(X) cuando ésta es
desconocida. Muchos estadísticos, como la media muestral, se usan como estimadores,
es decir, para proporcionar valores aproximados de ciertos parámetros desconocidos. Los
valores que proporcionan como aproximaciones de dichos parámetros se llaman estimaciones.
Si del ejemplo 1.1, las bolas blancas llevan un 1, las rojas un 2 y las verdes
2
un 3, la media muestral X = X1 +X
posee una distribución de probabilidad en el
2
muestreo que es la siguiente:
Ejemplo 2.1
Tema 6
Página: 3
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
x
p(X = x)
Universidad de Murcia
1
1.5 2
2.5 3
0.25 0.30 0.29 0.12 0.04
Es decir, a partir de una muestra de tamaño 2, los únicos valores de la media muestral
son los de la tabla anterior con sus probabilidades respectivas; sin embargo, si calculamos
la media poblacional µ = E(X)
E(X) = 1 × 0.5 + 2 × 0.3 + 3 × 0.2 = 1.7
Es decir, ninguna posible estimación, a partir de una muestra de tamaño 2, proporcionaría el valor exacto de la media.
Es intuitivo pensar que conforme el tamaño de la muestra crece, es ésta más representativa de la población, y podremos hallar estimaciones mejores de los parámetros
desconocidos. Al menos, si deberíamos de evaluar, en cada caso, el posible error que se
comete cuando damos una estimación de un parámetro desconocido.
3.
Ejemplos de Estadísticos útiles para inferencia
En los ejemplos siguientes se supone una muestra aleatoria simple (X1 , ...., Xn ) de
tamaño n procedente de X para denir los estadísticos siguientes:
Si X ∼ N (µ, σ):
ˆ Si σ es conocida
Z=
X̄ − µ
∼ N (0, 1)
√σ
n
El numerador de esta expresión marca la diferencia entre la media muestral,
que ofrece valores aproximados del parámetro µ, y el propio parámetro µ,
mientras que el denominador √σn es la desviación típica de la media.
ˆ Si la distribución de X no es normal o σ es desconocida pero n es grande,
n > 20,
Z=
X̄ − µ
∼ N (0, 1)
√S
n
aproximadamente, donde
s
S=
Pn
− X)2
n−1
i=1 (Xi
es la cuasi desviación típica.
En este caso, al denominador √Sn se le llama error
típico de la media
Si X ∼ B(p) (Bernoulli), donde p = P (A)
ˆ Si n ≥ 20,
X̄ − p
Z=q
∼ N (0, 1)
p(1−p)
n
aproximadamente.
Tema 6
Página: 4
M. Iniesta
Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
ˆ En esta situación X̄ indica la frecuencia relativa del suceso A, es decir, la
proporción del número de veces que sucede A en n pruebas independientes y
que también denotaremos mediante pb.
Si X ∼ P(λ)
ˆ Si n ≥ 20,
X −λ
∼ N (0, 1)
Z=p
λ/n
aproximadamente.
4.
Bibliografía
1. Tema 4, sección 1 del texto Estadística para Ciencias Agropecuarias. Autor: Di
Riezo, J. A.
2. Tema 3, sección 1 del texto Probabilidad y Estadística para Ciencias e Ingenierías.
Rosario Delgado de la Torre. Editorial Delta.
3. Tema 4, sección 10 del texto Estadística para ingenieros y cientícos. William
Navidi. Editorial McGraw-Hill.
Tema 6
Página: 5