Download INFERENCIA ESTADISTICA El campo de la inferencia estadística

Document related concepts

Intervalo de confianza wikipedia , lookup

Estimador wikipedia , lookup

Estimación estadística wikipedia , lookup

Error estándar wikipedia , lookup

Distribución t de Student wikipedia , lookup

Transcript
INFERENCIA ESTADISTICA
El campo de la inferencia estadística está formado por los métodos utilizados para tomar
decisiones o para obtener conclusiones sobre una población. Estos métodos utilizan la
información contenida en una muestra de la población para obtener conclusiones.
La inferencia estadística puede dividirse en dos grandes áreas: Estimación de Parámetros y
Prueba de Hipótesis.
Estimación de Parámetros
Como ya hemos visto, a partir de los estadísticos que hemos obtenido en las muestras
queremos obtener una idea de los valores de los parámetros en la población.
Se trata de emplear los estadísticos para estimar los parámetros.
Veremos DOS tipos de estimadores:
1) Estimación puntual. Aquí obtendremos un punto, un valor, como estimación del
parámetro.
2) Estimación por intervalos. Aquí obtendremos un intervalo dentro del cual
estimamos (bajo cierta probabilidad) estará el parámetro.
Interpretación de los intervalos de confianza
Un intervalo de confianza se puede interpretar de dos maneras diferentes.
Ejemplo: una directora de tiendas cree que el gasto medio de sus clientes en el último año
se encuentra en el intervalo de 35 a 38 dólares y concede una confianza del 95% a ese
intervalo.
· Interpretación 1: confía al 95% en que la media poblacional se encuentra entre 35 y 38
dólares.
Nota: no significa que haya una probabilidad de 0.95 de que μ se encuentre entre 35 y 38
dólares. En sentido apriorístico (antes de formar el intervalo de confianza) hay una
probabilidad de 0.95 de construir un intervalo que contenga a la media μ, pero una vez
fijado el intervalo, μ está o no está comprendido en él, es decir, el 0.95 de probabilidad se
asigna a nuestro grado de confianza de que el intervalo contenga a μ, no a la probabilidad
de que esté en él.
· Interpretación 2: si se construyen todos los intervalos de confianza posibles, el 95% de
ellos incluirá el parámetro desconocido.
CONOCIMIENTOS PREVIOS
Distribuciones de muestreo:
La inferencia estadística tiene que ver con la toma de decisiones sobre una población, con
base en la información contenida en una muestra aleatoria de ésta. Por ejemplo
supóngase que se tiene interés en el volumen promedio de un envase de refresco. Se
requiere que el volumen promedio de la población sea 300 ml. Un ingeniero toma una
muestra aleatoria de 25 envases y calcula el volumen promedio en la muestra, el cual

resulta ser X = 298 ml. Es probable que el ingeniero decida que la media de la población
es μ=300 ml, a pesar de que la media de la muestra es 298 ml, ya que sabe que la media
muestral, es un estimador razonable de μ y que es muy probable obtener una media
muestral de 298 ml, incluso si la media verdadera de la población es μ=300 ml. De hecho,
si la media verdadera es 300 ml, entonces la prueba puede repetirse con 25 envases,

quizás cada cinco minutos, lo que producirá valores de X que estarán por encima y por
debajo de μ=300 ml.
La media muestral es un estadístico, esto es, una variable aleatoria que depende de los
resultados obtenidos en cada muestra particular. Dado que un estadístico es una variable
aleatoria entonces tiene una distribución de probabilidad en donde cada variable aleatoria
está distribuida normal e independientemente, y es llamada Distribución de muestro de
la media, con media
μ y varianza
, para una muestra de tamaño n.
La distribución de muestreo de un estadístico depende de la distribución de la población,
del tamaño de la muestra y del método utilizado para seleccionar ésta.
Teorema del límite central:
Si se muestrea una población que tiene una distribución de probabilidad desconocida, la
distribución de muestreo de la media muestral seguirá siendo aproximadamente normal
con media μ y varianza
, si el tamaño de la muestra n es grande (n>30). De esta forma
se llega a la siguiente definición:
Si X1, X2,…,Xn es una muestra aleatoria de tamaño n tomada de una población (finita o

infinita) con media μ y varianza
, y si X es la media muestral, entonces la forma límite
de la distribución de
Cuando n
, es la distribución normal estándar.
La Distribución t de Student.
En la generalidad de los casos, no disponemos de la desviación standard de la población,
sino de una estimación calculada a partir de una muestra extraída de la misma y por lo
tanto no podemos calcular Z.
En estos casos calculamos el estadístico T:
con
donde S es la desviación standard muestral, calculada con n-1
grados de libertad.
Nótese que utilizamos S, la Desviación Standard de una Muestra, en lugar de σ, la
Desviación Standard de la Población.
El estadístico T tiene una distribución que se denomina distribución T de Student, que está
tabulada para 1, 2, 3, ... etc. grados de libertad de la muestra con la cual se calculó la
desviación standard. La distribución T tiene en cuenta la incertidumbre en la estimación
de la desviación standard de la población, porque en realidad la tabla de T contiene las
distribuciones de probabilidades para distintos grados de libertad.
La distribución T es más ancha que la distribución normal estándar para un número de
grados de libertad pequeño. Cuando los grados de libertad tienden a infinito, la
distribución T tiende a coincidir con la distribución normal standard. Es decir, en la medida
que aumentemos el número de observaciones de la muestra, la desviación standard
calculada estará más próxima a la desviación standard de la población y entonces la
distribución T correspondiente se acerca a la distribución normal standard. El uso de la
distribución T presupone que la población con que estamos trabajando tiene una
distribución normal.
La tabla IV suministrada anexa al final proporciona los puntos críticos de la distribución t.
Sea t α , v
el valor de la variable aleatorio T con v =n-1 grados de libertad para el que se
tiene un área (o probabilidad) α. Por tanto t α , v es un punto crítico en la cola superior de
la distribución t con v grados de libertad. La figura abajo muestra este punto crítico.
α
t 1-α , v = - t α , v
α
μ =0
Punto crítico superior = t α , v
En la tabla IV los valores α son los encabezados de las columnas, mientras que los grados
de libertad aparecen en la columna de la parte izquierda. Para ilustrar el uso de la tabla,
nótese que el valor t con 10 grados de libertad que tiene un área de 0.05 a la derecha es t
0.05 , 10 = 1.812. Esto es:
Puesto que la distribución t es simétrica con respecto a cero, se tiene que t 1-α = - t α ; esto
es, el valor t corresponde a un área de 1-α a la derecha (y por tanto un área α a la
izquierda) es igual al negativo del valor t que tiene el área α en la cola derecha de la
distribución.
En consecuencia t 0.95,10 = - t 0.05,10 = - 1.812
TIPOS DE ESTIMADORES
1. Estimación Puntual: Un estimador puntual es simplemente un estadístico
(media aritmética, varianza, etc.) que se emplea para estimar parámetros
(media poblacional, varianza poblacional, etc.).
Es decir, cuando obtenemos una media aritmética a partir de una muestra, tal
valor puede ser empleado como un estimador para el valor de la media
poblacional.
(Algunos autores comparan los estimadores con los lanzamientos en una diana; el
círculo central sería el valor real del parámetro.)
Estimadores de los parámetros más usuales:
, media muestral. Se emplea para estimar
1.
2. S2=
escribe
3. S=
=
, varianza muestral. Este estimador se emplea para estimar
y se
=S2.
, desviación típica muestral. Este estimador se emplea para
estimar
4.
y se escribe
=
y se escribe
= S.
, proporción muestral.
2. Intervalos de confianza para los principales parámetros
En muchas situaciones, una estimación puntual no proporciona información suficiente
sobre un parámetro. Por ejemplo, si se tiene interés en estimar la resistencia promedio a
la tensión de los elementos estructurales empleados en el ala de un aeroplano, entonces
es probable que un solo número no sea tan significativo como un intervalo, dentro del
cual se espera encontrar el valor de este parámetro. El intervalo estimado recibe el
nombre de intervalo de confianza.
La mayoría de los libros texto de Estadística Básica, en el tópico dedicado a la inferencia
estadística (Estimación de Parámetro y Prueba de Hipótesis) trabajan bajo el supuesto de
que el proceso de recolección de la información es un muestreo aleatorio simple.
3. Concepto de Intervalo de Confianza
En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un
rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del
parámetro, con una probabilidad determinada.
La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo
construido se denomina nivel de confianza, y se denota 1-α. La probabilidad de
equivocarnos se llama nivel de significancia y se simboliza por α. Generalmente se
construyen intervalos con confianza 1-α = 95% (o significancia α = 5%). Menos frecuentes
son los intervalos con α = 10% o α = 1%.
3.1.
Intervalo de confianza para la media con
varianza poblacional
conocida

Para construir un intervalo de confianza, suponemos que X es un estimador puntual
razonable de la media poblacional desconocida μ y por tanto puede obtenerse un
intervalos de confianza del 100 (1-α) por ciento para μ al considerar la distribución de

muestreo de la media muestral de X dado que esta es normal si la población es normal,
y aproximadamente normal si se satisface las condiciones del teorema del límite central,

el cual indica que el valor esperado o media X es μ, mientras que la varianza es
.
Por consiguiente, la distribución de la media poblacional tiene una distribución Normal
Estándar y cumple:
α/2 =2.5%
α/2 =2.5%
1-α = 95%
Punto Crítico
z 0.025
Media=μ
z 0.975
Al examinar la figura se observa que un intervalo de confianza puede plantearse de la
siguiente forma:
P(
<Z<
) = 1-α
Por lo tanto el intervalo de confianza del 95% tendrá la siguiente forma:
P(
<Z<
) = 1-α
Sustituyendo el nivel de confianza y los valores de z por medio de las tablas de
probabilidades se tiene que:
P(-1.96 < Z < 1.96) = 0.95
Luego, si una variable X tiene distribución N (μ,
), entonces el 95% de las veces se
cumple:
Despejando μ en la ecuación se tiene:
El resultado es un intervalo que incluye a μ el 95% de las veces. Es decir, es un intervalo
de confianza al 95% para la media μ cuando la variable X es normal y
es conocido.
La forma general para este tipo de intervalo viene dada por:

P( X  Z  / 2 .



   X  Z / 2 . )  1  
n
n
Donde:
Z / 2 Valor Crítico de la Distribución Normal correspondiente a un área de
Probabilidad de  / 2 . a la derecha

n
: Error Estándar de la estimación
Z / 2 .

n
: Error Máximo de la Estimación
1   = Nivel de Confianza
3.2.
Intervalo de confianza para la media con
varianza poblacional
desconocida
Generalmente, cuando se quiere construir un intervalo de confianza para la media
poblacional μ, la varianza poblacional
es desconocida, por lo que el intervalo
para μ construido al final de la sección 2.1 es muy poco práctico.
Si en el intervalo se reemplaza la desviación estándar poblacional por la
desviación estándar muestral S, entonces el intervalo de confianza toma la forma:
La cual es una buena aproximación para el intervalo de confianza de 95% para μ
con
desconocido. Esta aproximación es mejor en la medida que el tamaño
muestral sea grande.
Cuando el tamaño muestral es pequeño (n<30), el intervalo de confianza requiere
utilizar la distribución t de Student (con n-1 grados de libertad, siendo n el tamaño
de la muestra), en vez de la distribución normal (por ejemplo, para un intervalo de
95% de confianza, los límites del intervalo ya no serán construidos usando el valor
z = 1,96). El estadístico de la distribución t es:
Así el cálculo del intervalo vendrá dado por:

P( X  t / 2,n1 .

s
s
   X  t / 2,n1 . )  1  
n
n
Donde:
t / 2 Valor Crítico de la Distribución T de Students correspondiente a un área de
Probabilidad de  / 2 . a la derecha con n-1 grados de libertad
s
: Error Estándar de la estimación
n
t / 2,n 1.
s
: Error Máximo de la Estimación
n
1   = Nivel de Confianza
En todo caso, recordar que si "n" es grande (n>30), la distribución t de Student será
virtualmente una distribución normal estándar N(0,1). En otras palabras, si "n" es grande,
ambas fórmulas dan unos intervalos virtualmente idéntico, y emplear la distribución normal es
correcto.
Nótese que al emplear la aproximación de la distribución T como una normal estándar las
áreas de probabilidades para la distribución t queda como en la siguiente gráfica:
α/2
α/2
1-α = 95%
- t α/2 , n-1
μ =0
t α/2, n-1
3.3.
Inferencias para la proporción (P)
^

p
Estimación puntual
x
; x representa el número de éxitos en la muestra de
n
tamaño (n)
Intervalo de Confianza para la proporción
A menudo es necesario construir un intervalo de confianza para una proporción. Por ejemplo,
supóngase que se toma una muestra aleatoria de tamaño n de una población grande
(posiblemente infinita) y que X(≤n) observaciones de esta muestra pertenecen a una clase de
interés. Entonces
es un estimador puntual de la proporción de la población p que
pertenece a esta clase. Nótese que n y p son los parámetros de una distribución binomial y que la
distribución de muestreo de
es aproximadamente normal con media p y varianza p(1-p)/n. Por
tanto la distribución de Z es aproximadamente normal estándar y puede construirse un intervalo
de confianza para p dado por:
^
^
^
^
^
p(1  p
p(1  p
( p Z / 2.
 p  p Z / 2.
)
n
n
^
Donde:
Z / 2 Valor Crítico de la Distribución Normal correspondiente a un área de
Probabilidad de  / 2 . a la derecha

n
: Error Estándar de la estimación
Z / 2 .

n
: Error Máximo de la Estimación
1   = Nivel de Confianza
El estadístico para el cálculo de proporciones viene dado por:
4. Cálculos de tamaños de muestra con muestreo aleatorio simple
Para la estimación de la media 

Si X se utiliza como estimación de μ, entonces puede tenerse una confianza del 100(1-α)
por ciento de que el error |x-μ| no será mayor que una cantidad específica E cuando el
tamaño de la muestra sea:
n(
Z / 2. 2
)
E
Para la estimación de la proporción
Si
se utiliza como estimación de p, entonces puede tenerse una confianza del
100(1-α) por ciento de que el error |p-P| no será mayor que una cantidad específica E
cuando el tamaño de la muestra sea:
n(
Z  / 2. 2
) p (1  p)
E
Dado que p no se conoce puede estimarse a través de una muestra preliminar, de tamaño
n >30, o maximizar el tamaño de la muestra considerando valores de p =q=0,5. Esto suele
hacerse en estudios de mercado o en sondeos de opinión en los cuales no se tiene
conocimiento previo de la prevalencia o proporción de aceptación del producto o del
candidato. En ese caso:
n(
Z  / 2. 2
) (0.25)
E
Ejercicio 1: Estimación de un intervalo para la media con varianza poblacional conocida.
Se encuentra que la concentración promedio de zinc que se saca del agua a partir de una
muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro.
Encuentre los intervalos de confianza de 95% y 99% para la concentración media de zinc
en el río. Suponga que los datos siguen una distribución normal con una desviación
estándar de 0.3.
Solución:
La estimación puntual de μ es 2.6. La varianza de la población es conocida, el valor de z del
95% es 1.96, por lo tanto el intervalo lo calcularíamos como:

P( X  Z  / 2 .



   X  Z / 2 . )  1  
n
n
Y por tanto
con una confianza del 95%. O en otras palabras, la probabilidad de que la concentración
media de zinc esté entre 2.502 y 2.698 gramos por mililitro es de 0.95.
Para un nivel de confianza de 99% el valor de z es de 2.58 por lo que el intervalo será más
amplio:
la probabilidad de que la concentración media de zinc esté entre 2.471 y 2.729 gramos por
mililitro es de 0.99.
Como se puede observar en los resultados del ejercicio se tiene un error de estimación
mayor cuando el nivel de confianza es del 99% y más pequeño cuando se reduce a un nivel
de confianza del 95%.
Ejercicio 2 Estimación de un intervalo para la media con varianza poblacional
desconocida.
Los siguientes datos son los puntajes obtenidos para 45 personas de una escala de depresión
(mayor puntaje significa mayor depresión).
2
11
14
16
19
5
11
15
16
19
6
13
15
17
19
8
13
16
17
19
8
14
16
17
19
9
14
16
18
19
9
14
16
18
19
10
14
16
18
20
11
14
16
19
20
Para construir un intervalo de confianza para el puntaje promedio poblacional, asumamos
que los datos tienen distribución normal, con varianza poblacional
desconocida. Como
es desconocido, lo estimamos por
s = 4.3, donde la media muestral
viene dada por:
= 14.55
Luego, un intervalo de confianza aproximado es:



P( X  Z  / 2 .    X  Z  / 2 . )  1  
n
n

Luego, el intervalo de confianza para μ es (13.2, 15,8). Es decir, el puntaje promedio poblacional se
encuentra entre 13,2 y 15,8 con una confianza 95%.
Nota: En este caso como n>30 y la varianza desconocida, pueden utilizarse los percentiles
de la distribución Normal. Si n<30 y la varianza desconocida había que emplear los de la t
de student en el cálculo del intervalo de Confianza.
EJERCICIO 3: Estimación de un intervalo para una proporción.
En un estudio de prevalencia de factores de riesgo en una cohorte de 412 mujeres
mayores de 15 años en la Región Metropolitana, se encontró que el 17.6% eran
hipertensas. Un intervalo de 95% de confianza para la proporción de mujeres hipertensas
en la Región Metropolitana está dado por:
^
^
^
^
^
p(1  p
p(1  p
( p Z / 2.
 p  p Z / 2.
)
n
n
^
Así:
= 0.176 proporción de mujeres hipertensas del total de 412.
n=412
1-α = 0.95 → α = 0.05 → α/2 = 0.025
De la tabla IV, Z / 2 = Z 0.025 = 1.96
El intervalo de confianza de 95% viene dador por:
Luego, la proporción de hipertensas varía entre (0.139, 0.212) con una confianza de 95%.
EJERCICIO 4: Determinación del tamaño de muestra.
Un biólogo quiere estimar el peso promedio de los ciervos cazados en el estado de
Maryland. Un estudio anterior de diez ciervos cazados mostró que la desviación estándar
de sus pesos es de 12.2 libras. ¿Qué tan grande debe ser una muestra para que el biólogo
tenga el 95% de confianza de que el error de estimación es a lo más de 4 libras?
Solución:
E=4
σ=12.2
1-α = 0.95 → α = 0.05 → α/2 = 0.025 → 1- α/2 = 0.975 → Z / 2 = Z 0.975 = 1.96
Entonces:
En consecuencia, si el tamaño de la muestra es 36, se puede tener un 95% de confianza en
que difiere en menos de 4 libras de .
EJERCICIO 5: Determinación del tamaño de muestra.
Una empresa eléctrica fabrica focos que tienen una duración aproximadamente normal
con una desviación estándar de 40 horas. ¿De qué tamaño se necesita una muestra si se
desea tener 95% de confianza que la media real esté dentro de 10 horas de la media real?
Solución:
Se necesita una muestra de 62 focos para estimar la media de la población y tener un
error máximo de 10 horas.
¿Qué pasaría si en lugar de tener un error de estimación de 10 horas sólo se requiere un
error de 5 horas?
Se necesita una muestra de 246 focos como mínimo.
Se puede observar como el tamaño de la muestra aumenta considerablemente al
disminuir el error permitido a la mitad, pero esto tiene como beneficio una estimación
más exacta.
EJERCICIO 6: Determinación del tamaño de muestra.
Una legisladora estatal desea encuestar a los residentes de su distrito para conocer qué
proporción del electorado conoce la opinión de ella, respecto al uso de fondos estatales
para pagar abortos, ella supone que el 50% del electorado conoce su opinión. ¿Qué
tamaño de muestra se necesita si se requiere una confianza del 95% y un error máximo de
estimación de 0.10?
Solución:
La proporción de residentes que conoce la opinión de la legisladora es de 0.5, así que:
Z / 2. 2
n(
) p (1  p)
E
1.96 2
n(
) 0.5(1  0.5)  96.04
0.1
Se requiere un tamaño de muestra de 97 residentes para que con una confianza del 95% la
estimación tenga un error máximo de 0.10.