Download Presentación de PowerPoint

Document related concepts

Estimador wikipedia , lookup

Intervalo de confianza wikipedia , lookup

Estimación estadística wikipedia , lookup

Distribución t de Student wikipedia , lookup

Error estándar wikipedia , lookup

Transcript
Intervalos de Confianza
M. C. José Juan Rincón Pasaye
UMSNH – FIE
Mayo de 2003
Contenido
Estimación de parámetros
Estimación de intervalos
Intervalo de confianza para la media
Intervalo de confianza para la varianza
Otros Intervalos de Confianza
Intervalos de tolerancia
Ints. de confianza y regresión lineal

UMSNH-FIE
Estimación de Parámetros
Parámetros poblacionales y Estadísticos Muestrales
Parámetros:
160
Histograma de la Poblacion
Media (m)
140
Frecuencia
120
Datos
(Población de Interés)
Varianza(s2)
100
80
Desv. Est. (s)
60
40
20
0
-4
Etc.
-2
0
Clases
2
4
Inferencias
Muestreo
Histograma de la Muestra
Estadísticos:
16
14
Promedio ( X )
Muestras
Frecuencia
12
10
Varianza muestral(S2)
8
6
Desv. Est. muestral(S)
4
2
0
-4
-2
0
Clases
2
4
Etc.
UMSNH - FIE
Estimación de Parámetros
Ejemplo: Estimación de la media de una población
Parámetro que se pretende estimar : La media de la población ( µ ) que en
general no se conoce, no se puede conocer, o se conoce sólo un valor teórico:
Estimador: La media muestral ( X ) que se calcula a partir de una muestra de
N datos como sigue:
____
X
1
(x1  x 2  ...  x N )
N
El estimador (en el ejemplo la media muestral) puede tomar diferentes
valores (aleatorios) dependiendo de la muestra (aleatoria) considerada, es
decir, el estimador es una variable aleatoria
Es natural preguntarse : ¿Cuál será la distribución de probabilidad del
estimador? De hecho ¿cuáles serán sus parámetros? ¿tendrán que ver con los
de la población?
UMSNH - FIE
Estimación de Parámetros
Ejemplo: Lanzamiento de un dado
Población de interés : El conjunto de datos obtenidos al lanzar un dado legal
en diversas ocasiones
Parámetro de interés : La media (µ) de la población
Estimador: La media muestral ( X )
____
1
X  N (x
1
 x 2  ...  x N )
Experimento aleatorio : Lanzar un dado
Variable aleatoria X= número obtenido en la cara superior
Espacio muestral = {1, 2 , 3, 4, 5 , 6}
Distribución de la variable aleatoria X: Uniforme
Media teórica: µ=3.5
UMSNH - FIE
Estimación de Parámetros
Ejemplo: Lanzamiento de un dado
Distribución de la variable aleatoria (X) del experimento
Función de Probabilidad: f(x) = P(X=x)
x
1
2
3
4
5
6
f(x)
1/6
1/6
1/6
1/6
1/6
1/6
Función de Probabilidad
0.2
f(x)
0.15
0.1
m
0.05
0
1
2
3
4
5
6
x
UMSNH - FIE
Estimación de Parámetros
Ejemplo: Lanzamiento de un dado
Distribución del estadístico
X
.
Diferentes cálculos de X para N=10:
Muestra
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
X
1
1
3
5
1
1
2
2
4
2
2
2.1
2
1
5
3
6
3
3
6
4
2
5
3.8
3
6
1
5
3
5
4
5
3
2
2
3.2
4
2
5
2
4
1
5
3
6
6
4
3.8
5
3
6
5
4
5
4
3
2
3
4
3.7
...
...
Cada muestra puede considerarse como:
 10 valores de la variable aleatoria X,
 1 sólo valor para 10 variables aleatorias X1,X2,...,X10
UMSNH - FIE
Estimación de Parámetros
Ejemplo: Lanzamiento de un dado
Distribución del estadístico
X
.
Si obtenemos 1000 muestras, obtendremos 1000 valores de X , para
estos 1000 valores realizamos el histograma:
frecuencia relativa
0.25
Distribución de la media muestral
0.2
0.15
0.1
0.05
0
1
2
3
X
4
5
6
UMSNH - FIE
Estimación de Parámetros
Ejemplo: Lanzamiento de un dado
Código en Matlab:
%se simula el dado
x=round(rand(N,n)*6+0.5);
M=sum(x)/N;
[X,c]=hist(M,15);
%se grafica el histograma de frecuencia relativa en p.u.
X=X/n;
bar(c,X)
Recordatorio: Cada muestra puede considerarse como:
 10 valores de la variable aleatoria X,
 1 sólo valor para 10 variables aleatorias X1,X2,...,X10
UMSNH - FIE
Estimación de Parámetros
^ que pretende estimar un parámetro
En general: un estadístico Q
q es una v. a. Que depende de las N variables aleatorias que
forman una muestra, es decir
^
Q = f(X1,X2,...,XN)
Así, una muestra es un conjunto de valores (x1,x2,...,xN) tomados
por las variables aleatorias (X1,X2,...,XN).
Es natural suponer que la distribución f(Xi)=P(Xi=xi) de cada
variable de la muestra es igual a la de la población
^ ^
Sin embargo, la distribución f( ^
q) = P( Q = q ) del estadístico
como se vió en el ejemplo del dado es otra cosa.
UMSNH - FIE
Estimación de Intervalos
^ produce un valor ^
En la explicación previa, un estimador Q
q
que pretende aproximar a un parámetro q. A este enfoque se le
llama estimación puntual
En el enfoque de estimación de intervalos, para un parámetro q
no se estima un valor, sino un intervalo de la forma a  q  b,
donde los valores extremos a, b dependen del valor numérico
del estadístico ^
q para una muestra en particular y de la
^
distribución de muestreo de Q
Es decir, a y b dependen de la muestra, por lo tanto son valores
de variables aleatorias .
UMSNH - FIE
Estimación de Intervalos
^ , es posible
Partiendo de la distribución de muestreo para Q
determinar valores de L,U tales que se cumpla lo siguiente:
P(L  q  U) =1 – a
Donde 0 < a < 1
Es decir, se puede garantizar con una probabilidad de 1-a que
la muestra elegida contendrá el valor verdadero de q
Al intervalo resultante l  q  u se le conoce como el intervalo
de confianza del 100(1– a) % para el parámetro desconocido q
UMSNH - FIE
Estimación de Intervalos
Ejemplo: Construcción repetida de un intervalo de confianza
para la media m:
m
Si los intervalos de confianza mostrados son del 95% significa
que si se construye un gran número de ellos, el 95% de ellos
contendrá a la media
UMSNH - FIE
Estimación de Intervalos
En la práctica se obtiene solamente una muestra y se calcula con
ella un intervalo de confianza dicho intervalo contiene o no
contiene a m, no es razonable asignar una probabilidad a este
evento.
La proposición a decuada es que el intervalo contiene a m “con
una confianza” del 95%
La longitud del intervalo de confianza (a-b) es una medida de la
calidad de la información obtenida en la muestra, al semi
intervalo a-q, o q-b se le llama Precisión del estimador.
¿Qué significado tiene un intervalo grande?
¿És deseable que sea grande o que sea pequeño?
¿Qué relación tiene con el valor de 1-a?
UMSNH - FIE
Estimación de Intervalos
Intervalo para la Media (Varianza conocida)
Situación: Se tiene una población con media desconocida m, pero
se supone conocida la varianza s2.
Se toma una muestra aleatoria (X1,X2,...,XN). Con esta muestra
se calcula el estadístico X el cual es un estimador puntual
insesgado para la media m desconocida. Se puede obtener un
intervalo de confianza del 100(1-a) % para m si consideramos
los siguientes hechos acerca de la distribución de X:
UMSNH - FIE
Intervalo para la media
Intervalo para la Media (Varianza conocida)
1. Si la población es Normal, la distribución de X es Normal
2. Si la población no es Normal, el Teorema del límite central nos
garantiza una distribución de X aproximadamente normal
cuando N (tamaño de la muestra) 
3. La media de X es m ( X es insesgado)
4. El error estandar i desvio estandar de la X de
es s/˅N
Teorema del Límite Central:
Afirma que la media muestral tiene una distribución Normal
aunque la población original no la tenga, siempre y cuando la
muestra sea muy grande (de manera práctica N>30)
UMSNH - FIE
Intervalo para la media
Intervalo para la Media (Varianza conocida)
De acuerdo a lo anterior, podemos suponer que la variable
___
Z
X μ
σ/ N
Tiene una distribución N(0,1)
a/2
a/2
-za/2
za/2
Z
de la figura: P{-za/2  Z  za/2 }=1-a.
Con lo cual el intervalo de confianza del 100(1-a)% para la media es
__
xz
__
σ/ N  μ  x  z α/2σ/ N
α/2
UMSNH - FIE
Intervalo para la media
Intervalo para la Media (Varianza conocida)
Ejemplo: Los siguientes son datos de conductividad térmica de cierto tipo de
hierro (en BTU/hr-ft-°F):
41.60 41.48 42.34 41.95 41.86
42.18 41.72 42.26 41.81 42.04
Una estimación puntual para la media, es X = 41.924. Hallar un intervalo de
confianza del 95 % y uno del 99% para la media.
Se supone que la población tiene una distribución Normal con s=0.3
__
__
Usamos la expresión x  z σ/ N  μ  x  z σ/ N para encontrar el
intervalo de confianza para la media: Usando Matlab para calcular za/2 =
norminv(0.025,0,1)
α/2
α/2
l = 41.924 - 1.96(0.3)/10 = 41.738, u = 41.924+1.96(0.3)/10 = 42.110
Entonces el intervalo de confianza del 95% es
41.738  m  42.11
Y la longitud de este intervalo es 3.92s/ N
UMSNH - FIE
Intervalo para la media
Intervalo para la Media (Varianza conocida)
Selección del tamaño de la muestra:
La precisión del intervalo de confianza es za/2s/N esto significa
que al usar X para estimar m, el error de estimación, dado por
E=| X - m| es menor o igual que za/2s/N, con una confianza de
100(1-a)%.
El problema inverso consiste en calcular N para obtener un error
E con una confianza del 100(1-a)% previamente especificado:
N1/2= za/2s/E
Ejercicio: Calcular el tamaño adecuado de la muestra para lograr
que el error de estimación de conductividad del hierro sea menor
de 0.05 Btu/hr-ft-°F con una confianza del 95%
UMSNH - FIE
Intervalo para la media
Intervalo para la Media (Varianza desconocida)
Si no se conoce la varianza s2 de la población, una posibilidad es
utilizar la varianza muestral S2 en las ecuaciones obtenidas para
estimar intervalos en el caso de varianza conocida
Este procedimiento funciona para muestras grandes (N>30), por
ello los intervalos de confianza anteriores se les suele llamar
intervalos de confianza para muestras grandes.
Si las muestras son pequeñas el enfoque anterior no funciona y
para lograr un procedimiento válido se supondrá que la población
tiene una distribución Normal
UMSNH - FIE
Intervalo para la media
Intervalo para la Media (Varianza desconocida)
Si la población es Normal, la siguiente estadística
X
T= S/
N
Tiene una distribución t con N-1 grados de libertad
a/2
a/2
-ta/2,N-1
ta/2,N-1
T
UMSNH - FIE