Download Resumen de Contenidos

Document related concepts

Estimador wikipedia , lookup

Corrección de Bessel wikipedia , lookup

Error cuadrático medio wikipedia , lookup

Varianza wikipedia , lookup

Sesgo estadístico wikipedia , lookup

Transcript
ESTADÍSTICA I
Unidad 5: Resumen de Contenidos Teóricos.
Estimadores y Principios de Inferencia1
DEA Lanza Mariano
1.
Teoría de la Estimación
Inferencia estadística y Estimación
Los problemas de inferencia estadística pueden dividirse en problemas de contrastación de
hipótesis y problemas de estimación. Los primeros se basan en la idea de contrastar una
hipótesis referente a alguna característica poblacional mediante la información recopilada a
partir de una muestra. Mientras que en los problemas de estimación, se busca obtener el
mejor pronóstico del parámetro poblacional a través de los datos de una muestra.
A su vez, los problemas de estimación pueden dividirse en 2 grandes ramas como: la
“estimación puntual” y la “estimación por intervalos de confianza”.
La estimación puntual busca calcular “un valor” que represente el mejor pronóstico del
parámetro, utilizando para ello información a priori y una muestra representativa de la
población cuyo parámetro se desea estudiar.
Para realizar las estimaciones, se utilizan estimadores (estadísticos), que no son mas que
fórmulas que recopilar la información de la muestra. Pero para obtener estimaciones lo mas
robustas posibles, lógicamente los estimadores deben satisfacer algunas condiciones
(propiedades de los estimadores) tal que garanticen su fiabilidad.
2.
Estimadores (estadísticos)
Estimador: son fórmulas que recopilan información contenida en una muestra para obtener un
valor aproximado del parámetro poblacional. De esta forma, el estimador (o estadístico) es
una característica muestral y son Variables aleatorias que tienen asociada una distribución. Es
posible construir distintos estimadores para estimar el mismo parámetro poblacional o
característica poblacional.
Dado que los estimadores son V.A. con una distribución asociada, podemos definir 2
conceptos importantes.
1
Bibliografía consultada:
Spiegel M. R y Stephens L. J. (2001): “Estadística”. McGraw-Hill. México.
Lind D. A, Marachal W. G. y Mason R. D. (2004): “Estadística para Administración y Economía”. Ed.
Alfaomega. México.
De la Horra Navarro J. (2003): “Estadística Aplicada”. Ediciones Díaz de Santos. España.
Moore D. S. ( 2000): “Estadística Aplicada Básica”. Antoni Bosch Editor S.A. España.
Navidi William (2006): “Estadística para Ingenieros y Científicos”. Ed. McGraw-Hil.
Gabriela Kurincic (1997): “Guía Teórica de Estadística General”. FCE. UBA.
1
2. A- Media de un estimador:
Es el valor medio que puede tomar un estimador para las distintas muestras de igual tamaño
que pueden extraerse de una población.
Si denominamos a ˆ como el estimador del parámetro poblacional  . Entonces, la media del
estimadote se obtendrá como:
E (ˆ) 
ˆ
N
j
Cn
,
Donde ˆ j : Valor que toma el estadístico en la muestra j. Y
N
Cn (combinatoria de N en n), que
representa la cantidad total de muestras de tamaño n que se pueden obtener en una
población de tamaño N.
2. B - Varianza de un estimador:
Da idea de la variación entre los valores que puede tomar el estimador en las distintas
muestras respecto la esperanza o media del estimador.
Var (ˆ) 
[ˆ
 E (ˆ)] 2
j
N
Cn
Esperanza de la media muestral: es el valor medio de los valores que toma el estadístico
media muestral para las distintas muestras de n elementos que pueden extraerse de una
población de N elementos. Si x es el estimador media muestral.
Entonces: E (x ) representa la esperanza de la media muestral.
Varianza de la media muestral: Si x es el estimador media muestral, entonces
Var (x) representa la varianza de la media muestral.
2.C - Propiedades de los estimadores
Existe mas de una formula (“estimador”) para estimar el parámetro  y entre las diferentes
fórmulas (estimadores) debemos elegir aquel que mejores propiedades presente. Las
propiedades de los estimadores no requieren el conocimiento de la muestra, sino la fórmula
del estimador.
Error muestral: Es la diferencia existente entre el valor del estimador y el valor del parámetro.
Para obtener dicho error se utiliza el concepto de Error Cuadrático Medio (MEC) y se define
como:
2
MEC  E (ˆ   ) 2
Propiedades Para muestras finitas:
Hacen referencia a las propiedades de la distribución muestral de los estimadores basados en
muestras de tamaño fijo.
Insesgamiento: Decimos que el estimador ˆ es insesgado para estimar el parámetro  si la
esperanza del estimador es igual al valor del parámetro poblacional.
E (ˆ)  
Eficiencia: Decimos que un estimador ˆ1 es más eficiente que ˆ2 para estimar  si, siendo
ambos insesgados, la varianza de ˆ1 es menos que la del estimador ˆ2 . Para calcular el
concepto de eficiencia, se utiliza comúnmente el concepto de eficiencia relativa
Er 
Var (ˆ1 )
Var (ˆ )
2
Donde:
Er = 1 ambos estimadores son igualmente eficientes.
Er < 1 El estimador ˆ1 es más eficiente que el estimador ˆ2 .
Er > 1 El estimador ˆ1 es menos eficiente que el estimador ˆ2 .
Suficiencia: Un estimador ˆ es suficiente si utiliza toda la información relativa al parámetro
contenida en la muestra.
Propiedades asintóticas.
Se refieren a propiedades de los estimadores para el caso en que el tamaño de la muestra es
grande y tiende a infinito. En estos casos, la distribución de ˆ es función del tamaño de la
muestra en cuanto a media, varianza y forma matemática.
Insesgadez Asinótica: Se dice que el estimador ˆ es asintóticamente insesgado para
estimar el parámetro  cuando la esperanza del estimador tiende al valor del parámetro
poblacional a medida que se incrementa el tamaño de la muestra.
lim E (ˆ)  
n  
Consistencia: Se dice que el estimador ˆ es consistente para estimar el parámetro 
cuando se aproxima al valor del parámetro con probabilidad tendiente a la unidad cuando el
tamaño de la muestra crece indefinidamente.
3
P( ˆ    e) 
1 , Cuando n tiende a infinito. Y e es un nº real que tiende a cero.
Método para estimar la Consistencia
a) Que el estimador sea asitóticamente insesgado: lim E (ˆ)  
n  
b)
lim Var (ˆ)  0
n  
Eficiencia asintótica: Hace referencia a la dispersión del estimador ˆ y está definida solo
para estimadores cuya media y varianza asintótica existan.
Un estimador ˆ es asintóticamente eficiente para estimar  si se cumple:
a) ˆ posee esperanza y varianza finita
b) ˆ es consistente
~
c) No existe otro estimador  consistente para estimar  cuya varianza sea menor a la
de ˆ .
3.
Parámetros poblacionales ( no son Variables aleatorias):
Media poblacional: m x


N
xi
i 1
N
Varianza Poblacional: 
2
x


mx
o
N
i 1


( xi  m x ) 2 f i
N
N
i 1
xi fi
N
, donde:
 m2 x  m12x
N= número de individuos de la población
4.
Estimadores comúnmente utilizados (son variables aleatorias y tienen asociadas
alguna distribución de probabilidades):
Para muestras simples al azar, donde cada individuo de la población posee igual probabilidad
de ser escogido en la muestra y los individuos de la población son independientes.
Media Muestral:

x
n
x
i 1 i
o
n

x
n
i 1
n
xi fi
, donde:
n= número de elementos de la muestra.
Varianza Muestral: S
2
x


n
i 1
( xi  x) 2 f i
(n  1)
4
Aclaración de algunos procedimientos que se realizarán: Supongamos que llamamos a X
a la variable aleatoria que queremos estudiar (característica poblacional). Y que para ello
vamos a hacer n observaciones de la población (muestra de tamaño n), donde X posee una
distribución de probabilidades.
Las observaciones que obtendremos serán datos concretos, aunque su valor será aleatorio y
las denotaremos como x1 , x2 , …., x n . Como las x i son representaciones de X, entonces cada
xi tendrá la misma función de distribución que X. Si además las xi son independientes,
tenemos los que se llama una muestra aleatoria simple. De ello se deduce que si cada valor
de x i proviene de la misma población, la cual está asociada a una función de distribución,
entonces cada x i tendrá la misma media y varianza.
5.
Distribuciones de los Estimadores comúnmente utilizados
5.A -Distribución de la media muestral x
a) E ( x)  m
Demostración:

E ( x)  E (
n
i 1
xi
n
)
1
1
1
n
E (i 1 xi )  E ( x1  x 2  ...  x n )  [ E ( x)1  E ( x 2 )  ...  E ( x n )]
n
n
n
Como E ( xi )  E ( X )  m, entonces
1
1
nm
E ( x)  [ E ( x)1  E ( x 2 )  ...  E ( x n )]  [m  m  ...  m)] 
m
n
n
n
E ( x)  m  E ( X ) , estimador insesgado.
b) Var ( x)   x2 
 X2
n
Demostración:
Como:

2
( x)

x
n
i 1
n
xi
, entonces:

 V ( x)  V (
n
i 1
n
xi
1
1
n
)  ( ) 2 V (i 1 xi )  ( ) 2 V ( x1  x 2  ...  x n )
n
n
Como V ( xi )  V ( X )   2 , entonces:

2
( x)
n 2  2
1 2
1
2
2
2
 ( ) V ( x1  x 2  ...  x n )  2 (     ...   ) 

n
n
n
n2
5
Así, la varianza del estimador media muestral es directamente proporcional a  2 (varianza
poblacional) e inversamente proporcional al tamaño de la muestra (n). De manera que
controlando el tamaño de la muestra puede controlarse el valor de  (2x ) .
Distribución de x en una población Normal con media y varianza conocida.
Resumiendo:
Si x1 , x2 , …., x n es una muestra aleatoria de la variable X proveniente de una población
donde: X 
 N (m; ), entonces:
x
 N (m;

n
),
o
z
xm


 N (0,1)
n
Por aplicación del TCL, si x es la media muestral aleatoria de tamaño n que se toma de una
población con media m( x ) y varianza  (2x ) , entonces el estimador (la variable)
x
 N (m;

n
  .
), si n 
Es decir, aún sin conocer la distribución de la población, es posible aproximar a una
  ).
distribución normal si se utiliza una muestra grande ( n 
5.B- Distribución del estimador Varianza Muestral (S2):
Si x1 , x2 , …., x n es una muestra aleatoria de la variable X, donde X 
 N (m; ), entonces
al ser las x i representaciones de X, cada x i posee la misma función de distribución que X.
xi 
 N (m;  ),
Si a cada x i le resto su media (m) y se divide por su desvío  , tendemos una variable
aleatoria que sigue una distribución normal estándar:
xi  m


 N (0;1) .
Si cada normal estandarizada (correspondiente a cada elemento de la muestra) se la eleva al
cuadrado, se obtiene una distribución Ji.-cuadrado con 1 grado de libertad
( x i  m) 2

2

  2 (1),
Y si se tienen n V.A. independientes x1 , x2 , …., x n , cada una con una distribución Jicuadrado con k1 , k 2 , …., k n grados de libertad respectivamente, entonces:
6
Y
  (2k1 k2 ... kn )
Y  x1  x2  ...  xn ,
 (2n ) 
( x1  m) 2
2

( x2  m) 2
2
 ... 
( xn  m) 2
2
Como por lo general no se conoce m (media poblacional) por ser una característica poblacional,
debemos trabajar con la media muestral ( x ). Dicho cambio trae como alteración los grados de
libertad.
n
Demostración: partiendo de
 (x
i
i 1
 m) 2
(1)
Sumando y restando x en (1), tenemos:
n
 (x
i 1
n
 m) 2   [( xi  x)  ( x  m)] 2
i
(2)
i 1
Descomponiendo el binomio en (2) llegamos a:
n
 [( x
i 1
i
 x) 2  2( xi  x)( x  m)  ( x  m) 2 ]
(3)
Distribuyendo la sumatoria en (3) tenemos:
n
n
n
n
i 1
i 1
i 1
i 1
 ( xi  m) 2   ( xi  x) 2  2 ( xi  x)( x  m)   ( x  m) 2
n
 (x
Como ( x  m) es una constante y
i 1
i
(4)
 x)  0,
n
Entonces, 2( x  m) ( xi  x)  0
(5)
i 1
Reemplazando (5) en (4)
n
n
n
n
i 1
i 1
i 1
i 1
 ( x i  m) 2   ( x i  x ) 2   ( x  m) 2   ( x i  x ) 2  n ( x  m ) 2
(6)
Si dividimos a (6) por  2
n
 ( xi  m) 2
i 1
2
n

 (x
i 1
 x) 2
2
n
 (x
Sabemos que
i
i 1
i


n ( x  m) 2
2
(7)
 m) 2
2

  (2k )
7
Por otro lado, si X 
 N (m; ), entonces:
x
 N (m;

n
), con lo cual z 
xm


 N (0,1) , entonces
n
z2 
( x  m) 2

2

  (21)
z2 
o
( x  m) 2 n

2

  (21)
n
El segundo término del lado derecho de (7) sigue una distribución Ji-Cuadrado con un grado
de libertad. Por lo tanto, necesariamente el primer término del lado derecho de la ecuación 7
seguirá una distribución Ji-cuadrado con (n-1) grados de libertad.
n
 (x
i 1
i
 x) 2

  (2n 1)
2
(8)
Si el estimador de la varianza muestral es


n
S
2
i 1
( xi  x ) 2
(n  1)
 i 1 ( xi  x) 2  (n  1) S 2
n
(9)
Reemplazando (9) en (8) llegamos a:
(n  1) S 2

2

  (2n 1)
(10)
Así, cuando se trata de probabilidades (inferencia) relacionadas con la varianza se utiliza el
estimador (estadístico) S2 y mediante operaciones aritméticas lo transformamos a la expresión
(n  1) S 2
2
, sabiendo que:
(n  1) S 2
2

  (2n 1)
Propiedades del estimador S2
Insesgado: E ( S 2 )   2
Demostración: Partiendo de la ecuación (5)
n
n
i 1
i 1
 ( x i  m) 2   ( x i  x ) 2  n ( x  m) 2
(5)
Si dividimos a (5) por n-1
8
n
 ( xi  m) 2
i 1
(n  1)
n

 (x
i 1
i
 x) 2

(n  1)
n( x  m) 2
(n  1)
(11)
Aplicando Esperanza a (11) y reordenando
n
 ( xi  m) 2
E ( i 1
(n  1)
n
 (x
)  E ( i 1
n
 ( xi  m) 2
E(
i 1
(n  1)
i
(n  1)
n
)  E(
 x) 2
 (x
i 1
i
 x) 2
(n  1)

n( x  m) 2
)
(n  1)
n( x  m) 2
)  E(
)
(n  1)
n
1
n
E[( xi  m) 2  E ( S 2 ) 
E[( x  m) 2 ]

(n  1) i 1
(n  1)
(12)
Despejando S2 (12)
E (S 2 ) 
n
1
n
E[( xi  m) 2 
E[( x  m) 2 ]

(n  1) i 1
(n  1)
(13)
Como:
E ( x i  m) 2   2
E[( x  m) 2 ]  V ( x) 
(14)
2
n
(15)
Sustituyendo en (13) las relaciones (14) y (15) se obtiene
E(S 2 ) 
n
1
n 2
2


]

(n  1) i 1
(n  1) n
E (S 2 ) 
n 2
2

(n  1) (n  1)
E (S 2 )   2 (
n
1

) , entonces E ( S 2 )   2
(n  1) (n  1)
(16)
5.B - Distribución del estimador proporción muestral (para muestras grandes)
En muchos casos, el interés del estudio puede estar orientado al comportamiento de una
proporción (Ej.: proporción de artículos defectuosos).
9
Teorema: Sea p la proporción muestral asociada a una característica, la cual se presenta en la
población en una proporción  (proporción poblacional). Entonces, si el tamaño de la muestra
tiende a infinito, tenemos que:
p
 N ( ;
 * (1   )
n
o alternativamente: z 
)
p 
 * (1   )

 N (0,1)
n
6.
Distribución de otros estimadores
6.A - Distribución del estimador media muestral cuando:

Población normal

Desvío poblacional desconocido

muestras chicas (n<30)
Si x1 , x2 , …., x n es una muestra aleatoria de la variable X proveniente de una población
normal, donde el tamaño de la muestra es menor que 30 (n<30) y el desvío poblacional es
desconocido, entonces ya no es posible calcular probabilidades respecto el valor x mediante
la distribución x 
 N (m;

n
), o z 
xm


 N (0,1) , dado que no conocemos  .
n
Cuando ello ocurre se sustituye el desvío poblacional ( ) , por el desvío muestral
correspondiente (S), lo cual altera la distribución antes utilizada, obteniendo ahora la siguiente
distribución:
xm

 t (n  1) g.l..
S
n
Demostración:
Si a la expresión z 
xm


 N (0,1) la dividimos por :
n
(n  1) S 2

2
(n  1) * S 2
2
donde
(n  1)

  (2n 1) , lo que obtenemos es un cociente entre una normal (0,1) y la raíz
cuadrada de una  (2n1) dividida por sus grados de libertad, que es justamente la definición de
t
una de student con (n-1) grados de libertad:
10
xm

n
N (0,1)

(n  1) * S
 2 (n  1)
2

2
( n 1) gl
 t (n  1) g.l
(n  1)
Reordenando el primer miembro de la ecuación anterior, nos queda la siguiente expresión:
xm
xm
xm



n
S
2

2
n

S
2
xm  xm
n

* 
 t (n  1) g .l..
S

S
S


2
n
n
6.B - Diferencias de medias:

Población normal ( o n>30)

Desvío poblacionales conocidos
( x  y )  (m x  m y )
x
nx

y

 N (0,1)
ny
6.C - Diferencias de medias:

Población normal

Desvío poblacionales desconocidos, pero iguales ( x   y )
( x  y )  (m x  m y )
(n x  1) * S x2  (n y  1) S y2
(n x  n y  2)
*(

 t (n x  n y  2) gl
1
1
 )
nx n y
6.D - Diferencias de proporciones

n>30
( Px  Py )  ( x   y )
 x (1   x )
nx

 y (1   y )

 N (0,1)
ny
6.E - Diferencias de Varianzas (para poblaciones normales)
S x2 *  y2
S y2 *  x2

 F (n x  1; n y  1) gl
11