Download notas - Cedinfor - Universidad Nacional Agraria La Molina

Document related concepts

Varianza wikipedia , lookup

Estadístico muestral wikipedia , lookup

Corrección de Bessel wikipedia , lookup

Prueba t de Student wikipedia , lookup

Distribución normal wikipedia , lookup

Transcript
Universidad Nacional Agraria La Molina
Departamento de Manejo Forestal
FR2010 SEMINARIO EN ESTADISTICA FORESTAL
CONCEPTOS
SOBRE DISTRIBUCIONES MUESTRALES1
Si de una población formada por 12 probetas de papel de las que se desea conocer el índice de
blancura se toman en forma aleatoria todas las muestras de tamaño n=3 que es posible obtener con
reemplazo, entonces se completarán Nn muestras, o sea 123 o 1728 muestras. Si las muestras se
obtuvieran sin reemplazo, entonces el número de muestras que podría formarse se calcula con la
fórmula:  N 
 
n
12 
12!
12  11  ...  2  1
479 001 600


En el caso actual el desarrollo de esta fórmula es:   
362 880  6
 3  (12  3)! 3! (9  8  ..  2  1) (3  2  1)
o sea 220 muestras.
Dado que cada muestra está formada por individuos de valores variables dentro del rango de
variación de la población de la que provienen, es posible obtener un promedio muestral  y una
varianza muestral s2.
El teorema del límite central señala que “sin tener en cuenta la forma funcional de la población de
donde se extrae la muestra, la distribución de las medias muestrales, calculadas con muestras de
tamaño n extraídas de una población con media  y varianza finita 2, se aproxima a una
distribución normal con media  y varianza 2/n, cuando n aumenta. Si n es grande, la distribución
de las medidas muestrales pueden aproximarse mucho a una distribución normal”.
El promedio de la nueva población de medias (media de medias) se simboliza así: , y se obtiene
sumando todas las medias muestrales y dividiendo el resultado entre M, el número de medias que
intervienen en la suma.
La desviación estándar de dichas medias, simbolizada como , se denomina frecuentemente error
estándar de la muestra, o simplemente error estándar, y se calcula con la fórmula:
x 
 ( X   )
2
i
M
Es decir, la raíz cuadrada de la sumatoria de los cuadrados de las
desviaciones de las medias muestrales (respecto de la media de la población) dividida por el tamaño
de esta población de medias.
La varianza 2 de esta población de medias obtenidas a partir de muestras de tamaño n se calcula
tomando la varianza de la población original 2 y dividiéndola por el tamaño de las muestras: 2/n.
i n2 (>n1)
i n1
X
Las poblaciones de medias muestrales se mantienen centradas en el
promedio de la población original pero la variabilidad que les caracteriza
es menor, estrechándose la curva de la distribución de frecuencias. La
forma de esta curva será cada vez más parecida a la distribución
normal conforme crezca el tamaño de las muestras .
Si no conocemos los parámetros de la población, una muestra obtenida de ella nos permite obtener
un estimador de la varianza de los individuos de tal población (s 2). Este estimador nos sirve para
calcular la varianza de las medias, mediante la ecuación: s 2 = s2/n , donde n es el número de
elementos sobre los cuales cada media que conforma la población de medias está basada.
Si contamos con una serie de m medias (una parte de la población de medias) obtenidas de muestras
de tamaño n, una mejor estimación de 2 se logra mediante s2 =[(i - )2]/(m-1).
Conocida la varianza de medias, es fácil determinar s2 (= n × s2).
La distribución normal es un ideal matemático, y difícilmente puede encontrarse en la naturaleza
variables aleatorias que se distribuyan exactamente en forma normal. Sin embargo, muchas variables
pueden caracterizarse mediante la distribución normal.
1
Responsable: Ing.For. Carlos R. Vargas Salas
Página 1
81919081
Universidad Nacional Agraria La Molina
Departamento de Manejo Forestal
FR2010 SEMINARIO EN ESTADISTICA FORESTAL
Cuando al investigar algún fenómeno la variable X de interés está normalmente distribuida por lo
menos de manera aproximada, utilizamos en su análisis el conocimiento que tenemos de la
distribución normal.
La curva normal está definida por dos constantes que representan a la población, esto es, la media 
y la desviación estándar . Conociendo tales constantes (o parámetros), se puede dibujar la curva. En
una distribución normal, el área bajo la curva entre dos valores X1 y X2 corresponde al porcentaje de
elementos de la población que ocurren dentro del rango que tales valores determinan. Si levantamos
dos ordenadas a una distancia  a ambos lados de la media, el área de la porción central que así se
corta es aproximadamente 68% (68.27%) del área total, encontrándose la proporción restante en las
porciones laterales. Igualmente, si las ordenadas se levantan en ambos lados de la media a una
distancia igual a 2, el área central representará aproximadamente el 95% (95.44%). Ello equivale a
decir que sólo el 5%, aproximadamente, del número total de observaciones se desvía de la media en
2 o más.
De lo señalado se desprende que, para una curva normal, la proporción del área total contenida entre
dos ordenadas depende de la distancia a la que se encuentran estas ordenadas del promedio ,
distancia medida en desviaciones estándar .
Para responder a preguntas de probabilidad transformamos la variable X con media  y desviación
estándar  en la variable Z, con media 0 y desviación estándar 1. Para ello empleamos la fórmula
(x - )/ mediante la cual cualquier valor x de la variable aleatoria X se transforma en un valor Z de
la variable normal estandarizada. Cuando x=, Z=0; y cuando (x - )=, Z=1.
Así, aplicada la fórmula de transformación, puede establecerse que la elección aleatoria de una
observación cuyo valor Z es 2 o más alto ocurrirá en sólo el 2.5% de los casos. Igualmente, sólo en el
2.5% de las veces elegiremos aleatoriamente una observación cuyo valor Z es -2. En el 95% de los
casos de elementos sacados aleatoriamente, se tratará de observaciones con valor Z entre los dos
valores referidos().
2.5%
2.5%
-3
-2
-1
0
1
2
3
z
La tabla siguiente contiene algunos valores específicos de Z y las probabilidades de elección
aleatoria de observaciones X.
 z1
1
1.96
2
2.58
3
Valor X
original
  1
  1.96
  2
  2.58
  3
P(-z1<Z< z1)
P(-z1>Z> z1)
0.6827
0.9500
0.9544
0.9900
0.9974
0.3173
0.0500
0.0456
0.0100
0.0026
Los textos de estadística contienen tablas mucho más completas de valores Z. Algunas tablas indican
la probabilidad de ocurrencia de valores más grandes que el valor Z de referencia, mientras que otros
indican la probabilidad de ocurrencia de valores menores que el valor Z de referencia.
Así como podemos convertir los valores individuales de X a valores Z empleando la fórmula
(x - )/, se pueden convertir los individuos que conforman la población de medias a través de
( - )/. De una serie de m medias podemos obtener igual número de valores Z, cada uno positivo o
negativo, es decir, ( - )/ =  z.
() Para fines de claridad en la explicación, se ha recurrido a aproximaciones. En vez de 2 como medida de las
desviaciones a partir de  de las ordenadas que definen la proporción 95%, o los correspondientes valores Z=+2 y
Z= -2, debería emplearse la expresión 1.96 y Z=+1.96 y Z= -1.96.
Página 2
81919081
Related documents