Download Universidad de Los Andes Facultad de Ciencias

Document related concepts

Variable aleatoria wikipedia , lookup

Distribución de Bernoulli wikipedia , lookup

Distribución de Poisson wikipedia , lookup

Distribución de probabilidad wikipedia , lookup

Esperanza matemática wikipedia , lookup

Transcript
Universidad de Los Andes
Facultad de Ciencias Forestales y Ambientales
Escuela de Ingeniería Forestal
Departamento Manejo de Bosques
Cátedra de Biometría Forestal
Asignatura: ESTADISTICA Y BIOMETRIA
Profesor Argenis Mora Garcés
GUÍA TEÓRICA TEMA 3
UNIDAD II: INFERENCIA ESTADÍSTICA PARAMÉTRICA BÁSICA.
TEMA 3. LA DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS.
Algunos experimentos aleatorios producen resultados que pueden ser descritos por
letras, símbolos, o simples descripciones generales. Otros experimentos producen
resultados en términos numéricos, como por ejemplo, el número de “cara” que pueden
ocurrir cuando se lanza una moneda varias veces; el número de puntos observados
cuando se lanza un par de dados; el número de plantas en un área de 100 m2; o el
número de semillas que germinan en un semillero. Una variable aleatoria (de ahora en
adelante la abreviamos como V.A) es una descripción bien definida de los resultados en
el espacio muestral de un experimento aleatorio. Se escribirá a las variables aleatorias
con las letras mayúsculas “X”, “Y” y “Z”; mientras que sus respectivos valores o
resultados con sus respectivas letras minúsculas: “x”, “y” y “z”. Este espacio muestral
asociado con un experimento aleatorio puede ser clasificado en dos tipos: discreto y
continuo.
El espacio muestral discreto es aquel que contiene un numero finito de elementos y/o
no finito pero contable. Ejemplos: i) el número de hogares con servicios públicos
deficientes, ii) el número de accidentes por mes, iii) el número de lanzamientos
necesarios hasta que la “cara” aparezca, iv) número de votantes entre 18 y 20 años de
edad.
El espacio muestral continuo contiene un infinito e incontable número de resultados.
Cualquier V.A o característica obtenida por medición, como por ejemplo, el tiempo
necesario para que las semillas germinen, el peso de personas que viven en una región
determinada, la distancia entre comunidades dependientes de un centro de acopio de
productos agrícolas, etc., todas en teoría pudieran tomar cualquier valor en un intervalo
de medición. Por ejemplo, dependiendo de la precisión del instrumento de medición, se
podría obtener un caudal de un río en 3.1 m3/minuto ó 3.2 m3/minuto; pero también es
posible que este caudal tome el valor de 3.17.
2. Distribuciones de Probabilidad de V.A.
2.1 Probabilidades de V.A discretas.
Una V.A discreta puede ser descrita por medio de probabilidades de que cada valor
individual ocurra cuando un experimento aleatorio se realice. La lista de todos los
resultados numéricos posibles y sus probabilidades asociadas a cada resultado se llama
la distribución de probabilidad de una V.A. Aquí tenemos el ejemplo clásico del
lanzamiento de una moneda: Sí la lanzamos tres veces (este hecho es el experimento
aleatorio) la moneda y solo nos interesa saber el número de veces en que caiga el lado de
la “cara”, entonces la “característica” o la variable aleatoria que nos interesa estudiar es
el número de cara y la denotamos como X. Ahora bien, los resultados posibles dentro
del espacio muestral ya definido serian: 0, 1, 2, y 3 veces que caiga “cara”. Estos valores
serán denominados como x. Formalmente, podemos escribir este resultado en una tabla
o cuadro como sigue:
Pero ¿de dónde “salieron” esas fracciones?, primero que nada veamos que el número de
veces que lanzaremos la moneda es la base para el conteo de “el número de veces en
que caiga el lado de la “cara”. ¿Cuales serian los posibles resultados para esta variable
aleatoria? Es posible que al lanzar tres veces la moneda surjan varios resultados teóricos
y debemos considerar el orden en que estos resultados se produzcan, veamos la
siguiente tabla o cuadro. Llamamos E para escudo y C para cara.
Interpretemos los resultados anteriores, sabemos que existen 8 casos posibles, pero solo
4 resultados:
1) ninguna salga cara (todas las tres veces fue “escudo”), por tanto el primer resultado
teórico es 0 “cara”, x = 0 de un total de 8 casos sólo se puede dar una vez.
2) sólo una vez de los tres lanzamientos es “cara”, x = 1 de un total de 8 casos, este
resultado se puede dar tres veces.
3) es posible que en dos oportunidades apareció “cara” x = 2 de un total de 8 casos, este
resultado se puede dar en tres casos.
4) que todas las veces cayó “cara”, es decir, tres veces en los tres lanzamientos x = 3 de
un total de 8 casos y este resultado es posible una sola vez.
Así, que los resultados posibles para la variable aleatoria, X, llamada el número de veces
en que caiga el lado de la “cara”, al lanzar una moneda tres veces, son x1=0 cara, x2=1
cara, x3=2 caras y, x4=3 caras, cuyas probabilidades de ocurrencia de cada resultado es
1/8, 3/8, 3/8 y 1/8, respectivamente. Como ahora se resume en la tabla o cuadro de la
distribución de probabilidades
Con frecuencia es posible y hasta conveniente expresar los resultados y las
probabilidades a través de una ecuación denominada función de probabilidades;
algunas veces derivarlas no es muy obvia. En el caso del lanzamiento de una moneda si
es posible construir una función de probabilidad basándonos en el hecho de que al
lanzar una moneda se tendrán dos posibles resultados: cara o escudo, y sabemos el
número de posibles resultados (0, 1, 2, 3) cuando “cara” aparezca. Así tenemos que con
reglas de la “combinatoria” es posible hacerlo:
Donde x se refiere a los posibles resultados de la variable aleatoria X, es decir, x = 0, 1, 2,
3, 4, …, n. y “L” es el número de veces en que se lanza la moneda, aquí fue 3 veces.
Para el caso de nuestro ejemplo, tenemos que al lanzar la moneda tres veces, es decir n
veces, implica que se darán 2n casos donde aparecerá “cara”. Por tanto, nuestra función
de probabilidad para el número de veces en que cae “cara” al lanzar tres veces una
moneda es
Para los valores x = 0, 1, 2, 3 número de veces en que caiga el lado de la “cara”, al lanzar
una moneda tres veces. Con esta función de probabilidad podemos usarla para hallar
varias probabilidades de acuerdo a uno ó varios eventos de interés. Por ejemplo, La
probabilidad de que al lanzar la moneda tres veces, el número de caras esté entre 1 y 2;
esto se expresaría así P(1 ≤ X≤ 2) = P(X=1)+P(X=2)= 3/8 +3/8 =6/8, resultado que se
puede resolver bien sea con el cuadro de distribución de probabilidades o con la función
de probabilidad ya descritas anteriormente. Finalmente, se debe notar que las
distribuciones de probabilidad discretas deben cumplir con dos condiciones:
a) Las probabilidades de cada uno de los resultados deben sumar 1.
b) Las probabilidades de los resultados individuales debe ser 0 ≤ P(X=x) ≤ 1; eso
significa que las probabilidades no pueden ser ni negativas ni mayor a 1.
También, la distribución de probabilidades de variables discretas puede ser visualizada
a través de un gráfico donde se expresa en el eje de las y los resultados de las
probabilidades individuales de cada valor de x mostrados en el eje de las X
2.2 Probabilidades de V.A. continuas
Respecto a las variables aleatorias continuas, la probabilidad de cualquier valor exacto
es siempre cero. Esto es debido a que es imposible construir una tabla o cuadro similar a
las de las variables discretas. Aunque un valor exacto puede tener una probabilidad de
cero, las probabilidades asociadas con intervalos si es posibles, así que para V.A
continuas solo es posible calcular probabilidades para intervalos, mayores o menores
que algún valor en particular: P(1.9 ≤ X ≤ 2.1); P(X ≤ 2.5) y P(X ≥ 3.3). Estas
probabilidades calculadas deben ser mayores o iguales a 0 y menores o iguales a 1.
Cuando las probabilidades son representadas en un gráfico para variables continuas,
esta reflejará una curva continua, y se denominará densidad de probabilidad. Como la
mostrada a continuación
De esta manera, para hallar las probabilidades como las postuladas anteriormente se
obtienen hallando el área bajo la curva entre los dos límites, por lo que determinar P(1.9
≤ X ≤ 2.1) es igual que P(1.9 < X< 2.1).
Las probabilidades para variables aleatorias continuas con dominios bien definidos
tienen propiedades similares a las discretas:
1) El área total bajo la curva entre los resultados más bajos y más altos debe sumar 1.
2) Las probabilidades entre dos límites, x1 y x2, deben ser 0 ≤ P(x1 ≤ X≤ x2) ≤ 1.
La Media y Varianza de una Variable Aleatoria Discreta
La media de una V.A puede obtenerse a partir de la distribución de probabilidades que
esta tenga. Y se define como el promedio ponderado de todos los posibles resultados de
una V.A, donde los pesos o ponderaciones son las probabilidades asociadas a cada uno.
Por ejemplo, si retomamos el caso del lanzamiento de la moneda tres veces y deseamos
conocer el número promedio de veces en que aparezca “cara” se obtiene asi:
Debido a que la suma de las probabilidades debe sumar 1, el denominador siempre será
1, por tanto la fórmula quedaría resumida y generalizada de la siguiente manera, para
una V.A discreta:
La letra griega µ (miu) es tratada como la media de la población de la variable aleatoria
X; y es la media teórica de una distribución de probabilidades y se refiere también como
el valor esperado o esperanza matemática de X, es decir E(X). El término valor esperado
o esperanza matemática es una medida ponderada del centro, o media ponderada de
todos los posibles valores de una V.A.
Como en el caso de la media, la varianza de una V.A discreta es el promedio ponderado
de las diferencias entre cada resultado de la V.A y la media elevadas al cuadrado, donde
los pesos o ponderaciones son las probabilidades de los resultados. Usemos los
resultados del ejemplo anterior
La notación σ (sigma) se utiliza para definir la varianza de la población de una V.A. en
general, la varianza de una V.A discreta viene dada como:
Donde f(xi) es la probabilidad de xi. Con alguna manipulación algebraica la fórmula
anterior puede reescribirse de la siguiente manera:
La cual permitirá realizar los cálculos a mano. Al aplicar la raíz cuadrada del valor de la
varianza se obtendrá la desviación estándar y se denotará simplemente con la letra
griega σ.
La Media y Varianza de una Variable Aleatoria Continua
Para el cálculo de la media de V.A continuas se debe utilizar la técnica del cálculo
integral. Y la ecuación general es
Donde a ≤ x ≤ b. Esta integral lo que permite es determinar el área bajo la curva de una
densidad de probabilidades determinada. Afortunadamente, ya existen tablas de
probabilidades ya calculadas o software de computación (como en Excel) que pueden
ser usadas para algunas densidades de probabilidad teóricas ya conocidas en la
literatura estadística, como se verá en capítulos por venir. Como para la media, el
cálculo de la varianza para variables continuas requiere de un entendimiento del cálculo
integral. La ecuación se describirá a continuación, pero al igual que para la media, sólo
se hará para tenerla como referencia
Donde a ≤ x ≤ b.
Distribuciones Teóricas de probabilidad para V.A Discretas
1. Distribución Binomial: Se basa en el principio de un experimento con dos posibles
resultados (ocurrencia o no de un evento). Sea p la probabilidad de éxito (ocurrencia del
evento) y sea (1 – p) la probabilidad de falla (no ocurrencia). Estas probabilidades se
deben conocer a priori cada vez que se realiza el experimento y permanece constante de
experimento a experimento. El experimento se ejecuta n veces y cada uno de ellos son
independientes entre si. La V.A esta representada por “el numero de veces en que se
produce el éxito en los n experimentos ejecutados”. Es decir, Y = 0, 1, 2, 3, 4, ……., n.
esta distribución binomial se define así:
p( y ) 
n!
 p y  ( 1  p )( n  y )
( n  y )! y!
Donde n es el numero de ensayos, y el numero o conteo de elementos que contiene el
atributo “éxito” que deseamos registrar (ocurrencia de un evento). P es la probabilidad
de que ocurra el evento en cada ensayo (no confundir con la probabilidad de hallar y).
Los parámetros de esta distribución son
 = n*P
2 = n*P*(1- P)
Ejemplo 1: Sea Y una variable aleatoria con distribución binomial, con n= 10 y
probabilidad de ocurrencia de un evento en interés o éxito de P = 0.8; formalmente se
usa la notación Y ~ b(n=10, P=0.8). Hallar la tabla de distribución de probabilidades
asociada a cada valor de Y y graficarla en un histograma. Para hallar cada una de las
probabilidades asociadas podemos hacerlo aplicando directamente la formula de la
funcion de probabilidad binomial mostrada anteriormente
p( y ) 
n!
 p y  ( 1  p )( n  y )
( n  y )! y!
p( y  0 ) 
10!
 0.8 0  ( 1  0.8 )( 100 )
( 10  0 )!0!
p( y  1 ) 
10!
 0.8 1  ( 1  0.8 )( 10 1 )
( 10  1 )!1!
p( y  2 ) 
10!
 0.8 2  ( 1  0.8 )( 10 2 )
( 10  1 )!1!
Y así sucesivamente hasta calcular p(y=10)
y
P(Y=y)
0
0.000
1
0.000
2
0.000
3
0.001
4
0.006
5
0.026
6
0.088
7
0.201
8
0.302
9
0.268
10
0.107
A su vez podemos calcular el valor esperado o media de esta distribución
 = n*P = 10*0.8 = 8
y la varianza
2 = n*P*(1- P) = 10*0.8*(1 – 0.8) = 4
Gráficamente quedaría representada así,
0.35
0.3
Prob
0.25
0.2
0.15
0.1
0.05
0
0
1
3
4
5
6
Numero de exito
7
8
9
10
Adicionalmente, se podría conocer las probabilidades siguientes
a) p (y =3) = 0.001
b) p (y > 7) = p (y=8) + p(y=9) + p(y=10) = 0.302 + 0.268 + 0.107 = 0.677
c) p (y ≤ 3) = p(0) + p(y=1) + p(y=2) + p(y=3) = 0.000 + 0.000 + 0.000 = 0
d) p (y ≥ 8) = p (y=8) + p(y=9) + p(y=10) = 0.302 + 0.268 + 0.107 = 0.677
Note que p (y > 7) = p (y ≥ 8)
2. Distribución de Probabilidad Poisson
Esta distribución es útil para modelar variables que por su naturaleza es de carácter
discreto. A su vez, este conteo se realice sobre una unidad de tiempo o espacio. El
parámetro de la distribución es lamda λ: numero promedio de ocurrencias del evento
por unidad de tiempo/ espacio. La función de probabilidad asociada a la variable tipo
Poisson es la siguiente:
e   y
p( y ) 
,
y!
Al igual que con la función de distribución binomial, es posible calcular la probabilidad
exacta de cada uno de los valores que tome Y aplicando la formula anterior. Nótese que
los posibles valores que puede tomar Y son 0, 1, 2, 3, 4, 5, …, hasta infinito.
Ejemplo 2. Sea Y una variable aleatoria que sigue una distribución Poisson con Lamda
(λ) igual a 5, formalmente se usa la notación Y ~ P(λ=5) construya la tabla de
distribución y grafíquela
p( y  0 ) 
e 5 5 0
,
0!
p( y  1 ) 
e 5 5 1
,
1!
p( y  2 ) 
e 5 5 2
,
2!
Y así hasta encontrar p(y=10), atención aquí, he usado hasta y=10 solo como referencia,
se puede construir hasta cualquier valor de y máximo que este pueda tomar en la
realidad; por ejemplo, si realizamos un muestreo en un rodal y contamos el numero de
parcelas con presencia de de árboles de la especie Teca, los números pueden ser desde 0
parcelas hasta un numero finito de parcelas que se hayan seleccionado para tal estudio
(25 parcelas, por ejemplo). A continuación se tiene la tabla de distribución de frecuencias
y la grafica respectiva.
Y P(Y=y)
0
0.007
1
0.034
2
0.084
3
0.140
4
0.175
5
0.175
6
0.146
7
0.104
8
0.065
9
0.036
10 0.018
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Distribución de Probabilidad de V.A Continuas
Distribución Normal
La distribución normal es la de mayor uso y desarrollo teórico dentro de todas las
distribuciones de probabilidad incluyendo discretas y continuas. Esta distribución tiene
las siguientes características:
a) tiene forma acampanada
b) es simétrica respecto a la media y es unimodal
c) los extremos o colas de la curva se aproximan cada vez más al eje horizontal, pero
nunca llega a alcanzarlo.
d) El área bajo la curva es igual a 1
Las probabilidades de las V.A continuas son modeladas por una función denominada
función de densidad; y proporciona un medio para determinar las probabilidades
dentro del intervalo de los valores que puede esta tomar
a) p (y < a)
b) p (y > a)
c) p (a < y < c)
Esta función viene dada por
f( y)
  ( y   )2 
1
exp 

2
2
 2

Esta función tiene una media denominada μ y una varianza σ2 y formalmente podemos
usar la notación Y ~ N (μ, σ2) es decir, que la variable aleatoria continua Y sigue una
distribución normal con parámetros media denominada μ y una varianza σ2
Distribución Normal estándar o tipificada
Para facilitar el calculo de las probabilidades de variables continuas asociadas a una
distribución normal es posible usar una transformación de la variable original en una
nueva variable también continua que llamaremos Z.
Z
y

Así esta nueva variables sigue una distribución normal con media 0 y varianza 1
Z ~ N (μ=0, σ2=1)
Gráficamente podemos visualizar esta transformación de una variable continua Y a una
estándar Z de la siguiente manera:
0.60
0.40
P (a < X < b) ?
P (33,1 < X < 36,8) ?
0.20
0.00
3031323334353637383940
Valores de DAP
a

z
b

0.6
0.5
0.4
0.3
0.2
0.1
0
Probabilidad
p(
)
p(
-4
-2
0
2
33.1  35
36.8  35
z
)
1
1
4
Valores de z
Dada la variable diámetro a la altura de pecho DAP una variable aleatoria que tiene una
distribución normal con media 35 cm y una varianza de 1 cm2. entonces determínese la
probabilidad de encontrar árboles que presenten DAP entre 33,1 y 36,8 cm, es decir
p (a ≤ X ≤ b) = p (33,1 ≤ y ≤ 36,8)
=
p(
a

z
b

)
=
p(
33.1  35
36.8  35
z
)
1
1
p (-1,9 ≤ Z ≤ 1,8) = p (Z ≤ 1,8) – p (Z ≤ -1,9)
p (-1,9 ≤ Z ≤ 1,8) = 0,036 – 0,029 = 0,007