Download Universidad de Los Andes Facultad de Ciencias
Document related concepts
Transcript
Universidad de Los Andes Facultad de Ciencias Forestales y Ambientales Escuela de Ingeniería Forestal Departamento Manejo de Bosques Cátedra de Biometría Forestal Asignatura: ESTADISTICA Y BIOMETRIA Profesor Argenis Mora Garcés GUÍA TEÓRICA TEMA 3 UNIDAD II: INFERENCIA ESTADÍSTICA PARAMÉTRICA BÁSICA. TEMA 3. LA DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES ALEATORIAS. Algunos experimentos aleatorios producen resultados que pueden ser descritos por letras, símbolos, o simples descripciones generales. Otros experimentos producen resultados en términos numéricos, como por ejemplo, el número de “cara” que pueden ocurrir cuando se lanza una moneda varias veces; el número de puntos observados cuando se lanza un par de dados; el número de plantas en un área de 100 m2; o el número de semillas que germinan en un semillero. Una variable aleatoria (de ahora en adelante la abreviamos como V.A) es una descripción bien definida de los resultados en el espacio muestral de un experimento aleatorio. Se escribirá a las variables aleatorias con las letras mayúsculas “X”, “Y” y “Z”; mientras que sus respectivos valores o resultados con sus respectivas letras minúsculas: “x”, “y” y “z”. Este espacio muestral asociado con un experimento aleatorio puede ser clasificado en dos tipos: discreto y continuo. El espacio muestral discreto es aquel que contiene un numero finito de elementos y/o no finito pero contable. Ejemplos: i) el número de hogares con servicios públicos deficientes, ii) el número de accidentes por mes, iii) el número de lanzamientos necesarios hasta que la “cara” aparezca, iv) número de votantes entre 18 y 20 años de edad. El espacio muestral continuo contiene un infinito e incontable número de resultados. Cualquier V.A o característica obtenida por medición, como por ejemplo, el tiempo necesario para que las semillas germinen, el peso de personas que viven en una región determinada, la distancia entre comunidades dependientes de un centro de acopio de productos agrícolas, etc., todas en teoría pudieran tomar cualquier valor en un intervalo de medición. Por ejemplo, dependiendo de la precisión del instrumento de medición, se podría obtener un caudal de un río en 3.1 m3/minuto ó 3.2 m3/minuto; pero también es posible que este caudal tome el valor de 3.17. 2. Distribuciones de Probabilidad de V.A. 2.1 Probabilidades de V.A discretas. Una V.A discreta puede ser descrita por medio de probabilidades de que cada valor individual ocurra cuando un experimento aleatorio se realice. La lista de todos los resultados numéricos posibles y sus probabilidades asociadas a cada resultado se llama la distribución de probabilidad de una V.A. Aquí tenemos el ejemplo clásico del lanzamiento de una moneda: Sí la lanzamos tres veces (este hecho es el experimento aleatorio) la moneda y solo nos interesa saber el número de veces en que caiga el lado de la “cara”, entonces la “característica” o la variable aleatoria que nos interesa estudiar es el número de cara y la denotamos como X. Ahora bien, los resultados posibles dentro del espacio muestral ya definido serian: 0, 1, 2, y 3 veces que caiga “cara”. Estos valores serán denominados como x. Formalmente, podemos escribir este resultado en una tabla o cuadro como sigue: Pero ¿de dónde “salieron” esas fracciones?, primero que nada veamos que el número de veces que lanzaremos la moneda es la base para el conteo de “el número de veces en que caiga el lado de la “cara”. ¿Cuales serian los posibles resultados para esta variable aleatoria? Es posible que al lanzar tres veces la moneda surjan varios resultados teóricos y debemos considerar el orden en que estos resultados se produzcan, veamos la siguiente tabla o cuadro. Llamamos E para escudo y C para cara. Interpretemos los resultados anteriores, sabemos que existen 8 casos posibles, pero solo 4 resultados: 1) ninguna salga cara (todas las tres veces fue “escudo”), por tanto el primer resultado teórico es 0 “cara”, x = 0 de un total de 8 casos sólo se puede dar una vez. 2) sólo una vez de los tres lanzamientos es “cara”, x = 1 de un total de 8 casos, este resultado se puede dar tres veces. 3) es posible que en dos oportunidades apareció “cara” x = 2 de un total de 8 casos, este resultado se puede dar en tres casos. 4) que todas las veces cayó “cara”, es decir, tres veces en los tres lanzamientos x = 3 de un total de 8 casos y este resultado es posible una sola vez. Así, que los resultados posibles para la variable aleatoria, X, llamada el número de veces en que caiga el lado de la “cara”, al lanzar una moneda tres veces, son x1=0 cara, x2=1 cara, x3=2 caras y, x4=3 caras, cuyas probabilidades de ocurrencia de cada resultado es 1/8, 3/8, 3/8 y 1/8, respectivamente. Como ahora se resume en la tabla o cuadro de la distribución de probabilidades Con frecuencia es posible y hasta conveniente expresar los resultados y las probabilidades a través de una ecuación denominada función de probabilidades; algunas veces derivarlas no es muy obvia. En el caso del lanzamiento de una moneda si es posible construir una función de probabilidad basándonos en el hecho de que al lanzar una moneda se tendrán dos posibles resultados: cara o escudo, y sabemos el número de posibles resultados (0, 1, 2, 3) cuando “cara” aparezca. Así tenemos que con reglas de la “combinatoria” es posible hacerlo: Donde x se refiere a los posibles resultados de la variable aleatoria X, es decir, x = 0, 1, 2, 3, 4, …, n. y “L” es el número de veces en que se lanza la moneda, aquí fue 3 veces. Para el caso de nuestro ejemplo, tenemos que al lanzar la moneda tres veces, es decir n veces, implica que se darán 2n casos donde aparecerá “cara”. Por tanto, nuestra función de probabilidad para el número de veces en que cae “cara” al lanzar tres veces una moneda es Para los valores x = 0, 1, 2, 3 número de veces en que caiga el lado de la “cara”, al lanzar una moneda tres veces. Con esta función de probabilidad podemos usarla para hallar varias probabilidades de acuerdo a uno ó varios eventos de interés. Por ejemplo, La probabilidad de que al lanzar la moneda tres veces, el número de caras esté entre 1 y 2; esto se expresaría así P(1 ≤ X≤ 2) = P(X=1)+P(X=2)= 3/8 +3/8 =6/8, resultado que se puede resolver bien sea con el cuadro de distribución de probabilidades o con la función de probabilidad ya descritas anteriormente. Finalmente, se debe notar que las distribuciones de probabilidad discretas deben cumplir con dos condiciones: a) Las probabilidades de cada uno de los resultados deben sumar 1. b) Las probabilidades de los resultados individuales debe ser 0 ≤ P(X=x) ≤ 1; eso significa que las probabilidades no pueden ser ni negativas ni mayor a 1. También, la distribución de probabilidades de variables discretas puede ser visualizada a través de un gráfico donde se expresa en el eje de las y los resultados de las probabilidades individuales de cada valor de x mostrados en el eje de las X 2.2 Probabilidades de V.A. continuas Respecto a las variables aleatorias continuas, la probabilidad de cualquier valor exacto es siempre cero. Esto es debido a que es imposible construir una tabla o cuadro similar a las de las variables discretas. Aunque un valor exacto puede tener una probabilidad de cero, las probabilidades asociadas con intervalos si es posibles, así que para V.A continuas solo es posible calcular probabilidades para intervalos, mayores o menores que algún valor en particular: P(1.9 ≤ X ≤ 2.1); P(X ≤ 2.5) y P(X ≥ 3.3). Estas probabilidades calculadas deben ser mayores o iguales a 0 y menores o iguales a 1. Cuando las probabilidades son representadas en un gráfico para variables continuas, esta reflejará una curva continua, y se denominará densidad de probabilidad. Como la mostrada a continuación De esta manera, para hallar las probabilidades como las postuladas anteriormente se obtienen hallando el área bajo la curva entre los dos límites, por lo que determinar P(1.9 ≤ X ≤ 2.1) es igual que P(1.9 < X< 2.1). Las probabilidades para variables aleatorias continuas con dominios bien definidos tienen propiedades similares a las discretas: 1) El área total bajo la curva entre los resultados más bajos y más altos debe sumar 1. 2) Las probabilidades entre dos límites, x1 y x2, deben ser 0 ≤ P(x1 ≤ X≤ x2) ≤ 1. La Media y Varianza de una Variable Aleatoria Discreta La media de una V.A puede obtenerse a partir de la distribución de probabilidades que esta tenga. Y se define como el promedio ponderado de todos los posibles resultados de una V.A, donde los pesos o ponderaciones son las probabilidades asociadas a cada uno. Por ejemplo, si retomamos el caso del lanzamiento de la moneda tres veces y deseamos conocer el número promedio de veces en que aparezca “cara” se obtiene asi: Debido a que la suma de las probabilidades debe sumar 1, el denominador siempre será 1, por tanto la fórmula quedaría resumida y generalizada de la siguiente manera, para una V.A discreta: La letra griega µ (miu) es tratada como la media de la población de la variable aleatoria X; y es la media teórica de una distribución de probabilidades y se refiere también como el valor esperado o esperanza matemática de X, es decir E(X). El término valor esperado o esperanza matemática es una medida ponderada del centro, o media ponderada de todos los posibles valores de una V.A. Como en el caso de la media, la varianza de una V.A discreta es el promedio ponderado de las diferencias entre cada resultado de la V.A y la media elevadas al cuadrado, donde los pesos o ponderaciones son las probabilidades de los resultados. Usemos los resultados del ejemplo anterior La notación σ (sigma) se utiliza para definir la varianza de la población de una V.A. en general, la varianza de una V.A discreta viene dada como: Donde f(xi) es la probabilidad de xi. Con alguna manipulación algebraica la fórmula anterior puede reescribirse de la siguiente manera: La cual permitirá realizar los cálculos a mano. Al aplicar la raíz cuadrada del valor de la varianza se obtendrá la desviación estándar y se denotará simplemente con la letra griega σ. La Media y Varianza de una Variable Aleatoria Continua Para el cálculo de la media de V.A continuas se debe utilizar la técnica del cálculo integral. Y la ecuación general es Donde a ≤ x ≤ b. Esta integral lo que permite es determinar el área bajo la curva de una densidad de probabilidades determinada. Afortunadamente, ya existen tablas de probabilidades ya calculadas o software de computación (como en Excel) que pueden ser usadas para algunas densidades de probabilidad teóricas ya conocidas en la literatura estadística, como se verá en capítulos por venir. Como para la media, el cálculo de la varianza para variables continuas requiere de un entendimiento del cálculo integral. La ecuación se describirá a continuación, pero al igual que para la media, sólo se hará para tenerla como referencia Donde a ≤ x ≤ b. Distribuciones Teóricas de probabilidad para V.A Discretas 1. Distribución Binomial: Se basa en el principio de un experimento con dos posibles resultados (ocurrencia o no de un evento). Sea p la probabilidad de éxito (ocurrencia del evento) y sea (1 – p) la probabilidad de falla (no ocurrencia). Estas probabilidades se deben conocer a priori cada vez que se realiza el experimento y permanece constante de experimento a experimento. El experimento se ejecuta n veces y cada uno de ellos son independientes entre si. La V.A esta representada por “el numero de veces en que se produce el éxito en los n experimentos ejecutados”. Es decir, Y = 0, 1, 2, 3, 4, ……., n. esta distribución binomial se define así: p( y ) n! p y ( 1 p )( n y ) ( n y )! y! Donde n es el numero de ensayos, y el numero o conteo de elementos que contiene el atributo “éxito” que deseamos registrar (ocurrencia de un evento). P es la probabilidad de que ocurra el evento en cada ensayo (no confundir con la probabilidad de hallar y). Los parámetros de esta distribución son = n*P 2 = n*P*(1- P) Ejemplo 1: Sea Y una variable aleatoria con distribución binomial, con n= 10 y probabilidad de ocurrencia de un evento en interés o éxito de P = 0.8; formalmente se usa la notación Y ~ b(n=10, P=0.8). Hallar la tabla de distribución de probabilidades asociada a cada valor de Y y graficarla en un histograma. Para hallar cada una de las probabilidades asociadas podemos hacerlo aplicando directamente la formula de la funcion de probabilidad binomial mostrada anteriormente p( y ) n! p y ( 1 p )( n y ) ( n y )! y! p( y 0 ) 10! 0.8 0 ( 1 0.8 )( 100 ) ( 10 0 )!0! p( y 1 ) 10! 0.8 1 ( 1 0.8 )( 10 1 ) ( 10 1 )!1! p( y 2 ) 10! 0.8 2 ( 1 0.8 )( 10 2 ) ( 10 1 )!1! Y así sucesivamente hasta calcular p(y=10) y P(Y=y) 0 0.000 1 0.000 2 0.000 3 0.001 4 0.006 5 0.026 6 0.088 7 0.201 8 0.302 9 0.268 10 0.107 A su vez podemos calcular el valor esperado o media de esta distribución = n*P = 10*0.8 = 8 y la varianza 2 = n*P*(1- P) = 10*0.8*(1 – 0.8) = 4 Gráficamente quedaría representada así, 0.35 0.3 Prob 0.25 0.2 0.15 0.1 0.05 0 0 1 3 4 5 6 Numero de exito 7 8 9 10 Adicionalmente, se podría conocer las probabilidades siguientes a) p (y =3) = 0.001 b) p (y > 7) = p (y=8) + p(y=9) + p(y=10) = 0.302 + 0.268 + 0.107 = 0.677 c) p (y ≤ 3) = p(0) + p(y=1) + p(y=2) + p(y=3) = 0.000 + 0.000 + 0.000 = 0 d) p (y ≥ 8) = p (y=8) + p(y=9) + p(y=10) = 0.302 + 0.268 + 0.107 = 0.677 Note que p (y > 7) = p (y ≥ 8) 2. Distribución de Probabilidad Poisson Esta distribución es útil para modelar variables que por su naturaleza es de carácter discreto. A su vez, este conteo se realice sobre una unidad de tiempo o espacio. El parámetro de la distribución es lamda λ: numero promedio de ocurrencias del evento por unidad de tiempo/ espacio. La función de probabilidad asociada a la variable tipo Poisson es la siguiente: e y p( y ) , y! Al igual que con la función de distribución binomial, es posible calcular la probabilidad exacta de cada uno de los valores que tome Y aplicando la formula anterior. Nótese que los posibles valores que puede tomar Y son 0, 1, 2, 3, 4, 5, …, hasta infinito. Ejemplo 2. Sea Y una variable aleatoria que sigue una distribución Poisson con Lamda (λ) igual a 5, formalmente se usa la notación Y ~ P(λ=5) construya la tabla de distribución y grafíquela p( y 0 ) e 5 5 0 , 0! p( y 1 ) e 5 5 1 , 1! p( y 2 ) e 5 5 2 , 2! Y así hasta encontrar p(y=10), atención aquí, he usado hasta y=10 solo como referencia, se puede construir hasta cualquier valor de y máximo que este pueda tomar en la realidad; por ejemplo, si realizamos un muestreo en un rodal y contamos el numero de parcelas con presencia de de árboles de la especie Teca, los números pueden ser desde 0 parcelas hasta un numero finito de parcelas que se hayan seleccionado para tal estudio (25 parcelas, por ejemplo). A continuación se tiene la tabla de distribución de frecuencias y la grafica respectiva. Y P(Y=y) 0 0.007 1 0.034 2 0.084 3 0.140 4 0.175 5 0.175 6 0.146 7 0.104 8 0.065 9 0.036 10 0.018 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Distribución de Probabilidad de V.A Continuas Distribución Normal La distribución normal es la de mayor uso y desarrollo teórico dentro de todas las distribuciones de probabilidad incluyendo discretas y continuas. Esta distribución tiene las siguientes características: a) tiene forma acampanada b) es simétrica respecto a la media y es unimodal c) los extremos o colas de la curva se aproximan cada vez más al eje horizontal, pero nunca llega a alcanzarlo. d) El área bajo la curva es igual a 1 Las probabilidades de las V.A continuas son modeladas por una función denominada función de densidad; y proporciona un medio para determinar las probabilidades dentro del intervalo de los valores que puede esta tomar a) p (y < a) b) p (y > a) c) p (a < y < c) Esta función viene dada por f( y) ( y )2 1 exp 2 2 2 Esta función tiene una media denominada μ y una varianza σ2 y formalmente podemos usar la notación Y ~ N (μ, σ2) es decir, que la variable aleatoria continua Y sigue una distribución normal con parámetros media denominada μ y una varianza σ2 Distribución Normal estándar o tipificada Para facilitar el calculo de las probabilidades de variables continuas asociadas a una distribución normal es posible usar una transformación de la variable original en una nueva variable también continua que llamaremos Z. Z y Así esta nueva variables sigue una distribución normal con media 0 y varianza 1 Z ~ N (μ=0, σ2=1) Gráficamente podemos visualizar esta transformación de una variable continua Y a una estándar Z de la siguiente manera: 0.60 0.40 P (a < X < b) ? P (33,1 < X < 36,8) ? 0.20 0.00 3031323334353637383940 Valores de DAP a z b 0.6 0.5 0.4 0.3 0.2 0.1 0 Probabilidad p( ) p( -4 -2 0 2 33.1 35 36.8 35 z ) 1 1 4 Valores de z Dada la variable diámetro a la altura de pecho DAP una variable aleatoria que tiene una distribución normal con media 35 cm y una varianza de 1 cm2. entonces determínese la probabilidad de encontrar árboles que presenten DAP entre 33,1 y 36,8 cm, es decir p (a ≤ X ≤ b) = p (33,1 ≤ y ≤ 36,8) = p( a z b ) = p( 33.1 35 36.8 35 z ) 1 1 p (-1,9 ≤ Z ≤ 1,8) = p (Z ≤ 1,8) – p (Z ≤ -1,9) p (-1,9 ≤ Z ≤ 1,8) = 0,036 – 0,029 = 0,007