Download Lección 1: Fundamentos de estadística - U
Document related concepts
Transcript
Lección 1: Fundamentos de estadística Conceptos básicos • Individuo • Población • Muestra, muestreo • Variables → cuantitativas (numéricas) → cualitativas (codificadas) • Tabla de datos Conceptos básicos Dos aspectos importantes a la hora de tomar una muestra: 1) La manera con la cual se obtiene la muestra a partir de la población determinará la calidad y la precisión de la información aportada por la muestra. Para que la inducción sea válida, la muestra debe ser representativa de la población. 2) Todo razonamiento estadístico basado en la muestra, comporta una parte inevitable de incertidumbre que se requiere cuantificar, especificando por ejemplo la probabilidad de error. Conceptos básicos • Variabilidad y aleatoriedad En la naturaleza y en todo proceso, existe variabilidad, la cual origina cierta incertidumbre en los valores de los individuos de la población que no forman parte de la muestra. El razonamiento estadístico se basa generalmente en el supuesto de que los datos recolectados en la muestra han sido generados por algún proceso estocástico o proceso aleatorio hipotético. Esto permite realizar inferencias sobre el proceso en estudio y lograr predicciones sobre la población subyacente. En algunas circunstancias, es posible corroborar el supuesto de aleatoriedad de los datos. Conceptos básicos Ejemplo (series de tiempo) Se realizan 9 mediciones de dos variables en distintas fechas Fecha 1 2 3 4 5 6 7 8 9 Variable 1 1 2 3 4 5 6 7 8 9 Variable 2 7 4 3 6 9 2 8 1 5 La primera variable muestra un patrón o variación sistemática, la cual puede no ser atribuible a un proceso aleatorio. Conceptos básicos Una propiedad deseable para una serie de tiempo es que las distribuciones de frecuencia no cambian con el tiempo (estacionaridad). Así, se puede suponer que las observaciones provienen de una misma población estadística. Conceptos básicos • Distribución de frecuencia La distribución de frecuencia fracciona los datos en grupos o clases y muestra ya sea el número de observaciones en cada clase, o bien el número de observaciones en cada clase dividido por el número total de observaciones. Un histograma es un gráfico de barras de una distribución de frecuencia: las clases se miden en el eje de abscisa, mientras que el número de observaciones o las frecuencias se miden en el eje de ordenada. Es una herramienta útil para representar gráficamente la variabilidad de los datos y obtener una estimación gráfica del “centro” y la forma de su distribución de frecuencia. Conceptos básicos Ejemplo: distribución de las leyes de cobre total, medidas en 2376 muestras de sondajes de exploración 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 Número de Clase observaciones 0 1.6 0 1.7 15 1.8 75 1.9 132 2 178 2.1 152 2.2 187 2.3 192 2.4 185 2.5 177 2.6 174 2.7 144 2.8 132 2.9 119 3 95 y mayor... Número de observaciones 77 64 45 42 48 34 19 14 13 9 10 10 3 2 4 25 Histograma 250 Número de observaciones Clase 200 150 100 50 0 Ley de cobre (%) Conceptos básicos • Distribución de frecuencia acumulada La distribución de frecuencia acumulada muestra, para cada clase, el número total de observaciones en todas las clases inferiores y en la clase en cuestión, dividido eventualmente por el número total de observaciones. La representación gráfica de dicha distribución se hace mediante un histograma acumulado. Conceptos básicos Ejemplo: granulometría El histograma acumulado muestra la fracción acumulada bajo un tamaño determinado. Clase de tamaño Malla superior Malla inferior Proporción en clase Proporción acumulada de partícula (cm) (cm) L0 ---5.000 0.0204 0.0204 L1 5.000 3.800 0.0597 0.0801 L2 3.800 3.200 0.0597 0.1398 L3 3.200 2.500 0.0759 0.2157 L4 2.500 1.900 0.1383 0.3540 L5 1.900 1.300 0.1622 0.5162 L6 1.300 1.000 0.0813 0.5975 L7 1.000 0.600 0.0962 0.6937 L8 0.600 0.055 0.2412 0.9349 L9 0.055 0.000 0.0651 1.0000 Conceptos básicos Distribución granulométrica Proporción acumulada 1.0000 0.8000 0.6000 0.4000 0.2000 0.0000 1 2 3 4 5 6 Clase de tamaño 7 8 9 10 Conceptos básicos • Variable aleatoria Se trata de una variable X cuyo valor depende del “azar”. Ejemplos cara o sello (representado por 0 ó 1) lanzamiento de un dado lotería variable en cuyos valores se tiene incertidumbre Distribución de probabilidad Una variable aleatoria X se caracteriza por una distribución de probabilidad, la cual se representa por medio de: • una función de distribución: ∀ x ∈ R, P(x) = Prob(X < x) • una densidad de probabilidad (variable continua): ∀ x ∈ R, p(x) = dP(x)/dx • una masa de probabilidad (variable discreta, por ejemplo, entera): ∀ n ∈ N, p(n) = Prob(X = n) Distribución de probabilidad Vínculo entre probabilidad y frecuencia empírica Al sortear numerosos valores independientes de X, la distribución de frecuencia de los valores sorteados (llamados realizaciones) debe tender a la distribución de probabilidad. Ejemplos • cara o sello • dado (¿falso?) Esperanza y varianza Se suele considerar parámetros sintéticos (llamados “momentos”) para describir la distribución de probabilidad: • esperanza o valor esperado: representa el valor promedio de la distribución µ = E ( X ) = ∫ x p ( x) dx R o n p ( n) ∑ n∈ N • varianza: mide la dispersión de la distribución σ 2 = var( X ) = E{( X − µ) 2 } = E ( X 2 ) − µ 2 • desviación estándar: es la raíz cuadrada de la varianza (σ) Esperanza y varianza Ejemplo: lanzamiento de un dado no falso • valor esperado 1 1 1 1 1 1 µ =1× + 2× + 3× + 4× + 5× + 6× = 3.5 6 6 6 6 6 6 • varianza 1 1 σ 2 = (1− 3.5) 2 × + ...+ (6 − 3.5) 2 × = 2.9167 6 6 Esperanza y varianza Dado un conjunto de n realizaciones de X, se puede estimar la esperanza y la varianza por • la media experimental 1 n X = ∑ Xi n i=1 • la varianza experimental 1 n S = ( X i − X )2 ∑ n −1 i=1 2 Esperanza y varianza Si las n realizaciones de X son independientes, los estimadores de la esperanza y de la varianza tienen las siguientes propiedades • media experimental σ2 var( X ) = n E( X ) = µ • varianza experimental 2 E (S ) =σ 2 1 n −3 4 var(S 2 ) = E{( X − µ) 4 }− σ n n −1 Si n es muy grande, se tiene las siguientes convergencias (ley de los grandes números): X n→+∞ →µ S 2 n→+∞ → σ 2 corr ( X , S 2 ) n → 0 →∞ Esperanza y varianza Complemento: muestreo sin reposición de una población finita Sea (X1,... XN) una población de N individuos (X1,... Xn) una muestra de la población (n ≤ N) Aquí, se supone que el muestreo se hizo sin reposición, de modo que los individuos de la muestra son todos distintos. Esto implica que la hipótesis de independencia entre las variables aleatorias de la muestra (X1,... Xn) ya no se cumple: a cada sorteo, se modifica la población, dado que el individuo sorteado ya no puede aparecer en los sorteos siguientes. Esperanza y varianza En este caso, los estimadores de la esperanza y de la varianza tienen las siguientes propiedades • media experimental E( X ) = µ N − n σ2 var( X ) = N −1 n • varianza experimental E (S 2 ) = N σ2 N −1 Con respecto al caso de una población infinita o de un muestreo con reposición (datos independientes), los factores correctivos pueden ser importantes si la tasa de muestreo n/N es importante o si N es pequeño. Esperanza y varianza Ejercicio 1: lanzamiento de un dado. Se realiza 10 lanzamientos, obteniendo los siguientes valores: 2 5 3 6 1 5 3 4 2 4 Calcular la media y la varianza experimental, y compararlas con la esperanza y varianza del dado no falso. Ejercicio 2. Para una muestra independiente, demostrar que la esperanza de S2 es igual a σ2. Esperanza y varianza Ejercicio 3. Se tiene una muestra independiente de tamaño n de una variable X. Se define la desviación estándar experimental como la raíz cuadrada de la varianza experimental: 1 n S= ( X i − X )2 ∑ n − 1 i =1 Se quiere saber si la esperanza de S es igual a la desviación estándar de X. Esperanza y varianza Ejercicio 4. Se considera una muestra de tamaño n de una variable positiva X. Comparar las medias aritmética (A), geométrica (G), armónica (H) y cuadrática (Q), definidas como sigue: 1 n A = ∑ Xi n i =1 n G=n ∏X i =1 i H= 1 1 n 1 ∑ n i =1 X i 1 n 2 Q= Xi ∑ n i =1 Se podrá hacer uso de la desigualdad de Jensen: Si f es una función convexa y {λ1,… λn} un conjunto de ponderadores positivos cuya suma es igual a 1, entonces n n f ∑ λ i xi ≤ ∑ λ i f ( xi ) i =1 i =1 Otros parámetros estadísticos Medidas de tendencia central La mediana es el valor del individuo central (de la población o de la muestra) cuando todos los individuos están dispuestos en orden ascendente en término de valores. También se puede definir los cuantiles como los valores que sub-dividen la población o la muestra (dispuesta en orden ascendente) en categorías de igual número de individuos: • cuartiles • quintiles • deciles • centiles Otros parámetros estadísticos La moda es el valor que aparece más frecuentemente en el conjunto de datos, o sea, el valor correspondiente al máximo de la distribución de frecuencia. → distribución unimodal / bimodal / multi-modal A diferencia de la media, la mediana y la moda no son afectados por valores extremos en el conjunto de datos. Otros parámetros estadísticos Ejemplo: toneladas descargadas por un camión en cada viaje Se tiene la siguiente serie de observaciones: 260, 290, 270, 280, 300, 270, 280, 250, 240, 280, 290, 280, 300 Calcular los siguientes estadísticos: • media • mediana • moda Otros parámetros estadísticos Medidas de dispersión La dispersión se refiere a la variabilidad o amplitud en los datos. Aparte de la varianza y la desviación estándar, las medidas más importantes son: • desviación media y diferencia relativa media • coeficiente de variación • rango • rango intercuartil Otros parámetros estadísticos La desviación media (MAD) está dada por el promedio de las diferencias absolutas entre cada observación y la media: MAD = E{| X − µ |} para la población 1 n MAD = ∑ | X i − X | n i =1 para la muestra La desviación media es positiva, o nula si todos los individuos tienen el mismo valor. Otros parámetros estadísticos La diferencia relativa media (RMD) es el promedio de las diferencias absolutas entre todos los pares posibles de observaciones: RMD = E{| X − X ′ |} para la población 1 n n RMD = 2 ∑∑ | X i − X j | n i =1 j =1 para la muestra Esta medida también se denomina “coeficiente de selectividad”. Otros parámetros estadísticos Para variables positivas, el coeficiente de variación es el cociente entre la desviación estándar y el valor promedio; se trata de una medida sin dimensión. De manera similar, el coeficiente de Gini es la mitad del cociente entre la diferencia relativa media y el valor promedio; esta medida no tiene dimensión y está comprendida entre 0 y 1. El rango es la diferencia entre el valor máximo y el mínimo. El rango intercuartil es la diferencia entre el tercer cuartil (75%) y el primer cuartil (25%). En este rango, se distribuye la mitad de los individuos de la población o de la muestra. Otros parámetros estadísticos Ejemplo: coeficiente de Gini para medir las desigualdades de ingreso Otros parámetros estadísticos Medidas de forma La forma de la distribución se refiere a 1) su simetría o la falta de ella (asimetría) 2) la agudeza o aplanamiento de su punta (curtosis) Otros parámetros estadísticos Una distribución tiene asimetría cero si es simétrica a su media. Para una distribución simétrica, la media y la mediana son iguales. Si además es unimodal (tiene una sola moda), entonces esta moda también es igual a la media. Una distribución está sesgada positivamente si la cola derecha es más larga. Entonces, la media es superior a la mediana, la cual es superior a la moda. Al contrario, está sesgada negativamente si la cola izquierda es más larga, caso en el cual la moda supera a la mediana y ésta a la media. Otros parámetros estadísticos La asimetría puede medirse por el coeficiente de asimetría: E{( X − µ) 3} a3 = σ3 1 n 3 ( X − X ) ∑ i n i =1 a3 = S3 para la población para la muestra Otros parámetros estadísticos Una curva de punta aguda se llama leptocúrtica, en oposición a una achatada (platicúrtica). Entre estos extremos se halla la mesocúrtica. La curtosis se puede medir por el siguiente coeficiente: E{ ( X − µ) 4 } a4 = σ4 1 n ( X i − X )4 ∑ n a4 = i =1 4 S para la población para la muestra Distribución normal Densidad de probabilidad normal o Gaussiana: ( x − µ) 2 1 ∀x∈R, p ( x) = exp− 2 σ 2π 2 σ Carl Friedrich Gauss Distribución normal La distribución normal estándar corresponde al caso donde µ = 0 y σ = 1. Se denota usualmente como N(0,1). Su función de distribución es: ∀x∈R, P( x) = ∫ x −∞ p (t ) dt ≈1− p ( x)(0.4361836 t − 0.1201676 t 2 + 0.9372980 t 3 ) con t = 1 1+ 0.33267 x La suma de n variables aleatorias normales independientes de esperanza µ y varianza σ2 es una variable aleatoria normal, de esperanza n × µ y varianza n × σ2. Distribución normal Teorema del límite central Para una muestra independiente de una variable aleatoria X con esperanza finita µ y varianza finita σ2, se tiene X −µ → N (0,1) si n → ∞ σ/ n Independientemente de la distribución inicial de X, la distribución de la media de una muestra grande es Gaussiana. Usualmente, se considera que la convergencia se alcanza si n > 50. En particular, se tendrá: σ σ Prob X −1.96 < µ < X +1.96 = 0.95 n n Distribución lognormal X tiene una distribución lognormal cuando su logaritmo sigue una distribución normal. La densidad de probabilidad es: 2 ln ( x ) − µ 1 1 ln( X ) ∀x > 0, p ( x) = exp− x σ ln( X ) 2π σ ln( X ) 2 Distribución gamma La densidad de probabilidad de la distribución gamma estándar depende de un parámetro positivo θ (parámetro de forma), igual a la media y a la varianza: ∀x > 0, p ( x ) = 1 − x θ−1 e x Γ (θ) El caso θ = 1 corresponde a la distribución exponencial. Distribución chi cuadrado La suma de n variables normales estándares independientes {Xi, i = 1… n} elevadas al cuadrado tiene una distribución chi cuadrado con n grados de libertad: n χ = ∑ X i2 2 n i =1 2 La esperanza de χ n es igual a n y su varianza a 2n. 1 2 χ n es una variable gamma de parámetro θ = n/2. 2 Distribución chi cuadrado Sea un conjunto de variables aleatorias normales independientes {Xi, i = 1… n} de misma esperanza µ y varianza σ2. Denotemos como S2 su varianza experimental. Entonces, se obtiene una variable del chi cuadrado con n – 1 grados de libertad al plantear: χ 2 n −1 (n − 1) S 2 = σ2 Además, X (media experimental) y S2 son independientes. Distribución de Weibull Una variable X sigue una distribución de Weibull estándar de parámetro θ (positivo) si Xθ tiene una distribución exponencial. ∀x > 0, p ( x) = θ x θ−1 exp( − x θ ) Distribución de Student Sea X una variable normal estándar (de media 0 y 2 varianza 1), y χ n−1 una variable independiente del chi cuadrado con n – 1 grados de libertad. Se define la variable de Student con n – 1 grados de libertad (denotada Tn – 1) como Tn−1 = X n −1 χ 2n−1 William Sealy Gosset, alias Student Distribución de Student En particular, sea {Xi, i = 1… n} un conjunto de variables aleatorias normales independientes de misma esperanza µ y varianza σ2, X su media experimental y S2 su varianza experimental. La variable Tn−1 = X −µ n S tiene una distribución de Student con n – 1 grados de libertad. Este resultado es independiente del valor de σ2 y es de gran utilidad cuando este valor es desconocido. Distribución de Fisher La razón de dos variables independientes del chi cuadrado divididas por sus grados de libertad respectivos, es una variable de Fisher, cuya distribución depende de dos grados de libertad: F ( n1 , n2 ) = χ n21 / n1 χ 2n2 / n2 Ronald Aylmer Fisher Distribución uniforme La densidad de probabilidad es constante en un intervalo [a,b]: 1 si x ∈ [ a, b] ∀x ∈ R, p ( x) = (b − a ) 0 en caso contrario Otras distribuciones • Distribución de Bernoulli Esta distribución sólo tiene dos valores: 1 (con probabilidad p) y 0 (con probabilidad 1 – p). • Distribución de Poisson • Distribución binomial Se obtiene al sumar M variables de Bernoulli independientes, de misma probabilidad de éxito p. • Distribución binomial negativa • Distribución hipergeométrica Otras distribuciones Distribuciones bivariables Consiste en asociar a cada experimento dos variables aleatorias X e Y (no necesariamente independientes). Ejemplos 1) resistencia de un cable a la tracción (X) y dureza del cable (Y) 2) leyes de cobre total (X) y cobre soluble (Y) de una muestra de sondaje 3) razón de solubilidad (X) y recuperación metalúrgica (Y) Distribuciones bivariables Para describir cómo se distribuyen y cómo se relacionan las dos variables X e Y, se generaliza la definición de la función de distribución al caso bivariable: P ( x, y ) = Prob( X < x,Y < y ) Se trata de la probabilidad que los dos eventos (X < x) e (Y < y) se realicen simultáneamente. Para variables discretas, se define la masa de probabilidad p (i, j ) = Prob( X = i,Y = j ) mientras que para variables continuas, se define la densidad de probabilidad ∂ 2 P ( x, y ) p ( x, y ) = ∂x ∂y Distribuciones bivariables Ejemplo 1: distribución bigaussiana o binormal x −µ X − 2 σ 2 (1−ρ ) X 1 p ( x, y ) = 1 2 π σ X σY 1 − ρ 2 e donde ρ es el coeficiente de correlación entre X e Y Las distribuciones marginales de X e Y son normales de medias µX y µY y de varianzas σX2 y σY2. 2 y − µY + σY 2 x −µ X − 2 ρ σX y − µY σY Distribuciones bivariables Ejemplo 2: distribución bigamma 1 x + y x y p ( x, y ) = exp − Γ(α) (1 − ρ) 1 − ρ ρ donde ρ > 0 es el coeficiente de correlación entre X e Y α > 0 es un parámetro de forma Iα-1 es la función de Bessel modificada de primer tipo de orden α – 1 ( α −1) / 2 x yρ I α −1 2 1− ρ Distribuciones bivariables X e Y son independientes si su función de distribución bivariable se factoriza P ( x, y ) = PX ( x) PY ( y ) En este caso, el conocer una variable no altera la distribución de la otra variable. Distribuciones bivariables Experimentalmente, la distribución bivariable entre X e Y se puede representar con un diagrama de dispersión (también conocido como nube de dispersión o nube de correlación), el cual consiste en la nube de puntos {(xi,yi), i = 1… n}. En caso de existir una relación potencial de causa y efecto entre las variables, este diagrama sirve para entender la naturaleza estadística de la causalidad. Distribuciones marginales Las distribuciones a priori de las variables X e Y se definen por • sus funciones de distribución PX ( x) = Prob( X < x) = P ( x,+∞) PY ( y ) = Prob(Y < y ) = P (+∞, y ) • sus densidades / masas de probabilidad p X ( x) = ∫ +∞ pY ( y ) = ∫ +∞ −∞ −∞ p( x, y ) dy p (i,⋅) = Prob( X = i ) = ∑ p (i,j ) j∈N p( x, y ) dx p (⋅, j ) = Prob(Y = j ) = ∑ p (i,j ) i∈N Distribuciones marginales Distribuciones marginales Distribuciones condicionales Se define la distribución de Y condicional a X = x P ( y | x) = Prob(Y < y | X = x) p( y | x) = ∂P( y | x) p ( x, y ) = ∂y p ( x) Estas funciones describen la distribución de la variable Y dada la realización de la variable X. El conocimiento de una variable aleatoria X correlacionada con Y suele modificar la distribución de probabilidad a priori de Y. La fórmula de Bayes da p( y | x) p( x) = p( x | y ) p( y ) Distribuciones condicionales Aplicaciones • distribución granulométrica de una partícula, dado que su tamaño es menor que 2.5cm • distribución de la ley de cobre total de una muestra, dado que su mineralogía es de tipo lixiviado • distribución de la ley de cobre soluble de una muestra, dada su ley de cobre total Distribuciones condicionales Ejemplo 1: distribución bigaussiana La distribución de Y condicional a X = x todavía es Gaussiana Distribuciones condicionales Ejemplo 2: distribución bigamma Distribuciones de Y condicional a X = 0.5 y de X condicional a Y = 0.5 Covarianza y correlación La covarianza entre X e Y se define como: cov( X ,Y ) = E[( X − µ X ) (Y − µY )] = E ( XY ) − µ X µY Se tiene: cov( X , X ) = var( X ) cov(aX ,bY ) = ab cov( X ,Y ) var( X + Y ) = var( X ) + 2 cov( X ,Y ) + var(Y ) | cov( X ,Y ) | ≤ var( X ) var(Y ) Además, si X e Y son independientes, cov(X,Y) = 0 y var(X + Y) = var(X) + var(Y). Covarianza y correlación El coeficiente de correlación lineal (o correlación de Pearson) entre X e Y se define como: ρ= cov( X ,Y ) σ X σY Se tiene: −1≤ ρ ≤1 X e Y son independientes ⇒ ρ = 0 X e Y son proporcionales ⇔ ρ =1 ó ρ = −1 ρ es un índice que mide la relación lineal entre X e Y, pero no muestra las relaciones que no son lineales Covarianza y correlación Ilustración Covarianza y correlación Dado un conjunto de n realizaciones independientes del par (X,Y), se puede estimar la covarianza y la correlación por • la covarianza experimental S XY 1 n = ( X i − X ) (Yi − Y ) ∑ n − 1 i =1 La esperanza de este estimador es igual a la covarianza de (X,Y) • la correlación experimental S XY S X2 SY2 Covarianza y correlación El coeficiente de correlación de rango, o de Spearman, se define al reemplazar los valores de cada variable, por sus rangos: valor mínimo → rango = 1 ... valor mediano → rango = n/2 ... valor máximo → rango = n Este estadístico es más resistente a la presencia de valores muy altos o muy bajos (outliers) que el coeficiente de correlación lineal clásico. Distribuciones multivariables Para describir cómo se distribuyen conjuntamente varias variables X1,… XM, se define la función de distribución multivariable: P ( x1 ,...xM ) = Prob( X 1 < x1 ,... X M < xM ) Para variables discretas, se define la masa de probabilidad p (i1 ,...iM ) = Prob( X 1 = i1 ,... X M = iM ) mientras que para variables continuas, se define la densidad de probabilidad ∂ M P ( x1 ,...xM ) p ( x1 ,...xM ) = ∂x1... ∂xM Distribuciones multivariables Ejemplo: distribución multigaussiana o multinormal p( x ) = 1 ( 2π ) M 1 exp− ( x − µ )t C −1 ( x − µ) det(C) 2 donde x = (x1,... xM)t es un vector de posibles valores de X1,... XM µ es el vector (1×M) de las esperanzas de X1,... XM C es la matriz de varianza-covarianza de X1,... XM La distribución multivariable sólo depende de los primeros dos momentos: vector de esperanzas y matriz de varianza-covarianza. Se dice que el vector aleatorio X = (X1,… XM)t es un vector Gaussiano. Distribuciones multivariables Propiedades 1) La ausencia de correlación (matriz C diagonal) equivale a la independencia 2) Las distribuciones inducidas son multigaussianas: las distribuciones marginales de X1,… XM son normales, sus distribuciones bivariables son binormales, y así sucesivamente. 3) Las distribuciones condicionales son Gaussianas. 4) Toda combinación lineal de X1,… XM tiene una distribución Gaussiana. 5) Teorema del límite central: si un vector aleatorio X tiene una esperanza finita µ y una matriz de varianza-covarianza C, entonces n ( X − µ ) tiene una distribución asintóticamente multigaussiana de media 0 y matriz de varianza-covarianza C cuando n tiende a infinito. Lecturas recomendadas Box, G.E.P., Hunter, W.G., Hunter, J.S., 1978. Statistics for Experimenters. John Wiley and Sons, New York, 653 p. Davis, J.C., 2002. Statistics and Data Analysis in Geology. John Wiley & Sons, Inc., New York. Lapin, L.L, 1990. Probability and Statistics for Modern Engineering. PWSKent, Boston. Montgomery, D.C., Runger, G.C., 1999. Applied Statistics and Probability for Engineers. John Wiley and Sons, New York. Ejercicios 1) Se tomaron 20 muestras de un stock, en las cuales se midió la ley de cobre. Se desea saber cuántas muestras son necesarias para poder estimar la ley media del stock con un error típico menor que 0.01%Cu. 2) (Principio de la simulación de Monte Carlo). Se busca sortear valores independientes de una variable aleatoria X con función de distribución F(.). Mostrar que Y = F(X) tiene una distribución uniforme en [0,1]. Deducir cómo simular valores de X a partir de valores uniformes. 3) (Media geométrica y distribución lognormal). Sea X una variable normal N(m,s) e Y = exp(X) una variable lognormal. Calcular la esperanza de Y y su mediana. Determinar la esperanza de la media geométrica de una muestra de Y de tamaño n. Ejercicios 4) (Fórmula del error fundamental). Se considera un conjunto de material (lote), por ejemplo el detrito de la perforación de un pozo de tronadura, del cual se quiere medir la ley de cobre. Para ello, se toma una muestra, que se manda a laboratorio para análisis químico. Se considera el lote como una reunión de fragmentos de diámetro d y factor de forma f. a) Determinar los números nL y nS de fragmentos en el lote y la muestra, en función del diámetro d, el factor de forma f, la densidad ρ del material y las masas ML y MS del lote y de la muestra . b) Calcular la varianza del error cometido al estimar la ley del lote por la ley de la muestra (medida por el laboratorio). Se denotará como Ai la ley del i-ésimo fragmento del lote y se supondrá que {Ai, i = 1...nL} son variables aleatorias independientes de esperanza m y varianza σ2.