Download notas del curso probabilidad y estadística
Document related concepts
Transcript
NOTAS DEL CURSO PROBABILIDAD Y ESTADÍSTICA OSCAR COREÑO ALONSO Febrero, 2013. Introducción Con el surgimiento de los métodos de control de calidad y de las normas ambientales, en el campo de la ingeniería Civil y Ambiental se ha visto un número creciente de aplicaciones en estos campos y entonces ahora se pueden exponer en clase problemas aplicados en estas áreas, haciendo la clase más interesante para los alumnos. Adicionalmente, los problemas de cambio climático son de interés para las ramas de ingeniería Civil y Ambiental no sólo porque la existencia del cambio climático se demuestra con datos estadísticos, sino porque como consecuencia de este cambio, la estadística y la probabilidad se han hecho una herramienta indispensable para poder predecir, al menos en forma aproximada, los nuevos valores esperados de precipitación y temperatura para el futuro, mismos que hasta hace algunos años se pensaba podían ser estimados en forma relativamente sencilla. Se pretende dar al alumno una herramienta de aprendizaje con la cual pueda comprender los aspectos fundamentales del manejo de conjuntos de datos numéricos, con ejemplos claros y sencillos de los temas tratados. El objetivo no es cubrir de manera exhaustiva todos los tipos de problemas básicos de la materia, sino servir de guía rápida para estudiar en casa y de apoyo para la resolución de problemas en forma individual. Objetivo Estas notas pretender apoyar al alumno para que al final del curso sea capaz de aplicar las técnicas y métodos estadísticos para análisis de datos, en la toma de decisiones más confiables, en problemas del área de ingeniería bajo condiciones de riesgo e incertidumbre. Página No. 1 Índice Introducción 1 Media, Mediana, Moda y otras medidas de tendencia central 3 1. La Desviación Típica y Otras Medidas de Dispersión 10 2. Momento, Sesgo y Curtosis. 14 Teoría Elemental de Probabilidades 17 Distribuciones. 26 Teoría Elemental de Muestreo 32 Teoría de la Estimación Estadística 50 Teoría Estadística de Decisiones 56 Teoría de Pequeñas muestras 65 El test Ji cuadrado 77 Ajuste de curvas y el método de mínimos cuadrados 83 Bibliografía 93 Página No. 2 I.- MEDIA, MEDIANA, MODA Y OTRAS MEDIDAS DE TENDENCIA CENTRAL. 1.1 Notación de Índices. Se denota Xi (se lee X subíndice i) a cualquiera de los N valores X1, X2,X3, hasta XN. Notación de Suma. Para denotar la suma de los valores de X desde X1 hasta XN se escribe: ∑ (1) Ejemplos: 1.- ∑ ( 2.- ∑( ∑ ) ∑ ) ∑ ∑ 1.2 Promedios o Medidas de Tendencia Central. Un promedio es un valor con el que podemos representar un conjunto de datos. Si ordenamos los valores de mayor a menor o viceversa, el promedio tiende a estar en el centro de los valores ordenados, por lo que el promedio se conoce como medida de tendencia central. Para describir el conjunto de datos podemos usar otras medidas de tendencia central como el mediana, la moda, la media geométrica y la media armónica, descritas a continuación. 1.3 La Media Aritmética es el valor que conocemos comúnmente como promedio o media y para un conjunto de datos se representa como ̅ ∑ ⁄ . (2) Por ejemplo, la media de 1,2,3,7,8,9 es ̅ )⁄ ( Si los números X1, X2, X3,,, XN ocurren con frecuencias f1, f2, f3,,,fN, respectivamente, la media aritmética está dada por ∑ ̅ ∑ (3) Donde el número total de datos es N = Σf. Por ejemplo, si los números 2,3,4 y 5 ocurren con frecuencias respectivas 3,4, 5 y 10, ̅ respectivamente, ( ( ) ( ) ( ) ( la ))⁄ 1.4 La media aritmética ponderada. Página No. 3 media aritmética es A veces, asignamos a los números X1, X2,,,XN, ciertos factores o pesos w1, w2,,,wN, de pendientes de la relevancia asignada a esos números. En este caso la media aritmética ponderada está dada por ∑ ̅ ∑ (4) ∑ Por ejemplo, si en un curso los exámenes cuentan 70%, las tareas 20% y la asistencia a clase 10%, y alguien tiene 8 en los exámenes, 7 en las tareas y 9 en asistencias, la calificación final es ( ̅ ) ( ) ( ) Propiedades de la Media Aritmética. 1.- La suma algebraica de las desviaciones de un conjunto de números respecto de la media aritmética es cero. Por ejemplo, hemos visto que la media de 1,2,3,7,8,9 es 5; las desviaciones respectivas de los números es -4,-3,-2,2,3 y 4. Se ve claramente que la suma de estas desviaciones es cero. 2.- La suma de los cuadrados de las desviaciones de un conjunto de números Xi respecto de un cierto número a es mínima si y sólo si a= ̅ . 3.- Si f1 números tienen media m1, f2números tienen media m2,,, fN tienen media mN entonces la media de todos los números es ∑ ̅ ∑ (5) 4.- Si A es una media aritmética supuesta o conjeturada (puede ser cualquier número) y si di =Xi - A son las desviaciones de Xi respecto a A, se puede expresar la media como ̅ ̅ ∑ ∑ ∑ ∑ ∑ (6) (7) 1.5 Datos Agrupados. Al resumir grandes colecciones de datos es útil distribuirlos en clases o categorías y determinar el número de individuos que pertenecen a cada clase, llamado Página No. 4 frecuencia de clase. Una disposición tabular de los datos por clases junto con las correspondientes frecuencias de clase se llama distribución de frecuencias. Por ejemplo, la tabla siguiente es una distribución de frecuencias de alturas (con precisión de una pulgada) de 100 estudiantes varones de una universidad. Altura (in) Número de Estudiantes 60-62 7 63-65 22 66-68 38 69-71 28 72-74 5 La primera clase consta de las alturas entre 60 y 62, y se indica por el rango 60-62 y su frecuencia es 7. Los datos organizados en clases como en la tabla anterior se llaman datos agrupados. El símbolo que define una clase, como 60-62, se llama intervalo de clase. Los números extremos, 60 y 62 se llaman, respectivamente, límite inferior y límite superior de clase. Con frecuencia se intercambian los términos clase e intervalo de clase. Los intervalos que al menos en teoría carecen de un límite superior o inferior indicado, se llaman intervalos de clase abiertos. Por ejemplo, en las alturas se podría hablar del intervalo de 75 o más pulgadas como un intervalo abierto. Fronteras de clase. Si se dan las alturas con precisión de una pulgada, el intervalo de clase 60-62 incluye teóricamente todas las medidas desde 59.5000 hasta 62.5000 in. Estos números, indicados más brevemente por los números exactos 59.5 y 62.5, se llaman fronteras de clase; el menor es la frontera inferior y el mayor, la frontera superior. En la práctica, las fronteras de clase se obtienen promediando el límite superior de una clase con el inferior de la siguiente. Tamaño o anchura del intervalo de clase. Página No. 5 El tamaño o anchura del intervalo de clase es la diferencia entre la frontera superior y la frontera inferior. Si todos los intervalos de clase de una distribución de frecuencias tienen la misma anchura, la denotaremos por c. En tal caso, c es igual a la diferencia entre dos límites inferiores o superiores de clases sucesivas. Por ejemplo, en la tabla anterior c = 62.5 - 59.5 = 3. Marca de Clase. La marca de clase es el punto medio del intervalo de clase y se obtiene promediando los límites inferior y superior de clase. Así, la marca de clase del intervalo 60-62 es (60+62)/2 = 61. Cuando los datos se presentan en una distribución de frecuencias, todos los valores que caen dentro de un intervalo de clase dado se consideran iguales a la marca de clase, o punto medio del intervalo. Las fórmulas que hemos visto son válidas para tales datos agrupados si interpretamos Xi como la marca de clase, fi como su correspondiente frecuencia de clase, A como cualquier marca de clase conjeturada y di = Xi – A como las desviaciones de Xi respecto a A. Cálculo de la Media Aritmética para Datos Agrupados. Si todos los intervalos de clase tienen idéntica anchura, c, las desviaciones di = Xi – A pueden expresarse como cuj donde uj = 0, ±1, ±2, ±3, y se tiene ̅ ∑ ∑ ( ) (8) 1.6 La Mediana. La mediana de un conjunto de datos ordenados en magnitud es el valor central o la media de los dos valores centrales si se tiene un número para de datos. Ejemplos: 1.- La mediana del conjunto 2,3,4,4,5,7,7,8,9 es 5. 2.- La mediana del conjunto 1,2,3,4,5,6,7,8,9,10 es ½(5+6) = 5.5 Para datos agrupados, la mediana obtenida por interpolación viene dada por: Página No. 6 ( (∑ ) ) (9) Donde = frontera inferior de la clase de la mediana. N = frecuencia total (número de datos). (∑ ) = suma de frecuencias de las clases inferiores a la de la mediana. = frecuencia de la clase de la mediana. c = ancho del intervalo de clase de la mediana. 1.7 La Moda. La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia; es decir, el valor más frecuente. La moda puede no existir, o en caso de existir, no ser única. Ejemplos: 1.- Para el conjunto 1,2,3,4,5,5,5,6,7,8 la moda es 5 2.- Para el conjunto 1,2,2,2,3,4,5,5,5,6,7,8 la moda está formada por 2 y 5 3.- Para el conjunto 1,1,1,3,3,3,5,5,5,7,7,7,8,8,8 no hay moda. Para datos agrupados, la moda puede deducirse de una distribución de frecuencias o de un histograma a partir de la fórmula ( ) (10) = frontera inferior de la clase modal (clase que contiene la moda) = exceso de frecuencia modal sobre la de la clase inferior inmediata. == exceso de frecuencia modal sobre la de la clase superior inmediata. c = ancho del intervalo de clase modal. Relación empírica entre Media, Mediana y Moda. Para curvas de frecuencia unimodal que sean poco asimétricas tenemos las siguientes relaciones empíricas: Media – Moda = 3 (media – mediana) Página No. 7 1.8 La Media Geométrica, G. La Media Geométrica, G, de un conjunto de N números positivos, X1, X2,,,XN, es la raíz N-esima del producto de los N números. √ (11) Ejemplo: 1.- Para el conjunto de números 2,3,4,5, la media geométrica es √( )( )( )( ) 1.9 La Media Armónica, H. La Media Armónica, H, de un conjunto de N números X1, X2,,,XN es el recíproco de la media aritmética de los recíprocos de esos números: ∑ (12) ∑ Ejemplo: 1.- La media armónica de 2,3,4,5 es 1.10 La Media Cuadrática, MQ. La Media Cuadrática, MQ, de un conjunto de N números X1, X2,,,XN se define como √∑ (13) Ejemplo: 1.- La media cuadrática de 2,3,4,5,6 es √( 1.11 Cuartiles, Deciles y Percentiles. Página No. 8 ) = 4.2426 Si tenemos un conjunto de datos ordenados en magnitud, la mediana es el valor que divide al conjunto en dos mitades. De igual forma, podemos pensar en los valores que dividen al conjunto en cuartos iguales, llamados primero, segundo y tercer cuartil, Q1, Q2, y Q3. Si dividimos el conjunto en diez partes iguales, tenemos nueve deciles, D1, D2,D3,,,D9; si ahora partimos el conjunto en cien partes iguales, tenemos 99 percentiles P1, P2, P3, P99. Página No. 9 II.- LA DESVIACIÓN TÍPICA Y OTRAS MEDIDAS DE DISPERSIÓN. La media aritmética puede servir como una primera magnitud para describir un conjunto de datos, pero para una mejor descripción, necesitamos un dato más que nos indique que tan dispersos están los datos alrededor de la media. Tomemos un ejemplo simple, el conjunto formado por los números 9,10 y 11 tiene la misma media aritmética que el conjunto 1,10,19, es decir, 10, pero el segundo conjunto tiene valores más dispersos respecto del promedio que el primer conjunto. La dispersión o variación de los datos intenta dar una idea de que tan esparcidos están los datos. Las medidas de dispersión más comunes son el rango, la desviación media, el rango semi-intercuartil, el rango percentil 90-10 y la desviación típica. 2.1 El Rango. El rango de un conjunto de números es la diferencia entre el mayor y el menor de todos ellos. Ejemplo: 1.- El rango del conjunto 2,3,4,5,5,6,6,7,8,9,12,13,14 es 14-2 = 12. 2.2 La Desviación Media. La Desviación Media o desviación promedio de un conjunto de N números X1, X2,,,XN se representa como DMy se define como ∑ ̅| | (14) Ejemplos: 1.- La media aritmética del conjunto 2,3,4,5,6 es 4 y la desviación media es | | | | | | | | | | Si los números X1, X2, X3,,, XN ocurren con frecuencias f1, f2, f3,,,fN, respectivamente, la desviación media está dada por ∑ | ̅| (15) 2.- La media aritmética del conjunto 2,2,2,3,3,3,4,4,4,5,5,5,6,6,6 es 4 y la desviación media es Página No. 10 | | | | | | | | | | 2.3 El Rango Semi-Intercuartil. El Rango Semi-Intercuartil se denota por Q y se define como Q = ½ (Q3 –Q1) 2.4 El Rango Percentil 10-90. El Rango Percentil 10-90 de un conjunto de datos se define por Rango Percentil 10-90 = P90 – P10. Donde P90 y P10 son los nonagésimo y décimo percentiles, respectivamente, del conjunto de datos. 2.5 La Desviación Típica. La Desviación Típica, o desviación estándar de un conjunto de números X1, X2, X3,,, XN se denota por s y se define como: ̅) ( √∑ (16) Para conjuntos de menos de 10 datos, se puede definir la fórmula anterior con el denominador dado por N-1 en lugar de N dentro de la raíz. Si los números X1, X2, X3,,, XN ocurren con frecuencias f1, f2, f3,,,fN, respectivamente, la desviación típica está dada por: ̅) ( ∑ √ Ejemplos: 1.- La media del conjunto 2,3,4,5,6 es 4 y la desviación típica es ( ) √ ( ) ( ) ( ) ( ) 2.- La media del conjunto 2,2,3,3,4,4,5,5,6,6 es 4 y la desviación típica es √ ( ) Página No. 11 ( ) ( ) ( ) ( ) (17) 2.6 La Varianza. La Varianza de un conjunto de números se define como el cuadrado de la desviación típica y se representa por s2. Ejemplos: 1.- La varianza del conjunto 2,3,4,5,6 es 2. 2.- La varianza del conjunto 2,2,3,3,4,4,5,5,6,6 es 2. Propiedades de la Desviación Típica. 1.- La desviación típica puede definirse como √∑ ( ) (19) Donde a es un promedio distinto de la media aritmética. De tales desviaciones típicas, la mínima es aquella para la cual a = ̅ . 2.- Para datos distribuidos normalmente (que siguen una distribución normal, 68.27% de los datos están en el rango ̅ ± s, 95.45% de ellos están en el rango ̅ ± 2s y 99.73% de los mismos se encuentran dentro del rango ̅ ± 3s. 3.- Supongamos que dos conjuntos de números tienen frecuencias totales N1 y N2 y varianzas respectivas y , y tienen la misma media. Entonces, la varianza combinada de ambos conjuntos está dada por: (20) Corrección de Sheppard para la Varianza. Como resultado del agrupamiento de datos, el cálculo de la desviación típica es algo erróneo, por lo que para corregirlo se usa la fórmula Varianza corregida = Varianza de datos agrupados – (c2/12) donde c es la anchura del intervalo de clase. La corrección c2/12 se llama corrección de Sheppard. Relaciones Empíricas entre Medidas de Dispersión. Página No. 12 La dispersión medida con la desviación típica es una medida de dispersión absoluta, pero supongamos que tenemos una desviación típica de 1 en mediciones que están todas alrededor de 10 y también de 1 en mediciones que están en el rango de 1000, claramente, en el primer caso la dispersión es mayor, por lo que necesario introducir el concepto de dispersión relativa, dado por: Dispersión Relativa = Dispersión Absoluta/Promedio Si la dispersión absoluta es la desviación típica s y el promedio es la media, ̅ , entonces la dispersión relativa se llama coeficiente de variación, o coeficiente de dispersión; se denota por V y se define como: Coeficiente de Variación (V)= s/ ̅ (21) 2.7 Variables Tipificadas. Unidades Estándar. La variable que mide la desviación de la medida en unidades de desviación típica se llama variable tipificada, es adimensional y viene dada por ̅ Página No. 13 (22) III. MOMENTO, SESGO Y CURTOSIS. 3.1 Momentos. Si los números X1, X2, X3,,, XN son los valores de la variable X, definimos la cantidad ∑ ̅̅̅̅ (23) Llamada r-ésimo momento. El primer momento, con r=1 es la media aritmética. El r-ésimo momento respecto a la media se define como ̅) ( ∑ (24) Si r =1, entonces m1=0. Si r= 2, entonces m2 = s2 es la varianza. El r-ésimo momento respecto a cualquier origen A se define como ∑ ( ) (25) Si los números X1, X2, X3,,, XN ocurren con frecuencias f1, f2, f3,,,fN, respectivamente, los momentos anteriores vienen dados por ∑ ̅̅̅̅ ∑ ∑ ( ( ̅) ) (26) (27) (28) 3.2 Relaciones entre Momentos. Existen algunas relaciones entre momentos respecto de la media mr y momentos respecto de un origen arbitrario Página No. 14 3.3 Momentos para datos Agrupados. El r-ésimo momento respecto a cualquier origen A se define para datos agrupados como ∑ (29) 3.4 Correcciones de Sheppard para Momentos. Las Correcciones de Sheppard para Momentos son como sigue: m2 corregido = m2 – (c2/12) m4 corregido = m4 – (m2c2/2) + (7c4/240) 3.5 Momentos Adimensionales. Podemos definir los momentos adimensionales respecto de la media como ar = mr / sr 1/2 donde s = (m2) (30) es la desviación típica. 3.6 Sesgo. El sesgo es el grado de asimetría de una distribución, es decir, que tanto la curva de distribución no es simétrica. Si la curva de frecuencias tiene a la derecha una cola más larga que a la izquierda, se dice sesgada a la derecha o de sesgo positivo; en caso contrario, es sesgada a la izquierda o de sesgo negativo. Para distribuciones sesgadas, la media tiende a estar del mismo lado de la moda que la cola larga. Una forma de medir la asimetría es con esta diferencia: media – moda y podemos hacerla adimensional dividiendo entre la desviación típica, lo que en conjunto se llama sesgo: Sesgo = (media – moda)/desviación típica o alternativamente típica Página No. 15 Sesgo = 3(media – mediana)/desviación Las ecuaciones anteriores se conocen como primer y segundo momento de sesgo de Pearson, respectivamente. El sesgo también se puede definir en términos de cuartiles y percentiles Coeficiente Cuartil de sesgo= (Q3 – 2Q2 + Q1)/(Q3 – Q1) Coeficiente Percentil 10-90 de sesgo= (P90 – 2P50 + P10)/(P90 – P10) Coeficiente momento de sesgo = a3 = m3/s3 3.7 Curtosis. La curtosis mide que tan puntiaguda es una distribución, respecto a la distribución normal. Si tiene un pico alto se dice leptocúrtica, si es aplastada se dice platicúrtica. La distribución intermedia entre las dos anteriores se llama mesocúrtica. (a) Leptocúrtica (b) Mesocúrtica (c) Platicúrtica Figura 1. Tipos de curvas de distribución Podemos medir la curtosis en términos del momento respecto de la media en forma adimensional con el coeficiente momento de curtosis: Coeficiente momento de curtosis = a4 = m4/s4 (31) que suele denotarse por b2. Para una distribución normal b2= a4 = 3. Y entonces se puede definir la curtosis como (b2 - 3), que es positivo para una distribución leptocúrtica, negativo para una platicúrtica y cero para la normal. Definimos el coeficiente percentil de curtosis (kappa) como: κ = Q /(P90 – P10) donde Q es el rango semi-intercuartil. Para la distribución normal, κ = 0.263. Página No. 16 (32) IV. TEORÍA ELEMENTAL DE PROBABILIDADES. 4.1 Definiciones de Probabilidad. Definición Clásica. Si un suceso E tiene h posibilidades de ocurrir entre un total de n posibilidades, cada una de las cuales tiene la misma oportunidad de ocurrir que las demás, entonces la probabilidad de que E ocurra se denota por p, donde p = Pr{E} = h/n (33) La probabilidad de que no ocurra E se denota por q, donde q = Pr{no E} = 1- (h/n) = 1 - Pr{E} (34) de donde se tiene que la suma de la probabilidades de que el suceso ocurra, p, más la probabilidad de que el suceso no ocurra es uno. Ejemplo. 1.- Supongamos que lanzamos un dado no trucado y queremos tener las probabilidades de que salga un número par, esto es, 2, 4 o 6. La probabilidad de que ocurra el suceso E es p = Pr{E} = h/n = 3/6 dado que al lanzar el dado pueden ocurrir seis eventos, los números 1,2,3,4,5 o 6. Definición como Frecuencia Relativa. La definición clásica de probabilidad tiene el problema de que las palabras oportunidad y probabilidad son muy parecidas y se cae en un círculo, por lo que se ha propuesto definir la probabilidad en términos de frecuencia relativa de ocurrencia del suceso cuando el número de observaciones es muy grande. La probabilidad misma es el límite de esa frecuencia relativa cuando el número de observaciones crece indefinidamente. Ejemplo: 1.- Supongamos que en 1000 lanzamientos de una moneda, sale águila 545 veces, y en otros 1000 lanzamientos sale águila 485 veces. Entonces, en estos 2000 lanzamientos la probabilidad de águila es (545+485)/2000 = .515. En el límite, o sea tirando la moneda un número infinito de veces, se supone que la probabilidad de águila debe ser 0.5, si la moneda no está trucada. Página No. 17 4.2 Espacio Muestral. Conjunto de resultados posibles de un experimento, por ejemplo, al lanzar un dado S = {1,2,3,4,5,6}; al lanzar dos monedas S = {(A,A),(S,S),(S,A),(A,S)}; 4.3 Evento. Subconjunto de un espacio muestral, queremos saber si el resultado de un experimento pertenece a él o no. Ejemplo, al lanzar un dado la suma sea 5, S = {(4+1),(1+4),(2+3),(3+2)}; 4.4 Probabilidad Condicional; Sucesos Independientes y Sucesos Dependientes. Si E1 y E2 son dos sucesos, las probabilidades de que E2 ocurra dado que E1 ha ocurrido se denotan por Pr{E2/E1} o Pr{E2 dado E1} y se llama probabilidad condicional de E2 dado E1. Si la ocurrencia o no de E1 no afecta para nada la ocurrencia de E2, entonces Pr{E2/E1} = Pr{E2} y se dice que E1 y E2 son sucesos independientes, de forma contraria, son sucesos dependientes. Si denotamos por E2E1 el suceso de que ambos E2 y E1 ocurran, llamado suceso compuesto, entonces Pr{ E2E1} = Pr{E1}Pr{E2/E1} (35) Para sucesos independientes Pr{ E2E1} = Pr{E1}Pr{E2} (36) Para tres sucesos E1, E2 y E3 Pr{ E2E1E3} = Pr{E1}Pr{E2/E1}Pr{E3/E1E2} (37) Si E1, E2y E3 son tres sucesos independientes, entonces Pr{ E2E1E3} = Pr{E1}Pr{E2}Pr{E3 } Ejemplos. Página No. 18 (38) 1.- Sean E1 y E2 los sucesos salga un número par en el primer lanzamientos de un dado y salga un número par en el segundo lanzamientos de un dado. E1 y E2 son dos sucesos independientes y Pr{ E2E1} = Pr{E1}Pr{E2} = (½)(½) = ¼ 2.- Las probabilidades de que el equipo A gane son 0.6 y las probabilidades de que el equipo B gane son 0.4, así que las probabilidades de que ambos ganen son Pr{ E2E1} = Pr{E1}Pr{E2} = (0.6)(0.4) = 0.24 3.- Una caja tiene 5 bolas rojas y 3 bolas blancas, si E1 es la probabilidad de que la primera bola extraída es roja y E2 es la probabilidad de que la segunda bola extraída es blanca, si las bolas no se regresan a la caja la probabilidad de sacar primero bola roja y luego bola blanca es Pr{ E2E1} = Pr{E1}Pr{E2/E1} =(5/8)(3/7)=15/56 4.5 Sucesos Mutuamente Excluyentes. Dos o más sucesos se llaman mutuamente excluyentes si la ocurrencia de cualquiera de ellos excluye la de los otros; entonces, si E1 y E2 son sucesos E1 y E2 son sucesos mutuamente excluyentes, entonces Pr{ E2E1} = 0. Si E2 + E1 denota el suceso de que ocurran E2 o bien E1 o ambos a la vez, entonces Pr{ E2 +E1} = Pr{E1} + Pr{E2} - Pr{ E2E1} (39) Para sucesos mutuamente excluyentes Pr{ E2 +E1} = Pr{E1} + Pr{E2} (40) Ejemplos: 1.- Sea E1 el suceso sacar un rey de la baraja y E2 el suceso sacar un siete, entonces, la probabilidad de sacar un rey o un siete es Pr{ E2 +E1} = Pr{E1} + Pr{E2} = (4/52) + (4/52) = 8/52 = 2/13 2.- Sea E1 el suceso sacar un rey de la baraja y E2 el suceso sacar un corazón, entonces, la probabilidad de sacar un rey o un corazón es Pr{ E2 +E1} = Pr{E1} + Pr{E2} - Pr{ E2E1} = (4/52) + (13/52) – (1/52) = 4/13 4.6 Regla de la Probabilidad Total. Página No. 19 Si los sucesos E1, E2,,,EN constituyen una partición del espacio muestral, entonces: Pr{ A} = Pr{E1}Pr{A/E1} + Pr{E2}Pr{A/E2} +…+Pr{EN}Pr{A/EN} (41) Ejemplo: 1.- 50% de las lámparas de una universidad se compran al proveedor X, 40% al proveedor Y y 10% al proveedor Z. Según los registros 2% de las lámparas comprada a X resultan defectuosas, 5% de las compradas a Y resultan defectuosas y 4% de las compradas a Z resultan defectuosas. Determine la probabilidad de que al comprar una lámpara ésta resulte defectuosa. Sea D el suceso lámpara defectuosa, entonces Pr{ D} = Pr{X}Pr{D/X } + Pr{Y}Pr{D/Y } +Pr{Z}Pr{D/Z } Pr{ D} = Pr{0.5}Pr{0.02} + Pr{0.4}Pr{0.05} +Pr{0.1}Pr{0.04} = 0.034 4.7 Teorema de Bayes. Este teorema sirve para calcular una probabilidad posterior P(A j/B) a partir de probabilidades previas dadas P(Ai) y probabilidades condicionales P(B/Ai). Sean A1, A2,,,AN un conjunto de eventos mutuamente excluyentes con probabilidades previas P(Ai). Entonces, para cualquier otro evento B para el cual P(B) > 0, la probabilidad posterior de Aj dado que B ha ocurrido es ( ) ( ) ( ) ( ) ( ∑ ) ( ( ) ) ( (42) ) Ejemplo: 1. Determinar la probabilidad de que una lámpara defectuosa haya sido comprada al proveedor Y. ( ) ( ) ( ( ) 4.8 Distribuciones de Probabilidad. Discretas. Página No. 20 ) ( ) Si una variable X puede tomar un conjunto discreto de valores X1, X2, X3,,,XN y puede ocurrir con probabilidades p1, p2,p3,,,pN donde p1+ p2+p3+,,,+pN =1, se dice que se tiene definida una distribución de probabilidad discreta para X. La función p(X) que tiene valores de p1, p2,p3,,,pN para X = X1, X2, X3,,,XN, se llama función de probabilidad. Como X puede tomar ciertos valores con ciertas probabilidades, se llama una variable aleatoria discreta. Ejemplo. 1.- La tabla muestra las probabilidades de obtener X puntos al lanzar un par de dados. X 2 3 4 5 6 7 8 9 10 11 12 p(X) 1/36 2/36 3/36 4/35 5/36 6/36 5/36 4/36 3/36 2/36 1/36 Continuas. Extendamos los conceptos del punto anterior para una variable X que puede tomar un conjunto continuo de valores. Se tendrá entonces una curva continua de ecuación Y = p(X). El área total bajo la curva es 1, y el área comprendida entre X = a y X = b es la probabilidad de que X tome valores entre a y b. Llamamos a p(X) una función de densidad de probabilidad o función de densidad, y a X una variable aleatoria continua. p(X) a b X Figura 2. Gráfica de una función de Densidad de Probabilidad. 4.9 Esperanza Matemática. Página No. 21 Si p es la probabilidad de que una persona reciba una cantidad S de dinero, la esperanza matemática se define como pS. Ejemplo: 1.- Si la probabilidad de que alguien gane 5 millones de pesos en la lotería es 3 x 10-5, su esperanza matemática es 5X 106(3 x 10-5) = 150. Si X denota una variable aleatoria discreta que puede tomar valores X1, X2, X3,,, XN con probabilidades p1, p2,p3,,,pN donde p1+ p2+p3+,,,+pN =1, la esperanza matemática de X, o valor esperado de X, se denotada como E(X) y se define como E(X) = p1X1+ p2X2+p3X3+,,,+pNXN = ∑ (43) Ejemplo: 1.- La tabla muestra las probabilidades de que en una universidad los alumnos inscritos cursen X número de cursos. ¿Cuál es el valor esperado de número de cursos que toma un alumno? X (# de 1 2 3 4 5 6 7 0.01 0.03 0.13 0.25 0.39 0.17 0.02 cursos) P(X) E(X) = 0.01(1) + 0.03(2) + 0.13 (3) + 0.25 (4) + 0.39(5) + 0.17 (6) + 0.02 (7) = 4.57 cursos. Relación entre Población, Media Muestral y Varianza. Si seleccionamos una muestra de tamaño N al azar de una población (suponemos que todas las muestras son igualmente probables), entonces es posible mostrar que el valor esperado de la media muestral, m, es la media poblacional, μ. Sin embargo, el valor esperado de la varianza muestral no es la varianza de la población sino (N – 1)/ N veces dicha varianza poblacional. Página No. 22 4.10 Análisis Combinatorio. Principio Fundamental. Si un suceso puede ocurrir de n1 maneras y un segundo suceso de n2 maneras, entonces el número de maneras en que ambos pueden ocurrir en el orden especificado es n1n2. Ejemplo: 1.- Si se tienen 5 camisas y 7 corbatas, entonces ambas pueden combinarse de 5(7) = 35 formas. Factorial de n. Se denota por n! y se define como n!= n(n-1)(n-2)•••1. El factorial de 4 es 4! = 4X3X2X1 = 24. Por definición, 0! = 1. 4.11 Regla de la Multiplicación. Si un proceso consiste de K pasos, el primero de los cuales se puede hacer de n1 maneras, el segundo de n2 maneras, el tercero de n3 maneras y así sucesivamente hasta el paso K, que se puede hacer de nK maneras, entonces el proceso completo se puede hacer de n1n2n3…nK maneras diferentes. Ejemplo: 1.- Se lanza un dado, se saca una pelota de una caja que tiene rojas, verdes, azules y amarillas y finalmente, se lanza una moneda, ¿cuántos resultados posibles tenemos? S= (6)(4)(2) 4.12 Permutaciones. Una permutación de n objetos tomados de r en r es una colección ordenada de r objetos entre n. El número de permutaciones de n objetos tomados de r en r se denota por nPr, P(n,r) o Pn,r y viene dado por nPr= n(n-1)(n-2)•••(n-r+1) = n!/(n-r)! (44) Ejemplo: 1.- El número de permutaciones que se pueden dar de las letras a,b,c,d tomadas de dos en dos es 4P2= 12. Son ab, ac, ad, bc, bd, ba, cd, ca, cb,da, db y dc. El número de permutaciones de n objetos de los que n1 son iguales, n2 son iguales,,,, es Página No. 23 n!/(n1!n2!•••) 2.- El número de permutaciones de letras de la palabra statistics es 10!/(3!3!1!2!1!) = 50,400 4.13 Combinaciones. Una combinación de n objetos tomados de r en r es una selección de r de ellos sin tomar en cuenta el orden de los r escogidos. El número de combinaciones de n objetos tomados de r en r se denota por nCr y viene dado por nCr= n(n-1)(n-2)•••(n-r+1)/r! = n!/(n-r)!r! (45) Ejemplo: 1.- El número de combinaciones que se pueden dar de las letras a,b,c,d tomadas de dos en dos es 4C2=6. Son ab, ac, ad, bc, bd, cd. 4.14 Relación de la Probabilidad con la Teoría de Conjuntos. En la teoría moderna de probabilidad se piensa en los posibles resultados de un ensayo, experimento, etc, como puntos de un espacio (puede ser de 1,2,3,,, dimensiones) llamado espacio muestral. Si S contiene un número finito de puntos, a cada punto está asociados un número no negativo, llamado probabilidad, tal que la suma de todos ellos es 1. Un suceso es un conjunto de puntos de S, tal como C1 o C2, esta figura se llama diagrama de Venn-Euler. Un suceso C1 + C2 es el conjunto de puntos que están en C1 o C2 o en ambos. El suceso C1C2 es el conjunto de puntos comunes a C1 y C2. La probabilidad de C1 + C2 es la suma de las probabilidades asociadas a todos los puntos contenidos en el conjunto C1 + C2. El conjunto C1 + C2 se denota como C1 U C2 y se llama conjunto unión de los dos conjuntos. El conjunto C1C2 se denota por C1∩C2y se llama intersección de los dos conjuntos. Para denotar un conjunto sin puntos, conjunto vacío, se usa el símbolo φ. Página No. 24 C1∩C2 C1 C2 Figura 3. Diagrama de Venn – Euler. Página No. 25 V. DISTRIBUCIONES. 5.1 Distribución Binomial. Si p es la probabilidad de que ocurra un suceso en un solo intento (llamada probabilidad de éxito) y q= 1 – p es la probabilidad de que no ocurra en un solo intento, entonces la probabilidad de que ocurra exactamente X veces en N intentos, o sea X éxitos y N –X fracasos viene dada por p(X)=NCXpXqN-X (46) Ejemplo: 1.- La probabilidad de obtener 4 caras en 10 tiradas de una moneda es 10C4(½ )4(½)10-4=0.2051 2.- La probabilidad de obtener al menos 7 caras en 10 tiradas de una moneda es 10C7(½ )7(½)10-7 + 10C8(½ )8(½)10-8 + 10C9(½ )9(½)10-9 + 10C10(½ )10(½)10-10 = 0.1719 3.- En 80 tiradas de una moneda el número medio de caras es μ = Np =80(0.5)= 40 y la desviación típica es √ √ ( ) ) . 4.- El conteo por sección de un tipo particular bacterias en agua en 10 muestras produjo los siguientes resultados: 17,21, 23, 25, 17, 26, 24, 19, 21 y 17. Si la media 21 y la varianza es 10.6 y las muestras siguen una distribución binomial, determine el valor de N (el número máximo de bacterias que una muestra puede tener) y p, la probabilidad de encontrar un organismo en cada ensayo realizado en una porción de una muestra de prueba, usando los valores de la media y la varianza. Como μ = Np y σ2=Np(1-p) tenemos: 1-p = σ2/Np = 10.6/21= 0.505→p = 0.495 y N=μ/p = 21/.495= 42.42 ≈ 43 5.2 Distribución Normal. La distribución continua más usada en estadística es sin duda la distribución normal o distribución gaussiana definida como Página No. 26 ( ) (47) √ Donde μ es la media y la desviación típica es σ. El área limitada por la ecuación de la distribución entre X=a y X = b es la probabilidad de que X esté entra a y b. Si expresamos X en unidades estándar, Z= (X-μ)/σ, tenemos la forma canónica de la distribución normal (48) √ La variable z está normalmente distribuida con media 0 y varianza 1. Relación entre la distribución binomial y la distribución normal. Si N es grande y ni p ni q son muy próximos a cero, la distribución binomial puede aproximarse estrechamente con la distribución normal con variable canónica dada por Z= (X-Np)/√ . En la práctica la aproximación es mejor si tanto Np como Nq son mayores que 5. Ejemplo. 1.- Calcular la probabilidad de obtener exactamente 40 caras en 80 lanzamientos de una moneda. En este caso el número medio de caras es μ = Np =80(0.5)= 40 y la desviación típica es σ=√ =√ ( ) ) . Ahora bien, en el lanzamiento de una moneda los resultados son cantidades discretas, esto es, no se pueden obtener resultados como 2.15 o 3.21 caras, pero para utilizar una distribución continua, como lo es la distribución normal, debemos expresar en número deseado de caras con una corrección por continuidad; en este caso, 40 caras pasa a ser un número que va de 39.5 a 40.5 caras y en unidades continuas esto es Z1= (39.5-40)/4.4721=-0.1118 y Z1= (40.5-40)/4.4721=0.1118 y de las tablas de distribución normal, la probabilidad de que Z esté entre ± 0.1118 es 2(0.0446) = 0.0892. Página No. 27 5.3 Distribución de Poisson. La distribución continua de Poisson está definida como ( ) X = 0, 1, 2,,,, (49) λ es igual la media y a la varianza de la distribución. Ejemplo. 1.- La tabla presenta el número de partículas de polvo por unidad de volumen en un examen de 100 muestras. Estime el número de partículas esperadas por unidad de volumen si se supone una distribución de Poisson. # Partículas # las Muestras que 0 1 2 3 4 >4 (6) 13 24 30 18 7 8 11.76 25.18 26.94 19.22 10.28 1.57 en se observó # las Muestras que en se espera ver El número medio de partículas observadas por muestra es: μ = [0(13) + 1(24) +2(30) +3(18)+4(7)+6(8)]/100 = λ = 2.14 y la probabilidad de encontrar X partículas en una muestra es ( ) con esta ecuación se llenó el tercer renglón de tabla anterior. 2.- En una planta de tratamiento de agua se usan bombas iguales y se ha determinado que en un periodo de 4 semanas fallan 2 en promedio. El gerente estima que el problema no es serio si durante las cuatro semanas no hay más de 4 fallas. ¿cuál es la probabilidad de que esto ocurra?. Dado que λ = 2, Página No. 28 ( ) ( ) ∑ 5.4 Distribucion Log-Normal. Si un fenómeno surge del efecto multiplicativo de un gran número de factores no correlacionados, la distribución tiende a ser lognormal (o logarítmica normal), esto es, el logaritmo de la variable está distribuido en forma normal. Muchos fenómenos en la naturaleza tales como magnitud e intervalo de tiempo entre terremotos, esfuerzos de ruptura en materiales o distribución de contaminantes en suelos siguen esta distribución. Este razonamiento puede extenderse a la ocurrencia de inundaciones y sequias. Tomemos X como una variable aleatoria positiva y definamos Y = ln(X), con media y desviación estandar μy y σy, distribuidas normalmente. Usando una trasformacion uno a uno en la ecuación de la distribución normal, se tiene la función de distribución de la probabilidad lognormal. ( ( ) La media es ( ) ( )) ( ) ( )√ [ ( ) ( )] (50) [ y la varianza es ( ) ]. Con estas dos ecuaciones podemos definir el coeficiente de variación Vx como ⁄ ( ( ) ) De las ecuaciones anteriores se tiene ( ) [( ) ]y ( ) [ ( ) ] (51) Ejemplo: (regresar a verlo luego de cubrir intervalos de confianza) 1.- La resistencia media de 165 muestras de madera para construcción fue de 39.33 N/mm2, con desviación típica de 9.44 N/mm2. Utilice la distribución Página No. 29 lognormal para establecer los intervalos de confianza de a)95%, b)99% y c) la probabilidad de que la resistencia sea mayor a 30 N/mm2 ⁄ ( ) [( ) ] y [ ( ) ] ( ) a) Para el intervalo de 95% zc= ± 1.645 ± 1.645 = (y-3.644)/0.237→ y1= 3.2541 x1= 25.90 N/mm2 y2= 4.0339 x2= 56.48N/mm2 b) Para el intervalo de 99% zc= ±2.58 ± 2.58 = (y-3.644)/0.237 → y1= 3.0325 x1= 20.75 N/mm2 y2= 4.2555 x2= 70.49N/mm2 c) z= (ln(30)-3.644)/0.237=-1.024→ p = 0.5+.3471 5.5 Distribución Multinomial. Si los sucesos E1,E2,E3,,,EN, pueden ocurrir con frecuencias p1,p2,p3,,,pN, respectivamente, entonces las probabilidades de que E1,E2,E3,,,EN, ocurran X1, X2, X3,,, XN veces, respectivamente, es (52) Donde X1+X2+X3+,,,+ XN= 1. Ejemplo: 1.- Se lanza una dado 9 veces, la probabilidad de obtener 1,3,5 una vez cada uno y 2,4,6 dos veces cada uno es ( ) ( ) ( ) ( ) ( ) ( ) Página No. 30 5.6 Distribución Hipergeométrica. Suposiciones que dan lugar a la distribución hipergeométrica. 1.- La población tiene N individuos. 2.- Cada individuo se caracteriza como éxito, S o fracaso, F y hay M éxitos en la población. 3.- Se elige una muestra de n individuos sin reemplazo; cada subconjunto de n individuos tiene las mismas probabilidades de ser elegido. Ejemplo: 1.- Suponga que se tienen 20 impresoras de las cuales 8 son laser y 12 de inyección de tinta, tomamos una muestra de 5 al azar ¿cuál es la probabilidad de tener 3 impresoras laser en la muestra? P(X=3) = 8C3(12C2)/20C5 =0.2384 Si X es el número de éxitos en una muestra completamente aleatoria de tamaño n, extraída de una población que consiste de M éxitos y M-N fracasos, entonces, la distribución de probabilidad de X, denominada distribución Hipergeométrica está dada por ( ( ) ) (53) Ejemplo: 1.- Suponga una región con 25 animales en peligro de extinción, de los cuales 5 han sido marcados; si se toma una muestra de 10 animales, ¿cuál es la probabilidad de que 2 estén marcados? ( ) Página No. 31 ( ) VI.- TEORÍA ELEMENTAL DE MUESTREO. 6.1 Muestreo en Estadística. En estadística se conoce como muestreo a la técnica para la selección de una muestra a partir de una población. Si el tamaño de la muestra es más pequeño que el de la población, se pueden extraer dos o más muestras de la misma población. Al conjunto de muestras que se pueden obtener de la población se le denomina espacio muestral. La variable que asocia a cada muestra su probabilidad de extracción sigue la llama distribución muestral. Existen dos técnicas para seleccionar muestras de poblaciones: el muestreo no aleatorio o de juicio y el muestreo aleatorio. Cuando este último cumple con la condición de que todos los elementos de la población tienen alguna oportunidad de ser escogidos de la muestra, si la probabilidad correspondiente a cada sujeto de la población es conocida de antemano, recibe el nombre de muestreo probabilístico. Una muestra seleccionada por muestreo de juicio puede basarse en la experiencia de alguien con la población. Algunas veces una muestra de juicio se usa como guía tentativa para decidir cómo tomar una muestra aleatoria más adelante. Muestreo Estratificado: consiste en la división previa de la población de estudio en grupos o clases que se suponen homogéneos, con respecto a alguna de las características que se van a estudiar. A cada uno de estos estratos se le asigna una cuota que determina el número de miembros del mismo que compondrán la muestra. Muestreo por Cuotas. En primer lugar es necesario dividir a la población de referencia en varios estratos definidos por alguna variable de distribución conocida (género, edad, etc.). Posteriormente se calcula el peso proporcional de cada estrato, es decir, la parte proporcional de la población que representa. Finalmente, se multiplica cada peso por el tamaño de la muestra para determinar la cuota precisa en cada estrato. Ahora bien, sin consideramos una aplicación práctica de muestreo, en particular para suelos, la Norma Mexicana NMX-AA-132-SCFI-2006 para MUESTREO DE SUELOS PARA LA IDENTIFICACION Y LA CUANTIFICACION DE METALES Página No. 32 YMETALOIDES, Y MANEJO DE LA MUESTRA. (entendiendo por éstos el arsénico, bario, berilio, cadmio, cromo hexavalente, mercurio, níquel, plata, plomo, selenio, talio y vanadio), establece los siguientes tipos de muestreo (punto 8 de la norma): - Muestreo Exploratorio. - Muestreo de Detalle. - Muestreo de Fondo. - Muestreo de Comprobación posterior a la Remediación. Una vez determinado el número de puntos de muestreo de acuerdo al tipo de muestreo seleccionado, la norma establece que se debe escoger un método para determinar la localización y distribución de los mismos, de entre los que se señalan a continuación: - Muestreo a Juicio de Experto - Muestreo Estratificado o Zonificado - Muestreo Sistemático - Muestreo Simple Aleatorio - Métodos indirectos debidamente validados. 6.2 Teoría de Muestreo. La teoría de muestreo estudia la relación entre una población y las muestras tomadas de ella y es de gran utilidad en muchos campos. Por ejemplo, para estimar magnitudes desconocidas de una población, tales como media o varianza, llamadas a menudo parámetros de la población, a partir del conocimiento de esas magnitudes sobre la muestra, que se llaman estadísticos de la muestra. Este sería el caso de querer estimar la concentración promedio de un contaminante en un terreno a partir de las concentraciones promedio en varias muestras. La teoría de muestreo también es útil para determinar si las diferencias observadas entre dos muestras son debidas a variaciones fortuitas o sin son realmente significativas. Tales cuestiones aparecen, por ejemplo, al probar un nuevo medicamento para tratar una enfermedad o al decidir si un proceso de Página No. 33 producción es mejor que otro. Las respuestas implican el uso de los llamados contrastes de hipótesis y de significación, importantes en la teoría de decisiones. En general, un estudio de las inferencias hechas sobre una población a partir de las muestras de la misma, con indicación de la precisión de tales inferencias, se llama inferencia estadística. 6.3 Muestras Aleatorias. Para que las conclusiones de la teoría de muestreo y de la inferencia estadística sean válidas, las muestras deben escogerse representativas de la población. El análisis de los métodos de muestreo y problemas relacionados se llama diseño experimental. Una forma de obtener una muestra representativa es mediante muestreo aleatorio, de acuerdo con el cual cada miembro de una población tiene igual probabilidad de ser incluido en la muestra. Lo cual se puede hacer usando números aleatorios, como los que se pueden generar en la calculadora de mano o en las hojas de cálculo. 6.4 Muestreo con y sin Reposición. Si sacamos una pelota de una caja con pelotas de varios colores, podemos volver a meterla a la caja o no. De esta forma, la pelota puede volver a ser extraída muchas veces en el primer caso o no en el segundo. En el primer caso, hablamos de muestreo con reposición y en el segundo de muestreo sin reposición. Las poblaciones pueden ser finitas o infinitas. Sacar una baraja de un mazo de barajas es un caso de muestreo en una población finita, pero contar los puntos en 10 lanzamientos de un dado es muestreo en una población infinita. Una población finita en la que se efectúa muestreo con reposición puede considerarse infinita teóricamente pues se pueden tomar infinitas muestras sin agotarla. En la práctica, una muestra muy grande se puede considerar infinita, como la población del Distrito Federal. 6.5 Distribuciones de Muestreo. Página No. 34 Consideremos todas las posibles muestras de tamaño N en una población dada (con o sin reposición). Para cada muestra podemos calcular un estadístico como la media o la desviación típica, que variará de muestra en muestra. De esta manera obtenemos una distribución del estadístico que se llama distribución de muestreo. Si, por ejemplo, el estadístico utilizado es la media muestral, entonces la distribución de muestreo se llama distribución de muestreo de medias, pero también podríamos tener distribución de muestreo de medianas, de varianzas o de desviaciones típicas y para cada distribución de muestreo podemos calcular la media, la desviación típica, etc. 6.6 Distribución de Muestreo de Medias. Supongamos que se toman todas las posibles muestras de tamaño N, sin reposición, de una población infinita de tamaño Np > N. Si denotamos la media y la desviación típica de la distribución de muestreo de medias por población por ̅ ̅ y las de la , respectivamente, entonces ( ̅ ) ̅ √ √ (55) Si la población es infinita o si el muestreo es con reposición, los resultados anteriores se reducen a ̅ ( ) ̅ (57) √ Para valores grandes de N, (N≥30), la distribución de muestreo de medias es aproximadamente normal con media ̅ y desviación típica ̅, independientemente de la población. En el caso de que la población esté normalmente distribuida, la distribución de muestreo de medias también lo está, incluso para valores pequeños de N (N <30 ). Página No. 35 Ejemplo: 1.- Una muestra de 1000 niños mexicanos de 12 años dio un peso promedio de 36.6 Kg con desviación estándar de 1.2 kg. Si se toman 25 muestras de 30 niños cada una, ¿cuál serán las media y la desviación típica esperadas de la resultante distribución de muestreo de medias, si el muestreo se hizo (a) con y (b) sin reposición? (a) (b) ̅ ̅ ̅ ̅ √ √ √ √ 6.7 Distribución de Muestreo de Proporciones. Supongamos que una población es infinita (o finita con reposición) y que la probabilidad de ocurrencia de un suceso es p, mientras que la probabilidad de que no ocurra es q= 1 –p. Consideremos todas las posibles muestras de tamaño N de tal población, y para cada una de ellas determinamos la proporción de éxitos P. En el caso de una moneda, P sería la proporción de caras en N tiradas. Obtenemos así una distribución de muestreo de proporciones cuya media típica ̅ y desviación vienen dadas por y ̅ √ (58) Para valores grandes de N, (N≥30), la distribución de muestreo de proporciones es muy aproximadamente normal. Nótese que la población está binomialmente distribuida. Ejemplo: 1.- Hallar la probabilidad de que en 200 lanzamientos de una moneda entre el 45% y el 55 % de los lanzamientos sean águila. Página No. 36 En 200 lanzamientos de una moneda, el 45% y 55% de los lanzamientos son 90 y 110, respectivamente, que aplicando la corrección por continuidad equivale a entre 89.5 y 110.5 águilas, por tanto ( ) y ̅ √ √ ( )( ) Z1= (89.5 – 100)/7.071 = -1.4849 Z2= (110.5 – 100)/7.071 = 1.4849 La probabilidad pedida es p = 2(.4312)= 0.8624 6.8 Distribución de Muestreo de Diferencias y Sumas. Supongamos dos poblaciones. Para cada muestra de tamaño N1 de la primera, calculamos un estadístico S1, con lo que tenemos la distribución de muestreo para S1 con media y desviación típica denotadas por . Del mismo modo, para cada muestra de tamaño N2 de la segunda, calculamos un estadístico S2, con lo que tenemos la distribución de muestreo para S2 con media y desviación típica denotadas por . De todas las posibles combinaciones de estas muestras de las poblaciones podemos tener una distribución de diferencias S1 - S2, que se llama distribución de muestreo de diferencias de los estadísticos. La media y las desviación típica de esta distribución de muestreo, denotadas respectivamente por vienen dadas por ( ) √ (60) supuesto que las muestras no dependen una de la otra, o sea, son independientes. Si S1 y S2 son las medias muestrales de ambas poblaciones, cuyas medias denotamos por ̅̅̅ ̅̅̅, respectivamente, entonces la distribución de muestreo de diferencias de medias viene dada para poblaciones infinitas con medias y desviaciones típicas Página No. 37 y , respectivamente, por ̅̅̅̅ ̅̅̅̅ ̅̅̅̅ ( ̅̅̅̅ ) ̅̅̅̅ ̅̅̅̅ √ ̅̅̅̅ ̅̅̅̅ √ (62) El resultado también es válido para poblaciones finitas si el muestreo es con reposición. Resultados correspondientes se pueden obtener para las distribuciones de muestreo de diferencias de proporciones de dos poblaciones binomialmente distribuidas con parámetros p1,q1 y p2,q2, respectivamente. En este caso S1 y S2 corresponden a la proporción de éxitos P1 y P2, y se tiene ( ) √ √ (64) Ejemplo: 1.- Las baterías de dos fabricantes tienen vidas promedio de 986 (A) y 928 (B) disparos en cámaras digitales, con desviaciones típicas de 27(A) y 37 (B) disparos, respectivamente. Si se toma una muestra de 80 pilas de cada marca, ¿cuál es la probabilidad de que las de la marca A duren en promedio al menos (a) 50 y (b) 70 disparos más que las de la marca B?. ̅̅̅̅ ̅̅̅̅ (a) (̅̅̅̅ ̅̅̅̅) ( ̅̅̅̅̅ ̅̅̅̅ ̅̅̅̅ ̅̅̅̅ √ ̅̅̅̅ ̅̅̅̅ ̅̅̅̅ √ √ ̅̅̅̅̅ ) ̅̅̅̅̅ ̅̅̅̅̅ Probabilidad al menos 50 disparos más = 0.5 +0.4408 = 0.9408 (b) (̅̅̅̅̅ ̅̅̅̅) ( ̅̅̅̅̅̅ ̅̅̅̅̅ ̅̅̅̅̅ Página No. 38 ̅̅̅̅̅ ) Probabilidad al menos 70 disparos más = 0.5 - .4904 = 0.0096 Si N1 y N2 son grandes (N1, N2 ≥ 30), la distribución de muestreo de diferencias de medias o proporciones está casi normalmente distribuidas. Para la distribución de muestreo de suma de estadísticos, la media y la desviación típica están dadas por ( ) √ (66) Ejemplo: 1.- Dos resistencias de 40 y 20 KΩ, con desviaciones típicas de 1 y 1.5 KΩ, respectivamente. Hallar la probabilidad de que al conectarlas en serie presenten una resistencia de al menos (a) 62KΩ y (b) 57 KΩ. ̅̅̅̅ ̅̅̅̅ ̅̅̅̅ ̅̅̅̅ √ ̅̅̅̅ ̅̅̅̅ ̅̅̅̅ ̅̅̅̅ √ (a) Z = (62 - 60)/1.8 = 1.11 Probabilidad 62 o más = 0.5 - 0.3665 = 0.1335 (b) Z = (57 - 60)/1.8 = -1.67 Probabilidad 57 o más = 0.5 + 0.4525 = 0.9525 6.9 Localización de Puntos Altamente Contaminados en Suelos. Un tema especial de muestreo en suelos es cómo localizar puntos altamente contaminados. Supongamos que se usa un muestreo sistemático con mallas rectangulares, cuadradas o triangulares y que sólo hay un punto altamente contaminado. En esta sección trataremos de responder a las preguntas, 1.- ¿Qué espaciamiento de malla se requiere para localizar un punto altamente contaminado con cierta confianza?. Página No. 39 2.- Dado un espaciamiento de malla, ¿Qué probabilidad hay de localizar un punto altamente contaminado con tamaño dado? 3.- ¿Qué probabilidad existe de que un punto altamente contaminado exista cuando no se ha encontrado ninguno por muestreo usando una malla? Los métodos de esta sección requieren las siguientes suposiciones: 1.- El punto tiene forma circular o cilíndrica. Para puntos bajo la superficie, esto se aplica a la proyección del punto sobre la superficie. 2.- Las muestras o las mediciones se toman sobre una malla rectangular, cuadrada o triangular como en la figura 1. 3.- La distancia entre puntos de la red es mucho mayor que el área muestreada, esto es, sólo una parte muy pequeña del área bajo estudio puede ser medida en la práctica. 4.- La definición de punto muy contaminado es clara y sin ambigüedades. Esta definición implica que los tipos de mediciones y los niveles de contaminación que definen un punto altamente contaminado están bien establecidos. 5.- No se cometen errores a la hora de decidir si un punto altamente contaminado se ha encontrado. G 2G 1.155G G Figura 1. Configuraciones de malla para encontrar puntos de alta contaminación, el muestreo se debe realizar en los nodos de la red. Se estima que la red triangular es más efectiva que la red de cuadrada para estimar la densidad de puntos contaminados en un área y que si los puntos están distribuidos en forma aleatoria se puede usar ya sea una la red triangular o una red de cuadrada. Determinación del Espaciamiento en la Malla. Página No. 40 El espaciamiento requerido de malla para encontrar un punto contaminado de forma y tamaño predefinidos, con una confianza especificada, puede calcularse con el siguiente procedimiento: 1. Especifique L, la longitud del semieje mayor del menor punto contaminado importante a ser detectado (L es un medio del eje mayor de la elipse supuesta). 2. Especifique la forma esperada (S) de la elipse contaminada con la relación S = longitud del eje menor / longitud del eje mayor S debe estar entre 0 y 1. Si S no se conoce de antemano, una aproximación conservadora es asumir una elipse delgada, tal vez S = 0.5, para dar el menor espaciamiento posible entre puntos de la red que si se supone una elipse más gruesa o un círculo. Esto es, muestreamos en una red más fina para compensar la falta de conocimiento acerca de la forma del punto contaminado. 3. Especifique una probabilidad aceptable,β, de no encontrar el punto altamente contaminado. El valor de β se conoce como el riesgo del consumidor. Por ejemplo, podríamos aceptar un riesgo de 100β% = 10% como probabilidad de no encontrar un punto altamente contaminado, dijéramos de L = 10 cm, pero si el punto fuera mucho mayor, como de 10 m, tal vez sólo aceptaríamos β = 0.01. 4. Las figuras 2, 3 y 4 dan la relaciones entre β y la relación L/G, donde G es el espaciamiento entre líneas de la malla. Usando la curva correspondiente para la forma de interés, S, encuentre L/G para G, el espaciamiento requerido de la malla. El número total de puntos de la red (posiciones a muestrear) se puede calcular ya que el área a ser muestreada es conocida. Ejemplo: Suponga que se usa una malla cuadrada y que queremos que la probabilidad de que no detectemos un círculo de radio L = 100 cm o mayor, no exceda el 10%, o sea, β = 0.1. Usando la figura 2 para S = 1, tenemos L/G = 0.56 para β = 0.1. Despejando G, se tiene que es igual a 180 cm. Entonces, si se toman muestras en una red cuadrada con espaciamiento entre líneas de 180 cm, aseguramos que la probabilidad de que no detectemos un punto de alta contaminación de 100 cm o mayor de radio no es mayor de 10%. Página No. 41 VII.-TEORÍA DE ESTIMACIÓN ESTADÍSTICA. Estimación de Parámetros. Figura 2. Gráfica de probabilidad de no encontrar un punto altamente contaminado vs. la relación eje mayor de la elipse/ separación entre líneas de la malla, para una malla cuadrada. Página No. 42 Figura 3. Gráfica de probabilidad de no encontrar un punto altamente contaminado vs. la relación eje mayor de la elipse/ separación entre líneas de la malla, para una malla rectangular. Figura 4. Gráfica de probabilidad de no encontrar un punto altamente contaminado vs. la relación eje mayor de la elipse/ separación entre líneas de la malla, para una malla triangular. Tamaño del Punto Altamente Contaminado que es Probable Localizar. Página No. 43 Las figuras 2,3 y 4 también se pueden usar para encontrar el radio máximo de un punto contaminado que puede encontrarse para un riesgo del consumidor dado. Suponga, por ejemplo, que sólo tenemos recursos para muestrear 25 puntos en una malla cuadrada. ¿Qué tamaño de blanco elíptico (caracterizado por L) podemos esperar encontrar con una confianza 1- β (la probabilidad de encontrar un punto al menos una vez). El procedimiento general es especificar β, G y S y usar entonces las gráficas 2-4 para encontrar L. Ejemplo: Suponga, por ejemplo, que sólo tenemos recursos para muestrear 25 puntos en una malla cuadrada en un área cuadrada de 10 m de lado, o sea, G = 200 cm. ¿Qué tamaño de blanco circular podemos esperar encontrar con una confianza de al menos 90%, o sea, con probabilidad de no encontrarlo de 10% o menos?. Como hemos visto en la figura 2, para S = 1 y β = 0.1 tenemos L/G = 0.56. Entonces, L = 200 cm (0.56) = 112 cm. Por lo tanto, estimamos que un círculo con radio de 112 cm o mayor tiene probabilidades no mayores a 10% de no ser encontrado cuando se usa una red con espaciamiento de 200 cm. Si el blanco tiene un radio L menor a 112 cm, la probabilidad de no localizarlo es mayor a 10 %. En forma inversa, si el radio es mayor a 112 cm, la probabilidad de no localizarlo es menor a 10%. Si se requiere una probabilidad de localizar el blanco de sólo 50%, la curva para S da L/G = 0.4 o L = 200cm (0.4)= 80 cm. Si calculamos L como en el ejemplo anterior para diferentes valores de β y G, podemos generar curvas que den la probabilidad de encontrar un blanco circular o elíptico de cualquier tamaño. Estas curvas para espaciamientos de malla de 100, 200 y 300 unidades para dos formas de blanco, S = 1 y S = 0.5 se muestran en la figura 5. Ejemplo: Suponga que se tiene un blanco circular (S = 1) en una malla cuadrada con espaciamiento G= 100 unidades. Entonces, la probabilidad β de no encontrar un blanco circular de radio L = 50 unidades (las mismas que G) es de cerca de 20%. Si el blanco es menor, digamos L = 20 unidades, entonces β sube hasta cerca de 87%. Página No. 44 Figura 5. Probabilidad de no encontrar un blanco (riesgo del consumidor, β) vs. longitud del semieje mayor del blanco elíptico para dos formas de blanco. Probabilidad de no Encontrar un Punto Altamente Contaminado Las figuras 2-4 también pueden usarse para estimar el riesgo del consumidor, β, de no localizar un punto altamente contaminado de un tamaño y forma dados cuando se usa un espaciamiento de malla especificado. Ejemplo: ¿Cuál es la probabilidad promedio de no encontrar un punto contaminado de forma elíptica que es dos veces más lago que ancho y para el cual el simieje mayor (L) es 0.4 del espaciamiento G entre puntos de la malla. Suponga que se usa una malla rectangular, entonces, de la figura 3 y usando S = 0.5 y L/G = 0.4 se tiene β≈0.87. Entonces, hay un 87 % de posibilidades de que este tamaño y forma de blanco no sea localizado muestreando en los puntos de la malla. El valor real de β podría ser algo mayor o menor dependiendo de la orientación del blanco relativo a la malla. Tomando en Cuenta la Información Previa. Hasta ahora, hemos considerado que un punto altamente contaminado realmente existe. En la práctica, esta suposición no se puede garantizar. En esta sección consideraremos como se puede usar la información previa sobre la probabilidad Página No. 45 de que un punto contaminado exista para tener una estimación más realista de β. Tomemos A = evento de que un punto altamente contaminado de tamaño L o mayor exista. B = evento de que un punto altamente contaminado de tamaño L o mayor sea localizado al tomar mediciones en una malla. Por la ley de las probabilidades condicionales. P(B/A) = P(A,B)/P(A) = Probabilidad de que un punto de tamaño L o mayor es encontrado dado que el punto existe Donde P(A,B) = Probabilidad de que un punto de tamaño L o mayor existe y es encontrado al muestrear en la malla. Cuando hay duda de si existe o no un punto contaminado de tamaño L, entonces lo que interesa es P(A,B). Despejando de la ecuación anterior P(A,B)=P(B/A)P(A) Ahora, tenemos que P(B/A) es 1 – β. Entonces P(A,B) se puede calcular usando las figuras 2-4 y especificando un valor para P(A). En muchas situaciones se tiene la certeza de que el punto de dimensiones L o mayor existe así que P(A) = 1 y P(A,B)=P(B/A). Si no se tiene la certeza de la existencia del punto, se puede hacer una estimación basándose en muestreos anteriores y con otra información disponible. Ejemplo: Suponga un punto contaminado circular de radio L= 100 cm y β= 0.1, para el cual ya se ha calculado un espaciamiento de malla G= 180 cm. Suponga que información previa del sitio sugiere que la probabilidad de que dicho punto exista es muy baja, así que P(A) = 0.01. Entonces, como P(B/A) = 1 – β = 0.9, tenemos que P(A,B)= (0.9)(0.01)= 0.09. Entonces, si se usa un espaciamiento de malla de 180 cm, la probabilidad de que un punto contaminado de 100 cm o mayor de radio exista y es encontrado es de sólo 0.09, suponiendo P(A) = 0.01. Probabilidad de que un Punto Altamente Contaminado Exista Cuando no se ha Encontrado Ninguno. Página No. 46 Suponga que se toman muestras en una malla descrita por S, L, y β, pero que no se encuentra ningún punto contaminado de tamaño L o mayor. Entonces, es natural preguntarse ¿Cuál es la probabilidad de que un punto altamente contaminado exista cuando no se ha encontrado ninguno?. El procedimiento para hacer esto es el siguiente: Tomemos A = evento de que un punto altamente contaminado de tamaño L o mayor exista. ̅ = evento de que un punto altamente contaminado de tamaño L o mayor no exista. B = evento de que un punto altamente contaminado de tamaño L o mayor sea localizado al tomar mediciones en una malla. ̅ =evento de que un punto altamente contaminado de tamaño L o mayor no sea localizado al tomar mediciones en una malla. Entonces: P(A/ ̅ ) = P(A, ̅ )/P( ̅ ) = Probabilidad de que un punto altamente contaminado de tamaño L o mayor exista cuando no ha sido encontrado en el muestreo. Como P( ̅ /A)P(A) y dado que debe ocurrir A o ̅, entonces P(A, ̅ )= P( ̅ ) = P( ̅ A)P(A) +P( ̅ / ̅)P( ̅) y por lo tanto P(A/ ̅ ) = [P( ̅ /A)P(A)]/[ P( ̅ A)P(A) + P( ̅ / ̅ )P( ̅ )] Podemos simplificar la expresión anterior tomando en cuenta que P( ̅ / ̅ ) = 1 y P( ̅ ) = 1 – P(A). Entonces P(A/ ̅ ) = βP(A)/ [1 -P(A)(1 - β) ] Ejemplo: Suponga que podemos tolerar un riesgo del consumidor no mayor al 10% de no encontrar un punto contaminado circular de radio 100 cm o mayor. Como hemos visto en el primer ejemplo, esto conduce a un espaciamiento de malla de 180 cm. Ahora, suponga que podemos estimar la probabilidad de que el punto de tamaño L o mayor exista como P(A) = 0.01. Si no se encuentra el punto contaminado con espaciamiento de malla de 180 cm, la probabilidad de que dicho punto exista se estima como Página No. 47 P(A/ ̅ ) = βP(A)/ [1 -P(A)(1 - β) ] = (0.10)(0.01)/[1-(0.01)(1-0.10)] = 0.001 La probabilidad P(A/ ̅ ) se grafica en la figura 6 para varios valores de β y P(A). En la figura se puede observar que P(A) tiene un fuerte efecto sobre el valor de P(A/ ̅ ) y que es importante seleccionar un valor pequeño de β si queremos tener una alta confianza de que el punto contaminado no ha sido omitido. Ejemplo: Suponga que tomamos un punto circular de radio L = 100 cm con P(A) = 0.50 y β = 0.10. Entonces, P(A/ ̅ ) = 0.091, lo cual quiere decir que existe 9.1% de probabilidad de que el punto de 100 cm de radio o mayor existe aun cuando no ha sido encontrado. Si cambiamos β = 0.50, entonces P(A/ ̅ ) se incrementa a 0.33. P(A/ ̅ ) se incrementa con β debido a que mayores β´s implican mayores espaciamientos de malla y por tanto menores probabilidades de encontrar el punto contaminado. Selección del Riesgo del Consumidor. La figura 6 se puede usar para ayudar a decidir el valor del riesgo del consumidor, β. Suponga que tenemos la especificación de P(A/ ̅ ) no mayor a un valor, digamos 0.01. Esto es, queremos un 99% de confianza de que un punto contaminado no exista, dado que el mismo no ha sido encontrado. Si en la etapa de planeación de un esfuerzo de inspección se puede determinar un valor razonable para P(A), entonces β puede determinarse usando la figura 6. Por ejemplo, para P(A/ ̅ ) =0.01 y P(A)= 0.50, encontramos β = 0.01. Este valor de β puede usarse entonces para determinar el espaciamiento de la malla. Página No. 48 Figura 6. Relación entreP(A/ ̅ ), P(A) y el riesgo del consumidor,β. Página No. 49 VII. TEORÍA DE LA ESTIMACIÓN ESTADÍSTICA. En la sección anterior vimos cómo se puede usar la teoría de muestreo para recabar información acerca de las muestras aleatorias tomadas de una población conocida. En la práctica, es más importante como inferir información sobre una población a partir de muestras suyas. De esto trata la inferencia estadística, que usa los principios de la teoría de muestreo. 7.1 Estimación sin Sesgo. Si la media de las distribuciones de muestreo de un estadístico es igual que la del correspondiente parámetro de la población, el estadístico se llama estimador sin sesgo del parámetro; si no, se llama estimador sesgado. Los correspondientes valores de tales estadísticos se llaman estimaciones sin sesgo y sesgadas, respectivamente. Ejemplo: La media de las distribuciones de muestreo de medias, media poblacional, ̅, es igual a la Por lo tanto, la media muestral ̅ es un estimador sin sesgo de la media poblacional Ejemplo: La media de las distribuciones de muestreo de varianza es (67) Donde es la varianza de la población y N es el tamaño de la muestra. Así pues, la varianza de la muestra s2 es una estimación sesgada de la varianza de la población . 7.2 Estimación Eficiente. Si las distribuciones de muestreo de dos estadísticos tienen la misma media, el de menor varianza, se llama un estimador eficiente de la media, mientras que el otro se llama un estimador ineficiente. Los valores correspondientes de los estadísticos se respectivamente. Página No. 50 llaman estimación eficiente y estimación ineficiente, Si consideramos todos los posibles estadísticos cuyas distribuciones de muestreo tiene la misma media, aquel de varianza mínima se llama a veces el estimador de máxima eficiencia, o sea, el mejor estimador. Ejemplo: Las distribuciones de muestreo de media y mediana tiene ambas la misma media, a saber, la media de la población. Sin embargo, la varianza de la distribución de muestreo de medias es menor que la varianza de la distribución de medianas. Por tanto, la media muestral da una estimación eficiente de la media de la población, mientras que la mediana de la muestra da una estimación ineficiente de ella. 7.3 Estimación de Punto y Estimación de Intervalo. Una estimación de parámetros de la población dada por un solo número se llama estimación de punto del parámetro. Una estimación de parámetros de la población dada por dos números, entre los cuales se puede considerar encajado el parámetro se llama una estimación de intervalo del parámetro. Las estimaciones de intervalo indican la precisión de una estimación y son por lo tanto preferibles a las estimaciones de punto. Ejemplo: si decimos que una distancia ha sido medida como 10.15 m, estamos dando una estimación de punto. Por otra parte, si decimos que la distancia es 10.15 ± 0.05 estamos dando una estimación de intervalo. El margen de error (o la precisión) de una estimación nos informa de su fiabilidad. 7.4 Estimación de intervalo de Confianza para Parámetros de Población. Sean μS y σS la media y la desviación típica de la distribución de muestreo de un estadístico S. Entonces, si la distribución de muestreo de S es aproximadamente normal (lo cual es cierto para muchos estadísticos si el tamaño de la muestra es N≥ 30), podemos esperar hallar el estadístico muestral real S en los intervalos μS ± σS, μS ± 2σS,μS ± 3σS, alrededor del 68.27%, 95.45% y 99.73% del tiempo, respectivamente. Alternativamente, podemos estar confiados en encontrar μS en los intervalos S ± σS, S ± 2σS,S ± 3σS, alrededor del 68.27%, 95.45% y 99.73% del tiempo, respectivamente. Los números extremos de estos intervalos se llaman entonces los límites de confianza 68.27%, 95.45% y 99.73%. Página No. 51 Análogamente, S ± 1.96 σS y S ± 2.58 σS son los límites de confianza del 95% y 99% para S. El porcentaje de confianza se suele llamar nivel de confianza. Los números 1.96, 2.58, 3, etc., en los límites de confianza se llaman coeficientes de confianza o valores críticos y se denotan por zc. La tabla 1 muestra los valores de zc correspondientes a varios niveles de confianza usados en la práctica. Nivel de 99.73% 99% 98% 96% 95.45% 95% 90% 80% 50% Confianza zc 3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.28 0.6745 Tabla 1. Niveles de confianza y valores zc. 7.5 Intervalos de Confianza para Medias. Si el estadístico S es la media muestral, ̅ , entonces los límites de confianza 95% y 99% para estimar la media μ de la población vienen dados por ̅ ̅ ̅ ̅ respectivamente. Más en general, los límites de confianza para estimar la media de la población μ vienen dados por ̅ ̅ donde zc se puede leer en la tabla anterior. Los límites de confianza para la media de la población están dados por ̅ √ (68) Si el muestreo es de una población infinita o de una finita con reposición, y vienen dados por ̅ √ √ (69) Si el muestreo es sin reposición de una población finita de tamaño Np. Generalmente, la desviación típica de la población, σ, no es conocida; así pues, para obtener los anteriores límites de confianza usamos la estimación muestrals o ̂ . Lo cual es satisfactorio para N ≥ 30. Página No. 52 Ejemplos: 1.- Una muestra de 80 billetes de 100 pesos tuvieron una vida promedio entre enero de 2002 y septiembre de 2013 de 21.6 meses y desviación estándar de 2.2 meses. Estimar los intervalos de confianza de a) 95% y b) 99% para la vida de dichos billetes. a) para el 95%: 21.6 ± 1.96[2.2/√80] = 21.6 ± 0.482 b) para el 99%:21.6 ± 2.58[2.2/√80] = 21.6 ± 0.635 2.- Una muestra de 50 botellas de salsa tipo cátsup presentaron un contenido promedio de sólidos de tomate de 5.61%, con desviación típica de 2.5%. Determine los intervalos de confianza de a) 95% y b) 99% para el lote total de 500 botellas. a) para el 95%: b) para el 99%: √ √ √ √ 0.8661 7.6 Intervalos de Confianza para Proporciones. Si el estadístico S es la proporción de éxitos en una muestra de tamaño N sacada de una población binomial en la que p es la proporción de éxitos, entonces los límites de confianza para p vienen dados por P ̅, donde P es la proporción de éxitos en la muestra de tamaño N. Los límites de confianza para la proporción en la población vienen dados por √ (70) Si el muestreo es de una población infinita o finita con reposición y por √ Página No. 53 √ (71) si el muestreo es sin reposición de una población finita de tamaño Np. Para calcular estos límites de confianza podemos usar la estimación muestral P para p, que es generalmente satisfactoria para N≥ 30. 7.7 Intervalos de Confianza para Diferencias y Sumas. Si S1 y S2 son dos estadísticos muestrales con distribuciones de muestreo aproximadamente normales, los límites de confianza para la diferencia de parámetros de población correspondientes a S1 y S2 vienen dados por √ (72) Mientras que los límites de confianza para la suma de parámetros de población vienen dados por √ (73) supuesto que las muestras sean independientes. Por ejemplo, los límites de confianza para la diferencia de dos medias poblacionales, en el caso de poblaciones infinitas, se calculan como ̅̅̅ Donde ̅̅̅, , N1 y ̅̅̅, ̅̅̅ ̅̅̅̅ ̅̅̅̅ ̅̅̅ ̅̅̅ √ (74) , N2 son las respectivas medias, desviaciones típicas y tamaños de las dos muestras sacadas de las poblaciones. Ejemplo: 1.- 20 botellas de salsa cátsup de la marca A tienen un contenidos de sólidos de tomate de 11.1% con desviación típica de 2.3% y 25 botellas de la marca B tienen un contenidos de sólidos de tomate de 9.4% con desviación típica de 2.8%. Hallar los intervalos de confianza de a) 95% y b) 99% para la diferencia de los contenidos medios de sólidos de tomate. a) Para el 95%:( Página No. 54 ) √ = 1.7 ± 1.133 b) Para el 99%: ( ) √ = 1.7 ±1.492 De forma similar, los límites de confianza para la diferencia de proporciones poblacionales, con poblaciones infinitas, se calculan como √ ( ) ( ) (75) donde P1 y P2 son las dos proporciones muestrales, N1 y N2 los tamaños de las dos muestras y p1y p2 las proporciones en las dos poblaciones (estimadas por P1 y P2). 7.8 Intervalos de Confianza para Desviaciones Típicas. Los límites de confianza para la desviación típica de una población normalmente distribuida, estimados con una muestra con desviación típica s, vienen dados por s± zcσc = s± zcσ/√ (76) Ejemplo: 1.- 80 billetes de 100 pesos tuvieron una vida promedio entre enero de 2002 y septiembre de 2013 de 21.6 meses y desviación estándar de 2.2 meses. Estimar los intervalos de confianza de a) 95% y b) 99% para la desviación típica de las vidas medias de estos billetes. a) Para el 95%: 2.2± 1.96(2.2/√ ) = 2.2 ± 0.341 meses b) Para el 99%: ) = 2.2 ± 0.449 meses Página No. 55 2.2± 2.58(2.2/√ VIII. TEORÍA ESTADÍSTICA DE DECISIONES. 8.1 Decisiones Estadísticas. En la práctica nos vemos obligados con frecuencia a tomar decisiones relativas a una población sobre la base de información proveniente de la muestra. Tales decisiones se llaman decisiones estadísticas. 8.2 Hipótesis Estadísticas. Para tomar una decisión se pueden hacer hipótesis sobre la población implicada. Tales hipótesis pueden o no ser ciertas y se llaman hipótesis estadísticas. En general son enunciados acerca de las distribuciones de probabilidad de las poblaciones. 8.3 Hipótesis Nula e Hipótesis Alternativa. En muchos casos formulamos hipótesis estadísticas con el único propósito de rechazarla o invalidarla y de esta forma tener una idea alternativa acerca de la distribución de probabilidad de la población. Por ejemplo, supongamos que tenemos una moneda y formulamos dos hipótesis, la primera, que llamamos nula (representada por H0), es que la moneda es buena y la segunda hipótesis, que llamamos alternativa (representada por H1), es que la moneda está alterada. Bajo la primera hipótesis, la probabilidad de que la moneda caiga águila o sol debe ser cercana a 0.5 dentro de un cierto intervalo que nosotros fijaremos. Si lanzamos la moneda muchas veces pueden suceder dos cosas. Si el número de águila o soles cae dentro del intervalo fijado aceptamos la primera hipótesis, en caso contrario, aceptamos la segunda hipótesis. 8.4 Contraste de Hipótesis y Significación o Reglas de Decisión. Si suponemos que una hipótesis particular es cierta pero vemos que los resultados hallados en una muestra aleatoria difieren notablemente de los esperados bajo tal hipótesis (o sea, esperados por puro azar, por la teoría de muestreo), entonces diremos que las diferencias observadas son significativas y nos vemos obligados a rechazar la hipótesis ( o al menos a no aceptarla ante la evidencia obtenida). Así, si lanzamos una moneda 30 veces y salen 25 águilas, es muy probable que rechacemos la hipótesis de que la moneda es buena, aunque como sabemos existe la posibilidad de que salgan hasta 30 águilas (aunque la probabilidad de Página No. 56 que esto suceda es muy baja) y al rechazar la hipótesis nos podemos equivocar al decir que está trucada. Los procedimientos que nos califican para determinar si las muestras observadas difieren significativamente de los resultados esperados, y por lo tanto nos ayudan a decidir si aceptamos o rechazamos las hipótesis, se llaman contrastes (o tests) de hipótesis o de significación o reglas de decisión. 8.5 Errores Tipo I y Tipo II. Si rechazamos una hipótesis cuando debiera ser aceptada, diremos que hemos cometido un error tipo I. Si aceptamos una hipótesis que debiera ser rechazada, diremos que se ha cometido un error tipo II. En ambos casos se ha producido un juicio erróneo. Para que las reglas de decisión sean buenas, deben diseñarse de modo que minimicen los errores de decisión. Esto no es sencillo pues para cualquier tamaño de muestra un intento por disminuir un error de un tipo suele ir acompañado del crecimiento de otro tipo de error. En la práctica, un tipo de error puede ser más grave que otro, y debe alcanzarse un compromiso que disminuya el error más grave. La única forma de disminuir ambos a la vez es aumentar el tamaña de la muestra, los cual no siempre es posible. 8.6 Nivel de Significación. Al contrastar una cierta hipótesis, la máxima probabilidad con que estamos dispuestos a correr el riesgo de equivocarnos con un error de tipo I se llama nivel de significación del contraste. Esta probabilidad se denota a menudo por α y normalmente se especifica antes de tomar la muestra para que los resultados obtenidos no influyan en la elección de α. Se suelen tomar niveles de significación de 0.01 o 0.05, aunque se puede tomar cualquier otro nivel deseado. Un valor de α de 10% quiere decir que tenemos un 10% de posibilidades de equivocarnos rechazando una hipótesis que debió ser aceptada y 90% de posibilidad de aceptarla correctamente. Página No. 57 8.7 Contraste Mediante la Distribución Normal. Supongamos que bajo cierta hipótesis la distribución de muestreo de un estadístico S está normalmente distribuida con media μS y desviación típica σS. Entonces, la distribución de la variable tipificada z dada por z = (S-μS)/σS es la distribución normal canónica. Como se observa en la figura si tenemos una confianza del 95% de que la hipótesis nula es verdadera, el valor de z para el estadístico muestral S está en el rango ± 1.96. Sin embargo, si al escoger una sola muestra al azar hallamos un valor de z fuera del rango, debemos concluir que tal suceso podría ocurrir con una probabilidad de sólo 0.05 (el área sombreada en ambas colas de la figura) si la hipótesis nula fuera cierta. Diremos entonces que z difiere en forma significativa de lo que podemos esperar bajo la hipótesis nula y nos veríamos forzados a rechazar la hipótesis nula. Región Región crítica crítica z = -1.96 z = 1.96 Figura 7. Regiones críticas para tests de dos colas El área sombreada en ambas colas de la figura, 0.05, es el nivel de significación del contraste. Representa la probabilidad de equivocarnos al rechazar la hipótesis (o sea, un error del tipo I). Así pues, decimos que la hipótesis se rechaza a un nivel de significación de 0.05, o que el valor de z del estadístico muestral dado es significativo al nivel de 0.05. El conjunto de z fuera del rango ± 1.96 se llama región crítica de la hipótesis, región de rechazo de la hipótesis o región de significación. El conjunto de z en el rango ± 1.96 se llama región de aceptación de la hipótesis o región de no significación. Entonces, podemos formular la siguiente regla de decisión (o contraste de hipótesis o significación): Página No. 58 - Rechazar la hipótesis al nivel de significación de 0.05 si el valor de z para el estadístico S está fuera del rango ± 1.96. Esto equivale a decir que el estadístico muestral observado es significativo al nivel 0.05. - Aceptar la hipótesis en caso contrario ( o si se desea, no tomar decisión alguna). 8.8 Contrastes de Una y Dos Colas. En el test de la sección anterior estábamos interesados en los valores extremos del estadístico S o en su correspondiente valor z a ambos lados de la media. Tales tests se llaman contrastes de dos colas o bilaterales. Con frecuencia, estaremos interesados en sólo uno de los valores extremos a cualquiera de los dos lados de la media, como cuando se contrasta la hipótesis de si un proceso es mejor que otro. Tales contrastes se llaman unilaterales o de una sola cola. En tales situaciones, la región crítica es una región situada a un lado de la distribución, con un área igual al nivel de significación. La tabla 2 da los valores críticos de z para contrastes de una o dos colas en varios niveles de significación. Tabla 2. Niveles de significación y valores zc para test de una y dos colas. Nivel de significación, 0.1 0.05 0.01 0.005 0.002 Valores críticos de z -1.28 o -1.645 o -2.33 o -2.58 o -2.88 o para tests unilaterales 1.28 1.645 2.33 2.58 2.88 Valores críticos de z -1.645 y -1.96 y -2.58 y -2.81 y - 3.08 y 1.645 1.96 2.58 2.81 3.08 α para tests bilaterales 8.9 Contrates Especiales. Para grandes muestras, las distribuciones de muestreo de muchos estadísticos son distribuciones normales (o casi normales), y los contrastes anteriores pueden aplicarse a los z correspondientes. Los siguientes casos especiales son algunos Página No. 59 casos de interés práctico. Los resultados son válidos para poblaciones infinitas o para muestreos con reposición. 1.- Medias. Aquí S = ̅ la media muestral; ̅= ̅ , la media de la población y ⁄√ , donde σ es la desviación típica de la población y N el tamaño de la muestra. El valor de z viene dado por ̅ (77) ⁄√ se puede usar la desviación típica muestral como estimación de s. 2.- Proporciones. Ahora S= P, la proporción muestral, , donde p es la proporción de éxitos en la población y N el tamaño de la muestra; √ ⁄ El valor de z viene dado por √ (78) ⁄ En el caso P = X/N, donde X es el número real de éxitos en una muestra, z es (79) √ esto es, μX= μ= Np, σX = σ = √ y S = X. Ejemplo: 1.- La salsa cátsup en México tiene un promedio de sal de 2.33%. Una muestra de 40 frascos seleccionados al azar en un supermercado presentó un contenido promedio de 2.51% con desviación típica de 0.67%. Contrastar la hipótesis de que su contenido de sal a) es mayor y b) es distinto al de la cátsup comercial con un nivel de significación de 0.05. a) Primero establecemos las hipótesis nula y alternativa H0: ̅ H1: ̅ Como segundo paso, calculamos el valor de zexp: Finalmente, comparamos zexp con zcr: Página No. 60 ⁄√ 1.699 > 1.645. Conclusión: la muestra si tiene mayor contenido de sal que la cátsup comercial. b) Primero establecemos las hipótesis nula y alternativa H0: ̅ H1: ̅ Como segundo paso, calculamos el valor de zexp: Finalmente, comparamos zexp con zcr : ⁄√ 1.699 < 1.96. Conclusión: la muestra no tiene contenido de sal distinto al de la cátsup comercial. 2.- De acuerdo con la norma NMX-F-346-S1980, la salsa de tomate cátsup debe tener al menos 12% de sólidos de tomate para poder recibir ese nombre. Una muestra de 5 frascos de una marca presentó un contenido de promedio de sólidos de tomate 11.5% con desviación estándar de 0.65%. Contrastar la hipótesis de que la muestra de cátsup de dicha marca no cumple con la norma con un nivel de significación de a) 0.1 y b) 0.05 a) Primero establecemos las hipótesis nula y alternativa H0: ̅ H1: ̅ Como segundo paso, calculamos el valor de zexp: ⁄√ Finalmente, comparamos zexp con zcr :-1.72<-1.28. Conclusión: la muestra no cumple con la norma con un nivel de significación de 0.05. b) La hipótesis nula y alternativa, así como el valor de zexp siguen siendo iguales, sólo queda comparar zexp con zcr:-1.72 < - 1.645 Conclusión: la muestra tampococumple con la norma con un nivel de significación de 0.10. Página No. 61 8.10 Contraste Mediante Diferencias Muestrales. Diferencias de Medias. Sean ̅̅̅ ̅̅̅ las medias muestrales obtenidas de grandes muestras de tamaño N1 y N2 tomadas de poblaciones con medias respectivas típicas y y y desviaciones . Consideremos la hipótesis nula de que no hay diferencia entre las medias de las poblaciones ( o sea ) que es como afirmar que las muestras han sido tomadas de dos poblaciones que tienen la misma media. Bajo esta hipótesis, la distribución de muestreo de diferencia de medias está casi normalmente distribuida, con media y desviación típica dadas por ̅̅̅̅ ̅̅̅̅ y ̅̅̅̅ ̅̅̅̅ √ (79) donde podemos usar como aproximación para las desviaciones típicas poblacionales las desviaciones típicas muestraless1 y s2. El valor de z viene dado por ̅̅̅̅ ̅̅̅̅ ̅̅̅̅ ̅̅̅̅ (80) Ejemplo: 1.- En el examen de admisión de diciembre de 2012, los 38 alumnos que presentaron para ingeniería ambiental tuvieron calificación promedio de 3.32 con desviación típica de 1.1, mientras que los 115 que presentaron para ingeniería civil tuvieron calificación promedio de 3.6 con desviación típica de 1.66, con un nivel de significación de 0.05 determinar si a) hay diferencia entre los dos grupos de aspirantes y b) los que presentan para ingeniería civil son mejores que los que presentan para ingeniería ambiental. a) Primero establecemos las hipótesis nula y alternativa H0: H1: Página No. 62 Como no tenemos ninguna razón para pensar que los alumnos que eligen estudiar una carrera deben ser mejores que los que deciden estudiar otra, tenemos que bajo la hipótesis H0: ̅̅̅̅ ̅̅̅̅ y ̅̅̅̅ ̅̅̅̅ √ segundo paso, calculamos el valor de zexp: Finalmente, comparamos zexp con zcr : -1.185> -1.96. Conclusión: Los alumnos que presentan a ambas ingenierías son iguales con un nivel de significación de 0.05. b) Primero establecemos las hipótesis nula y alternativa H0: H1: El valor de zexp sigue siendo el mismo, pero ahora el valor de z crítico cambia a 1.645 por ser un test de una cola. Y tenemos que: -1.185 > -1.645 Conclusión: Los alumnos que presentan a ingeniería civil no son mejores que los que presentan a ambiental con un nivel de significación de 0.05. Diferencias de Proporciones. Sean P1 y P2 las proporciones muestrales obtenidas en grandes muestras de tamaño N1 y N2 tomadas de poblaciones con proporciones respectivas p1 y p2. Consideremos la hipótesis nula de que no hay diferencia entre los parámetros de las poblaciones (o sea p1 = p2) que es como afirmar que las muestras han sidas tomadas de la misma población. Bajo esta hipótesis, la distribución de muestreo de diferencia de proporciones está casi normalmente distribuida, con media y desviación típica dadas por Página No. 63 ( ) √ √ ( ) (82) Donde ( ) se usa como estimación de la proporción poblacional y la variable tipificada viene dada por (83) Página No. 64 IX. Teoría de Pequeñas Muestras. 9.1 Pequeñas Muestras. En las secciones anteriores, vimos que para muestras grandes, N > 30, las distribuciones de muestreo de muchos estadísticos son aproximadamente normales, siendo la aproximación mejor en cuanto mayor sea N. Para muestras de tamaño menor que 30, llamadas pequeñas muestras, esa aproximación no es buena y empeora al decrecer N, de modo que es necesario hacer algunas modificaciones. El estudio de la distribución de muestreo para pequeñas muestras se llama teoría de pequeñas muestras. Sin embargo, un nombre más correcto sería teoría exacta de muestreo, pues sus resultados son válidos tanto para pequeñas muestras como para muestras grandes. 9.2 Distribución t de Student. Definamos el estadístico ̅ √ (84) Si consideramos muestras de tamaño N tomadas de una población normal (o casi normal) con media μ y si para cada una calculamos t, usando la media muestral ̅ y la desviación muestral s o ŝ, puede obtenerse la distribución de muestreo para t. Esta distribución viene dada por ( ) ( ( ) ) (85) donde Y0 es una constante que depende de N tal que el área bajo la curva es 1, y donde la contante ν= (N-1) se llama número de grados de libertad. Para grandes valores de ν o de N la curva de la ecuación anterior se aproxima mucho a la curva de la distribución normal, como se muestra en la figura 8. Página No. 65 Figura 8. Distribución t de Student para varios valores de ν. 9.3 Intervalos de Confianza. Al igual que se hizo con la distribución normal, se pueden definir intervalos de confianza de 95%, 99%, etc., usando las tablas de distribución t de los libros de estadística o de las hojas de cálculo. De esta forma podemos estimar la media de la población dentro de los límites especificados. Por ejemplo, si t-0.975 y t0.975 son los valores de t para los cuales el 2.5% del área bajo la curva están en cada cola de la distribución t, entonces el intervalo de confianza del 95% para t es ̅ √ (86) de donde vemos que μ estará en el intervalo ̅ ̅ √ √ (87) con el 95% de confianza. En general, podemos representar los límites de confianza para medias poblacionales por ̅ Página No. 66 √ (88) donde los valores ± tc son llamados valores críticos o coeficientes de confianza, dependen del nivel de confianza deseado y del tamaño de la muestra. Ejemplo: 1.- Una muestra de 8 cervezas da un contenido de alcohol de 5.03% con desviación típica de 0.17%. Hallar los límites de confianza de a) 95% y b) 99% para el contenido verdadero. El número de grados de libertad es ν = 8-1 = 7 y los límites de confianza son: a) 5.03 ± 2.36(0.17/√7) = 5.03 ±0.15 b) 5.03 ± 3.50(0.17/√7) = 5.03 ±0.22 9.4 Contrastes de Hipótesis y Significación. Los contrastes de hipótesis y significación o reglas de decisión se extienden fácilmente a pequeñas muestras. La única diferencia consiste en que el estadístico z queda sustituido por el estadístico t. ̅ √ (89) donde ̅ es la media de una muestra de tamaño N. Esto es análogo al uso del estadístico z ̅ (90) ⁄√ para grandes N, excepto que se usa √ ( ) en lugar de σ. La diferencia está en que mientras z está normalmente distribuida, t sigue una distribución de Student. Al crecer N ambas tienden a coincidir. Ejemplo: 1.- Una muestra de 10 latas de cerveza dio un contenido promedio de alcohol de 4.37% y una desviación típica de 0.12%., mientras que las latas indican un contenido de 4.5%. Puede sostenerse la afirmación de la marca con un nivel de significación de a) 0.05 y b) 0.01. Como siempre, el primer paso es plantear las hipótesis nula y alternativa H0: ̅ = 4.50% H1: ̅ < 4.50% Página No. 67 √ El valor de tc experimental es a) Para un nivel de significación de 0.05 la regla de decisión es aceptar H0 si tc es mayor que –t0.95 para 9 grados de libertad que es -1.83 y por tanto aceptamos H1. b) Para un nivel de significación de 0.01 la regla de decisión es aceptar H0 si tc es mayor que –t0.99 para 9 grados de libertad que es -2.82 y por tanto aceptamos H1, o sea, en ambos casos concluimos que la cerveza tiene menos de 4.5% de alcohol. 1. Diferencias de Medias. Supongamos que se toman dos muestras aleatorias de tamaño N1 y N2 de poblaciones normales cuyas desviaciones típicas son iguales = . Y supongamos además que estas dos muestras tienen medias ̅̅̅ ̅̅̅ y desviaciones típicas s1 y s2, respectivamente. Para contrastar la hipótesis H0 de que las muestra provienen de la misma población ( o sea ̅̅̅̅ ̅̅̅̅ √ (91) y √ donde = ), (92) Su distribución es una distribución t-Student con ν = grados de libertad. Ejemplo: 1.- Se tomaron muestras de 14 g cada una de aceite comestible. 10 muestras de la marca A tienen contenido promedio de ácidos grasos poliinsaturados de 8.76 g con desviación estándar de 0.17 g, mientras que 12 botellas de la marca B tienen contenido promedio de 8.55 g con desviación estándar de 0.23 g. Determinar si hay diferencia significativa en los contenidos de ácidos grasos poliinsaturados a nivel de significación de a) 0.05 y b) 0.01. Primero establecemos las hipótesis nula y alternativa H0: ̅ ̅ H1: ̅ Bajo la hipótesis H0 , √ Página No. 68 ̅ √ ( ) ( ) y a) Para ν = 10 +12 -2 = 20 grados de libertad y un nivel de significación de 0.05, los valores de tcr son ± 2.09 por lo que rechazamos H0 y si hay diferencia significativa en los contenidos de ácidos grasos poliinsaturados. b) Para un nivel de significación de 0.01, los valores de tcr son ± 2.84 por lo que aceptamos H0 y no hay diferencia significativa en los contenidos de ácidos grasos poliinsaturados. 9.5 Distribución Ji-Cuadrado, χ2. Definamos el estadístico ( ̅) ( ̅) ( ̅) (93) Si se toman muestras de tamaño N de poblaciones normalmente distribuidas con desviaciones típicas σ, y si para cada muestra calculamos χ2se obtiene para χ2 una distribución de muestreo llamada distribución de muestreo Ji-Cuadrado que viene dada por ( ) ( ) (94) donde ν= (N-1) es el número de grados de libertad e Y0 es una constante que depende de ν tal que el área total bajo la curva es 1. La distribución Ji-cuadrado correspondiente a varios valores de ν se muestra en la siguiente figura. 2 Figura 9. Gráfica de la función χ para distintos valores de grado de libertad, ν. 9.6 Intervalos de Confianza para la Distribución Ji-Cuadrado. Como se hizo con la distribución normal y la distribución t-Student, podemos definir los intervalos y límites de confianza 95%, 99% u otros, usando las tablas de Página No. 69 distribución Ji-cuadrado. De ese modo, podemos estimar, dentro de los límites especificados, la desviación típica de la población en términos de una desviación típica muestral. Por ejemplo, y son los valores de para los que el 2.5% de área está en cada cola de la distribución, entonces el intervalo de confianza 95% es (95) del cual vemos que σ se estima estará en el intervalo √ √ (96) con el 95% de confianza. Para grandes valores de ν (ν ≥ 30), podemos utilizar el hecho de que (√ √ ) está casi normalmente distribuida con media 0 y desviación típica 1; luego se pueden usar las tablas de la distribución normal si ν ≥ 30. Entonces, si y zp son los p-ésimos percentiles de la distribución Ji-cuadrado y de la distribución normal respectivamente, tenemos ( √ ) (97) 9.7 Grados de Libertad Para el cálculo de un estadístico como o t, es necesario emplear tanto observaciones de muestras como propiedades de ciertos parámetros de población. Si estos parámetros son desconocidos, hay que estimarlos a partir de la muestra. El número de grados de libertad de un estadístico, generalmente denotado por ν, se define como el número N de observaciones independientes de la muestra (o sea, el tamaño de la muestra) menos el número k de parámetros de la población que deben ser estimados a partir de observaciones muestrales. En símbolos ν = N – k. Para los estadísticos Ejemplo: Página No. 70 o t se tiene ν = N – 1. 1.- La desviación típica de la altura de 20 mexicanos entre 20 y 64 años fue de 2.9 cm, con media de 1.64 mts. Hallar los límites de confianza de a) 95% y b)99% para la desviación típica de las alturas de todos los mexicanos. El número de grados de libertad es ν = 20 – 1 = 19. a) Los límites de confianza de 95% vienen dados por s√N/χ0.975 y s√N/χ0.025, o sea 2.9√20/5.74 y 2.9√20/2.98 que son 2.26 y 4.35 b) Los límites de confianza de 99% vienen dados por s√N/χ0.995 y s√N/χ0.005, o sea 2.9√20/6.21 y 2.9√20/2.62 que son 2.09 y 4.95. 2.- En el examen de admisión de diciembre de 2011 la desviación estándar fue de 1.42. Los 11 Alumnos que presentaron a ingeniería geomática tuvieron en sus exámenes una desviación estándar de 1.79.¿ Es significativo el aumento de variabilidad a un nivel de significación de a) 0.05 y b) 0.01? Como siempre, primero establecemos las hipótesis nula y alternativa H0: s = σ H1: s > σ Luego, calculamos el valor de χ2 experimental ( ) ⁄( ) a) Para ν = 11 – 1 = 10 grados de libertad, = 18.3 b) Para ν = 11 – 1 = 10 grados de libertad, = 23.2 Como en ambos casos el en menor que el valor crítico, concluimos que no hay aumento en la variabilidad en los exámenes de los aspirantes a geomática a los niveles considerados. 9.8 La Distribución F. Como hemos visto, es importante en algunas aplicaciones conocer la distribución de muestreo de la diferencia de medias ( ̅ ̅ ) de dos muestras. De la misma manera, podemos necesitar la distribución de muestreo de diferencia de varianzas ( ) Resulta sin embargo, que esta distribución es complicada, por lo que en lugar de eso, consideramos el estadístico , ya que un cociente grande o pequeño indicará una gran diferencia, mientras que un coeficiente cercano a 1 indica una pequeña diferencia. Su distribución de muestreo se llama distribución F. Página No. 71 Más concretamente, sean dos muestras 1 y 2, de tamaños N1 y N2, respectivamente, tomadas de dos poblaciones normales (o casi), con varianzas . Definimos el estadístico ( ) ( ) (98) La distribución de muestreo de F se llama distribución F de Fisher, con ν1 = N1 – 1 y ν2 =N2 -1 grados de libertad. Esta distribución viene dada por ( ( ⁄ ) )( (99) ) donde C es una constante que depende de ν1 y ν2 tal que el área total bajo la curva es 1. 9.9 Aplicación: Cálculo del Término de Concentración de la Guía para la Evaluación de Riesgo para Sitos Altamente Contaminados de la EPA: Vol. I – Manual de Evaluación de la Salud Humana. El Término de Concentración. La Guía para la Evaluación de Riesgo para Sitos Altamente Contaminados Parte A (RAGS, por sus siglas en inglés) presenta la evaluación de sitos altamente contaminados en cuatro “pasos”: (1) recolección y evaluación de datos, (2) evaluación de la exposición, (3) evaluación de la toxicidad y (4) caracterización del riesgo. El término de concentración se calcula para ser usado en el paso de evaluación de la exposición. La ecuación general que se utiliza para calcular la exposición y en la cual aparece el término concentración, C, uno de los varios parámetros necesarios para estimar la ingesta de contaminantes por un individuo es la siguiente: (100) donde: I = Ingesta (esto es, una medición cuantitativa de la exposición). Página No. 72 C = Concentración del Contaminante. CR = Tasa de Contacto. EFD = Frecuencia de Exposición y Duración. BW = Peso Corporal. AT = Tiempo Promedio. Para la evaluación de sitios altamente contaminados, el término de concentración C en la ecuación de ingesta es una estimación de la concentración media del contaminante basada en un conjunto de resultados de muestreo del sitio. Debido a la incertidumbre asociada con la estimación de la concentración media real en el sitio, se puede usar el límite de confianza superior del 95 % de la media aritmética. El uso de la media para el término de concentración está basado en: (1) Los criterios de toxicidad carcinogénicos y no carcinogénicos están basados en la exposición promedio durante la vida; y, (sin embargo, cuando la toxicidad aguda es lo más preocupante, en general no se debe usar una concentración promedio de largo periodo para propósitos de evaluación de riesgo, ya que el enfoque debe ser estimar las concentraciones pico de corta duración) (2) La concentración promedio es la más representativa de las concentraciones que estarán en contacto en un sitio, durante el tiempo. Por ejemplo, si se supone que un individuo expuesto se mueve en forma aleatoria a través de un área contaminada, entonces se puede usar la concentración en el suelo promediada en el espacio para estimar el promedio real de concentración con el que se tuvo contacto durante el tiempo. En este ejemplo, la concentración promedio con la que se tuvo contacto durante el tiempo sería igual a la concentración en el suelo promediada en el espacio en el área de exposición. Aunque un individuo puede no presentar realmente un patrón aleatorio verdadero de movimiento en el área, la suposición de tiempos iguales de permanencia en diferentes partes del área es una aproximación simple pero razonable. La mayoría de los criterios de salud de la EPA se basan en dosis diarias promedio de largo término, que es simplemente la suma de todas las dosis diarias dividida entre el número de días en el periodo promediado. Esta es la definición de media aritmética, la cual es apropiada sin importar el patrón de exposición diaria durante Página No. 73 el tiempo, o el tipo de distribución estadística que mejor describa los datos de muestreo. El Límite Superior de Concentración (UCL) como Estimación de la Concentración Promedio. El Límite Superior de Concentración (UCL, por sus siglas en inglés) del 95% de la media, se define como un valor que cuando se calcula en forma repetida para subconjuntos extraídos en forma aleatoria de un sitio, es igual o mayor a la media verdadera el 95% de las veces. Este valor se usa ya que en la práctica es imposible conocer la media verdadera. Este valor toma en cuenta las incertidumbres debidas a un muestreo limitado en el sitio contaminado. Para obtener el UCL del 95% se ha demostrado que menos de 10 muestras dan una estimación pobre de la concentración media, entre 10 y 20 muestras por área de exposición dan una mejor estimación de la media y entre 20 y 30 muestras dan buenas estimaciones consistentes de la media. Sin embargo, para que los datos puedan usarse, deben transformarse a sus valores logarítmicos, ya que se ha demostrado que los contaminantes en suelo y aire están lognormalmente distribuidos. Procedimiento para el Cálculo del UCL del 95% para una Distribucion Lognormal. Para el cálculo del UCL del 95% de la media para datos lognormalmente distribuidos, primero hay que transformar los datos usando logaritmos naturales, luego hay que verificar que los datos transformados están normalmente distribuidos, lo cual se puede hacer usando pruebas como las de Shaphiro-Wilk o Kolmogorov-Smirnov, implementadas en hojas de cálculo, y finalmente hay que seguir estos pasos: 1.- Calcule la media aritmética de los datos transformados. 2.- Calcule la desviación típica de los datos transformados. 3.- Determine el estadístico H de Land (usando tablas). 4.- Calcule el UCL usando la ecuación: (̅ donde Página No. 74 √ ) (101) UCL = límite superior de concentración. ̅ = media de los datos transformados. s =desviación típica de los datos transformados. H = estadístico H de Land. N = número de muestras. Procedimiento para el Cálculo del UCL del 95% para una Distribucion Normal. Si y sólo si existe una prueba estadística que soporte la suposición de que los datos están normalmente distribuidos calcule el UCL con estos pasos: 1.- Calcule la media aritmética de los datos sin transformar. 2.- Calcule la desviación típica de los datos sin transformar. 3.- Determine el estadístico t de una cola (usando tablas). 4.- Calcule el UCL usando la ecuación: ̅ ( ⁄√ ) (102) donde UCL = límite superior de concentración. ̅ = media de los datos sin transformar. s =desviación típica de los datos sin transformar. t= estadístico t de Student.. N = número de muestras. Se debe tener precaución cuando se usa la distribución normal si existe la posibilidad de que porciones altamente contaminadas del sitio no hayan sido muestreadas en forma adecuada. En tales casos, el UCL derivado de los cálculos con la distribución normal pueden caer debajo de la media verdadera, aún si un conjunto limitado de datos de un sitio parecen estar normalmente distribuidos. Ejemplo: Este ejemplo es aplicable sólo en un escenario en el cual se supone que existe un patrón aleatorio de exposición espacial. Las concentraciones de Cr obtenidas de un muestreo aleatorio en suelos son (en mg/kg) 10, 13, 20, 36, 41, 59, 67, 110, 110, 136, 140, 160, 200, 230, y 1300. Usando estos datos, se siguen los siguientes pasos para calcular el término de concentración para la ecuación de ingesta: Página No. 75 1.- Utilice un programa para verificar que los datos no están normalmente distribuidos, 2.- Obtenga los logaritmos de los datos y verifique que éstos si están normalmente distribuidos, o sea, siguen una distribución lognormal. 3.- Con los datos transformados, obtenga los valores para el UCL de la distribución lognormal ̅ = media de los datos transformados = 4.38. s =desviación típica de los datos transformados = 1.25. H = estadístico H de Land = 3.163. N = número de muestras = 15. UCL del 95% de la media aritmética = e6.218 = 502 mg/kg Si se hubieran usado los mismos datos con la ecuación de UCL para la distribución normal, se hubiera obtenido un valor de UCL de 95% de 325 mg/kg, con lo que queda claro que la distribución normal tiende a subestimar el valor del UCL o la necesidad de limpiar un sitio. Página No. 76 X. El Test Ji-Cuadrado. 10.1 Frecuencias Observada y Teóricas. Los resultados obtenidos de un muestreo no siempre coinciden exactamente con los esperados teóricamente de acuerdo con las leyes de la probabilidad. Por ejemplo, al lanzar una moneda 30 veces, la probabilidad de que salgan 15 caras y 15 cruces son bajas, relativamente, y otros resultados como 14 caras y 16 cruces o 16 caras y 14 cruces son también factibles, incluso, hemos visto que se podría obtener, aunque con muy pocas probabilidades, 30 cruces o 30 caras. Supongamos que en una muestra particular un conjunto de sucesos posibles E1, E2, E3, ,,,EN ocurren con frecuencias observadas o1,o2,o3,,,oN y que según las leyes de la probabilidad se espera que sucedan con frecuencias e1, e2, e3,,,,eN llamadas frecuencias esperadas o teóricas. A menudo deseamos saber si las frecuencias observadas difieren significativamente de las frecuencias esperadas, este problema lo podemos tratar usando la distribución Ji-Cuadrado, como se indica a continuación. 10.2 Definición de Ji-Cuadrado. Una medida de la discrepancia existente entre las frecuencias observadas y esperadas viene dado por el estadístico Ji-cuadrado dado por ( ) ( ) La distribución muestral de ( ) ( ) ( ) ∑ ( ) (103) se aproxima muy bien por distribución ji-cuadrado ( ) (104) si las frecuencias esperadas son al menos iguales a 5 y mejora para valores más grandes. El número de grados de libertad ν viene dado por 1. ν = k – 1 si las frecuencias esperadas se pueden calcular sin tener que estimar los parámetros de la población a partir de las estadísticos muestrales. 2. ν = k – 1 – m si las frecuencias esperadas se pueden calcular sólo estimando m parámetros de la población a partir de estadísticos de la muestra. Página No. 77 10.3 Contrastes de Significación. En la práctica, las frecuencias esperadas se calculan sobre la base de la hipótesis nula H0. Si bajo tal hipótesis el valor calculado para crítico (tal como o es mayor que algún valor que son los valores críticos de los niveles de significación 0.05 y 0.01), respectivamente, debemos concluir que las frecuencias observadas difieren significativamente de las frecuenciasesperadas y rechazaremos H0 al correspondiente nivel de significación; en caso contrario la aceptaremos (o al menos no la rechazaremos). Hay que hacer notar que debe mirarse con suspicacia en circunstancias en las que sea demasiado próximo a cero, pues es raro que las frecuencias observadas coincidan demasiado bien con las frecuencias esperadas. Para examinar tales situaciones podemos determinar si el valor calculado de menor que o es , en cuyo caso hablaremos de decidir que el acuerdo es demasiado bueno al nivel de significación 0.05 o 0.01, respectivamente. 10.4 Tablas de Contingencia. Una tabla como la siguiente en la que las frecuencias observadas ocupan una sola fila, se llama tabla de clasificación de entrada única. En las tablas de doble entrada o tablas de h X k, las frecuencias observada ocupan h filas y k columnas. Tales tablas se suelen llamar tablas de contingencia. Suceso E1 E2 E3 ,,, EN Frecuencias observadas o1, o2 o3 ,,, oN Frecuencias esperadas e1 e2 e3 ,,, eN Tabla 3. Tabla de contingencia modelo. Correspondiente a cada frecuencia observada en una tabla de h X k, hay una frecuencia esperada que se calcula sujeta a ciertas leyes o hipótesis de acuerdo con las leyes de la probabilidad. Para investigar el acuerdo entre las frecuencias observadas y las esperadas, calculamos el estadístico ∑ Página No. 78 ( ) (105) donde la suma se toma sobre todas las celdas de una tabla de contingencia y donde los símbolos oi y ei representan, respectivamente, las frecuencias observadas y esperadas de la i-ésima celda. Como antes, el estadístico χ2 tiene una distribución muestral dada muy aproximadamente por ( ) ( ) (106) supuesto que las frecuencias esperadas no sean demasiado pequeñas . El número de grados de libertad de esta distribución ji-cuadrado viene dada por h > 1, K> 1 por: 1. ν =(h -1)(k – 1) si las frecuencias esperadas se pueden calcular sin tener que recurrir a estimaciones muestrales de los parámetros de la población. 2. ν = (h -1)(k – 1) – m si las frecuencias esperadas sólo se pueden calcular estimando m parámetros de la población a partir de estadísticos de la muestra. 10.5 Corrección de Yates a la Continuidad. Cuando se aplican resultados de distribuciones continuas a datos discretos, pueden hacerse ciertas correcciones a la continuidad. Una corrección similar existe cuando se usa la distribución ji-cuadrado. La corrección se expresa como ( ) (| | ) (| | ) (| | ) (107) y se llama corrección de Yates. En general, la corrección de Yates se hace sólo cuando el número de grados de libertad es igual a uno. Para grandes muestras esto da prácticamente los mismos resultados de χ2 sin corregir, pero pueden surgir dificultades cerca de los valores críticos. Para pequeñas muestras, donde los valores de las frecuencias esperadas están entre 5 y 10, es quizás mejor comparar ambos valores de χ 2, corregido y sin corregir. Si ambos llevan a la misma conclusión acerca de la hipótesis tal como el rechazo a nivel de significación de 0.05, rara vez surge dificultades. Si conducen a diferentes conclusiones, uno debe pensar en aumentar el tamaño de la muestra o, si ello es factible, en emplear métodos de probabilidad que involucren la distribución multinomial. Página No. 79 Ejemplo: 1.- La tabla siguiente muestra los sabores pedidos de paletas de hielo en una muestra de 120 paletas de seis sabores distintos. Contrastar la hipótesis de que los sabores se piden al azar con niveles de significación de a) 0.05 y b) 0.01. Tabla 5. Sabores de paleta de hielo. Sabor Paleta Piña Pedidos Limón Fresa Sandía Mang Tamarind o o 25 14 18 31 16 16 20 20 20 20 20 20 Observados Pedidos Esperados Hay que decidir entre H0: Los sabores se piden al azar. H1: Los sabores no se piden al azar. ( ) ( ) ( ) ( ) ( ) a) Con ν = 6 – 1 = 5 grados de libertad, tenemos = 11.1 b) Con ν = 6 – 1 = 5 grados de libertad, tenemos = 15.1 ( ) La conclusión en ambos niveles de significación es que no hay un sabor preferido, en términos estadísticos. 2.- La tabla muestra niveles de glucosa en sangre en personas prediabéticas después de tomar un medicamento de prueba. Contrastar la hipótesis sobre la eficiencia del medicamento con niveles de significación de a) 0.05 y b) 0.01. mayor a 126 mg/dl Menor a 126 mg/dl Total Tomaron medicamento 45 65 110 No tomaron medicamento 60 50 110 Total 105 115 220 Tabla 6. Efecto de medicamento experimental para diabetes Establecemos las hipótesis nula y alternativa, donde p es la proporción de personas con menor nivel de glucosa en sangre: H0: pcm = psm H0: pcm > psm Página No. 80 Bajo la hipótesis H0 se tiene la tabla siguiente mayor a 126 mg/dl Menor a 126 mg/dl Total Tomaron medicamento 52.5 57.5 110 No tomaron medicamento 52.5 57.5 110 Total 105 115 220 Tabla 7. Efecto de medicamento experimental para diabetes, bajo H0. ( ) ( ) ( ) a) Con ν = (2 – 1) (2 – 1) = 1 grado de libertad, ( ) tenemos = 3.84 y el medicamento produce un efecto al nivel de significación de 0.05. b) Con ν = (2 – 1) (2 – 1) = 1 grado de libertad, tenemos = 6.63 y el medicamento no produce un efecto al nivel de significación de 0.01. 10.6 Coeficiente de Contingencia. Una medida del grado de interrelación, asociación o dependencia de las clasificaciones en una tabla de contingencia viene dada por √ (108) que se llama coeficiente de contingencia. Cuanto mayor es C, mayor es el grado de asociación. El número de filas y de columnas de la tabla de contingencia determina el máximo valor de C, que nunca es mayor que 1. Si el número de filas y columnas en una tabla de contingencia es igual a k, el máximo valor de C está dado por √( ) . 10.7 Correlación de Atributos. Ya que las clasificaciones de una tabla de contingencia describen a menudo características de individuos u objetos, se les conoce como atributos, y el grado de dependencia, asociación o interrelación se llama correlación de atributos. Para tablas de k X k definimos √ Página No. 81 ( ) (109) como el coeficiente de contingencia entre atributos ( o clasificaciones), este coeficiente está entre 0 y 1. 10.8 Propiedad Aditiva de χ2. Supongamos que los resultados de experimentos repetidos dan valores muestrales de χ2 dados por , , ,,, con ν1, ν2,ν3,,, grados de libertad, respectivamente. Entonces el resultado de todos esos experimentos puede considerarse equivalente a un valor de χ2 dado por +…grados de libertad. Página No. 82 + + +…. con ν1 + ν2 +ν3 XI. Ajuste de Curvas y el Método de Mínimos Cuadrados. 11.1 Relación Entre Variables. En la práctica, encontramos que existen relaciones entre dos o más variables. Por ejemplo, los pesos de personas y sus estaturas están relacionados; las circunferencias dependen de los radios y el volumen de los gases de su temperatura. Suele ser deseable y útil expresar estas relaciones en forma de ecuaciones que conecten estas variables. 11.2 Ajuste de Curvas. Para hallar una ecuación que relaciones variables, el primer paso es recoger datos que muestren valores correspondientes de las variables bajo consideración. Así, por ejemplo, si en un plano coordenado rectangular graficamos los puntos correspondientes al peso, Y, y las alturas, X, de N individuos, generaremos un diagrama de dispersión como un conjunto de N puntos (X1, Y1),(X2, Y2),,,(XN, YN). En la siguiente figura se muestran los datos correspondientes a niños mexicanos de la ciudad de Monterrey, de entre 5 y 11 años, obtenidos en el año de 1988. Figura 8.- Peso y estatura de niños mexicanos de la ciudad de Monterrey, de entre 5 y 11 años. A partir del diagrama de dispersión es posible, con frecuencia visualizar una curva suave que aproxima los datos. Tal curva se llama curva aproximadamente. En la gráfica anterior, por ejemplo, los datos parecen aproximarse bien a una recta y decimos que hay una relación lineal entre las variables. En la siguiente figura se muestra la relación entre años de estudio e ingreso medio semanal, para el año Página No. 83 2012, en los Estados Unidos, se puede apreciar que la relación entre las variables no es lineal. Figura 9.- Relación entre años de estudio e ingreso medio semanal, para el año 2012, en los Estados Unidos El problema general de hallar una ecuación de la curva aproximante que se ajuste a un conjunto de datos se llama ajuste de curvas. 11.3 Ecuaciones de Curvas Aproximantes. Varios tipos comunes de curvas aproximantes y sus ecuaciones se presentan en la lista adjunta. Todas las letras excepto X e Y representan constantes. Las variables X e Y se llaman variables independiente y dependiente, respectivamente, aunque estos papeles se pueden intercambiar. Línea Recta Y = a0 + a1X (110) 2 Parábola o Curva Cuadrática Y = a0 + a1X+ a2X Curva Cúbica Y = a0 + a1X+ a2X2+a3X3 Curva de grado N Y = a0 + a1X+ (111) a2X2+a3X3 (112) (113) +…+aNXN Hipérbola Curva exponencial Página No. 84 Y = 1/(a0 + a1X) Y = ab X (114) (115) Curva geométrica Y = aXb (116) Curva exponencial modificada Y = abX + g (117) Curva geométrica modificada Y = aXb + g (118) Curva de Gompertz (119) Curva de Gompertz modificada (120) Y = 1/ (abX + g) Curva logística (121) Para decidir que curva usar, es útil graficar en una hoja de cálculo los datos como diagrama de dispersión y tratar de ajustar con la curva que produzca el más alto coeficiente de correlación (que definiremos más adelante) y siga la tendencia general de los datos. 11.4 Ajuste de Curvas por el Método de Mínimos Cuadrados. Para evitar juicios subjetivos al construir rectas, parábolas y otras curvas aproximantes de ajuste de datos, es necesario acordar que entendemos por “curva de mejor ajuste”. Para tener esta definición, consideremos la siguiente figura, en la cual los datos vienen dados por (X1, Y1),(X2, Y2),,,(XN, YN). Para un valor de X como X1, habrá una diferencia entre el valor Y1 y el correspondiente valor deducido de la curva. Esta diferencia está representada en la figura por el valor D1, que se llama desviación o error residual y que puede ser positiva, negativa o nula. Análogamente, para los demás valores de Xi existen diferencias Di. Y (XN, YN) DN (X1, Y1) D1 D2 (X2, Y2) Página No. 85 X X1 X2 XN Una medida de la bondad de ajuste de la curva de la figura a los datos de los puntos viene dada por la cantidad, + +…+ , si esta cantidad es pequeña, el ajuste es bueno; si es grande, el ajuste es malo. De todas las curvas que aproximan un conjunto de datos, la que tiene la propiedad de minimizar +…+ + se llama curva de ajuste óptimo. Esta curva ajusta los datos en el sentido de mínimos cuadrados y por tanto se llama curva de mínimos cuadrados. 11.5 La Recta de Mínimos Cuadrados. La recta de mínimos cuadrados que aproxima el conjunto de puntos (X1, Y1),(X2, Y2),,,(XN, YN) tiene por ecuación Y = a0 + a1X (122) donde las constantes a0 y a1 se encuentran al resolver el sistema de ecuaciones simultaneas ∑Y = a0N+ a1∑X (123) ∑XY = a0∑X + a1∑X 2 (124) de donde se obtiene (∑ )(∑ ) (∑ )(∑ ∑ ) (∑ ) ( ) (∑ ) (∑ )(∑ ) ∑ (∑ ) (126) Ejemplo: Los datos de la gráfica al inicio de este capítulo de estaturas y pesos para niños mostrada al inicio de este capítulo, se presentan en la siguiente tabla. Estatura (cm) 114.92 115.32 120.7 127.46 132.18 138.29 142.2 Peso en Kg 23.1 22.2 24.15 28.39 31.07 36.93 37.99 Tabla 8. Estatura y peso de niños mexicanos entre 5 y 12 años. Página No. 86 Los valores para determinar los coeficientes a0 y a1 son los mostrados a continuación (∑ )(∑ ) (∑ ( ∑ de donde a0 = -46.07 y )(∑ ) (∑ ) ) (∑ )(∑ ( ∑ ) ) a1 = 0.590. 11.6 La Parábola de Mínimos Cuadrados. La parábola de mínimos cuadrados que aproxima al conjunto de puntos (X1, Y1),(X2, Y2),,,(XN, YN) tiene por ecuación Y = a0 + a1X+ a2X2, donde las constantes a0, a1 y a2 se encuentran al resolver el sistema de ecuaciones simultaneas + a1 ∑X + a2∑X2 (127) ∑XY = a0∑X + a1 ∑X2 + a2∑X3 (128) ∑X2Y = a0∑X2+ a1 ∑X3+ a2∑X4 (129) ∑Y = a0N Llamadas ecuaciones normales de la parábola de mínimos cuadrados. Ejemplo: Los datos para años de estudio y salario semanal (USD) correspondientes a la gráfica del inicio del capítulo son: Años de estudio 9 12 14 15 16 18 22 Salario semanal 471 652 727 785 1066 1300 1624 Tabla 9. Salario semanal de acuerdo al nivel de estudios en Estados Unidos en 2012. Con los cuales se puede obtener el sistema de ecuaciones para la parábola de mínimos cuadrados mostrados abajo: 6625 = 7a0 + 106a1 + 1710a2 110200 = 106a0 + 1710a1 + 29152a2 1931268 = 1710a0 + 29152a1 + 521106a2 que al resolver para a0, a1 y a2 produce la ecuación de la parábola: y = 2.754x2 + 8.643x + 142.7. 11.7 Regresión, Interpolación y Extrapolación. Página No. 87 A menudo deseamos estimar, basados en los datos de una muestra, el valor de la variable Y correspondiente a un valor dado de la variable X, para la cual no hay valores experimentales. Ello se puede hacer estimando el valor de Y mediante una curva de mínimos cuadrados que ajusta los datos. La curva resultante se llama una curva de regresión de Y sobre X, ya que se estima Y a partir de X. Si queremos estimar el valor de X a partir de un valor dado de Y, hemos de usar una curva de regresión de X sobre Y, que viene a ser un intercambio de variables en el diagrama de dispersión de tal forma que Y sea la variable independiente y X la variable dependiente. Cuando conocemos la curva de regresión, podemos estimar valores de Y correspondientes a puntos no determinados experimentalmente. Si estos valores de Y se encuentran dentro del rango de valores experimentales, hablamos de interpolación, pero si se encuentran fuera del rango, hablamos de extrapolación. 11.8 Problemas de más de Dos Variables. Los problemas que involucran a más de dos variables pueden tratarse de manera análoga a los de dos variables. Por ejemplo, puede haber una relación entre tres variables X, Y y Z. descrita por la ecuación: Z = a0 + a1X+ a2Y (130) que se llama ecuación lineal de las variables X, Y y Z. Por extensión del método de mínimos cuadrados, podemos hablar de un plano de mínimos cuadrados que aproxima los datos. Si estimamos Z a partir de los valores de X y Y, se llama plano de regresión de Z sobre X e Y. Las ecuaciones normales correspondientes al plano de mínimos cuadrados vienen dadas por ∑Z = a0N + a1 ∑X + a2∑Y (131) ∑XZ = a0∑X + a1 ∑X2 + a2∑XY (132) ∑YZ = a0∑Y + a1 ∑XY+ a2∑Y2 (133) 11.9 Correlación y Regresión. La correlación se puede entender como el grado de interconexión entre variables para determinar que tan precisa es la descripción o explicación de la relación entre variables de una ecuación lineal o de cualquier otro tipo. En la sección anterior Página No. 88 hablamos de la regresión, o estimación de una variable (la dependiente) usando la variable relacionada (la independiente). Si todos los valores de las variables satisfacen una ecuación exactamente, decimos que las variables están perfectamente correlacionadas o que hay una correlación perfecta entre ellas. Por ejemplo, los radios, r, y las circunferencias, C, de todos los círculos están perfectamente correlacionados porque se cumple que C = 2πr. Si se lanzan dos dados 150 veces, no hay relación entre las puntaciones obtenidas en cada uno (a menos que los dados estén trucados), es decir, no están en correlación. Como hemos visto, los pesos y las estaturas de las personas tienen cierta correlación. Cuando sólo usamos dos variables, hablamos de regresión simple y correlación simple. En otro caso hablamos de correlación múltiple y regresión múltiple. 11.10 Error Típico de Estimación. Si denotamos por Yest el valor de Y para valores de X, tal como se estima a partir de la ecuación de mínimos cuadrados, una medida de dispersión respecto de la recta de regresión de Y sobre X viene dada por la cantidad ( √ ) (134) que se llama error típico de estimación de Y sobre X El error típico de estimación de X sobre Y está dado por √ ( ) (135) 11.11 Variación Explicada y Variación Inexplicada. La variación total de Y se define como ∑( ̅ ) ; esto es, la suma de los cuadrados de las desviaciones de los valores de Y respecto de la media. Esto se puede escribir como Página No. 89 ∑( ̅) ∑( ) ∑( ̅) (136) El primer término de la derecha de la ecuación anterior se llama variación explicada, mientras que el segundo se llama variación inexplicada. Resultados similares se pueden obtener para la variable X. 11.12 Coeficiente de Correlación. El cociente de la variación explicada entre la variación total se llama coeficiente de determinación. Si la variación explicada es cero (o sea, toda la variación es inexplicada), ese cociente es cero. Si la variación inexplicada es cero (o sea, toda la variación es explicada), el cociente es 1. En los demás casos, está entre 0 y 1. Como nunca es negativo, denotaremos ese cociente por r. La cantidad r, llamada coeficiente de correlación, viene dada por √ ∑( √ ∑( ̅) ̅) (137) y varía entre -1 y +1. Se usan los signos positivo y negativo para las correlaciones positiva y negativa, respectivamente. El coeficiente de correlación es una buena medida del grado en el cual una curva de regresión se acerca en promedio a todos los puntos del diagrama de dispersión. Por ejemplo, en el ejemplo de la correlación entre estatura y peso de los niños de Monterrey, el coeficiente de correlación para la recta es 0.9878, mientras que para la parábola es 0.9933. Esto significa que podemos aproximar mejor los datos usando una curva de segundo grado que una usando una recta. Sin embargo, se debe tener cuidado al generalizar este razonamiento, pues por ejemplo, una curva de sexto de grado de mínimos cuadrados dada por: y = 0.00000187x6 - 0.00147263x5 + 0.48298927x4 - 84.35796928x3 + 8,275.32891015x2 - 432,307.51603164x + 9,395,954.12621194 Página No. 90 tiene un coeficiente de correlación de 1, pero en general, no es la mejor aproximación para el comportamiento de los datos pues por ejemplo, predice que entre el segundo y tercer valor de las estaturas, 115.32 y 120.7 cm, respectivamente, los peso tienden a bajar, lo cual, a partir del comportamiento general de la gráfica y de la experiencia práctica, es muy poco probable. En este, como en la mayoría de los casos, debemos considerar que la mejor curva de ajuste es aquella con el coeficiente de correlación más alto y que siga la tendencia general de los datos experimentales. El en caso de la gráfica de años de estudio contra ingreso semanal en Estados Unidos, una curva de segundo grado produce un coeficiente de correlación de 0.9804 y una de tercer grado da un coeficiente de correlación de 0.9854, aunque la variación es muy pequeña, cinco milésimas, la curva de tercer grado representa mejor la tendencia general de los datos muestrales y se considera como una mejor aproximación para este problema. Página No. 91 Bibliografía. - Murray R. Spliegel, 1988, Estadística, México D. F., MCGraw-Hill, 1-355. - Jay L. Devore, 2012, 2012, Probabilidad y Estadística para Ingeniería y Ciencias, Octava Edición, México D. F, Cengage Learning, 1-522. - Nathabandu T. Kottegoda y Renzo Rosso, 2008, Applied Statistics for Civil and Environmental Engineers, Second Edition, West Sussex, Blackwell Publishing, 1235. - Richard O. Gilbert, 1987, Statistical Methods for Environmental Pollution Monitoring, New York, VAN NOSTRAND REINHOLD COMPANY, 119-131. - Office of Solid Waste and Emergency Response, 1992, Supplemental Guidance to RAGS: Calculating the Concentration Term, Washington, D.C, United States Environmental Protection Agency, 1-8. - Ronald E. Walpole, Raymond H. Myers, Sharon L. Myers, Keying Ye, 2010, Probabilidad y Estadística para Ingeniería y Ciencias, México D. F., Pearson, 1255. - Douglas Montgomery, 1998, Probabilidad y Estadística aplicada a la Ingeniería, México D. F, Limusa-Wiley, 1-287. Página No. 92