Download 1 - RI UAEMex
Document related concepts
no text concepts found
Transcript
Universidad Autónoma del Estado de México Centro Universitario UAEM Tenancingo Unidad de Aprendizaje: Inferencial Estadística Problemario de Inferencia Estadística Elabora: M. en C. Rafael Morales Ibarra [email protected] Junio de 2015 2 Problemario de Inferencia Estadística Índice de contenido Unidad Inferencia Estadística Presentación Introducción Pagina 3 3 I Estimación puntual Propiedades de los estimadores Métodos de estimación Método de Momentos Método de Maximaverosimilitud 4 4 7 7 10 II Estimación por Intervalos IC. Para la diferencia de dos proporciones IC. Para la varianza de una distribución normal IC para la relación de varianzas de dos distribuciones normales 13 15 16 16 III Pruebas de Hipótesis Estadísticas Pruebas de independencia Pruebas de homogeneidad 18 18 19 IV Ejercicios propuesto 20 V Respuestas y/o soluciones a ejercicios propuestos 22 VI Bibliografía 27 3 Problemario de Inferencia Estadística Presentación El presente conjunto de ejercicios, es una compilación representativa de cada uno de los temas que comprende la unidad de aprendizaje de Inferencia estadística que se imparte en el 4° periodo de la licenciatura en Relaciones Económicas Internacionales. Los ejercicios semestre con seleccionados con el objeto de que el alumno comprenda de forma intuitiva y formal la resolución de ejercicios vistos en clase. El grado de dificultad difiere entre cada uno de los ejemplos, lo que permitirá al estudiante ir gradualmente resolviendo los ejercicios considerados en el texto de referencia del curso. La secuencia de los ejemplos y ejercicios corresponde fielmente a la estructura de un curso estándar de inferencia. El lenguaje como la terminología es propia de alumnos del tercer año de la carrera, no obstante las sesiones de clase se acompañan con una serie de notas y apuntes que apoyan la comprensión y entendimiento de los temas, se anexan una serie de ejercicios propuestos para que el alumno los resuelva y valore su avance y entendimiento de los temas, la bibliografía anexa es considerada básica y complementaria. Introducción La estadística provee técnicas que permiten obtener conclusiones generales a partir de un conjunto limitado – pero representativo – de datos. Cuando inferimos no tenemos garantía de que la conclusión que obtenemos sea exactamente correcta. Sin embargo, la estadística permite cuantificar el error asociado a la estimación. 4 La inferencia estadística está relacionada con los métodos para obtener conclusiones. La estimación se divide en dos áreas: La estimación puntual, y la estimación por intervalos de confianza. Puntual Método de MCO, MV Momentos, Por intervalos Estimación Prueba Hipótesis de Sobre parámetros Sobre distribuciones I. ESTIMACIÓN PUNTUAL Definición: Un estimador puntual de un parámetro es un valor que puede ser considerado representativo de y se indicará función de la muestra. . Se obtiene a partir de alguna Ejemplo (1) Con el fin de estudiar si un dado es o no equilibrado, se arroja el dado 100 veces en forma independiente, obteniéndose 21 ases (1) ¿Qué valor podría utilizarse, en base a esa información, como estimación de la probabilidad de as? Parece razonable utilizar la frecuencia relativa de ases. Solución: En este caso, si llamamos p a la probabilidad que queremos estimar p^= 21/100 =0.21 Ejemplo (2) cuando usamos la media muestral para estimar la media de una población (), o la proporción de una muestra P para estimar el parámetro de una distribución binomial . Una "estimación puntual" de algún parámetro de una población es un solo valor obtenido a partir de un estadístico. 5 Propiedades de los estimadores Estimadores insesgados: El valor esperado del estimador debería ser igual al parámetro que trata de estimar. Estimador es "insesgado", en caso contrario se diría que es sesgado. Ejemplo (1). La media muestral ya que E( ) = . es un estimador insesgado de la media poblacional Ejemplo (2). Si X es Binomial (n, ), demostrar que X/n es un estimador insesgado del parámetro . Solución. Sea P = Tenemos que: Ejemplo (3) Al calcular la media de una población normal sobre la base de una muestra de tamaño 2n+1, ¿cuál es la eficiencia de la mediana con relación a la media? Se sabe var( ) =²/(2n+1). Para una muestra aleatoria de tamaño 2n+1 de una población normal se sabe que: La eficiencia relativa está dada por: La eficiencia asintótica de la mediana con respecto a la media está dada por: la media muestral es un estimador más eficiente de la media poblacional que la mediana muestral. La media requiere sólo el 64% de las observaciones que requiere la mediana para estimar la media poblacional con la misma confiabilidad. Ejemplo (4). Demuestre que es el estimador insesgado de mínima varianza de la media de una población normal. Solución: 6 Por lo tanto se tiene que Como sabemos que es un estimador insesgado y su var= ²/n entonces estimador insesgado de mínima var. de . Ejemplo (5). Si la duración de un servicio se distribuye normalmente, entonces es el . = 2.5 minutos, y se usan muestras de tamaño 16, entonces = 2.5/4 = 0.625 minutos. Si es desconocido y usamos como estimador una desviación estándar muestral de 2.8, entonces el error estándar estimado estará dado por 2.8/4 = 0.70 minutos. Solución: Si estamos estimando una proporción , entonces su mejor estimativo será la proporción muestral, es decir y el error estándar será El error máximo ocurre cuando = 0.5, y será .Si n = 50 el error máximo será Ejemplo (6) Es T = X1 un estimador consistente de la media poblacional? 7 Solución: Tenemos que E(T) =E( X1) = , es decir es insesgado, y V(T) = V(X1) = 2. Como la varianza del estimador no tiende a cero, entonces no es consistente, lo cual se puede verificar al aplicar la desigualdad de Chevyshef, que expresa lo siguiente: la cual no tiende a cero cuando n , es decir, que X1 no tiende a cuando n es grande. Ejemplo (7) Demostrar que S² es un estimador consistente de ² cuando se toman muestras de una población normal. Solución: Se sabe que: E(S²) = ² . por lo tanto, se observa que V(S²) 0 cuando n 1.2 Métodos de Estimación Los principales métodos de estimación de parámetros son los siguientes Método de los momentos Método de máxima verosimilitud Estimadores bayesianos Mínimos cuadrados Para la estimación de parámetros de distribuciones de probabilidad los métodos empleados son los 3 primeros, mientras que el segundo se usa principalmente en los estudios de regresión. 1.2.1 Método de los momentos Ejemplo (1). Si una va sigue una exponencial con parámetro, encontrar el estimador del parámetro usando el método de los momentos. f(X) = e-x, x>0 8 Solución: Como sólo existe un parámetro, bastará con usar el primer momento, es decir, 1 = m1. El primer momento de la distribución exponencial es 1/, por lo cual se tiene que e.d., el estadístico usado para estimar el parámetro es el inverso de la media muestral. Si el parámetro que estuviéramos estimando fuera el valor esperado = 1/, entonces el estimador será la media muestral. Por lo tanto, este estimador es insesgado. Ejemplo (2). Si una va tiene una distribución gama, con parámetros y k desconocidos, se tiene lo siguiente: Demuestre que el j-ésimo momento absoluto está dado por: Solución: Por lo tanto los dos primeros momentos poblacionales están dados por: Igualando estos dos momentos poblacionales a los respectivos momentos muestrales se tiene: De (1) se tiene que y reemplazando en la ecuación (2) obtenemos: 9 Por lo tanto Ejemplo (3). Estimar por el método de los momentos los parámetros y ² de una distribución normal. Solución: Como son dos parámetros los que necesitamos estimar, usaremos los dos primeros momentos de la distribución normal, que están dados por: Igualando los dos primeros momentos poblacionales con sus respectivos momentos muestrales tenemos que: De lo anterior se concluye que el estimativo de la media poblacional es la media muestral , y es un estimativo insesgado, mientras que el estimativo de la var(²) no es la var(S²), sino la cuasivarianza, y es un estimativo sesgado. 1.2.2. Método de Máxima Verosimilitud Ejemplo (1) se lanza al aire una moneda 10 veces, y se observan 6 caras, y necesitamos estimar la probabilidad de que la moneda caiga en cara. Si q representa la probabilidad de que una moneda caiga en cara, la probabilidad de obtener x caras en n lanzamientos de una moneda está dada por la distribución binomial, a saber: Solución: 10 Si el parámetro puede tomar los valores 0.30, 0.35, 0.40, 0.45, 0.50, 0.55, 0.60, 0.65, 0.70, las probabilidades de obtener 6 caras en 10 lanzamientos de la moneda están dadas en la tabla siguiente, para los valores del parámetro arriba mencionado. 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 P(X=6) 0.0368 0.0689 0.1115 0.1596 0.2051 0.2384 0.2508 0.2377 0.2001 De la tabla se observa que el valor que maximiza la probabilidad de ocurrencia es Ejemplo (2) el estimador del parámetro usando el método de mv. f(X) = e-x, x > 0. Solución: La función de verosimilitud está dada por: Considerando el logaritmo tenemos que: tiene: De nuevo, el estadístico usado para estimar el parámetro es el inverso de la media muestral. Si el parámetro que estuviéramos estimando fuera el valor esperado = 1/, entonces el estadístico será la media muestral. Este estimador es insesgado. Suponga que la va se refiere a tiempos de servicio de clientes, y toma los siguientes valores: 2.7, 1.8, 2.6, 10.5, 4.8, 1.2, 0.5, 2.8, 3.9, 18.7 La media muestral sería = 4.92 minutos y el estimativo del parámetro sería Ejemplo (3) Consideremos la estimación de los parámetros y ² de una distribución normal por el método de máxima verosimilitud. Solución: 11 Si X~ N(, ²) = {1, 2} 1 = , 2 =². La función de verosimilitud está dada por: El logaritmo de la función de verosimilitud está dado por: Derivando inicialmente con respecto al parámetro se tiene: Derivando con respecto al parámetro se tiene: En resumen tenemos que: De nuevo se concluye que el estimativo de la media poblacional es la media muestral , y es un estimativo insesgado, mientras que el estimativo de la varianza poblacional ² no es la varianza muestral S², sino la cuasivarianza, y es un estimativo sesgado. Ejemplo (4). Sea X un experimento binomial en el cual se observan que X = x éxitos en n ensayos. Obtega el E.M..V. del parámetro p. Solución: La función de verosimilitud es idéntica a la de probabilidad de que X = x, por lo tanto: L( x; p) n! p x (1 p) n x (n x)! x! 12 0<= p <=1. Entonces se tiene: ln L(x ; p) = ln(n!) – ln[(n-x)!] – ln(x!) + x ln(p) + (n-x) ln(1-p) Se deriva con respecto a p, el parámetro, y se iguala a 0. Para confirmar este valor se deriva por segunda vez con respecto a p: d [ln L( x; p)] x (n x) 0 d 2 [lndp L( x; p )] pnp ((11 p) ( x np)(1 2 p) 2 dp 2 [ p(1 p )] Lo evaluamos en x/n, con x/n < 1, y se tiene: II. ESTIMACIÓN POR INTERVALOS Ejemplo (1). Sean X1. X2,…,Xn una muestra aleatoria con distribución Ber(P). Si queremos estimar el parámetro p, la manera más natural de hacerlo consiste en definir la suma de éstas proporcionan una distribución Binomial. Solución: Si se considera como estimador suyo la variable aleatoria p=x/n Es decir, tomamos como estimación de p la proporción de éxitos obtenidos en las n pruebas . La distribución del número de éxitos es binomial, y puede ser aproximada a la normal cuando el tamaño de la muestra n es grande, y p no es una cantidad muy cercana a cero o uno: El estimador no es más que un cambio de escala de X, por tanto 13 Esta expresión presenta dificultades para el cálculo, siendo más cómodo sustituirla por la siguiente aproximación: Para encontrar el intervalo de confianza al nivel de significación para p se considera el intervalo que hace que la distribución de Z N(0,1) deje la probabilidad fuera del mismo. Es decir, se considera el intervalo cuyos extremos son los cuantiles /2 y 1/2 Así se puede afirmar con una confianza de 1- que: Esto se resume en la siguiente expresión: Con una confianza de (1-) Ejemplo (2): Se quiere estimar el resultado de un referéndum mediante un sondeo. Para ello se realiza un muestreo aleatorio simple con n = 100 personas y se obtienen 35% que votarán a favor y 65% que votarán en contra (suponemos que no hay indecisos para simplificar el problema a una variable dicotómica). Con un nivel de significación del 5%, calcule un intervalo de confianza para el verdadero resultado de las elecciones. Solución Dada una persona cualquiera (i) de la población, el resultado de su voto es una variable dicotómica: El parámetro a estimar en un intervalo de confianza con =0.05 es p, y tenemos sobre una muestra de tamaño n=100, la siguiente estimación puntual de p: 14 Sabemos que En la práctica el error que se comete no es muy grande si tomamos algo más simple como Así el intervalo de confianza buscado lo calculamos de la siguiente manera: Por tanto, tenemos con esa muestra un error aproximado de 9,3 puntos al nivel de confianza del 95%. 2.1. I.C. para la diferencia de dos proporciones (1 - 2) Ejemplo (1). Considere un proceso de producción que tiene una fracción defectuosa P desconocida. A este proceso se le realizan unas mejoras para reducir el porcentaje de defectuosos que está produciendo, y queremos saber si estos cambios sí reducen sustancialmente la proporción de artículos defectuosos del proceso. Para ello, se toma una muestra de 200 artículos del proceso original, y se encuentran 12 defectuosos, y se examinan 150 artículos del nuevo proceso y se observan 6 defectuosos. Cree Usted que los cambios efectuados al proceso han reducido el porcentaje de artículos defectuosos?. Use un nivel de confianza del 95%. Solución: Tenemos: n1 = 200, x1 = 12 p1 = 12/200 = 0.06 n2 = 150, x2 = 6 p2 = 6/150 = 0.04 El intervalo de confianza del 95% para la diferencia entre las fracciones defectuosas antes y después de las mejoras realizadas al proceso está dado por: Como la diferencia de cero está incluida en el intervalo de confianza, concluimos que 15 no tenemos evidencia para afirmar que los cambios efectuados al proceso contribuyen a reducir el porcentaje de artículos defectuosos. Cuál hubiera sido la conclusión si las muestras y los resultados hubieran sido los siguientes (observe que las proporciones defectuosas muestrales son las mismas: Tenemos: n1 = 1000, x1 = 60 p1 = 60/1000 = 0.06 n2 = 750, x2 = 30 p2 = 30/750 = 0.04 El intervalo de confianza del 95% está dado por -0.018 <(1-2)< 0.058 En este caso, aunque las proporciones muestrales son las mismas, el tener tamaños de muestra mucho mayores, nos permite concluir que efectivamente los cambios realizados al proceso redujeron la fracción defectuosa (1>2). 2.2. I.C. para la varianza de una distribución normal Ejemplo (1). Un proceso produce cierta clase de cojinetes de bola cuyo diámetro interior es de 3 cm. Se seleccionan en forma aleatoria 12 de estos cojinetes y se miden sus diámetros interiores, y los valores resultantes son los siguientes: 3.01, 3.05, 2.99, 2.99, 3.02, 3.00, 2.98, 2.99, 2.97, 2.97, 3.02 y 3.01. Suponiendo que el diámetro es una variable aleatoria normal, determine un intervalo de confianza para la varianza poblacional . Use un intervalo de confianza del 99%. Solución. Tenemos: El intervalo de confianza estará dado por: , En el intervalo de confianza para la varianza, el punto medio del intervalo (0.001266) no coincide con el estimador puntual, debido a la no simetría de la distribución chicuadrado. 2.3 I.C. Para la relación de varianzas de dos distribuciones normales Ejemplo (1). Considere la siguiente tabla que se refiere a la diferencia en años de añejamiento de dos marcas de tequila. Elementos Ni Media muestral Tequila Don Ramón 10 3.1 Tequila Corralejo 8 2.7 16 si 0.5 0.7 Suponiendo que los conjuntos de datos provienen de muestras tomadas al azar de poblaciones normales con varianzas desconocidas, construya un intervalo de confianza del 98% para la relación de las dos varianzas de respecto a los años de añejamiento de las dos marcas de tequila. Solución Tenemos que: F0.01,9,7 = 6.72, F0.01,7,9 = 5.61 El intervalo de confianza del 99% para la relación de la varianza de tequila Corralejo (la mayor) a la varianza del tequila Don Ramón está dado por: Si se hubiera construido la relación de la varianza del tequila Don Ramón a la Tequila Corralejo el intervalo de confianza estaría dado por: Como el valor de la relación uno está comprendido en el intervalo de confianza, no hay evidencia estadística para rechazar hipótesis sobre la igualdad de las dos varianzas. 17 III. PRUEBA DE HIPOTESIS 3.1 Pruebas de independencia Ejemplo (1). Usando un nivel de significación del 5%, determine si él numero de fallas se asocia al tipo de maquina con el turno en que se utiliza. 1 2 3 A 41 31 15 B 20 11 17 C 12 9 16 D 16 14 10 Total 89 65 58 Total 87 48 37 40 212 Solución: Declaración de Hipótesis: H0 = Existe independencia entre la maquinaria y el turno en que se utiliza. H1 = No existe independencia entre la maquinaria y el turno en que se utiliza. Estadística de prueba: n X 2 calculado k x ij i 1 j 1 eij 2 eij =11.6491 Criterio de Decisión: pvalue = 0.070271 2 X critico X 61 12.5916 0.05 Conclusión: 2 2 X calculado X critico p(value) Decisión: No se rechaza H0 Interpretación: No hay relación entre la maquina y el turno en que se utiliza. 3.2 Pruebas de Homogeneidad: 18 Ejemplo (2): Se realiza un estudio para determinar si en 3 sectores de la economía del país (industria, comercio y agrícola) tienen la misma opinión respecto de una medida económica. Se escogieron 200 industrias, 190 comerciantes y 120 agricultores. Industria Comercio Agrícola Total A favor 160 150 70 380 Encontra 27 30 40 97 Indiferente 13 10 10 33 Total 200 190 120 510 Solución: Estadística de prueba: n X 2 calculado k x i 1 j 1 ij eij 2 eij =23.77 pvalue = 0.000089 2 X critico X 61 12.5916 Nivel de significancia: 0.05 Conclusión: 2 2 X calculado X critico p(value) Decisión: Se rechaza H0 Interpretación: No existe proporción entre la opinión de las industrias, comerciantes y agricultores. CONCEPTOS ELEMENTALES 19 El tema de las pruebas de hipótesis estadísticas forma parte de la estadística inferencial. El principal objetivo al realizar una prueba de hipótesis es determinar, a partir de una muestra aleatoria (conjunto de observaciones), si un determinado parámetro de una población toma cierto valor (o valores); o bien, si dicha muestra puede considerarse proveniente de una función de distribución específica. Una hipótesis estadística es una aseveración o negación acerca de un parámetro (o parámetros) de una distribución probabilística, como puede ser una media, una varianza o una proporción. En la realización de una prueba de hipótesis se plantean dos tipos de hipótesis. La hipótesis nula, H0 y la hipótesis alternativa, H1. La primera considera comúnmente el enunciado que se desea probar; en tanto que, la alternativa asume la negación de la hipótesis nula. En este apartado, el procedimiento general para realizar pruebas de hipótesis se presenta en seguida: 1) Planteamiento del conjunto de hipótesis ( H0 vs H1 ). 2) Definición del nivel de significancia 3) Cálculo del estadístico de prueba 4) Definición de la región crítica de la prueba y aplicación de la regla de decisión (rechazar o no rechazar H0) 5) Conclusión Descripción de cada uno de estos pasos 1. El planteamiento de las hipótesis es fundamental en la realización de una prueba de hipótesis. Se debe tener en cuenta que en la hipótesis nula por lo general se considera la afirmación que se desea contrastar; es decir, aquello que se esperaría no ocurriera; mientras que, en la hipótesis alterna se consideraría el resultado que se espera como correcto. 20 2. El nivel de significancia () se refiere al margen de error con que se desea llevar a cabo la prueba. Por lo general se emplea un = 0.05, aunque también es común emplear en las pruebas niveles de significancia de 0.10 y 0.01. 3. El estadístico de la prueba es una función exclusivamente de las observaciones contenidas en la muestra aleatoria. Dicho estadístico constituye una parte fundamental en la elaboración de la regla de decisión de la prueba. 4. La región crítica se define a partir del llamado valor crítico de la prueba. El conjunto de valores que conforman la región crítica de la prueba definen la región de rechazo de la hipótesis nula. 5. Finalmente se concluirá argumentando el porque se rechaza (o no) la hipótesis nula al nivel de significancia previamente establecido. Es muy importante destacar que el resultado obtenido se debe particularmente al empleo de la muestra de observaciones disponible, y que no necesariamente el parámetro poblacional es igual al valor (o valores) propuesto en la hipótesis que finalmente se apoye. Por otra parte, la realización de pruebas de hipótesis puede conducir a dos tipos de errores en la conclusión de las mismas; es decir, por un lado se puede rechazar algo que es verdadero, y por otro, no rechazar algo siendo falso. Estos dos tipos de errores se identifican de la siguiente manera: a) Error tipo I. Ocurre cuando se rechaza la hipótesis nula cuando en realidad esta es cierta. b) Error tipo II. Se presenta cuando no se rechaza la hipótesis nula aún cuando en realidad esta es falsa. Es posible calcular la probabilidad de cada uno de estos tipos de error a partir de la consideración de la regla de rechazo de la hipótesis nula de la prueba; o bien: P( Error tipo I) = P(rechazar H0 cuando H0 es cierta) = . y P( Error tipo II) = P(no rechazar H0 cuando H0 es falsa) = 21 En la elaboración de pruebas de hipótesis siempre se pretende trabajar con pruebas confiables o pruebas con la mayor potencia posible; es decir, se busca que una prueba posea una alta probabilidad de rechazar la hipótesis nula cuando esta es falsa. La potencia de una prueba de hipótesis se obtiene calculando la siguiente probabilidad: P(rechazar H0 cuando H0 es falsa) = 1 - Finalmente, se dice que una prueba de hipótesis es de tamaño si la probabilidad de rechazar la hipótesis nula cuando esta es cierta es igual con (o la probabilidad del error tipo I). 22 I. PRUEBAS DE HIPÓTESIS (PH)UNIFORMEMENTE MÁS POTENTES DE TAMAÑO ALFA, UMP() La metodología empleada en este apartado consiste en la razón de verosimilitudes propuesta en el Lema de Neyman-Pearson (N-P), el cual establece que existe una región crítica C de tamaño y una constante positiva k, tal que: L0 x1 , x2 ,..., xn ; 0 ≤k L1 x1 , x2 ,..., xn ;1 interior de C L0 x1 , x2 ,..., xn ; 0 ≥k L1 x1 , x2 ,..., xn ;1 exterior de C donde C define la mejor región crítica de tamaño para probar las hipótesis: Ho: = 0 contra Ha: = 1 donde: 0 > 1, o bien 0 < 1. Además, L0 y L1 son las funciones de verosimilitud relativas a H0 y H1 respectivamente. La función de verosimilitud de una variable aleatoria está determinada por el producto de las densidades de probabilidad de la n observaciones correspondientes a dicha variable aleatoria y las cuales conforman la muestra aleatoria disponible. Esta metodología es ampliamente recomendada cuando la muestra aleatoria con que se trabaja es pequeña (n < 30) y no proviene de una distribución normal, en caso contrario (n 30) se podrá hacer uso del Teorema Central del Límite (TCL) y aproximar a la distribución normal en caso de que dicha muestra no tenga esta distribución probabilística. Además, si se tiene una muestra pequeña (n<30) 23 proveniente de una población normal será conveniente el empleo de la distribución t de student. 1. Ejercicios de PH sobre los parámetros de una distribución de probabilidad Problema 1: Sea x1, x2,…,xn, una muestra aleatoria de tamaño n, de una distribución de Poisson con parámetro desconocido. Determinar la mejor región crítica para probar las hipótesis: vs H 0 : 0 H1 : 1 donde 0 1 . Solución Por el lema de Neyman-Pearson. Primero se obtiene la función de verosimilitud bajo H0: n L0 x1 , x 2 ,..., x n ; 0 i 1 e 0 0 i f xi ; f xi ; x 0,1,2,..., n xi ! x e 0 0 1 e 0 0 L0 x1! x2 ! x es decir: x2 e 0 0 ... xn ! xn n que es igual con: L0 xi e n0 0 i 1 n x! i i 1 Ahora, obteniendo la función de verosimilitud bajo H1 se tiene: n L1 x1 , x 2 ,..., x n ; 1 f xi ; f xi i 1 e 1 1 i ; x 0,1,2,..., n xi ! x e 1 1 1 e 1 1 2 e 1 1 L1 ... x1! x2! xn! x x xn 24 n L1 xi e n1 1 i 1 n x! i i 1 Por lo tanto la razón de verosimilitudes es: n xi e n0 0 i 1 n L0 x1 , x2 ,..., xn ; 0 L1 x1 , x2 ,..., xn ; 1 x! i k i 1 n e n1 xi 1 i 1 n x! i i 1 n xi L0 e n0 0 i 1 k n L1 xi n1 e 1 i 1 simplificando: n xi i1 L0 e n0 n1 0 k L1 1 o bien: Aplicando logaritmo natural a la expresión anterior, tenemos: n n1 n0 xi ln 0 ln k i 1 1 n n1 0 xi ln 0 ln k i 1 1 o bien: Despejando el término de sumatoria: n xi ln 0 ln k n1 0 i 1 1 Nótese que: 1 0 0 0 1 ; por lo tanto el ln 0 , entonces: 1 0 1 n xi i 1 ln k n1 0 ln 0 1 k' 25 Por lo tanto, la mejor región crítica para probar: H 0 : 0 vs H1 : 1 con 0 1 n está definida por: xi ln k n1 0 i 1 ln 0 1 k' . En seguida, para obtener el valor de k’ se utilizará la definición de la probabilidad del error tipo I, es decir: Perror tipo I Prechazar H 0 H 0 es cierta En este ejemplo se tiene que: n P xi k ' H 0 : 0 i 1 en forma equivalente: n 1 P x i k ' 0 i 1 o bien: n P x i k ' 0 1 i 1 Ahora, como: n xi ~ P ; i 1,2,..., n xi ~ Pn ; considérese que y = i 1 Así: n x i i 1 n P xi k ' 0 = Py k ' 0 1 , lo que equivale a: i 1 26 e n0 n0 yi ! i 0 k' yi 1 Es posible determinar en forma sencilla el valor de k’ (con n, 0 y conocidos) y definir completamente la región crítica o regla de decisión de la prueba de hipótesis planteada. Por ejemplo, supóngase que se tiene una muestra aleatoria = 10 y se quiere probar las hipótesis: x1, x2,…, xn de tamaño n H0: = 2 contra H1: = 3 con un nivel de significancia de 0.05. n xi Puesto que la región crítica de la prueba es: ln k n1 0 i 1 ln 0 1 k' sustituyendo valores para determinar el valor crítico de la prueba (k’) se tiene: e 20 20 yi ! i 0 k' yi 1 0.05 empleando tablas de la distribución de Poisson con parámetro 2 se encontrará que: k’ = 27 esto es, dada la información disponible se deberá rechazar la hipótesis nula con un n nivel de significancia , cuando x i 27. i 1 Problema 2. Sea x1,x2,…,xn una muestra aleatoria de la distribución de probabilidad de Bernoulli, f(x) = x (1-)1-x, con parámetro desconocido. Probar el conjunto de hipótesis: H0: = 0 vs H1: = 1; donde 0 1. Solución. Aplicando el lema de N-P para determinar la mejor región crítica de la prueba, primeramente se obtendrán las funciones de verosimilitud, L0 y L1, evaluadas en las hipótesis nula y alternativa respectivamente a partir de la distribución probabilística considerada. 27 n L0 ( X 1, X 2 ,..., X n ; 0 ) f ( xi ) f ( x1 ) f ( x 2 ) ... f ( x n ) i 0 ( 0 ) (1 0 ) x1 (1 x1 ) ( 0 ) x2 (1 0 ) (1 x2 ) ... ( 0 ) xn (1 0 ) (1 xn ) n n xi (1 xi ) L0 ( 0 ) i 1 (1 0 ) i 1 n entonces: n xi (1 xi ) L1 ( X 1, X 2 ,..., X n ;1 ) (1 ) i1 (1 1 ) i1 Así, por el lema de N-P la mejor región crítica para probar H0: = 0 vs. H1: = 1 tal que 0 1 esta determinada por la razón de verosimilitudes: n L0 ( X 1, X 2 ,..., X n ; 0 ) L1 ( X 1, X 2 ,..., X n ; 1 ) n (1 xi ) ( 0 ) i 1 (1 0 ) i 1 n n xi (1 xi ) k ( 1 ) i 1 (1 1 ) i 1 n xi n xi (1 xi ) ( 0 ) i 1 (1 0 ) i 1 n n xi (1 xi ) k ( 1 ) i 1 (1 1 ) i 1 Reordenando términos: n n (1 X i ) Xi ( 0 ) i 1 (1 0 ) i 1 ( ) ( 1 ) 1 1 k n ( Xi ) ( 0 ) i 1 ( ) 1 n ( Xi ) n (1 0 ) (1 0 ) i 1 ( 1 ) ( 1 ) 1 1 k o bien: n Xi ( 0 ) i 1 ( 1 ) (1 ) 0 ( 1 1) n (1 0 ) k (1 1 ) aplicando logaritmo natural: 28 n 0 (1 1 ) 10 ln k n ln 0) 1 1 1 x ln (1 i i 1 n Despejando el término x i 1 i de la expresión anterior se tiene: (1 1 ) ln k n ln n (1 0 ) k' xi i 1 (1 1 ) ( 0 ) ln ln (1 ) (1 0 ) Este resultado constituye la mejor región crítica para la prueba planteada. Así, deberá n rechazarse la hipótesis nula cuando X i 0 i resulte menor o igual que la constante k’. Para obtener el valor de k’, se emplea la definición de la probabilidad del error tipo 1: P [rechazar H0/ H0 es cierta] = o bien: n P x i k ' / H 0 : 0 i 1 Si x i B(1,); i = 1,2,…, n, entonces: y n x i 1 i B(n, ), o bien bajo H0: n f ( y) ( 0 ) yi (1 0 )( n yi ) yi entonces, la probabilidad: n P xi k ' / H 0 : 0 , es equivalente a: i 1 K n P y k ' / 0 ( 0 ) yi (1 0 ) ( n yi ) i 1 y i 29 Puesto que los valores de n, 0 y son conocidos; mediante tablas de la distribución binomial acumulativa es posible obtener el valor de k’. Por lo tanto, la región crítica para esta prueba ha quedado totalmente definida. Problema 3: Sean los datos 4.4, 5.2, 3.0 y 4.8 una muestra aleatoria independiente e idénticamente distribuida (m. a. i. i. d.) de una distribución gamma con parámetros de forma = 2.5 y de escala desconocido. Pruebe el siguiente conjunto de hipótesis: Ho: = 3 H1: = 2 contra a) Obtenga la prueba UMP() y b) Encontrar el valor crítico de la prueba para un = 0.05 Solución: a) Por el lema de N-P se obtendrá primeramente la prueba UMP() para contrastar el conjunto de hipótesis: Ho : 3 vs H1 : 2 Como la m.a.i.i.d. tiene distribución gamma (, ) con parámetros =2.5 y desconocido, la función de densidad de xi; i =1,2,…,n; con n = 4, está definida por: f xi 1 xi e xi ; xi > 0 entonces, la función de verosimilitud bajo H0 es: n L0 ( x1 , x2 ,..., xn ; o ) f xi ; f xi i 1 x 1e x sustituyendo el valor del parámetro = 2.5: L0 x1 2.51 x1 0 e 2.5 0 2.5 x2 2.51 x2 0 e 2.5 0 2.5 ... xn 2.51 xn 0 e 2.5 0 2.5 30 1.5 n o bien: n xi 0 x e i1 L0 i 2.5n 0 2.5n por lo tanto, la función de verosimilitud bajo H1 será: L1 x1 2.51 x1 1 e 2.5 1 1.5 n o bien: 2.5 n xi x2 2.5 1 x2 1 e 2.5 1 2.5 ... xn 2.51 xn 1 e 2.5 1 2.5 1 x e i1 L1 i 2.5n 12.5n Por el lema de N-P para determinar la mejor región crítica de la prueba consideramos la razón de verosimilitudes L0 ≤ k: L1 xi 1.5 n n xi i 1 e 0 2.5 0 L0 n L1 xi 1 1.5 n xi e i 1 n 2.5 n ≤ k 2.5n 1 2.5 n que es equivalente a: L0 1 L1 2.5 n e 0 2.5n e n xi i 1 n 0 k xi 1 0 xi i 1 Reordenando términos: 1 0 2.5 n e n xi i 1 n i 1 1 k o bien: 31 1 0 2.5 n e 1 1 n xi 0 i 1 1 k Aplicando logaritmo natural tenemos: 1 1 n xi ln k 2.5n ln 1 0 i 1 0 1 sustituyendo los valores de 0 = 3 y 1 = 2, se tiene: 2 1 1 n 2.5n ln xi ln k 3 2 3 i 1 n por lo tanto, despejando el término x i 1 i se obtiene: n 2 xi 6 ln k 15n ln = k’ i 1 3 lo que define la mejor región crítica para probar H0: = 3 contra H1: = 2. Es decir, si n x i 1 i k ' entonces deberá rechazarse la hipótesis nula H0 y se tendrá evidencia de que H1 es verdadera. b) Encontrar el valor crítico de la prueba ( k’) para un = 0.05 El valor de k’ se obtiene a través de la probabilidad del error tipo I: Perror tipo I Prechazar H0 H0 es cierto equivalente en este ejemplo a: n P xi k ' 3 i 1 Ahora, se conoce que xi ~ 2.5, ; xi 0 ; entonces por propiedades de la distribución gama: n x i 1 i ~ 2.5n, que bajo la hipótesis nula H0: n x i 1 i ~ 2.5n,3 32 n Sea y = x , i 1 i entonces: y ~ 5n2 ,3 33 además: 2 52n ,2 y ~ 5n 2 ,2 y 3 52n es decir, una variable aleatoria x con distribución gamma y parámetros = 5n/2 y = 2 es una variable aleatoria chi-cuadrada con 5n grados de libertad. De esta manera: n P xi k ' 3 i 1 es equivalente a: 2 2 P y k ' 3 3 3 A través de la función de probabilidad acumulativa de la distribución gamma se obtiene: 2 Fy k ' 3 aplicando la función inversa de Fy se tiene que: 2 k ' 52n , 3 Regresando al problema planteado se tiene que para y n = 4: k' 2 3 20 , 0.05 2 310.9 16.35 2 Por lo tanto, la prueba UMP() para las hipótesis: Ho: = 3 contra H1: = 2 está definida por: n x i 1 i k ' 16.35 n Es decir, existirá evidencia de que la hipótesis nula no se cumple cuando x i 1 i 16.35 y deberá rechazarse considerando un nivel de significancia Para este ejemplo se tendría que: 34 n x i 1 i = 4.4 + 5.2 + 3.0 + 4.8 = 17.4 > 16.35 por lo que se rechaza H0 a un nivel de significancia de 0.05. Ejercicio (2) acerca de la potencia y tamaño de una prueba de hipótesis Problema 1. Sea x1, x2,...,xn una m.a.i.i.d. de tamaño n de la distribución de Bernoulli con parámetro desconocido. Para una muestra de tamaño n = 10, probar las hipótesis: H0: = ½ H1: = ¾ contra utilizar la región crítica xi 6 y obtener: a) La potencia de esta prueba y b) El tamaño de la prueba. Solución: a) La función de potencia esta dada por: 1 donde es la probabilidad el error tipo II, entonces para calcular a primeramente se obtendrá a : P no rechazar H0 / H0 es falsa = o bien: n P x i 6 / 3 / 4 i 1 n se conoce que: xi ~ B(1,); i=1,2,…,n; entonces y = x ~ B(n,); i i 1 =P[y<6 / =¾] 5 10 y (3 / 4) yi 0 i yi por lo que: (1 / 4) n yi 0.1503 35 Por lo tanto, la potencia de esta prueba está determinada por: 1 0.1503 = 0.8497 es decir, la probabilidad de rechazar la hipótesis nula cuando esta es falsa es de un 0.8497 (o un 84.97%). b) Si la región crítica de la prueba es xi 6, el tamaño de la prueba esta dado por: 1 n P x i 6 2 i 1 es decir, la probabilidad del error tipo I, (), determina el tamaño de la prueba, o bien: 1 10 P y 6 2 yi 6 1 10 6 6 106 = 0.38 Por lo tanto, el tamaño de esta prueba de hipótesis es de 0.38 o del 38%. 36 IV. EJERCICIOS PROPUESTOS 4.1 Estimación puntual 1 . Si X es Binomial (n,), demostrar que X/n es un estimador insesgado del parámetro . 1. Al calcular la media de una población normal sobre la base de una muestra de tamaño 2n+1, ¿cuál es la eficiencia de la mediana con relación a la media? 2. Si la duración de un servicio se distribuye normalmente, entonces ˆ X . = 2.5 minutos, y se usan muestras de tamaño 16, entonces T= 2.5/4 = 0.625 minutos. Si es desconocido y usamos como estimador una desviación estándar muestral de 2.8, entonces el error estándar estimado estará dado por 2.8/4 = 0.70 minutos. 3. Demostrar que S² es un estimador consistente de ² cuando se toman muestras de una población normal. 4.2 Estimación por intervalo 1 En un estudio para el estado de la salud oral de una ciudad, se toma una muestra aleatoria de 280 hombres entre 35 y 44 años, y se estudia la variable número de dientes en la boca. Se desea realizar la estimación por intervalo de confianza del 0.95 de la proporción de individuos de esta ciudad con 28 dientes o más, considerando este valor como dentición completa. Luego del examen clínico se encontró que hay 70 individuos con 28 diente o más dientes. La estimación puntual de p es po siendo: po = 70/280 = 0,25, que representa el 25% de los individuos con dentición completa. 2. Determinar el tamaño de la muestra para que el error al estimar la media de una población sea menor que 0.06 con una probabilidad de 0.95, sabiendo que se tomó una muestra de tamaño n = 50 y se obtuvo x = 9.1 y s = 0.24. Se busca un tamaño de muestra n tal que P(| x | < 0.06) = 0.95. 4.3 Pruebas de hipótesis (puede emplear Matlab) 1. Calcular a para el ejemplo de la rapidez de combustión para una muestra de N=10 datos, suponiendo que la desviación estándar de la rapidez de combustión es s=2.5 cm/seg. 2. Recalcular a del ejemplo anterior para a) los nuevos límites de la región de aceptación 48 y 52. b) Para N=16 con los límites originales c) con ambas modificaciones. 3. Supongamos que es importante rechazar H0 si la rapidez promedio de combustión m es mayor que 52 cm/seg o menor que 48 cm/seg. Dada la simetría sólo se requiere evaluar la probabilidad de aceptar H0: m=50 cuando el valor verdadero es m=52. 37 4. Si se conoce s=2 cm/seg, se desea probar si la media m es de 50 cm/seg. Se selecciona una muestra aleatoria de tamaño N=25, obteniendo x=51.3 cm/seg. Se especifica un nivel de sginificancia a=0.05 ¿A qué conclusiones se debe llegar? 5. Ejemplo: Un diseñador quiere reducir el tiempo de secado de una pintura. Se prueban dos fórmulas de pintura. La fórmula 1 es la normal y la fórmula 2 posee un ingrediente secante que se espera reduzca el tiempo de secado. Se sabe que el tiempo de secado tiene una desviación estándar de 8 min y que ésta no se afecta con la adición del nuevo ingrediente. Se pintan 10 especímenes con la fórmula 1, y 10 con la fórmula 2, obteniéndose tiempos promedio de secado de x1=121 min, y x2=112 min. respectivamente. ¿A qué conclusión se llega sobre la eficacia del nuevo ingrediente utilizando a=0.05.? 6. En una reunión informativa, el gerente de un hotel “Concepción”, indicó que el número promedio de habitaciones arrendadas por noche es mayor que 212. Uno de los funcionarios considera que esta cifra puede estar algo sobreestimada. Una muestra de 150 noches produce una media de 222,7 habitaciones y una desviación estándar de 45,5 habitaciones. Si estos resultados sugieren que el gerente ha “inflado” su información, será amonestado severamente. ¿Cuál es el destino del gerente? EJERCICIOS PROPUESTOS 1. Suponga que desea probar las hipótesis H0: = 5 vs H1: = 8 por medio de un solo valor que se observa en una variable aleatoria con densidad de probabilidad: f(x) = (1/)exp(-x/), x > 0. Si el tamaño máximo del error tipo I que puede tolerarse es de 0.15, ¿cuál de las siguientes pruebas es la mejor para escoger entre las dos hipótesis?: a) Rechazar H0 si X 9 b) Rechazar H0 si X 10 c) Rechazar H0 si X 11 2. Sea x1,x2,...,xn una m.a. de la distribución de Poisson con parámetro desconocido. Obtenga la mejor región crítica de tamaño para probar el conjunto de hipótesis: H0: = 0 vs H1: = 1 donde: 1 < 0. 3. Se sabe que la proporción de artículos defectuosos en un proceso de manufactura es de 0.15. El proceso se vigila en forma periódica tomando muestras aleatorias de tamaño 38 20 e inspeccionando las unidades. Si se encuentran dos o más unidades defectuosas en la muestra, el proceso se detiene y se considera como “fuera de control”. a) Enuncie la hipótesis nula y alternativa apropiadas b) Obtenga la probabilidad del error tipo I c) Obtenga la función de potencia para los siguientes valores alternativos de la proporción de artículos defectuosos: 0.06, 0.08, 0.10. 4. Sea x1,x2,...,xn una muestra aleatoria de tamaño n de la distribución exponencial con parámetro de escala desconocido. Obtenga la mejor región crítica de tamaño para probar las hipótesis: H0: = 0 vs H1: = 1 donde 1 > 0. RESPUESTAS 1. Prueba b). 3. a) H0: p = 0.05 vs H1: p > 0.05; b) 0.2642 y c) 0.3396, 0.4831, 0.6083 39 RESPUESTAS Y/O SOLUCIONES A LOS EJERCICIOS PROPUESTOS 5.1 Estimación puntual 1. Sea P X n 1 X 1 E(P) E(X) n por lo tanto es insesgado n n n 2. Se sabe que la varianza de la media X está dada por ²/(2n+1). Para una muestra aleatoria de tamaño 2n+1 de una población normal se sabe que el valor esperado y la varianza de la mediana están dados por: ~ ~ E( X) 2 ~ V( X) 4n La eficiencia relativa está dada por: La eficiencia asintótica de la mediana con respecto a la media está dada por: la media muestral es un estimador más eficiente de la media poblacional que la mediana muestral. 3. Si estamos estimando una proporción , entonces su mejor estimativo será la proporción muestral, es decir =X/n y el error estándar será El error máximo ocurre cuando = 0.5, y será . Si n = 50 el error máximo será 4. Sabemos que: E(S²) = ² se observa que V(S²) 0 cuando n . 5.2 Estimación por intervalo 1. Sabiendo que q o =1 - p o = 1 - 0,25 = 0,75, y consultando el anexo B de la distribución normal tipificada, se encuentra que el valor de Z para una confianza del 0,95 es de 1.96, se obtiene: 40 De manera que, el intervalo de confianza del 0.95 de la proporción de hombres con dentición completa está entre 0.1933 0.3007; es decir, que existe una probabilidad del 0,95% de que este intervalo contenga entre sus límites el valor de p. Ejemplo. Determinar el tamaño de la muestra para que el error al estimar la media de una población sea menor que 0.06 con una probabilidad de 0.95, sabiendo que se tomó una muestra de tamaño n = 50 y se obtuvo x = 9.1 y s = 0.24. Se busca un tamaño de muestra n tal que P(| x | < 0.06) = 0.95 O equivalentemente, se busca un tamaño de muestra n tal que z/2 = 0.06 con 1 = 0.95. Como (1 )/2 = 0.475, según la tabla 4, P(0 < z < z/2) = (1 )/2 para z/2 = 1.96 Se busca entonces un tamaño de muestra n tal que z/2 x = 1.96 x = 1.96 / n = 0.06 de donde 2 1.96 2 . 0.06 n= se desconoce pero se puede aproximar con el valor s que corresponde a la muestra de n = 50. 2 1.96 n= 2 = 61.5 0 . 06 es decir, n = 62. 5.3 Pruebas de hipótesis (emplear software) 1. En este caso a = P( x caiga en la región crítica | m=50), es decir: a = P( x < 48.5) + P( x > 51.5) 2. Recordando que La distribución de x es Normal con media m=50 y desviación estándar s/N =0.79, por lo tanto, usando Matlab: a=normcdf(48.5,50,0.79)+(1normcdf(51.5,50,0.79)) = 0.288+ 0.288 = 0.0576 Esto significa que el 5.76% de las muestras de tamaño 10 conducirán al rechazo de la Hipótesis H0: m=50 cm/seg, cuando ésta es verdadera. a) a = normcdf(48,50,0.79) + (1-normcdf(52,50,0.79)) = 0.0114 41 b) a = normcdf(48.5,50,0.625)+(1-normcdf(51.5,50,0.625)) = 0.0164 c) a = normcdf(48,50,0.625)+(1-normcdf(52,50,0.625)) = 0.0014 3. Usando Matlab: b = normcdf(51.5,52,0.79) - normcdf(48.5,52,0.79) = 0.2643 La probabilidad de obtener un error de tipo II aumenta muy rápido a medida que el valor verdadero m tiende al valor hipotético, por ejemplo, si suponemos que m=50.5, y recalculamos b, obtenemos Usando Matlab: b = normcdf(51.5,50.5,0.79) - normcdf(48.5,50.5,0.79) = 0.8923 b también depende del tamaño de la muestra, por ejemplo, si N=16 obtenemos en el ejemplo cuando m=52: s=0.625, por lo tanto b = normcdf(51.5,52,0.625) - normcdf(48.5,52,0.625) = 0.2119 Es decir, b disminuye cuando N aumenta, excepto si el valor real de m está muy cerca del hipotético Como uno puede elegir los valores críticos del intervalo de aceptación uno controla el valor de a. Uno puede entonces controlar la probabilidad de rechazar de manera errónea H0. Es por eso que el rechazo de H0 siempre se considera como una Conclusión Fuerte. (Los datos aportan fuerte evidencia de que H0 es falsa) La decisión de aceptar H0 se considera una Conclusión Débil, a menos que se sepa que b es considerablemente pequeño. Por esto en lugar de decir “se acepta H0” se prefiere decir “incapaz de rechazar H0”, es decir, no se ha encontrado evidencia suficiente para rechazar H0. O sea, no quiere decir que exista gran evidencia de que H0 sea cierta sino que no hay gran evidencia de que sea falsa. 4. El parámetro de interés es m (rapidez promedio de combustión) H0: m = 50 cm/seg H1: m 50 cm/seg a = 0.05 La estadística de prueba es Rechazar H0 si z>1.96 o si z<-1.96 Conclusión como z = 3.25 > 1.96, se rechaza H0: m = 50 cm/seg con un nivel de significancia a = 0.05 Es decir, Se concluye que en base a una muestra de 25 mediciones la rapidez promedio de combustión es diferente de 50 cm/seg, de hecho, existe evidencia fuerte de que ésta es mayor. 5. Cantidad de interés: m1 - m2 H0: m1 = m2 42 H1: m1 > m2 (se busca evidencia fuerte que indique que el tiempo de secado promedio de la muestra 2 es menor. Alpha =0.05 El estadístico de prueba es H0 se rechazará si z>z0.05 = 1.645 Sustituyendo los datos, obtenemos z=(121-112)/(12.8)1/2=2.52 Conclusión: Puesto que z = 2.52 > 1.645 se rechaza H0 con un nivel de significancia a=0.05 concluyéndose el nuevo ingrediente sí disminuye el tiempo de secado. Alternativamente puede calcularse un valor P =1-F (2.52) = 0.0059, es decir, se rechazará H0 para cualquier nivel de significancia a0.0059. 6. En una reunión informativa, el gerente de un hotel “Concepción”, indicó que el número promedio de habitaciones arrendadas por noche es mayor que 212. Uno de los funcionarios considera que esta cifra puede estar algo sobreestimada. Una muestra de 150 noches produce una media de 222,7 habitaciones y una desviación estándar de 45,5 habitaciones. Si estos resultados sugieren que el gerente ha “inflado” su información, será amonestado severamente. ¿Cuál es el destino del gerente? Declaración hipótesis H 0 : 212 H 1 : 212 Nivel de significación 0,05 Descripción de la poblacional que interesa y planteamiento de las suposiciones necesarias X número de habitaciones arrendadas por noche. X ? Pero n 150 30 Estadístico de prueba Zc x 0 N 0,1 n Criterios de decisión: Ho: < o H1: > o Rho si RC z / z 1,645 Cálculo de los estadísticos 43 Zc x 0 n 222,7 212 2,88 45,5 150 Decisión Z c 2,88 RC RECHAZAMOS H 0 Interpretación: El número promedio de habitaciones arrendadas por noche es mayor que 212 con p 0,002 Parece que el gerente no se ha excedido al estimar su tasa de ocupación y aparentemente no recibirá una reprimenda. 44 6. Bibliografía Básica Mood. A.M. Graybill F.A., Boes. D.C. Introduction to the Theory of Statistics. Third Edition. McGraw Hill. Complementaria 1. Devore, Jay L. Probabilidad y estadística para ingeniería y ciencias. Internacional Thompson 2. Hildebrand, David K. & Ott, Lyman R. Estadística aplicada a la administración y la economía. Addison-Wesley Iberoamericana. México, 1997 3. Lind, Douglas A.; Marchal, William G. & Mason, Robert D. Estadística para administración y economía. Alfaomega Colombiana, S.A. Colombia 2004 4. Mendenhall, William. Estadística para Administración Grupo Editorial Iberoamérica. México 1990 5. Walpole, Ronald E. & Myers, Raymond H. Probabilidad y estadística Prentice Hall Latinoamericana. México 1998 45