Download - atalayadecristo.org
Document related concepts
no text concepts found
Transcript
Pontificia Universidad Católica Madre y Maestra Recinto Santo Tomás de Aquino Facultad de Ciencias Sociales y Administrativas Departamento de Administración de Empresa ADM-237-T MÉTODOS CUANTITATIVOS PARA NEGOCIOS II en honor a Carlos Dreyfus PROGRAMA GENERAL Maestro: Ing. Rubén Darío Estrella Sánchez, MBA Cavaliere dell’ordine al Merito della Repubblica Italiana (Roma 2003) Ingeniero de Sistemas (UNIBE - 1993), Administrador (PUCMM - 2000), Matemático (PUCMM - 2007), Teólogo (UNEV - 2002) y Maestro (SALOME UREÑA - 1985) [email protected] ; [email protected] www.atalayadecristo.org MAYO 2016 Objetivo General: Este curso persigue desarrollar habilidades en los gerentes y futuros gerentes de negocios/proyectos que le permitan valorizar, aplicar y crear diferentes modelos matemáticos, útiles en el proceso de toma de decisiones en el mundo de los negocios, con la finalidad de optimizar los resultados a obtener en las diferentes situaciones del mundo real. Los encargados de toma de decisiones estarán mejor preparados para trabajar en este tipo de ambiente si se familiarizan con las clases más comunes de los análisis cuantitativos y con la tecnología de la computadora. Este dominio les ayudará a ser mejores “críticos” y “usuarios” de estas herramientas y, según se supone, perfeccionarán su habilidad en la toma de decisiones. Descripción de la Materia: Créditos : 03 Pre-requisitos : ADM-236-T; ADM-236-P Co-requisitos : ADM-237-P En esta segunda parte de Métodos Cuantitativos para Negocios nos adentraremos en la aplicación de la estadística inferencial a la toma de decisiones en los negocios. Al finalizar el (la) estudiante podrá hacer uso de la teoría de muestras, probabilidades para el análisis de datos, así como la aplicación de las técnicas de estimación de parámetros poblacionales para Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 1 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 2 contrastar si una afirmación provisional sobre un parámetro poblacional es aprobada o no ante la evidencia de la muestra. El curso consta de una parte teórica y de un laboratorio en el que se utilizará un software estadístico para la resolución de los problemas. Objetivos Específicos del Curso: Proporcionar una comprensión conceptual del papel que juegan los métodos cuantitativos en el proceso de toma de decisiones. Construir nuevas estructuras mentales ya que se trata de una forma distinta de pensar matemáticamente. Abordar y resolver situaciones de una variedad ilimitada y problemas cuya complejidad rebasaría otras ramas de las matemáticas. Enfatizar los conceptos. Presentar cuidadosamente los métodos estadísticos, dirigiéndolos a la comprensión, tanto de la adaptabilidad del método como del análisis de los resultados y la toma de decisiones. Evaluar hipótesis cuantitativas acerca de las características de procesos, productos o servicios. Evaluar afirmaciones sobre poblaciones a partir de muestras obtenidas de éstas, a las que se les aplican procedimientos estadísticos basados en modelos de probabilidad. Contrastar hipótesis cuantitativas paramétricas y no paramétricas, acerca del valor de una variable que mide características de un proceso, producto o servicio. Desarrollar procedimientos de recolección, tratamiento y análisis de datos cuantitativos, con apego a la ética y a los supuestos de los modelos estadísticos aplicados. Seleccionar los modelos estadísticos que mejor se ajusten a la situación administrativa que se va a estudiar. Desarrollar habilidades y destrezas que permitan, mediante el razonamiento, el análisis y la interpretación de datos, la toma de decisiones gerenciales. Metodología de Clases: Este curso está orientado a las aplicaciones de las estadísticas en la solución de casos o escenarios del mundo de los negocios. El enfoque didáctico de este curso está orientado más hacia el desarrollo de habilidades que hacia la adquisición de conocimientos, es decir, saber cómo resolver problemas mediante la aplicación de herramientas estadísticas. Cátedras expositivas de los temas que constituyen el programa. Análisis de casos, principalmente del entorno nacional. Aplicación de los modelos estadísticos a data proveniente de una empresa elegida por el (la) estudiante. Resolución de ejercicios de texto u otros libros de referencia. Análisis de artículos de publicaciones arbitradas. Participación activa del estudiante, debates, discusiones. Aprendizaje colaborativo, mediante la resolución en grupo de ejercicios y casos, tanto de manera presencial como virtual. Pruebas parciales y prueba final Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 2 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 3 Evaluación: Pruebas Cortas Práctica de Calentamiento 15 puntos 5 puntos 1º Parcial Proyecto Parcial 25 puntos 15 puntos 2º Parcial Proyecto Final 25 puntos 15 puntos Aplicación de Cuestionario Seleccionado a 50 personas y Aplicación de la Estadística Descriptiva e Inferencial, Preparar un Reporte de Resultados. Aplicación de las Estadísticas Nacionales para la Ubicación de un Supermercado. Aplicación de las Estadísticas en un Estudio de Mercado. Materiales Útiles: - Calculadora Científica con Combinación nCr - Computador Portátil – Notebook – Laptop (Será usada en el aula, en los exámenes y en el laboratorio). - Memoria USB de 8 GB - Juego de Reglas y Compás. - Manual de Ejercicios (Impreso) o Presentaciones. - Bibliografía indicada a continuación. Software Útiles: MegaStat - SPSS 22 – Minitab – Stata Probabilidades y Estadística de la Mc Graw Hill. Microsoft Excel Aplicaciones aportadas por los estudiantes. Metodología del Laboratorio: Utilización de Microsoft Excel – Hoja Electrónica de Cálculo. Utilización de los Programas: MegaStat – SPSS 22 – Probalidades y Estadísticas de la Mc Graw Hill - – Minitab – Stata. Búsqueda de Programas. Implementación del Software – En los casos resueltos y asignados. Presentación en el Laboratorio de la Implementación. Entrega de los archivos de los Programas identificados. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 3 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 4 CONTENIDO DEL PROGRAMA .................................................................................................................................... Tema I - Distribuciones de muestreo Objetivos de Aprendizaje: Manejar los conceptos de: inferencia estadística, estimadores puntuales, estimación por intervalos, muestreo, tipos de muestreo, errores de muestreo. Comprender cómo se realizan los principales tipos de muestreo: aleatorio simple, estratificado, por conglomerados o racimos, por conveniencia. Comprobar teórica y empíricamente, la distribución muestral de medias, de proporciones y de varianzas Contenido Temático: 1.1 Inferencia Estadística: Estimadores puntuales y parámetros poblacionales. Propiedades deseables en los estimadores. 1.2 Muestreo probabilístico para población finita o infinita. Tipos de muestreo. 1.3 Distribución muestral de las medias. Cálculo de la media y la desviación muestrales. 1.4 Distribución muestral de las proporciones. Cálculo de la proporción y desviación muestrales. 1.5 Teorema central del límite. 1.6 Distribución muestral de las varianzas. .................................................................................................................................... Tema II - Estimación por intervalos de confianza y prueba de hipótesis para la media o proporción poblacional Objetivos de Aprendizaje: Comprender qué es: intervalo de confianza, estadístico de la prueba, valor crítico, pvalor, nivel de significancia o error tipo I, el error tipo II, y la potencia de una prueba. Construir e interpretar intervalos de confianza para la media poblacional y para la proporción poblacional. Realizar pruebas de hipótesis de una cola y de dos colas para la media poblacional y para la proporción poblacional para el caso en que se conozca la varianza poblacional, utilizando distribución normal estándar, y los enfoques del valor crítico y del p-valor. Realizar pruebas de hipótesis de una cola y de dos colas para la media poblacional para el caso en que no se conozca la varianza poblacional, utilizando la distribución t de Student, y los enfoques del valor crítico y del p-valor. Calcular el tamaño de muestra requerido para cualquier nivel de precisión deseado en la estimación a realizar. Calcular las probabilidades de cometer errores tipo I y II, y la potencia de la prueba. Contenido Temático: 2.1 Intervalo de confianza para la media de una población con varianza conocida. 2.2 Intervalo de confianza para la proporción poblacional. 2.3 Intervalo de confianza para la media de una población con varianza desconocida. 2.4 Prueba de hipótesis para la media de una población con varianza desconocida. 2.5 Cálculo del tamaño de la muestra. Errores tipo I, II y potencia de la prueba. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 4 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 5 .................................................................................................................................... Tema III - Estimación por intervalos de confianza y prueba de hipótesis para dos medias o proporciones poblacionales. Objetivos de Aprendizaje: Construir e interpretar intervalos de confianza para la diferencia de dos medias poblacionales o proporciones poblacionales con varianza conocida. Construir e interpretar intervalos de confianza para la diferencia de dos proporcionales poblacionales. Construir e interpretar intervalos de confianza para la diferencia de dos medias poblacionales no independientes. Realizar pruebas de hipótesis de una cola y de dos colas para los casos mencionados. Contenido Temático: 3.1 Intervalo de confianza para la diferencia de dos medias poblaciones normales con varianza conocida. 3.2 Intervalo de confianza para la diferencia de proporciones de dos poblaciones normales 3.3 Intervalo de confianza para la diferencia de dos medias poblaciones normales 3.4 con varianza desconocida. 3.5 Intervalo de confianza para la diferencia de dos medias poblacionales: muestras pareadas. 3.6 Pruebas de hipótesis para la diferencia de dos medias poblacionales independientes, con varianza conocida o desconocida. 3.7 Pruebas de hipótesis para la diferencia de dos proporciones poblacionales. 3.8 Pruebas de hipótesis para la diferencia de dos medias poblacionales dependientes. .................................................................................................................................... Tema IV - Estimación por intervalo y prueba de hipótesis para la varianza: Una población y dos poblaciones. Objetivos de Aprendizaje: Construir e interpretar intervalos de confianza para la varianza poblacional, utilizando la distribución Chi Cuadrada. Construir e interpretar intervalos de confianza para varianzas de dos poblaciones independientes, utilizando la distribución F. Realizar pruebas de hipótesis para ambos casos, utilizando las distribuciones correspondientes, y los enfoques del valor crítico y del p-valor. Contenido Temático: 4.1 Intervalo de confianza para la varianza poblacional. 4.2 Intervalo de confianza para las varianzas de dos poblaciones independientes. 4.3 Pruebas de hipótesis para la varianza poblacional. 4.4 Pruebas de hipótesis para las varianzas de dos poblaciones independientes. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 5 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 6 ............................................................................................................................... Tema V - Correlación y regresión simples: estimación y prueba de hipótesis. Objetivos de Aprendizaje: Comprender la importancia de la detección de relaciones lineales entre dos variables para la toma de decisiones en los negocios. Utilizar diagramas de dispersión y tendencia para visualizar la relación lineal entre dos variables. Utilizar análisis de regresión lineal para estimar la relación entre dos variables. Utilizar la ecuación de estimación de mínimos cuadrados para predecir valores futuros de la variable dependiente de interés. Calcular e interpretar los coeficientes de correlación y regresión. Comprender las limitaciones de la regresión y del análisis de correlación y las advertencias sobre su utilización. Construir intervalos de confianza para los parámetros de la ecuación de la recta. Realizar pruebas de hipótesis para el coeficiente de correlación simple. Contenido Temático: 5.1 Diagrama de dispersión. 5.2 La recta de regresión de la población. 5.3 Estimación de la recta de regresión de población por el método de los mínimos cuadrados. Predicción. 5.4 El coeficiente de correlación simple o de Pearson. El coeficiente de determinación. 5.5 Estimación del coeficiente de correlación simple. 5.6 Pruebas de hipótesis relativa al coeficiente de correlación simple. .................................................................................................................................... Tema VI - Pruebas no paramétricas. Objetivos de Aprendizaje: Identificar las pruebas no paramétricas que son apropiadas a situaciones en las que no se puede suponer una distribución de probabilidad específica para la población que estamos muestreando. Realizar pruebas de hipótesis acerca de valores poblacionales utilizando dichas pruebas. Contenido Temático: 6.1 Introducción a las pruebas no paramétricas. 6.2 Pruebas de bondad de ajuste, independencia y tablas de contingencia con Chi Cuadrada. 6.3 Prueba de Signo. 6.4 Prueba de rangos con signo de Wilcoxon para dos muestras dependientes. 6.5 Prueba de suma de rangos de Wilcoxon para dos muestras independientes. 6.6 Prueba de Kruskal-Wallis. 6.7 Correlación de rangos. 6.8 Prueba de series para detectar aleatoriedad. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 6 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 7 Agenda – Calendario Tema Contenido Introducción y Presentación del Programa Distribución Normal Práctica de Calentamiento: Aplicación de Cuestionario Seleccionado a 50 personas y Aplicación de la Estadística Descriptiva, Preparar un Reporte de Resultados. Libro Fecha Webster Cap. 5 Lind Cap. 7 Anderson Cap. 6 Manual pág. 92 1) Bienestar Laboral. 2) Negocios Informales. 12/05/2016 16/05/2016 LU/MI 2+3h MI/JU 2+3h 12/05/2016 16/05/2016 LU/MI 2+3h MI/JU 2+3h 16/05/2016 18/05/2016 19/05/2016 LU/MI 2+3h MI/JU 2+3h 25/05/2016 27/05/2016 28/05/2016 LU/MI 2+3h MI/JU 2+3h 01/06/2016 02/06/2016 MI 3h JU 3h 08/06/2016 09/06/2016 MI 3h JU 3h 06/06/2016 08/06/2016 LU 2h MI 2h 13/06/2016 15/06/2016 16/06/2016 LU/MI 2+3h MI/JU 2+3h Asistencia 20/06/2016 22/06/2016 23/06/2016 LU/MI 2+3h MI/JU 2+3h 29/06/2016 30/06/2016 MI 3h JU 3h 04/07/2016 06/07/2016 07/07/2016 LU/MI 2+3h MI/JU 2+3h 13/07/2016 14/07/2016 MI 3h JU 3h 11/07/2016 13/07/2016 LU 2h MI 2h Asistencia I Distribuciones de muestreo Webster Cap. 6 Lind Cap. 8 Anderson Cap. 7 Manual pág. 100 II Estimación por intervalos de confianza pág. 128, Tamaño de Muestra pág. 138 y prueba de hipótesis para la media o proporción poblacional 147, Distribuciones Normal, T Student pág. 134 y Chi Cuadrada pág. 163. Webster Cap. 7, 8 Lind Cap. 9, 10 Anderson Cap. 8, 9 Manual pág. 128, 134, 138, 147 y 163 Primer Control de Lectura Primer Parcial Proyecto Parcial (Presentación aplicando la Estadística Descriptiva e Inferencial) II IV Análisis de Varianza (ANOVA) Con un Factor / Con un Factor en Bloques / Con dos Factores Estimación por intervalo y prueba de hipótesis para la varianza: Una población y dos poblaciones. (Análisis de Varianza) Correlación y regresión simples: estimación y prueba de hipótesis. Webster Cap. 10 Lind Cap. 12 Anderson Cap. 11 Manual pág. 169, 189 y 195 Webster Cap. 11 Lind Cap. 13 Anderson Cap. 14 Manual pág. 208 Segundo Control de Lectura V Pruebas no paramétricas. Segundo Parcial Proyecto Final (Presentación en el Lab. aplicando la Estadística Inferencial) Webster Cap. 14 Lind Cap. 17, 18 Anderson Cap. 19 Manual pág. 224 Valor Valor 5 puntos Asistencia Asistencia Valor 5 puntos Valor 25 puntos Valor 15 puntos Asistencia Valor 10 puntos Asistencia 25 puntos 15 puntos Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 7 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 8 Pontificia Universidad Católica Madre y Maestra Recinto Santo Tomás de Aquino Facultad de Ciencias Sociales y Administrativas - Departamento de Administración de Empresa ADM-236-T MÉTODOS CUANTITATIVOS PARA NEGOCIOS I en honor a Carlos Dreyfus Maestro: Ing. Rubén Darío Estrella Sánchez, MBA Cavaliere dell’ordine al Merito della Repubblica Italiana (Roma 2003) Ingeniero de Sistemas (UNIBE - 1993), Administrador (PUCMM - 2000), Matemático (PUCMM - 2007), Teólogo (UNEV - 2002) y Maestro (SALOME UREÑA - 1985) [email protected] ; [email protected] www.atalayadecristo.org Aplicación de las Estadísticas Proyecto Parcial Valor 15 puntos - Fecha de Entrega: 6 y 8 de junio de 2016 Una empresa multinacional del Sector Supermercados que está ubicada en el Distrito Nacional, Santo Domingo y Santiago, está pensando expandir sus operaciones estableciéndose en otras 3 provincias del País, con este propósito un equipo de estudiantes de Modelos para la Toma de Decisiones fue contratado, para determinar en cuáles y qué orden debe ubicarse tomando en consideración las siguientes informaciones estadísticas: 1. Población Rural y Urbana. 2. Hogares Rurales y Urbanos. 3. Población Ocupada. 4. Población Económicamente Activa. 5. Proporción de la Ocupada en relación a la Activa. 6. Gasto Anual por Hogar Rural (En alimentos, bebidas y tabaco). 7. Gasto Anual por Hogar Urbano (En alimentos, bebidas y tabaco). 8. Demanda total (En base a la suma del Gasto Rural y Urbano). 9. Densidad Poblacional. Además: - Característica del Sector Industrial (Supermercados), situación actual, entorno, tendencias, etc. - Estilo de vida. - Desarrollo provincial. - Nivel de Educación. - Niveles de pobreza. - Imágenes típicas. - Mapas - Acceso a la tecnología y medios de comunicación. - Nivel de participación de la competencia. - Distancia de los centros de distribución. - Medios y costos de transporte. - Disponibilidad y costo de mano de obra. - Disponibilidad y calidad de los servicios públicos. - Rentabilidad del negocio. Utilizando las Herramientas estadísticas, algunas consideraciones de Operaciones y Mercadeo, presente su Informe. Impreso y en CD. Sitios de Internet a visitar: www.bancentral.gov.do / www.one.gov.do / www.pnud.gov.do / www.tiendalasirena.com / www.superpola.com / www.jumbo.com.do / www.ole.com.do / www.supermercadoslacadena.com / www.superbravo.com FECHA DE ASIGNACIÓN: 12 y 16 de mayo de 2016 www.bancentral.gov.do www.one.gov.do Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 8 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 9 Pontificia Universidad Católica Madre y Maestra - Recinto Santo Tomás de Aquino ADM-236-T MÉTODOS CUANTITATIVOS PARA NEGOCIOS I en honor a Carlos Dreyfus Maestro: Ing. Rubén Darío Estrella Sánchez, MBA Cavaliere dell’ordine al Merito della Repubblica Italiana (Roma 2003) Ingeniero de Sistemas (UNIBE - 1993), Administrador (PUCMM - 2000), Matemático (PUCMM - 2007), Teólogo (UNEV - 2002) y Maestro (SALOME UREÑA - 1985) [email protected] ; [email protected] PROYECTO FINAL Valor 15 puntos Lineamientos generales para el trabajo final Elaborar para una empresa de su elección o para un nuevo negocio un estudio de mercado que permita determinar el comportamiento de una o varias variables que se desean controlar, tomando en consideración la situación actual de la empresa, cultura, posibilidades económicas, características de su sector industrial, disponibilidad de tecnología, etc. Algunos detalles a incluir en su trabajo: Propósito del Estudio de Mercado. Objetivos del Estudio de Mercado. Breve reseña de la empresa, historia, evolución, cultura, etc. Característica del Sector Industrial, situación actual, entorno, tendencias, etc. Misión, Visión y Objetivos. Evaluación de oportunidades y tendencias del mercado. Evaluar la situación actual del objeto de estudio de mercado (definición y comportamiento de las variables); hacer una crítica de la situación, emitir un diagnóstico claro y completo. Utilizando todos métodos de Estadística Descriptiva e Inferencial determine: o Elaboración del cuestionario a utilizar para la recolección de los datos en Encuesta (Utilizando Libros de Metodología de Investigación y de Investigación o Estudio de Mercado). o Determinar el Tamaño de la muestra a utilizar en la Encuesta. o Analisis Estadístico de los datos obtenidos en la Encuesta. o Elaboración de Tablas y Gráficos Estadísticos. o Determinación de Estadísticos, Parametros, y probabilidades de ocurrencias. o Aplicar todos los modelos de la Estadística Inferencial estudiados. Evaluación y presentación clara, evidente y objetiva de los efectos y el impacto de sus recomendaciones, basado en el estudio de mercado, en la empresa: económicas, de calidad, de imagen, etc. Mínimo de Fuentes Bibliográficas (Libros) a utilizar: 5 Impreso y en CD. FECHA DE ASIGNACIÓN: 12 y 16 de mayo de 2016 FECHA DE ENTREGA: 11 y 13 de julio de 2016 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 9 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 10 BIBLIOGRAFÍA. o ESTRELLA, Rubén Darío. Modelos Estadísticos para la Toma de Decisiones. Edición 2016. o WEBSTER, Allen L. Estadística Aplicada a los Negocios y la Economía. McGraw-Hill: Tercera Edición. 2000. o LIND Douglas A., MARCHAL William G. and WATHEN Samuel A. Estadística Aplicada a los Negocios y a la Economía. McGraw-Hill. 15ª Edición. 2012. o ANDERSON David, SWEENEY Dennis and WILLIAMS Thomas. Estadística para Negocios y Economía. CENGAGE Learning: 11ª Edición. 2012. o TRIOLA, Mario F. Estadística. PEARSON Addison Wesley. 11ª Edición. 2013. o MATEOS-APARICIO Gregoria and MARTIN Miguel. El Análisis de la Varianza en la Investigación Comercial. Prentice Hall: 2002. o SPIEGEL Murray, SHILLER John and SRINIVASAN R. Alu. Probabilidad y Estadística. Mc Graw Hill. 3ª. Edición – Serie Shaum. 2010. o NIEVES Antonio and DOMINGUEZ Federico. Probabilidad y Estadística para Ingeniería un enfoque moderno. Mc Graw Hill. 2010. o HERNANDEZ SAMPIERI Roberto, FERNANDEZ COLLADO Carlos and BAPTISTA LUCIO Pilar. Métodos de la Investigación. Mc Graw Hill. Quinta Edición. 2010. o MCDANIEL Carl and GATES Roger. CENGAGE Learning: Octava Edición. 2011. Investigación de Mercados. o MENDEZ Carlos. METODOLOGIA Guía para elaborar diseños de investigación en ciencias económicas, contables y administrativas. Mc Graw Hill: Segunda Edición, 2001. o DAVIS Duane. Investigación en Administración para la toma de decisiones. International Thomson Editores: Quinta Edición. 2001. o GUTIERREZ PULIDO Humberto and DE LA VARA SALAZAR Román. Control Estadístico de Calidad y Seis Sigma 6. Mc Graw Hill. 2004 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 10 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 11 o JONSON Robert and KUBY Patricia. Estadística Elemental Lo Esencial. International Thomson Editores, S. A.: Tercera Edición 2004. o LIPSCHUTS Seymour and LIPSON Marc. PROBABILIDAD. Mc Graw Hill. Segunda Edición. 2001. o MILTON J. Susan and ARNOLD Jesse C. ESTADISTICA. Mc Graw Hill. Cuarta Edición. 2004. PROBABILIDAD Y o MONTIEL A. M., RIUS F. And BARON F.J. Elementos Básicos de Estadística Económica y Empresarial. Prentice Hall: 1997. o HOPKINS Kenneth, HOPKINS B.R. and GLASS Gene. Estadística Básica para las Ciencias Sociales y del Comportamiento. Prentice Hall: Tercera Edición. 1997. o LAPIN Lawrence L. Statistics for Modern Business. The Dryden Press: 1995. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 11 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 12 Conceptos Generales de Estadística (Statistics) La Estadística: Es una colección de métodos para planear experimentos, obtener datos y luego organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones con base en esos datos. - Se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. - Es el arte y la ciencia de reunir, analizar, presentar e interpretar datos. Es un cuerpo de métodos y teorías que es aplicado con evidencia numérica, cuando se toman decisiones en presencia o situaciones de incertidumbre. Estadística Descriptiva (Desciptive Statistics): Es el proceso de recopilación, organización y presentación de datos de alguna manera que describa con rapidez y facilidad. - Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos. - La estadística descriptiva proporciona herramientas para organizar, simplificar y resumir información básica a partir de un conjunto de datos que de otra forma seria poco manejable. Esta incluye la tabulación, representación y descripción de conjuntos de datos. - La estadística es descriptiva cuando los resultados del análisis estadístico no pretende ir más allá del conjunto de datos investigados. Estadística Inferencial (Inferential Statistics): Implica la utilización de una muestra para extraer alguna inferencia o conclusión sobre la población correspondiente. - Apoyándose en el cálculo de probabilidades y a partir de datos muéstrales, efectúa estimaciones, decisiones, predicciones y otras generalizaciones sobre un conjunto mayor de datos. La estadística es inferencial cuando se derivan conclusiones generales para un conjunto de datos más amplio a partir de la información proporcionada por los datos estudiados. Es el proceso de reunir datos obtenidos de una muestra para hacer estimaciones o probar hipótesis acerca de las características de una población. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 12 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 13 Estadística Descriptiva Obtener datos o recopilación Organizar y resumir Presentar Estadística Inferencial Analizar Interpretar Llegar a conclusiones Uso de la Estadística en: - Mercadeo. - Investigación de mercado. - Encuestas - Combinación de productos y existencias. - Publicidad. - Gerencia de Operaciones. - Pronósticos. - Gestión de Calidad Total (TQM). - Minimización de costos. - Eliminación de desperdicios. - Localización. - Ruta crítica. - Productividad. - Simulación. - Teorías de colas. - Finanzas - Análisis financieros. - Economía. - Análisis económicos. - Impuestos y Gastos públicos. - Producción nacional. - Inflación. - Macroeconomía. - Comercio internacional. - Localización o Ubicación de Negocios. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 13 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 14 Conceptos Elementales de Estadística. Población (Population): Es la colección completa de todos los elementos (puntajes, personas, mediciones, etc.) que se van a estudiar. - Es una colección completa de todas las observaciones de interés para el investigador. Censo (Census): Es la colección de datos de cada elemento de una población. Muestra (Sample): Es un subconjunto de elementos extraídos de una población. - Es una porción representativa de la población, que se selecciona para su estudio porque la población es demasiado grande para analizarla en su totalidad. Parámetro (Parameter): Es una medición numérica que describe alguna característica de una población. - Medida descriptiva de la población completa de observaciones que tienen interés para el investigador. Estadístico (Statistic): Es una medición numérica que describe alguna característica de una muestra. Variable: Característica de la población que se analiza en el estudio estadístico. - Característica observable de un aspecto discernible en un objeto de estudio que puede adoptar diferentes valores o expresarse en varias categorías. Clasificación de las variables. Según el modo como se presentan estas características o propiedades las variables se pueden clasificar de esta forma: - Cualitativas o Cuantitativas - Continuas o discontinuos (discretas) - Dependientes o independientes - Explicadoras o externas - Generales, intermedias o empíricas Variables cualitativas (Qualitative – Categorical – Attribute Data): Son aquellas variables cuyos elementos de variación tienen un carácter cualitativo no susceptible de medición numérica, por ejemplo el sexo de los estudiantes de estadística, el estado civil de los solicitantes de préstamos, preferencia religiosa, etc. Se pueden dividir en diferentes categorías que se distinguen por alguna característica no numérica. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 14 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 15 Una variable cualitativa se mide por medios no numéricos. Los datos cualitativos emplean la escala de medición nominal o la ordinal y pueden ser no numéricos o numéricos. Si la variable es cualitativa, el análisis estadístico es bastante limitado. Podemos resumir los datos cualitativos al contar el número de observaciones en cada categoría cualitativa, o bien, al calcular la proporción de observaciones en cada categoría cualitativa. Los datos cualitativos son descripciones detalladas de situaciones, eventos, personas, interacciones, conductas observadas y sus manifestaciones. Variables cuantitativas (Quantitative Data): Son aquellas cuyas características o propiedades pueden presentarse en diversos grados o intensidad y tienen un carácter numérico, como por ejemplo nivel de ingresos, deserción escolar, las calificaciones que los estudiantes reciben en el examen final, el número de kilómetros que recorren los que asisten a la universidad, etc. Según el número de valores que pueden tomar las variables cuantitativas se distingue variables continuas y discontinuas. Variables continuas (Continuos – numerical – Data): Son las que pueden tomar cualquier valor dentro de un intervalo dado. Por muy próxima que puedan estar dos observaciones, si el instrumento de medida tiene la precisión suficiente siempre puede haber una tercera observación que caiga entre las dos primeras. Los valores de una variable continua proceden en general de mediciones, por ejemplo las cantidades de leche que las vacas producen son datos continuos porque son mediciones que pueden asumir cualquier valor dentro de un intervalo continuo. Se pueden obtener de un número infinito de posibles valores que pueden asociarse a puntos de una escala continua, de tal manera que no haya huecos ni interrupciones. Variables discontinuas o discretas (Discrete Data): Son las que no pueden tomar valores intermedios entre otros dos valores dados, han de hacerlo siempre con valores enteros, por ejemplo el número de alumnos de una escuela, los socios de una cooperativa, etc. Se obtienen de un número finito de posibles valores o bien de un número de posibles valores que pueden contarse. Sólo puede tomar determinados valores, por lo general números enteros. Puede ser resultado de la enumeración o del conteo. En ninguno de los casos se observaran valores fraccionarios. Consideradas conforme a la posición que une a las variables entre sí, se distingue entre variables dependientes e independientes. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 15 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 16 Variables dependientes (Y): Reciben este nombre las variables a explicar, o sea, el objeto de la investigación, que se trata de explicar en función de otros elementos. Variables independientes (X): Son las variables explicativas, o sea, los factores o elementos susceptibles de explicar las variables dependientes (en un experimento son las variables que se manipulan). Variables explicadoras: Son las propiedades que interesan directamente al investigador en términos de su modelo. Variables externas: Son las que están fuera del interés teórico inmediato y que pueden afectar los resultados de la investigación empírica. Variables generales: Se refieren a realidades no inmediatamente medibles. Variables intermedias o intervinientes: Expresan algunos aspectos parciales de las variables generales, pero más concretos y cercanos a la realidad. En algunos casos de análisis de relación causa-efecto, se introducen una o más variables de enlace interpretativo entre las variables dependientes e independientes. Se trata de variables vinculadas funcionalmente a la variable dependiente y a la variable independiente y que producen un efecto en la relación existente entre esas variables. Variables empíricas: Representan aspectos directamente medibles y observables. Clasificación de las Variables según el Nivel de Medición Los datos se reúnen mediante una de las siguientes escala de medición: nominal, ordinal, intervalo y de razón. La escala o nivel de medición permite determinar la cantidad de información que contienen los datos e indica el resumen de los datos y el análisis estadístico más apropiado. La escala para medir una característica tiene implicaciones en la forma de presentar y resumir la información; también determina el método estadístico escogido para analizar los datos. Nivel de medición nominal (Nominal level of measurement): Se caracteriza por datos que consisten exclusivamente en nombres, rótulos o categorías. Los datos no pueden acomodarse según un esquema de ordenamiento. Nombres o clases que se utilizan para organizar los datos en categorías separadas y distintas. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 16 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 17 La escala de medición para una variable es nominal cuando los datos son etiquetas o nombres que se emplean para identificar un atributo del elemento. Ejemplos: El sexo de los estudiantes de esta clase de estadística. Las bebidas gaseosas refrescantes se pueden clasificar en: Coke, Pepsi, 7-Up o Country Club. La escala de medición es nominal aun cuando los datos son mostrados como valores numéricos. 1. Coke 2. Pepsi 3. 7-Up 4. Country Club El partido político al que pertenecen los miembros de las cámaras de senadores y diputados del país. Los datos evaluados en escala nominal en ocasiones suelen llamarse observaciones cualitativas, porque describen una cualidad de la persona o casa estudiada, y observaciones categóricas, si los valores caen en categorías. En general, los datos nominales o cualitativos se describen en términos de porcentajes o proporciones. A menudo se utilizan las tablas de contingencia y las gráficas de barras para mostrar este tipo de información. Nivel de medición ordinal (Ordinal level of measurement). La escala de medición para una variable es ordinal si los datos tienen propiedades de datos nominales y el orden de los datos es significativa. Mediciones que jerarquizan los datos en categorías, ordenadas en virtud de un determinado criterio. Implica datos que pueden acomodarse en algún orden, pero no es posible determinar diferencias entre los valores de los datos, o tales diferencias carecen de significado. Los datos para una escala ordinal podrían ser no numéricos o numéricos. Este nivel ordinal proporciona información sobre comparaciones relativas, pero los grados de las diferencias no se pueden usar en cálculos. Ejemplos: Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 17 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 18 Los productos de un determinado almacén pueden ser clasificados como "buenos", "mejores" y "óptimos". Un editor califica algunos manuscritos como "excelentes", otros como "buenos" y algunos como "malos". (No podemos encontrar una diferencia cuantitativa específica entre "bueno" y "malo"). La Revista Money clasificación las inversiones a partir de los niveles de riesgos "bajo", "alto" y "muy alto". Nivel de medición de intervalos (Interval level of measurement). La escala de medición para una variable es una escala de intervalo si los datos tienen las propiedades de datos ordinales y el intervalo entre observaciones se expresa en términos de una unidad fija de medida. Los datos de intervalos siempre son numéricos. Es como el nivel ordinal, con la propiedad adicional de que podemos determinar magnitudes de diferencias entre los datos que tienen algún significado. Sin embargo, no hay un punto de partida o cero inherente (natural) en el que la cantidad este totalmente ausente. Mediciones respecto de una escala numérica en la cual el valor del cero es arbitrario, pero la diferencia de valores es importante. La escala Fahrenheit de temperaturas es un ejemplo de escala de intervalos: 70 grados no sólo significan una temperatura mayor que 60 grados, sino que existe la misma diferencia de 10 grados que entre 100 y 90 grados Fahrenheit. Las temperaturas promedian anuales (en grados Celsius) de las capitales de todos los estados de los Estados Unidos. Los años 1000, 2000, 1776 y 1944. Nivel de medición de proporción o de razón (Ratio level of measurement). La Escala de medición para una variable es una escala de razón si los datos tienen todas las propiedades de los datos de intervalos y el cociente de los dos valores es significativo. Variables como distancia, peso, altura y tiempo emplean la escala de razón. Un requisito de esta escala es que puede contener un valor cero que indica que no existe nada para una variable en el punto cero. Mediciones numéricas en las cuales el cero es un valor fijo en cualquier escala y la diferencia de valores es importante. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 18 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 19 Es el nivel de intervalo modificado para incluir el punto de partida o cero inherente (donde cero indica que nada de la cantidad está presente). Para los valores de este nivel, tanto las diferencias como las razones tienen significado. De los cuatro niveles de medición, sólo la escala de proporción o de razón se basa en un sistema numérico en el cual el cero tiene sentido. Por consiguiente, las operaciones aritméticas de multiplicación y división también adquieren una interpretación racional. Mediciones tales como el peso, el tiempo y la distancia se miden en escala de proporción, puesto que el cero ocupa un lugar natural. Ejemplo: Distancia (en kilómetros) recorridas por automóviles en una prueba de consumo de combustible. Longitudes (en minutos) de películas de cine. Los valores de cada una estas colecciones de datos se pueden acomodar en orden, las diferencias pueden calcularse y existe un punto de partida o cero inherente. Este nivel se denomina "razón" porque el punto de partida hace que las razones o cocientes tengan significado. Nivel Resumen Ejemplo Observación Nominal Sólo categorías. Autos de Sólo categorías o Los datos no estudiantes: nombres pueden 10 Mercedes Benz acomodarse en un 20 BMW esquema de 40 Toyota ordenamiento. Ordinal Las categorías Vehículos de los Se determina un están ordenadas, estudiantes: orden con pero no es posible 10 compactos “compactos, determinar 20 medianos medianos y diferencias, o éstas 40 grandes grandes”. carecen de significado. De Intervalo Se pueden calcular Temperaturas: 90º no es dos veces diferencias entre 45º C más caliente que valores, pero no 80º C 45º C. existe un punto de 90º C partida inherente. Los cocientes no tienen significado. De Razón Igual que el Pesos de 140 kg es dos veces intervalo, pero con deportistas 70 kg. un punto de universitarios: partida inherente. 70 kg Los cocientes 85 kg tienen significado 140 kg Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 19 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 20 Estudio Experimental: En este estudio primero se identifican las variables de interés. Luego se identifican o controlan una o más variables, de modo que se puedan obtener datos de cómo influyen en la variable de interés. Por ejemplo, a una empresa farmacéutica le puede interesar un experimento para determinar la forma en que una nueva medicina afecta la presión sanguínea. Es cuando aplicamos algún tratamiento y luego procedemos a observar su efecto sobre los sujetos. Estudio estadístico No Experimentales u Observacionales: No se trata de controlar las variables de interés, ni de influir sobre ellas. Quizás el tipo más común de estudio observacional es la encuesta. Por ejemplo, para una encuesta personal se identifican primero las preguntas de investigación; a continuación se diseña un cuestionario y se administra a una nuestra de individuos. En este estudio observamos y medimos características específicas, pero no intentamos manipular ni modificar los sujetos que estamos estudiando. Muestra: Es un subconjunto de elementos extraídos de una población. - Es una porción representativa de la población, que se selecciona para su estudio porque la población es demasiado grande para analizarla en su totalidad. Muestra Aleatoria o Probabilística: Se seleccionan los miembros de la población de modo que cada uno tenga la misma probabilidad de ser escogido. Son muestras en que los elementos a seleccionar se obtienen con base en la probabilidad. Cada elemento de una población tiene cierta probabilidad de ser elegido como parte de la muestra. Muestra Aleatoria Simple (Random Sample): Una muestra es seleccionada de modo que todos los elementos de la población tienen la misma probabilidad de ser elegidos. De igual manera, todas las muestras de tamaño n tienen la misma posibilidad de ser elegidas. Las muestras aleatorias simples se obtienen por muestreo con reemplazo en una población finita o por muestreo sin reemplazo en una población sin reemplazo. Una muestra aleatoria simple de n sujetos se selecciona de tal manera que toda posible muestra de tamaño n tenga la misma probabilidad de ser escogida. Muestreo Estratificado (Stratified Sampling): Subdividimos la población en por lo menos dos subpoblaciones (o estratos) distintas que comparten categorías (como genero), y luego sacamos una muestra de cada estrato. Muestreo en el que la población se divide en segmentos y se selecciona una muestra para cada segmento. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 20 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 21 Si los tamaños de muestra de los distintos estratos reflejan la población general, decimos que tenemos un muestreo proporcional. Muestra que se obtienen al estratificar el marco muestral y luego seleccionar un número fijo de elementos de cada uno de los estratos pro promedio de una técnica de muestreo aleatorio simple. Muestreo Proporcional: Muestra que se obtienen al estratificar el marco muestral y luego seleccionar de cada estrato un número de elementos en proporción al tamaño de los estratos, por medio de una técnica de muestreo aleatorio simple. Cuando se extrae una muestra aleatoria proporcional, el marco muestral se subdivide en varios estratos y luego de cada estrato se extrae una sub muestra. Una forma conveniente de expresar el concepto de muestreo proporcional es establecer una proporción. Por ejemplo, “uno de cada 150”, le induce a seleccionar un (1) elemento por cada 150 elementos en el estrato. Muestreo sistemático (Systematic Sampling): Seleccionamos un punto inicial y luego seleccionamos cada k-ésimo (digamos, cada quincuagésimo) elemento de la población. La técnica sistemática es fácil de describir y ejecutar; no obstante, conlleva algunos peligros cuando el marco muestral es repetitivo o de naturaleza cíclica. En estas condiciones, puede que los resultados no se aproximen a una muestra aleatoria simple. Este procedimiento de selección es muy útil e implica elegir dentro de una población N un número n de elementos a partir de un intervalo K. Este último (K) es un intervalo que se va a determinar por el tamaño de la población y el tamaño de la muestra. De manera que tenemos que K = N/n, en donde K = un intervalo de selección sistemática, N = la población y n = la muestra. Muestreo por cúmulos o conglomerados (Cluster Sampling): Muestreo que se obtiene al muestrear algunas, pero no todas, las subdivisiones posibles que hay dentro de una población. Estas subdivisiones, denominadas conglomerados, a menudo ocurren de manera natural dentro de la población. Primero dividimos el área de la población en secciones (o cúmulos) y luego seleccionamos aleatoriamente unas cuantas de esas secciones escogiendo todos los miembros de las secciones seleccionadas. Una diferencia importante entre el muestreo por cúmulos y el estratificado es que en el muestreo por cúmulos se usan todos los miembros de cúmulos seleccionados, mientras que en el muestreo estratificado se usa una muestra de miembros de cada estrato. Muestreo de conveniencia o de juicio (Convenience Sampling): Simplemente utilizamos resultados que ya están disponibles. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 21 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 22 Las muestras son elegidas con base en el hecho de que son típicas. Cuando se obtiene una muestra de juicio, la persona que elabora la muestra elige unidades que considera representativas de la población. La validez de los resultados de una muestra de juicio refleja la solidez del juicio del recolector de datos. Error de muestreo: Es la diferencia entre el resultado de una muestra y el verdadero resultado de la población; tal error es consecuencia de las fluctuaciones aleatorias de las muestras. Error de muestreo: Este error ocurre cuando los datos de una muestra se obtienen, registran o analizan de forma incorrecta. Tal error es consecuencia de una equivocación y no de una fluctuación aleatoria y predispuesta, cuando se usa un instrumento de medición defectuoso, cuando se hacen preguntas predispuestas en una encuesta, cuando mucha gente se niega a responder o cuando se cometen errores al copiar los datos de la muestra. Sesgo muestral: Tendencia a favorecer la elección de unos determinados elementos de la muestra en detrimento de otros. Este análisis de las muestras conduce a distinguir entre las dos ramas principales del análisis estadístico: 1) Estadística descriptiva o deductiva, y 2) Estadística inferencial o inductiva. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 22 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 23 Tabla de Frecuencias y Gráficos Estadísticos (Frequency Tables – Frequency Distribuitions) Herramientas estadísticas que resultan de particular utilidad para organizar los datos. Tabla de frecuencia es un resumen tabular de un conjunto datos donde se muestra la frecuencia (o cantidad) del objeto de estudio en cada una de varias clases. Distribución de Frecuencias es un conjunto de puntuaciones ordenadas en sus respectivas categorías y generalmente se presenta como una tabla. 270 278 250 278 290 274 242 269 257 272 265 263 234 270 273 270 277 294 279 268 230 268 278 268 262 273 201 275 260 286 272 284 282 278 268 263 273 282 285 289 268 208 292 275 279 276 242 285 273 268 258 264 281 262 278 265 241 267 295 283 281 209 276 273 263 218 271 289 223 217 225 283 292 270 262 204 265 271 273 283 275 276 282 270 256 268 259 272 269 270 251 208 290 220 259 282 277 282 256 293 254 223 263 274 262 263 200 272 268 206 280 287 257 284 279 252 280 215 281 291 276 285 287 297 290 228 282 274 230 277 275 286 236 277 295 251 289 278 283 277 261 286 262 277 252 289 283 269 277 267 204 276 286 206 270 284 278 269 270 284 283 268 272 291 281 289 288 293 248 277 266 280 256 274 292 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 23 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 24 TABLA DE FRECUENCIA CLASES FREC. FREC. FREC . LI LS ABS. REL. ABS. ACU M. 1 200 209 9 0,051 9 2 210 219 3 0,017 12 3 220 229 5 0,029 17 4 230 239 4 0,023 21 5 240 249 4 0,023 25 6 250 259 14 0,080 39 7 260 269 32 0,183 71 8 270 279 52 0,297 123 9 280 289 38 0,217 161 10 290 299 14 0,080 175 TOTALE 175 1,000 S FREC. MARCA FREC. REL. DE X MARCA ACUM. CLASE DE CLASE 0,0514 204,5 1.840,50 0,0686 214,5 643,50 0,0971 224,5 1.122,50 0,1200 234,5 938,00 0,1429 244,5 978,00 0,2229 254,5 3.563,00 0,4057 264,5 8.464,00 0,7029 274,5 14.274,00 0,9200 284,5 10.811,00 1,0000 294,5 4.123,00 46.757,50 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 24 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 25 Gráficos. Los Gráficos que pueden proporcionar una representación visual de los datos. HISTOGRAMA (Histogram). Consiste en una escala horizontal para valores de los datos que se están representando, una escala vertical para las frecuencias, y barras que representan la frecuencia de cada clase de valores. En el eje horizontal pueden ser colocadas las marcas de clase. Coloca las clases de una distribución de frecuencia en el eje horizontal y las frecuencias en el eje vertical. 60 52 50 38 40 FRECUENCIAS 32 30 20 10 14 9 3 5 4 4 214,5 224,5 234,5 244,5 14 0 204,5 254,5 264,5 274,5 284,5 294,5 MARCAS DE CLASES TABLA DE FRECUENCIA CLASES FREC. FREC. FREC . LI LS ABS. REL. ABS. ACU M. 1 200 209 9 0,051 9 2 210 219 3 0,017 12 3 220 229 5 0,029 17 4 230 239 4 0,023 21 5 240 249 4 0,023 25 6 250 259 14 0,080 39 7 260 269 32 0,183 71 8 270 279 52 0,297 123 9 280 289 38 0,217 161 10 290 299 14 0,080 175 TOTALE 175 1,000 S FREC. MARCA FREC. REL. DE X MARCA ACUM. CLASE DE CLASE 0,0514 204,5 1.840,50 0,0686 214,5 643,50 0,0971 224,5 1.122,50 0,1200 234,5 938,00 0,1429 244,5 978,00 0,2229 254,5 3.563,00 0,4057 264,5 8.464,00 0,7029 274,5 14.274,00 0,9200 284,5 10.811,00 1,0000 294,5 4.123,00 46.757,50 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 25 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 26 HISTOGRAMA DE FRECUENCIA RELATIVA (Relative Frequency Histogram). Tiene la misma forma y escala horizontal que un histograma, pero la escala vertical se marcara con frecuencias relativas en lugar de frecuencias reales o absolutas. 0,297 0,217 0,183 0,080 4, 5 29 4, 5 28 4, 5 27 4, 5 26 4, 5 25 4, 5 24 4, 5 23 4, 5 0,017 0,029 0,023 0,023 22 21 20 0,080 4, 5 0,051 4, 5 FRECUENCIAS RELATIVAS 0,350 0,300 0,250 0,200 0,150 0,100 0,050 0,000 MARCAS DE CLASES TABLA DE FRECUENCIA CLASES FREC. FREC. FREC . LI LS ABS. REL. ABS. ACU M. 1 200 209 9 0,051 9 2 210 219 3 0,017 12 3 220 229 5 0,029 17 4 230 239 4 0,023 21 5 240 249 4 0,023 25 6 250 259 14 0,080 39 7 260 269 32 0,183 71 8 270 279 52 0,297 123 9 280 289 38 0,217 161 10 290 299 14 0,080 175 TOTALE 175 1,000 S FREC. MARCA FREC. REL. DE X MARCA ACUM. CLASE DE CLASE 0,0514 204,5 1.840,50 0,0686 214,5 643,50 0,0971 224,5 1.122,50 0,1200 234,5 938,00 0,1429 244,5 978,00 0,2229 254,5 3.563,00 0,4057 264,5 8.464,00 0,7029 274,5 14.274,00 0,9200 284,5 10.811,00 1,0000 294,5 4.123,00 46.757,50 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 26 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 27 DIAGRAMA DE BARRAS. Este puede mostrar cantidades o porcentajes para dos o más valores sobre el eje vertical. Es una forma de gráfica de representar datos cualitativos que se han resumido en una distribución de frecuencias, de frecuencias relativas o porcentuales. Para los datos cualitativos, las barras deben estar separadas para enfatizar el hecho de que cada clase (categoría) es separada. Relacion Ingresos/Costos 30000 20000 Ingresos 10000 Costos 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 Unidades Producidas y Vendidas ANALISIS DE PUNTO DE EQUILIBRIO CANTIDAD COSTO PRECIO UNIDADES UNITARIO FIJO 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 60 60 60 60 60 60 60 60 60 60 60 60 60 60 60 60 60 60 60 60 7.500 7.500 7.500 7.500 7.500 7.500 7.500 7.500 7.500 7.500 7.500 7.500 7.500 7.500 7.500 7.500 7.500 7.500 7.500 7.500 COSTO COSTO PRECIO VARIABL TOTAL UNITARI INGRESOS BENEFICI E O O 600 8.100 130 1.300 -6.800 1.200 8.700 130 2.600 -6.100 1.800 9.300 130 3.900 -5.400 2.400 9.900 130 5.200 -4.700 3.000 10.500 130 6.500 -4.000 3.600 11.100 130 7.800 -3.300 4.200 11.700 130 9.100 -2.600 4.800 12.300 130 10.400 -1.900 5.400 12.900 130 11.700 -1.200 6.000 13.500 130 13.000 -500 6.600 14.100 130 14.300 200 7.200 14.700 130 15.600 900 7.800 15.300 130 16.900 1.600 8.400 15.900 130 18.200 2.300 9.000 16.500 130 19.500 3.000 9.600 17.100 130 20.800 3.700 10.200 17.700 130 22.100 4.400 10.800 18.300 130 23.400 5.100 11.400 18.900 130 24.700 5.800 12.000 19.500 130 26.000 6.500 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 27 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 28 DIAGRAMA DE TALLO Y HOJAS (Steam-and-Leaf Plots). Frequency Stem Leaf 4 20 0144 5 20 66889 0 21 3 21 578 3 22 033 2 22 58 3 23 004 1 23 6 3 24 122 1 24 8 6 25 011224 8 25 66677899 13 26 0122222333334 19 26 5556778888888889999 25 27 0000000011222223333334444 27 27 555566666777777778888888999 23 28 00011112222223333334444 15 28 555666677899999 11 29 00011222334 3 29 557 175 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 28 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 29 POLIGONOS DE FRECUENCIA Y POLIGONO DE PORCENTAJE (Frequency Poligon). El proceso de construcción de un polígono de frecuencias es similar al del histograma excepto que sólo un punto sobre el punto medio de cada intervalo se utiliza para indicar la frecuencia y los puntos adyacentes se conectan mediante segmentos de líneas. FRECUENCIAS 60 50 40 30 20 10 0 52 32 9 14 3 5 4 38 14 4 204,5 214,5 224,5 234,5 244,5 254,5 264,5 274,5 284,5 294,5 MARCAS DE CLASES TABLA DE FRECUENCIA CLASES FREC. FREC. FREC . LI LS ABS. REL. ABS. ACU M. 1 200 209 9 0,051 9 2 210 219 3 0,017 12 3 220 229 5 0,029 17 4 230 239 4 0,023 21 5 240 249 4 0,023 25 6 250 259 14 0,080 39 7 260 269 32 0,183 71 8 270 279 52 0,297 123 9 280 289 38 0,217 161 10 290 299 14 0,080 175 TOTALE 175 1,000 S FREC. MARCA FREC. REL. DE X MARCA ACUM. CLASE DE CLASE 0,0514 204,5 1.840,50 0,0686 214,5 643,50 0,0971 224,5 1.122,50 0,1200 234,5 938,00 0,1429 244,5 978,00 0,2229 254,5 3.563,00 0,4057 264,5 8.464,00 0,7029 274,5 14.274,00 0,9200 284,5 10.811,00 1,0000 294,5 4.123,00 46.757,50 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 29 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 30 GRAFICA DE SERIES DE TIEMPO (The Time Series Plot). Es una gráfica de línea en la que la línea base representa el tiempo. ESTUDIANTES MATRICULADOS EN EL NIVEL SUPERIOR 90.000 80.000 70.000 60.000 50.000 40.000 30.000 20.000 10.000 - UASD PUCMM UNPHU INTEC UNIBE 1994 1995 1996 1997 ESTUDIANTES MATRICULADOS EN EL NIVEL SUPERIOR, POR INSTITUCION. INSTITUCIÓ N AÑO DE FUNDACIO N UASD 1538 PUCMM 1962 UNPHU 1967 INTEC 1974 UNIBE 1982 1994 AÑOS 1995 1996 1997 41.139 51.432 62.058 81.753 8.560 8.816 9.081 9.438 6.124 6.171 6.220 6.044 3.074 2.369 2.335 2.803 1.747 1.665 1.910 1.947 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 30 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 31 CURVA DE OJIVA (Ogive for cumulative relative frequency). Es una gráfica de una distribución acumulada. Los valores de los datos están en el eje horizontal y las frecuencias acumuladas, frecuencias relativas acumuladas se muestran en el eje vertical. FRECUENCIAS ACUMULADAS 1,2000 1,0000 0,8000 0,6000 0,4000 0,2000 0,0000 0,9200 1,0000 0,7029 0,4057 0,0514 0,0686 0,0971 0,1200 0,1429 0,2229 204,5 214,5 224,5 234,5 244,5 254,5 264,5 274,5 284,5 294,5 MARCAS DE CLASES TABLA DE FRECUENCIA CLASES FREC. FREC. FREC . LI LS ABS. REL. ABS. ACU M. 1 200 209 9 0,051 9 2 210 219 3 0,017 12 3 220 229 5 0,029 17 4 230 239 4 0,023 21 5 240 249 4 0,023 25 6 250 259 14 0,080 39 7 260 269 32 0,183 71 8 270 279 52 0,297 123 9 280 289 38 0,217 161 10 290 299 14 0,080 175 TOTALE 175 1,000 S FREC. MARCA FREC. REL. DE X MARCA ACUM. CLASE DE CLASE 0,0514 204,5 1.840,50 0,0686 214,5 643,50 0,0971 224,5 1.122,50 0,1200 234,5 938,00 0,1429 244,5 978,00 0,2229 254,5 3.563,00 0,4057 264,5 8.464,00 0,7029 274,5 14.274,00 0,9200 284,5 10.811,00 1,0000 294,5 4.123,00 46.757,50 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 31 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 32 DIAGRAMA DE PARETO. Es una gráfica de barras en la que las barras se acomodan en orden según la frecuencia. Al igual que los histogramas, las escalas verticales de los diagramas de Pareto pueden representar frecuencias o frecuencias relativas. En este la barra más alta queda a la izquierda, y la más pequeña a la derecha. Problemas o defectos en Botas Razón de defecto Reventado de Piel Costuras fallas Mal montada Piel arrugada Total Total 369 135 135 99 738 % Acumulado 50.00 68.29 86.59 100.00 Porcentaje 0.50 0.18 0.18 0.13 100.00% Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 32 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 33 DIAGRAMA CIRCULAR, DE SECTORES O TORTAS (Pie Chart). Es de especial utilidad para mostrar proporciones (porcentajes) relativas de una variable. Se utiliza para representar variables cualitativas. Por ejemplo si una determinada categoría representa el 57.8% del total de los datos u observaciones, el ángulo central deberá ser de 0.578 x 360º = 208º. TABLA DE FRECUENCIA CLASES FREC. FREC. FREC . LI LS ABS. REL. ABS. ACU M. 1 200 209 9 0,051 9 2 210 219 3 0,017 12 3 220 229 5 0,029 17 4 230 239 4 0,023 21 5 240 249 4 0,023 25 6 250 259 14 0,080 39 7 260 269 32 0,183 71 8 270 279 52 0,297 123 9 280 289 38 0,217 161 10 290 299 14 0,080 175 TOTALE 175 1,000 S 8% 5% FREC. REL. DE X MARCA ACUM. CLASE DE CLASE 0,0514 204,5 1.840,50 0,0686 214,5 643,50 0,0971 224,5 1.122,50 0,1200 234,5 938,00 0,1429 244,5 978,00 0,2229 254,5 3.563,00 0,4057 264,5 8.464,00 0,7029 274,5 14.274,00 0,9200 284,5 10.811,00 1,0000 294,5 4.123,00 46.757,50 3% 2% 200 - 209 2% 2% 8% 22% FREC. MARCA 210 - 219 220 - 229 230 - 239 240 - 249 250 - 259 260 - 269 18% 270 - 279 280 - 289 30% 290 - 299 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 33 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 34 PICTOGRAMA (Pictographs). Expresan con dibujos alusivos al tema de estudio las frecuencias de las modalidades de la variable. Estos gráficos se hacen representado en diferentes escalas un mismo dibujo. La escala de los dibujos debe ser tal que el área de cada uno de ellos sea proporcional a la frecuencia de la modalidad que representa. Se utiliza para representar variables cualitativas. DIAGRAMA DE DISPERSION O DISPERSIOGRAMA (Scatter Diagram). Hay ocasiones en que tenemos datos apareados de manera que se establece una correspondencia entre cada valor de un conjunto de datos y un valor de un segundo conjunto de datos. Un diagrama de dispersión es una gráfica de los datos (x,y) apareados con un eje "x" horizontal y un eje "y" vertical. En un diagrama de dispersión cada marca (punto o raya) representa la intersección de dos valores - hay una marca para cada par de observaciones de los temas. El propósito principal de la gráfica es mostrar de manera gráfica la relación entre dos. La relación no es lineal sino curvilínea. CAMPAÑA PUBLICITARIA PARA VENTAS DE PASAJES AEREOS Y X Y OBSERVACI VENTAS PUBLICIDA 4.38625+1.08132 S. D X MES EN EN MILES MILES 1 15 10 15,20 2 17 12 17,36 3 13 8 13,04 4 23 17 22,77 5 16 10 15,20 6 21 15 20,61 7 14 10 15,20 8 20 14 19,52 9 24 19 24,93 10 17 10 15,20 11 16 11 16,28 12 18 13 18,44 13 23 16 21,69 14 15 10 15,20 15 16 12 17,36 TOTALES 268 187 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 34 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 35 Pasajes Aereos vendidos en base a la publicidad 30,00 25,00 20,00 15,00 10,00 5,00 0,00 Pasajes Aereos 0 5 10 15 20 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 35 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 36 Medidas de Tendencias Central (Measure of Central Tendency) Una medida de tendencia central es un valor que está en el centro o punto medio de un conjunto de datos. Es una medida que ubica e identifica el punto alrededor del cual se centran los datos. Es un valor numérico que localiza, de alguna manera el centro de un conjunto de datos. La Media Aritmética (Mean) La Media Aritmética o Promedio de un conjunto de puntajes es el valor que se obtiene sumando los puntajes y dividiendo el total entre el número de puntajes. La media es el punto que menos dista de todas las observaciones. Por esta razón a veces se le considera como el centro de gravedad de los datos. La media es una medida más confiable que la mediana y la moda, porque tiene un menor error de muestreo. Además la media también tiene más facilidad para un tratamiento estadístico posterior que la mediana o la moda. Es una medida que toma en consideración todos los valores de la distribución. Esto es positivo, pero por la misma razón es muy sensible a la presentación de observaciones extremas que hacen que la media se desplace hacia ellas. En consecuencia no es recomendable usar la media como medida de tendencia central en estos casos, pues la cantidad obtenida no es representativa del total de los datos. Tiene la ventaja de que es la única y siempre se puede calcular. Pero cuando se trabaja con datos agrupados, la división en intervalos influye en el valor resultante de la media. La media es el estadístico de centralización más utilizado para realizar inferencias debido a una buena propiedad matemática que posee: es el centro de gravedad de la distribución. Depende de todas y cada una de las observaciones. El valor de la media puede no coincidir con uno de los valores de la variable. Si consideramos una variable discreta, por ejemplo, “número de hijos en las familias de un barrio” el valor de la media puede resultar x’=2.5 hijos, que no pertenece al conjunto de valores de la variable. La media es el promedio más utilizado. Para datos no agrupados: Media Poblacional = Xi/N =(X1 + X2 + X3...XN)/N Media Muestral = Xi/n=(X1 + X2 + X3...XN)/n Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 36 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 37 Para datos agrupados: Media = *M/n=M/=(1*M1+2*M2+...n*Mn)/ La Mediana o Media Posicional (Median) La Mediana o Media Posicional de un conjunto de puntajes es el valor que está en medio, cuando los puntajes se acomodan en orden de magnitud creciente (o decreciente). La mediana deja a un lado y al otro lado de la distribución el mismo número de observaciones. Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de los mismos. Por ello, es adecuado su uso en distribuciones que presentan observaciones extremadamente grandes o pequeñas. La mediana es la medida de localización que se utiliza con más frecuencia para datos de ingreso anual y valores catastrales, pues con unos pocos ingresos o con propiedades extremadamente grandes se puede inflar la media. En esos casos, la mediana es una mejor medida de la tendencia central. La mediana es el valor de la variable que deja por encima y por debajo la misma cantidad de datos (una vez que éstos han sido ordenados de menor a mayor). Al contrario de la media, en su cálculo no interviene más que el valor (o valores centrales). Esta particularidad ofrece: Ventajas: No se ve afectada por la aparición de observaciones anómalas. Por ello, en tales casos la podemos considerar como una medida más representativa de la mayor parte de los datos que la media. Inconvenientes: No utiliza toda la información de los datos (sólo los valores centrales). Para datos no agrupados: Posición de la Mediana = (n + 1)/2 1.- Si el número de puntajes es impar, la mediana es el número que está situado exactamente a la mitad de la lista. 2.- Si el número de puntaje es par, la mediana se obtiene calculando la media de los dos números que están a la mitad. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 37 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 38 Para datos agrupados: Me = LImd + [(n/2 - F)/fmd] (C) md = clase mediana Clase Mediana es la clase cuya frecuencia acumulada es mayor que o igual a n/2. LImd = límite inferior de la clase de la mediana. F = frecuencia acumulada de la clase que antecede a la clase de la mediana. fmd = es la frecuencia de la clase de la mediana. C = Es la anchura de la clase (es la diferencia entre dos LS consecutivos o entre dos LI consecutivos). La Moda (Mode) La Moda de un conjunto de datos es el puntaje que ocurre con más frecuencia. La observación modal es la observación que ocurre con mayor frecuencia. Es el punto donde se concentra el mayor número de observaciones. Se puede calcular para todo tipo de variables, incluidas las cualitativas. Puede no ser única. Cuando hay dos o más modas hablamos de distribuciones bimodales o plurimodales respectivamente. Para datos no agrupados: Mo = Mayor Frecuencia Para datos agrupados: Mo = LImo + [1/(2+1)]*(C) mo = clase modal Clase Modal es la clase que tiene la mayor frecuencia. LImo = límite inferior de la clase modal 1 = diferencia entre la frecuencia de la clase modal y la clase que la antecede. 2 = diferencia entre la frecuencia de la clase modal y la clase que le sigue. C = Es la anchura de la clase (es la diferencia entre dos LS consecutivos o entre dos LI consecutivos). Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 38 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 39 La Media Ponderada Media Ponderada: Media de una colección de puntajes a los que se asignado diferentes grados de importancia. Media Ponderada w = (X*W)/W W = es el peso o ponderación asignada a cada Observación. La Media Geométrica Media Geométrica puede utilizarse para mostrar los cambios porcentuales en una serie de números positivos. La media geométrica proporciona una medida precisa de un cambio porcentual promedio en una serie de números. MG = X1*X2*X3*...Xn La media geométrica se utiliza con más frecuencia para calcular la tasa de crecimiento porcentual promedio de algunas series dadas, a través del tiempo. TAREA: RELACION ENTRE LA MEDIA, MEDIANA Y MODA. VENTAJAS Y DESVENTAJAS OBSERVACIONES PARA EL USO DE LAS MISMAS. Observaciones: 1. La media se usa para datos numéricos y distribuciones simétricas (no sesgadas o cargadas). 2. La mediana se utiliza para datos ordinales o para datos numéricos si la distribución está cargada o sesgada. 3. La moda se utiliza principalmente para distribuciones bimodales. Elección de los procedimientos estadísticos o pruebas: Datos nominales Datos ordinales Datos por intervalos o razón Moda Mediana, moda Media, mediana, moda, desviación estándar, varianza, Rango. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 39 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 40 MEDIA ARITMETICA: Para datos no agrupados: Media Poblacional = Xi/N =(X1 + X2 + X3...XN)/N _ Media Muestral = Xi/n=(X1 + X2 + X3...XN)/n Para datos agrupados: _ Media = *M/n=M/=(1*M1+2*M2+...n*Mn)/ MEDIANA Para datos no agrupados: Posición de la Mediana = (n + 1)/2 Para datos agrupados: Me = LImd + [(n/2 - F)/fmd] (C) md = clase mediana Clase Mediana es la clase cuya frecuencia acumulada es mayor que o igual a n/2. LImd = límite inferior de la clase de la mediana. F = frecuencia acumulada de la clase que antecede a la clase de la mediana. fmd = es la frecuencia de la clase de la mediana. C = Es la anchura de la clase (es la diferencia entre dos LS consecutivos o entre dos LI consecutivos). MODA Para datos no agrupados: Mo = Mayor Frecuencia Para datos agrupados: Mo = LImo + [1/(2+1)]*(C) mo = clase modal Clase Modal es la clase que tiene la mayor frecuencia. LImo = límite inferior de la clase modal 1 = diferencia entre la frecuencia de la clase modal y la clase que la antecede. 2 = diferencia entre la frecuencia de la clase modal y la clase que le sigue. C = Es la anchura de la clase (es la diferencia entre dos LS consecutivos o entre dos LI consecutivos). Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 40 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 41 Medidas de Dispersión o Variabilidad (Measures of Variation). Las medidas de dispersión miden que tanto se dispersan las observaciones alrededor de su media. El propósito de estas es cuantificar el grado de variación entre el conjunto de valores de una distribución. La variabilidad se refiere a que tan grandes son las diferencias entre los valores evaluados. EL RANGO O RECORRIDO – INTERVALO (Range). Es la medida de dispersión más simple y menos útil. Esta se obtiene de la diferencia entre la observación más alta y la más baja. Re = X máx – X mín VALORES DE DESVIACION. Para la variabilidad, se consideran las diferencias entre la media y cada valor. Estas diferencias se llaman valores de desviación. Valores de desviación = X- _ Valores de desviación = X-X VARIANZA (Variance). Es el promedio de las observaciones respecto a su media elevadas al cuadrado. Es la media de las diferencias cuadráticas de N puntuaciones en relación a su media aritmética. La varianza es útil para comparar la dispersión, o variabilidad, de dos conjuntos de tatos. Al comparar conjuntos de datos, el que tiene mayor varianza tiene mayor dispersión o variabilidad. La Varianza para una Población (² = suma de cuadrados). ²=[(Xi-)²]/N ² 0 Procedimiento para calcular La Varianza para una Población (² = suma de cuadrados) 1. Encuentre la desviación de cada valor de la media: Valores de desviación = X- 2. Eleve al cuadrado cada valor de desviación: (Xi-)² 3. Realice la sumatoria de cada valor de desviación elevado al cuadrado: (Xi-)² 4. Encuentre la varianza dividiendo la sumatoria anterior entre N (totalidad de las observaciones). La Varianza para una muestra de datos no agrupados (s²). _ s² =[(Xi-X)²]/n-1 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 41 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 42 La Varianza de la muestra de datos agrupados (s²). _ s²=[M²-nX²]/n-1 LA DESVIACION ESTANDAR (Standard Deviation). Es el promedio de desviación de las puntuaciones con respecto a la media. Esta medida se expresa en las unidades originales de medición de la distribución. Cuanto mayor sea la dispersión de los datos alrededor de la media, mayor será la desviación estándar. Es la raíz cuadrada de la varianza. Es una medida importante de la dispersión de los datos. Esta regresa a la medición de los valores originales, así tiene más valor descriptivo directo. La desviación estándar es más útil para describir la variabilidad de un conjunto de datos que la varianza. La desviación estándar lleva las mismas unidades que los valores originales. La Desviación Estándar para una población. =² La Desviación Estándar para una muestra. s=s² La Desviación Media o Absoluta (Mean Deviation). Se define como el promedio de la suma de las diferencias en valor absoluto de los valores de la variable con respecto a la media. _ Desviación media= |Xi-X|/n Coeficiente de Variación. Este sirve como medida relativa de dispersión. Determina el grado de dispersión de un conjunto de datos relativo a su media. _ CV = (s/X) * 100 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 42 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 43 Los Cuantiles (Measures of Position). Cuando los valores ordenados de una variable han de ser divididos en grupos homogéneos en cuanto al tamaño, se suelen utilizar los cuantiles. Entre los cuantiles más utilizados se encuentran: Los cuartiles Q (Quartiles) Los deciles D (Deciles) Los percentiles P (Percentiles) Cuartiles. Así como la mediana divide los datos en dos partes iguales, los tres cuartiles, denotados por Q1, Q2 y Q3, dividen los puntajes clasificados en cuatro partes iguales. (Los puntajes se clasifican cuando se acomodan en orden). A grandes rasgos: Q1 separa el 25% inferior de los puntajes clasificados del 75% superior; - al menos el 25% de los datos es <= Q1 - al menos el 75% de los datos es >= Q1 - N/4 = 25 - Q1 = P25 Q2 es la mediana; - 2N/4 = 50 - Q2 = P50 Q3 separa el 25% superior del 75% inferior - al menos el 75% de los datos es <= Q3 - al menos el 25% de los datos es >= Q3 - 3N/4 = 75 - Q3 = P75 Los Deciles. Hay nueve deciles, denotados por D1, D2, D3, D4, D5, D6, D7, D8, D9, que dividen los datos en 10 grupos con aproximadamente el 10% de los datos en cada grupo. El primer decil es la observación debajo de la cual se encuentra el 10% de las observaciones, mientras que el 90% restante se encuentra encima de este. - al menos el 10% de los datos es <= D1 - al menos el 90% de los datos es >= D1 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 43 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 44 D1 = P10 D2 = P20 D3 = P30 : . D9 = P90 Los Percentiles. Hay 99 percentiles (P1, P2, P3 ... P99), que dividen los datos en 100 grupos con aproximadamente el 1% de los puntajes en cada grupo. - al menos el 1% de los datos es <= P1 - al menos el 99% de los datos es >= P1 Ubicación de un Percentil. Lp = (n + 1) (P/100) Lp es el sitio del percentil deseado en una serie ordenada. n es el número de observaciones P es el percentil deseado Percentil de un puntaje. Percentil del puntaje x = número de puntajes menores que x . 100 número total de puntajes Otras Medidas de Tendencia Central con los Cuantiles. intervalo intercuartiles = Q3 - Q1 intervalo semiintercuartiles = Q3 - Q1 (desviación del cuartil) 2 cuartil medio = Q3 + Q1 2 intervalo de percentiles 10-90 = P90 - P10 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 44 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 45 Los cuartiles (Q) para datos agrupados TABLA DE FRECUENCIA CLASES FREC. FREC. FREC . LI LS ABS. REL. ABS. ACU M. 1 200 209 9 0,051 9 2 210 219 3 0,017 12 3 220 229 5 0,029 17 4 230 239 4 0,023 21 5 240 249 4 0,023 25 6 250 259 14 0,080 39 7 260 269 32 0,183 71 8 270 279 52 0,297 123 9 280 289 38 0,217 161 10 290 299 14 0,080 175 TOTALE 175 1,000 S FREC. MARCA FREC. REL. DE X MARCA ACUM. CLASE DE CLASE 0,0514 204,5 1.840,50 0,0686 214,5 643,50 0,0971 224,5 1.122,50 0,1200 234,5 938,00 0,1429 244,5 978,00 0,2229 254,5 3.563,00 0,4057 264,5 8.464,00 0,7029 274,5 14.274,00 0,9200 284,5 10.811,00 1,0000 294,5 4.123,00 46.757,50 Q1 = LI + N/4 – F * C f N/4 = 43.75; primera F > N/4 = 71 Q1 = 260 + 43.75 – 39 * (10) = 261.48 32 Q2 = LI + 2N/4 – F * C f 2N/ 4 = 87.50; primera F > 2N/4 = 123 Q2 = 270 + 87.50 – 71 * (10) = 273.17 52 Q3 = LI + 3N/4 – F * C f 3N/4 = 131.25; primera F > 3N/4 = 161 Q3 = 280 + 131.25 – 123 * (10) = 282.17 38 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 45 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 46 CUARTILES DECILES PERCENTILES Q1 VALOR QUE OCUPA N/4 Q2 VALOR QUE OCUPA 2N/4 Q3 VALOR QUE OCUPA 3N/4 D1 VALOR QUE OCUPA N/10 D2 VALOR QUE OCUPA 2N/10 D9 VALOR QUE OCUPA 9N/10 P1 VALOR QUE OCUPA N/100 P2 VALOR QUE OCUPA 2N/100 P99 VALOR QUE OCUPA 99N/100 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 46 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 47 Usos frecuentes de la desviación estándar. Teorema de Chebyshev (matemático ruso P.L. Chebyshev 1821-1894) La proporción (o fracción) de cualquier conjunto de datos que queda a menos de K desviaciones estándar de la media siempre es al menos 1 - 1/K², donde K es cualquier numero positivo mayor que 1. Para K = 2 y K = 3, obtenemos los dos resultados específicos siguientes: - Al menos 3/4 (o el 75%) de todos los puntajes quedan a menos de 2 desviaciones estándar de la media (x-2s a x+2s). - Al menos 8/9 (o el 89%) de todos los puntajes quedan a menos de 3 desviaciones estándar de la media (x-3s a x+3s). Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 47 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 48 La distribución normal (o gaussiana) y la regla empírica. La distribución normal es una distribución de datos continuos (*) (no discretos) que produce una curva simétrica en forma de campana. La distribución gaussiana fue presentada por Karl Friedrich Gauss (1777-1855) en el 1812. La campana de Gauss o curva de distribución normal, curva de probabilidad normal; se caracteriza por: - Es unimodal. - Es simétrica (la simetría es perfecta). - La mitad izquierda de su histograma es aproximadamente una imagen especular de su mitad derecha. - La asimetría de la distribución es cero. - Las colas de la curva se aproximan más, pero nunca tocan, el eje horizontal. - La media, la mediana y la moda son iguales. - La mitad de las observaciones está por encima de la media y la mitad está por debajo. - Si las observaciones están altamente dispersas, la curva en forma de campana se aplanara y se esparcirá. (*) Variables continúas: Son las que pueden tomar cualquier valor dentro de un intervalo dado. Por muy próxima que puedan estar dos observaciones, si el instrumento de medida tiene la precisión suficiente siempre puede haber una tercera observación que caiga entre las dos primeras. Los valores de una variable continua proceden en general de mediciones, por ejemplo las cantidades de leche que las vacas producen son datos continuos porque son mediciones que pueden asumir cualquier valor dentro de un intervalo continuo. Se pueden obtener de un número infinito de posibles valores que pueden asociarse a puntos de una escala continua, de tal manera que no haya huecos ni interrupciones. La Regla Empírica o Regla 68-95-99. Esta regla solo aplica a un conjunto de datos cuya distribución tiene aproximadamente forma de campana. Esta afirma que: - Cerca del 68.26% de todos los puntajes u observaciones queda a menos de una desviación estándar de la media. - Cerca del 95.44% de todos los puntajes u observaciones queda a menos de dos desviaciones estándar de la media. - Cerca del 99.74% de todos los puntajes u observaciones que a menos de tres desviaciones estándar de la media. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 48 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 49 Distribuciones de Datos Sesgadas (Skewness). Una distribución de datos esta sesgada, si no es simétrica y se extiende más hacia un lado que hacia otro. Sesgo describe la falta de simetría en una distribución. Los datos sesgados a la izquierda se dice que tienen sesgo negativo; la media y la mediana están a la izquierda de la moda. Generalmente tiene la media a la izquierda de la mediana. Sesgo negativo (Negatively Skewed Distribution) describe distribuciones asimétricas en la que la mediana excede a la media; la cola de la distribución es hacia los valores bajos. Los datos sesgados a la derecha se dice que tienen sesgo positivo; la media y la mediana están a la derecha de la moda. Sesgo positivo (Positively Skewed Distribution) describe distribuciones asimétricas en las que la media excede la mediana; los valores se alargan hacia los valores altos. En ambos casos, la moda es por definición la observación que ocurre con mayor frecuencia, por tanto esta en el pico de la distribución. Observaciones: 1. Si la media y la mediana son iguales, la distribución de los resultados suele ser simétrica. 2. Si la media es mayor que la mediana, la distribución se carga a la derecha. 3. Si la media es menor que la mediana, la distribución se carga a la izquierda. Coeficiente de Sesgo de Pearson. P = 3 (Media - Mediana) s Si P < 0, los datos están sesgados a la izquierda. Si P > 0, los datos están sesgados a la derecha. Si P = 0, los datos están distribuidos normalmente. La Curtosis – kurtosis, del griego kuptós, kyrtos, kurtos = curva: es un indicador de lo plana o picuda que es la curva. Cuando es cero (curtosis = 0), significa que puede tratarse de una curva normal. Si es positiva, quiere decir que la curva, la distribución o polígono es más picuda(o) o elevada(o). Si la curtosis es negativa, indica que es más plana la curva. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 49 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 50 SPSS Statistics Base 17/22 Pasos para construir una tabla de Frecuencia en SPSS 17/22. 1. Crear la Base de Datos o Conjuntos de observaciones o puntajes que desea agrupar. (Leer el Capítulo 5 del Manual de SPSS Statistics Base 17. 2. Opción del menú Transformar. 3. Opción Agrupación Visual. 4. Seleccionar la Variable a transformar. => SALARIOS 5. Crear nueva “Variable agrupada”. => SALARIOS1 6. Establecer los Límites Superiores (Intervalos cerrados o abiertos – Incluidos <= o Excluidos <). 7. Crear puntos de corte. Posición del primer punto de corte. Min+Anchura-1 o Min.+Anchura. Primer LS => 209 Número de puntos de corte, Número de Clases – 1. #Clases = 10 => #Cortes = 10 – 1. Anchura. 8. Crear etiquetas – Crear las clases. 9. Aceptar. 10. Se visualiza la nueva “Variable agrupada” SALARIOS1 Pasos para visualizar una tabla de Frecuencia en SPSS 17/22. 1. 2. 3. 4. 5. 6. 7. Después de crear la “Variable agrupada”. Seleccionar la opción del Menú Analizar. Seleccionar la opción Estadísticos descriptivos. Seleccionar la opción Frecuencias. Seleccionar la Variable agrupada SALARIOS1. Seleccionar los Estadísticos… Todos y Percentiles deseados. Seleccionar los gráficos… Tomar como ejemplo el archivo (file) demo_cs que se encuentra en: Local Disk C:\Program Files (x86)\SPSSInc\Statistics17\Samples\Spanish Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 50 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 51 Ejercicios Propuestos. Calcule los modelos de tendencia central, represente gráficamente cada situación e interprete los resultados. Caso I. El precio que acostumbran a pagar 500 usuarias de un determinado producto aparece en la siguiente tabla: NUMERO DE PRECIOS PRECIOS USUARIAS 5.05 10.05 38 10.05 15.05 167 15.05 20.05 143 20.05 25.05 92 25.05 30.05 37 30.05 35.05 17 35.05 40.05 6 1. Construya una tabla de frecuencia. 2. ¿Cuál es el precio más representativo? 3. ¿Cuál es el precio que representa al sector socioeconómico que está equidistante de los sectores extremos? 4. ¿Cuál fue el precio que más pagaron estas usuarias? 5. Grafique un diagrama circular. 6. Grafique un Histograma. Caso II. Se considera la distribución de los ingresos mensuales de una muestra de directores de enseñanza básica, según muestra la siguiente tabla: NUMERO DE INGRESOS DIRECTORES 7,000.00 7,999.00 6 8,000.00 8,999.00 6 9,000.00 9,999.00 10 10,000.00 10,999.00 18 11,000.00 11,999.00 30 12,000.00 12,999.00 25 13,000.00 13,999.00 40 14,000.00 14,999.00 80 15,000.00 15,999.00 15 1. Construya una tabla de frecuencia. 2. ¿Cuál es el ingreso más representativo de estos directores? 3. ¿Cuál es el ingreso que representa a los directores están equidistantes de los extremos? 4. ¿Cuál es el ingreso que más recibieron los directores? 5. Grafique una curva de ojiva. 6. Grafique un Polígono de frecuencia. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 51 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 52 Caso III. Una organización está por revisar el monto que los estudiantes invierten en textos cada semestre. Cincuenta estudiantes reportaron las cantidades aproximadas en dólares: DOLARES NUMERO DE INVERTIDOS ESTUDIANTES 100 124 8 125 149 11 150 174 8 175 199 6 200 224 10 225 249 6 250 274 1 TOTALES 50 1. Construya una tabla de frecuencia. 2. ¿Cuál es la cantidad de dinero invertida que más representa a todos los estudiantes? 3. ¿Cuál es la inversión más común entre los estudiantes? 4. ¿Cuál sería la cantidad que representa la mitad de la inversión de todos los estudiantes? 5. Grafique un diagrama circular. 6. Grafique un Histograma. 7. Grafique una curva de ojiva. Caso IV. Un analista de la Secretaría de Estado de Trabajo está evaluando los sueldos de los empleados dominicanos para recomendar un reajuste salarial. Para esto tomo una muestra de 140 empleados, en base a la siguiente tabla: SUELDOS USA$ USA$ EMPLEADOS 305 609 65 610 914 30 915 1,219 22 1,220 1,524 10 1,525 1,829 5 1,830 2,134 3 2,135 2,439 2 2,440 2,744 2 2,745 3,049 1 TOTALES 140 1. Construya una tabla de frecuencia. 2. ¿Cuál es el sueldo más representativo de estos empleados? 3. ¿Cuál es el sueldo que representa la mitad? 4. ¿Cuál es el sueldo más común? 5. Grafique una curva de ojiva. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 52 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 53 6. Grafique un Polígono de frecuencia. 7. Usando el coeficiente de sesgo de Pearson determine si está sesgada. 8. ¿Cómo está sesgada? ¿Por qué? 9. ¿Es simétrica? ¿Por qué? 10. ¿Es una distribución normal? ¿Por qué? Caso V. Un estudiante de quinto semestre de administración de empresas está cursando 5 asignaturas, y estos estiman obtener las siguientes calificaciones: ASIGNATURA NOTA LETRA CREDITOS CONTABILIDAD DE COSTOS 80 B=3 5 INTR. AL DERECHO LABORAL 90 A=4 3 METODOS CUANTITATIVOS 85 B=3 4 METODOG. DE LA INVESTIGACION 95 A=4 3 MERCADEO II 90 A=4 3 Determine cuál será el índice académico del semestre. Caso VI. Un fabricante de circuitos eléctricos ha producido el siguiente número de unidades en los siguientes años: 1995 1996 1997 1998 1999 12,500 13,250 14,310 15,741 17,630 1. Calcule el incremento porcentual de cada año con relación al anterior. 2. Determine la media tomando en consideración los incrementos porcentuales. Caso VII. Un inversionista extranjero está interesado en ingresar en algún sector económico de la República Dominicana, para ello seleccionó 4 sectores y así evaluar su comportamiento. Este se basó en los datos del Banco Central de la R. D. según el informe de la economía dominicana ene-dic 1999 del producto interno bruto (PIB) durante los años 1995-1999. Estos sectores crecieron de la siguiente manera: SECTORES 1995 1996 1997 1998 1999 MANUFACTURA 839.4 866.4 929.9 987.5 1053.6 COMERCIO 554.8 603.9 661.9 733.4 800.1 COMUNICACIONES 159.7 185.7 221.5 267 308.7 HOTELES, BARES Y REST. 259.4 292.6 343.6 359.7 395.6 1. Tomando como base la tasa de crecimiento porcentual promedio de cada sector, ¿en cuál sector usted le recomendaría invertir? 2. Haga un diagrama de serie de tiempo que represente simultáneamente todos los sectores. Caso VIII. Calcule la desviación estándar de los siguientes tiempos de espera (en minutos) de los clientes del Banco BHD, basados en una muestra. Calcule la Mediana y la Moda. 6.5 6.6 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 53 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 54 Caso IX. Se utilizan dos procesos para producir discos de computadoras, pero han surgido problemas respecto a la variación en los tamaños de tales discos. Con base en los datos de muestra aquí presentados de ocho tamaños de discos en pulgadas para cada proceso. Explique en cuál proceso aconsejaría usted si su objetivo es minimizar la desviación en el tamaño de los discos. PROCESO I PROCESO II 3.41 3.74 3.89 3.65 3.22 3.06 3.65 3.33 3.81 3.26 3.07 3.35 3.26 3.79 3.14 3.51 Caso X. Los salarios en miles de dólares de los directores ejecutivos de las mejores corporaciones de los Estados Unidos de América reportados por la edición de la revista Forbes de la edición del 24 de mayo de 1997 aparecen en la siguiente tabla de frecuencias: SALARIOS DIRECTORES (EN MILES DE US$) EJECUTIVOS 90 439 6 440 789 8 790 1,139 10 1,140 1,489 12 1,490 1,839 10 1,840 2,189 8 2,190 2,539 6 TOTALES 1. 2. 3. 4. 5. 6. 7. 8. Haga un Histograma. ¿Cuál es el salario más común de los directores ejecutivos? Haga un Diagrama Circular e Interprételo. Determine si está sesgada. ¿Cuál es el salario que está equidistante de los dos extremos? ¿Es una distribución normal? ¿Por qué? Represente gráficamente si es normal o el sesgo. Compruebe si se cumple la regla empírica. Caso XI. Un inversionista extranjero está interesado en ingresar en algún sector económico de la República Dominicana, para ello seleccionó 5 sectores y así evaluar su comportamiento. Este se basó en los datos del Banco Central de la R. D. según el informe de la economía dominicana ene-dic 2002 del producto interno bruto (PIB) durante los años 1996-2002. Estos sectores crecieron de la siguiente manera: Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 54 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 55 BANCO CENTRAL DE LA REPUBLICA DOMINICANA Departamento de Cuentas Nacionales y Estadísticas Económicas PRODUCTO INTERNO BRUTO POR SECTORES DE ORIGEN 1996-2002 Millones de RD$ Sectores CONSTRUCCIÓN COMERCIO COMUNICACIONES ELECTRICIDAD FINANZAS TASAS DE CRECIMIENTO (%) SECTORES CONSTRUCCIÓN COMERCIO COMUNICACIONES ELECTRICIDAD FINANZAS 1996 1997 1998 702.1 603.9 664.2 743.3 185.7 221.5 266.7 106.0 120.7 228.8 236.2 245.7 1999 826.2 805.7 308.3 130.5 256.0 2000 2001* 2002* 872.8 876.9 904.9 875.8 885.0 915.1 355.7 442.0 518.9 139.5 165.1 178.0 264.4 271.9 279.7 97/ 96 98/97 99/98 00/99 01/00* 02/01* 17.7 5.6 0.5 3.2 10.0 11.9 8.4 8.7 1.1 3.4 19.3 20.4 15.6 15.4 24.2 17.4 13.8 8.1 7.0 18.3 7.8 3.2 4.0 4.2 3.2 2.8 2.9 1. Tomando como base la tasa de crecimiento porcentual promedio de cada sector, ¿en cuáles sectores usted le recomendaría invertir? 2. Haga un diagrama de serie de tiempo que represente simultáneamente todos los sectores. Caso XII. Un analista de la Secretaría de Estado de Trabajo está evaluando los sueldos de los empleados dominicanos en la rama “Industrias y Manufactureras” para recomendar un reajuste salarial. Para esto tomo una muestra de 464 empleados, en base a la siguiente tabla: Ingresos por rama de actividad económica según el Banco Central Fuente: Encuesta Nacional de Fuerza de Trabajo, Abril 2002. Ingresos por Hora (RD$) Empleados 6 9 18 10 13 35 14 17 60 18 21 61 22 25 64 26 29 53 30 33 48 34 37 49 38 41 36 42 45 40 1. Construya una tabla de frecuencia. 2. ¿Cuál es el sueldo más representativo de estos empleados? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 55 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 56 3. 4. 5. 6. 7. 8. ¿Cuál es el sueldo que representa la mitad? ¿Cuál es el sueldo más común? Grafique un Polígono de frecuencia Usando el coeficiente de sesgo de Pearson determine si está sesgada. ¿Cómo está sesgada? ¿Por qué? ¿Es una distribución normal? ¿Por qué? Diga 5 razones. Caso XIII. El informe Nielsen sobre Tecnología Domestica (20 de febrero de 1996) describió las tecnologías caseras y su empleo por parte de personas de 12 años o más. Los datos siguientes son las horas de empleo de computadoras personales durante una semana, para una muestra de 50 personas. 4.1 3.1 4.1 10.8 7.2 1.5 4.8 4.1 2.8 6.1 10.4 2.0 8.8 9.5 5.7 5.9 14.8 5.6 12.9 5.9 3.4 5.4 4.3 12.1 4.7 5.7 4.2 3.3 0.7 3.9 1.6 3.9 7.1 4.0 3.7 6.1 4.1 10.3 9.2 3.1 3.0 11.1 6.2 4.4 6.1 3.7 3.5 7.6 5.7 3.1 Resuma estos datos formando: a. Construya una tabla de distribución de frecuencias, empleando anchura de clase igual a 3 horas. b. Un histograma. c. Una Ojiva. d. Un diagrama circular. e. Un Polígono de Frecuencia. f. Haga comentarios acerca de lo que indican los datos respecto al uso de computadoras en el hogar. g. ¿Cuál es el tiempo más empleado? h. ¿Qué tiempo está a la mitad? i. ¿Cuál es el más representativo de los tiempos? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 56 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 57 Caso XIV. Los sueldos de los dominicanos expresados en dólares USA$ oscilan dentro de la siguiente distribución de valores: 105 305 505 705 905 1,105 1,305 1,505 1,705 1,905 2,105 2,305 145 345 545 745 945 1,145 1,345 1,545 1,745 1,945 2,145 2,345 185 385 585 785 985 1,185 1,385 1,585 1,785 1,985 2,185 2,385 225 425 625 825 1,025 1,225 1,425 1,625 1,825 2,025 2,225 2,425 265 465 665 865 1,065 1,265 1,465 1,665 1,865 2,065 2,265 2,465 1. Determine los cuartiles Q1, Q2 y Q3 2. Determine el percentil 70 3. Determine el sexto decil 4. Determine la desviación del cuartil 5. Determine el percentil del valor US$1,425 6. Determine la mediana Caso XV. Los salarios inicial para recién graduados de licenciatura en contabilidad, durante 1996 y 1997, fue US$30,393 (US Online, U.S. News and World Report, diciembre 1997). A continuación vemos una muestra de salarios iniciales, en miles de dólares. 30.7 28.8 29.1 31.1 30.1 29.7 30.7 30.0 30.6 30.5 31.2 32.1 30.2 30.3 32.9 32.2 29.9 28.9 30.6 31.8 32.2 30.3 30.4 32.3 33.3 32.7 29.3 30.3 30.9 30.3 a. ¿Cuál es el salario promedio inicial para datos no agrupados? b. ¿Cuál es la mediana de salario inicial para datos no agrupados? c. ¿Cuál es la moda de salario inicial para datos no agrupados? d. ¿Cuál es el primer cuartil? e. ¿Cuál es el segundo cuartil? f. ¿Condicen estos resultados con lo que afirma U.S. News & World Report? Caso XVI. Dos modos que usan los empleados para ir a trabajar diariamente son el transporte público y el automóvil. A continuación vemos unas muestras de tiempos de cada modo. Las cifras son en minutos. Transporte público 28.0 29.0 32.0 37.0 33.0 25.0 29.0 32.0 41.0 34.0 Automóvil 29.0 31.0 33.0 32.0 34.0 30.0 31.0 32.0 35.0 33.0 a. Calcule la media de la muestra del tiempo que se lleva en cada modo de transporte. b. Calcule la desviación estándar de la muestra para cada modo de transporte. c. Con base en los resultados de los incisos a y b, ¿qué modo de transporte debe preferirse? Explique sus razones? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 57 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 58 Caso XVII. Como estadístico residente en Air Santo Domingo, el director de análisis estadístico le pide recolectar y agrupar los datos sobre el número de pasajeros que han decidido viajar con Air Santo Domingo. Tales datos correspondientes a los últimos 50 días aparecen en la tabla siguiente. Sin embargo, con estos datos en bruto, es improbable que el director pueda obtener información útil y significativa respecto a las operaciones de vuelo. Los datos no están organizados y es difícil llegar a una conclusión significativa simplemente revisando una serie de números anotados en un papel. Es preciso agrupar y presentar los datos de manera concisa y reveladora para facilitar el acceso a la información que contienen. 68 72 50 70 65 83 77 78 80 93 71 74 60 84 72 84 73 81 84 92 77 57 70 59 85 74 78 79 91 102 83 67 66 75 79 82 93 90 101 80 79 69 76 94 71 97 95 83 86 69 9. Haga un Histograma. 10. ¿Cuál es el número de pasajeros que ocurre con más frecuencia? 11. ¿Qué tan dispersos están los datos? 12. Haga un Diagrama Circular e Interprételo. 13. Determine si está sesgada. 14. ¿Qué cantidad de pasajeros está equidistante de los dos extremos? 15. ¿Es una distribución normal? ¿Por qué? 16. Represente gráficamente si es normal o el sesgo. Caso XVIII. En Aeromar se aceptaron reservaciones telefónicas de vuelos. En la tabla siguiente vemos las duraciones de las llamadas en minutos, para una muestra de reservaciones telefónicas. 2.1 4.8 5.5 10.4 3.3 3.5 4.8 5.8 5.3 5.5 2.8 3.6 5.9 6.6 7.8 10.5 7.5 6.0 4.5 4.8 a) ¿Qué tan dispersos están los tiempos de estas llamadas? b) ¿Cuál es el tiempo que está equidistante de los extremos? c) Determine el primer Cuartil. d) Determine el quinto Decil. e) Determine el percentil de la duración 7.8 f) Construya una tabla de frecuencia. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 58 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 59 g) Determine si está sesgada analíticamente. h) ¿Es una distribución normal? ¿Por qué? Diga 5 razones. i) Represente gráficamente el comportamiento de esta distribución. j) Haga una curva de ojiva. k) Construya un diagrama circular e interprételo. l) Se puede comprobar la Regla Empírica. Caso XIX. Los siguientes datos representan el tiempo, en segundos, para pasar de 0 a 60 mi/h para una muestra de 15 automóviles hechos en Alemania y 20 hechos en Japón: Automóviles Automóviles Alemanes Japoneses 10.0 10.9 4.8 9.4 9.5 7.1 8.0 6.4 7.9 8.9 8.9 7.7 10.5 6.5 8.5 6.9 7.1 6.7 9.3 5.7 12.5 5.5 6.4 8.7 7.2 9.1 8.3 8.2 5.1 6.0 7.5 8.5 6.8 9.5 9.7 Compare y describa las diferencias en tiempos de aceleración de automóviles alemanes y japoneses, en términos de sus estadísticas de tendencia central, estadísticas de dispersión y los cuartiles. Caso XX. 5 compras de una materia prima en los últimos 3 meses: Costo por libra Cantidad Compra Dólares de libras 1 3.00 1,200 2 3.40 500 3 2.80 2,500 4 2.90 1,000 5 3.25 800 Observe que el costo por libra cambió de 3.4 a 2.80 dólares, ya que la cantidad comprada varió de 500 a 2,500 libras. Suponga que un administrador pidió información sobre el costo promedio por libra de la materia prima. Caso XXI. El Colmado Gazcue vende cinco tipos de limpiadores para desagües. En la tabla se muestra cada tipo junto con la utilidad por lata y el número de latas vendidas: Utilidad Volumen de Limpiador por lata ventas en latas Glunk Out 2.00 3 Bubble Up Dream Drain Clear More Main Drain 3.50 5.00 7.50 6.00 7 15 12 52 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 59 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 60 Determine la utilidad promedio por lata. Caso XXII. Los miembros de un Club deben pagar cuotas con base en su peso promedio. De los 60 miembros, 12 pesan 110 libras, 25 pesaron 120 libras, 18 hicieron girar la balanza hasta 150 y el resto registraron 180 libras. Si los miembros deben pagar US$5 por cada libra que pesan en promedio, ¿cuánto debe desembolsar cada uno? Número de Libras Miembros 110 12 120 25 150 18 180 5 Caso XXIII. Aplicando el Teorema de Chebyshev. La media de una línea aérea es de 78.7 pasajeros por día, con una desviación estándar de 12.14. Para programar los tiempos de para una nueva ruta que abrió, la gerencia desea saber con qué frecuencia los pasajeros están dentro de K = dos desviaciones estándar de la media, y cuál es dicho intervalo. Caso XXIV. Suponga que las calificaciones del examen de aptitudes de 100 candidatos a las posiciones vacantes en su organización, tuvieron un promedio de 70 y una desviación estándar de 5. ¿Cuántos candidatos tuvieron calificaciones entre 60 y 80? ¿cuántos entre 58 y 82? Caso XXV. Wageweb lleva a cabo encuesta de salarios y presenta resúmenes en su sitio de la red. Con los datos de salarios, Wageweb informó que los salarios de los gerentes de beneficios variaron entre 50,935 a 79,577 dólares. Suponga que los datos siguientes son una muestra de los salarios anuales para 30 gerentes de beneficios (los datos están en miles de dólares). 57.7 63.0 64.2 63.0 68.7 59.3 64.4 64.7 63.3 66.7 63.8 69.5 62.1 61.2 62.2 60.3 59.2 61.7 69.1 66.8 61.2 74.0 60.3 58.9 71.1 61.8 59.4 62.8 56.6 63.1 17. Haga un Histograma. 18. ¿Cuál es el número de pasajeros que ocurre con más frecuencia? 19. ¿Qué tan dispersos están los datos? 20. ¿Qué representa esta dispersión? 21. Haga un Diagrama Circular e Interprételo. 22. Determine si está sesgada. 23. ¿Qué cantidad de pasajeros está equidistante de los dos extremos? 24. ¿Es una distribución normal? ¿Por qué? Diga por lo menos 5 razones. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 60 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 61 25. Represente gráficamente si es normal o el sesgo por pedio de un poligono de frecuencia. 26. Determine el tercer Cuartil. 27. Determine el octavo Decil. 28. Demuestre y diga si se cumple la regla empírica. 29. Utilice el Teorema de Chebyshev para determinar el porcentaje de los gerentes con un salario anual entre 53,000 y 71,000 dólares. 30. Utilice la regla empírica para determinar el porcentaje de gerentes con un salario anual entre 50,000 y 71,000 dólares. Compare sus resultados con el punto anterior. 31. ¿Al parecer es razonable suponer que la distribución de salarios se puede aproximar a una distribución de Gauss? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 61 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 62 Introducción a las Probabilidades (Probability) Gran parte de la vida del hombre se caracteriza por la incertidumbre. Muchos fenómenos del mundo parecen estar dominados por el comportamiento aleatorio. Casi todas las decisiones se toman en un entorno caracterizado por la ausencia de un conocimiento completo de la situación. Así, una decisión acerca de la cantidad de unidades a fabricar se basa en las estimaciones del número de unidades que se espera vender. Si se conociera este último con anticipación, la decisión sería elaborar exactamente esa cantidad, sin que hubiera ni escasez ni excedentes. Con todo, en las situaciones concretas de la toma de decisiones rara vez puede recabarse información tan precisa. Estadística Inferencial: Implica la utilización de una muestra para extraer alguna inferencia o conclusión sobre la población correspondiente. - Apoyándose en el cálculo de probabilidades y a partir de datos muéstrales, efectúa estimaciones, decisiones, predicciones y otras generalizaciones sobre un conjunto mayor de datos. La estadística es inferencial cuando se derivan conclusiones generales para un conjunto de datos más amplio a partir de la información proporcionada por los datos estudiados. Experimento. Experimento es cualquier proceso que permite a los investigadores obtener observaciones. Es el proceso que produce un evento o suceso. Experimento se refiere a un estudio en el que se manipulan intencionalmente una o más variables independientes (supuestas causas-antecedentes), para analizar las consecuencias que la manipulación tiene sobre una o más variables dependientes (supuestos efectos-consecuentes), dentro de una situación de control para el investigador. Experimento situación de control en la cual se manipulan, de manera intencional, una o más variables independientes (causas) para analizar las consecuencias de tal manipulación sobre una o más variables dependientes (efectos). Experimento Lanza una moneda Seleccionar una parte para inspección Lanzar un dado Jugar un partido de pelota Resultados experimentales Cara, cruz Defectuosa, no defectuosa 1, 2, 3, 4, 5, 6 Ganar, perder, empatar Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 62 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 63 Experimento Aleatorio o de azar. Es un proceso que produce uno de varios resultados posibles. Decimos que un experimento es aleatorio si se verifican las siguientes condiciones: a. Se puede repetir indefinidamente, siempre en las mismas condiciones. b. Antes de realizarlo, no se puede predecir el resultado que se va a obtener. c. El resultado que se obtenga, pertenece a un conjunto de resultados posibles conocido previamente. A este conjunto de resultados posibles, lo denominamos como espacio muestral. Los elementos del espacio muestral se denominan sucesos elementales. Ensayo: Es cada repetición de un experimento. Suceso o Evento. Es cualquier colección de resultados de un experimento. Es una colección de puntos muéstrales (resultados experimentales). El suceso o evento es un subconjunto del Espacio Muestral. Suceso Simple. Es un resultado o un suceso que no puede desglosarse. Espacio muestral. El conjunto de todos los posibles resultados para un experimento. Probabilidad. Los conceptos de probabilidad pueden resultar de suma utilidad cuando nos hallamos frente a la incertidumbre que caracteriza a la mayor parte de los ambientes en que se adoptan decisiones. Es una medida numérica de la posibilidad de que ocurrirá un evento. Es la posibilidad numérica de que ocurra un evento, medida entre 0 y 1. Es la frecuencia relativa con la que puede esperarse que ocurra ese evento. Las probabilidades de los diferentes resultados posibles de un ensayo deben sumar uno. Las probabilidades son siempre mayores que o iguales a cero (es decir, las probabilidades nunca son negativas) y son menores que o iguales a uno. Cuanto más pequeña sea la probabilidad, tanto menos posibilidad tendrá el evento. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 63 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 64 Suceso seguro o evento cierto. Es aquel que siempre se verifica después de un experimento aleatorio. Entre mayor sea la probabilidad de que ocurra un evento, su probabilidad asignada estará más próxima a 1. La probabilidad de certeza es 1. Suceso imposible o evento imposible. Es aquel que nunca se verifica como resultado del experimento aleatorio. La única posibilidad es que el suceso imposible sea el conjunto vació. La probabilidad de una imposibilidad es 0. Formas de Enfocar la Probabilidad. 1. Probabilidad de Laplace o Clásica (a priori) 2. Probabilidad Frecuencial o Frec. Relativa (a posteriori) 3. Probabilidad Subjetiva 4. Probabilidad Axiomática 1. Probabilidad de Laplace o Clásica (a priori=antes del hecho). Según la Regla del marques Laplace (1789-1827) en su obra "Theorie analytique des probabilites" de 1812: Si un experimento cualquiera puede dar lugar a un número finito de resultados posibles, y no existe ninguna razón que de privilegio a unos resultados en contra de otros tiene una estructura de un juego de azar - entonces la probabilidad de un evento aleatoria A es el cociente entre el número de formas o casos en las que puede ocurrir un evento (favorables), y el número de todos los posibles resultados del experimento. P(A) = Numero de formas en las que puede ocurrir un evento Número total de posibles resultados Ejemplos: La probabilidad de obtener una cara en un solo lanzamiento de una moneda. La probabilidad de sacar un numero x al lanzar un dado. La probabilidad de sacar una carta de una baraja de 52 cartas. 2. Probabilidad Frecuencial o Frec. Relativa (a posteriori). Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 64 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 65 Esta fue establecida por autores como el inglés Ronald A. Fisher (1890-1962) y el austriaco Richard von Mises (1883-1953) Utiliza datos que se han observado empíricamente, registra la frecuencia con que ha ocurrido algún evento en el pasado y estima la probabilidad de que el evento ocurra nuevamente con base en estos datos históricos. Esta se determina mediante: P(E) = Número de veces que ha ocurrido el evento en el pasado Número total de observaciones 3. Probabilidad Subjetiva. Cuando se estudian fenómenos aleatorios en los que no hay posibilidad de repetición o experimentación, la probabilidad subjetiva es la cuantificación (basada en supuesto) que una persona (o grupo) hace de un evento, utilizando la información que posee. Esta conceptualización de la probabilidad es muy aplicada en la empresa, en la estadística bayesiana, la teoría de la decisión y la teoría de juegos. Ha sido tratada por autores como Keynes (1921), Ramsey (1926), de Finetti (1937), Koopman (1940) y Savage (1954). El modelo subjetivo requiere establecer la probabilidad de algún evento con base en la mejor evidencia disponible. En muchos casos esto puede ser apenas una conjetura hecha sobre cierta base. Esta se utiliza cuando se desea asignar probabilidad a un evento que nunca ha ocurrido. 4. Probabilidad Axiomática. El concepto axiomático de probabilidad fue formulado por Kolmogorov 1933. Para ello preciso ciertas leyes o axiomas que debe cumplir una función de probabilidades. Los axiomas deberían implicar, entre otras, las siguientes cuestiones: a. La probabilidad solo puede tomar valores comprendidos entre 0 y 1. 0 <= P(A) <= 1 b. La probabilidad del suceso seguro es 1. c. La probabilidad de dos sucesos incompatibles (de intersección vacía) debe ser la suma de sus posibilidades respectivas. d. La probabilidad de la intersección de dos sucesos es menor o igual que la probabilidad de cada uno de los sucesos por separado, es decir, P(AB) <= P(A) ; P(AB) <= P(B) e. La probabilidad de la unión de sucesos es mayor que la de cada uno de los sucesos separados. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 65 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 66 P(AB) >= P(A) ; P(AB) >= P(A) Más aún, si los sucesos son disjuntos (incompatibles) ocurre que: AB = P(AB) = P(A) + P(B) f. La probabilidad del suceso contrario a A, es P(A') = 1 - P(A) Operaciones básicas con sucesos aleatorios. Que es un conjunto? Que es AB? Que es AB? Que es A-B o A\B? Que es AB o A\B B\A? Que es A'? Que es un diagrama de Venn? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 66 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 67 Caso I. (Probabilidad Clásica, Frecuencial, Subjetiva o Axiomática) La Nike Corporation quiere probar un nuevo material que se usará para hacer zapatos deportivos. Un grupo de prueba consistente en 20 hombre y 30 mujeres. Si se escoge aleatoriamente a una persona de este grupo de prueba, calcule la probabilidad o posibilidad de no escoger a un hombre. Caso II. (Probabilidad Clásica, Frecuencial, Subjetiva o Axiomática) La Compañía de Seguros (PROSEGUROS) estudia causas de muertes accidentales en el hogar y compilo un archivo que incluye 160 muertes por caídas, 120 muertes causadas por veneno y 70 muertes causadas por incendios y quemadas. Si se escoge aleatoriamente una de estas muertes, calcule la probabilidad de que se haya debido a veneno. Caso III. (Probabilidad Clásica, Frecuencial, Subjetiva o Axiomática) Un estudio de 500 vuelos de American Airlines escogidos aleatoriamente mostró que 430 llegaron a tiempo (Basados en datos del Departamento de Transporte de los Estados Unidos). Estime la probabilidad de que un vuelo de American Airlines llegue a tiempo. ¿Describiría usted ese resultado como muy bueno? Caso IV. (Probabilidad Clásica, Frecuencial, Subjetiva o Axiomática) En un estudio de reconocimiento de marcas, 831 consumidores sabían de las sopas Campbell, 18 no habían oído de ellas (Basados en datos de Total Research Corporation). Utilice estos resultados para estimar la probabilidad de que un consumidor seleccionado aleatoriamente reconozca las sopas Campbell. ¿Cómo cree usted que sea este valor en comparación con los valores típicos de otras marcas comerciales? Caso V. (Probabilidad Clásica, Frecuencial, Subjetiva o Axiomática) MasterCard Internacional realizó un estudio de fraudes con tarjeta de crédito. Si se escoge al azar un caso de fraude en la tabla siguiente, calcule la probabilidad de que el fraude se haya basado en el uso de una tarjeta falsa. Tarjeta Robada 243 Tarjeta Falsa 85 Pedido por Correo 52 Otro 46 TARJETA ROBADA 243 TARJETA ROBADA 243 Caso VI. (Probabilidad Clásica, Frecuencial, Subjetiva o Axiomática) Una encuesta Gallup produjo los datos de muestra de la tabla que aparece a continuación. Si se escoge aleatoriamente a uno de los encuestados, calcule la probabilidad de que sea una persona que se cepilla los dientes tres veces al día, tal y como recomiendan los dentistas. Cepilladas de Dientes Al Día Número 1 228 2 672 3 240 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 67 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 68 Caso VII. (Probabilidad Clásica, Frecuencial, Subjetiva o Axiomática) Si asumimos que los 35 puntos evaluados hasta el momento representan el 100% de la evaluación. En base a su calificación obtenida hasta el momento. ¿Cuál es la probabilidad de que apruebe la asignatura? Caso VIII. (Probabilidad Clásica, Frecuencial, Subjetiva o Axiomática) En base a su experiencia como estudiante que ha cursado diferentes asignaturas y al ritmo de estudio que dedica a esta materia en particular. ¿Cuál es la probabilidad de que no apruebe Métodos Cuantitativos? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 68 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 69 Eventos mutuamente excluyentes. Los sucesos A y B son mutuamente exclusivos si no pueden ocurrir simultáneamente. Si la ocurrencia de un evento prohíbe la ocurrencia del otro. P(AUB) = P(A) + P(B) En el lanzamiento de una moneda, dos resultados simples posibles son cara y cruz. Puesto que la ocurrencia de una cara excluye la posibilidad de cruz y a la inversa, los eventos “cara” y “cruz” son mutuamente excluyentes. Eventos colectivamente exhaustivos. Se dice que un conjunto de eventos es colectivamente exhaustivo, si su unión explica todos los resultados posibles de un experimento. Consta de todos los posibles resultados de un experimento y constituye su espacio muestral. P(X) = 1 Eventos independientes. Dos eventos son independientes si la ocurrencia o no ocurrencia de un evento de ninguna manera afecta a la posibilidad o probabilidad de ocurrencia del otro evento. Dos sucesos A y B son independientes si la ocurrencia de uno no afecta la probabilidad de ocurrencia del otro. La ocurrencia de uno no tiene que ver nada con la del otro. P(AB) = P(A) * P(B) Eventos dependientes. Dos eventos son dependientes si la probabilidad de ocurrencia de uno es afectada por la ocurrencia o no ocurrencia del otro. Si A y B no son independientes, se dice que son dependientes. P(AB) = P(A) * P(B\A) Eventos complementarios (Complemento de un evento). Para un evento A, el complemento del evento A es el evento consistente en todos los puntos muestrales que no están en A. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 69 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 70 El complemento del suceso A, denotado por A', consiste en todos los resultados en los que el suceso A no ocurre. Si un evento no ocurre, el otro debe ocurrir. P(A) + P(A') = 1 P(A) = 1 - P(A') P(A') = 1 - P(A) P(AUA') = P(A) + P(A') Ejercicios 1-6 Págs. 79-80 y Ejercicios 7-12 Págs. 81-82 Tabla de Contingencia (Contingency Table). Las tablas contingencias son aquellas que sirven para comparar dos variables. TABLA DE CONTIGENCIA CLASIFICACION DE LOS EMPLEADOS GENERO ADMINISTR.(A) LINEA (L) AUXILIAR (O) TOTAL HOMBRE (H) 120 150 30 300 MUJER (M) 50 140 10 200 TOTAL 170 290 40 500 Tabla de Probabilidad (Probability Table). Esta se obtiene dividiendo cada una de las entradas entre el total de las observaciones (que se encuentra en el extremo inferior de la diagonal). TABLA DE PROBABILIDAD CLASIFICACION DE LOS EMPLEADOS GENERO ADMINISTR.(A) LINEA (L) AUXILIAR (O) TOTAL HOMBRE (H) MUJER (M) TOTAL Las probabilidades marginales son los valores que se encuentran en las márgenes de la tabla. Se obtiene de la suma de las probabilidades conjuntas correspondientes. Las probabilidades conjuntas son las celdas de la estructura principal de la tabla. Estas muestran la probabilidad de la intersección de dos eventos. Ejercicios 13 al 15 - Págs. 83-84 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 70 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 71 Caso II. El Presidente Dr. Leonel Fernández Reina se basó en la opinión de 500 expertos en el área económica de diferentes Universidades, Empresas Privadas y Miembros del Gabinete de su Gobierno, para someter al Congreso un aumento al ITBIS de un 16%, con la finalidad de aumentar las recaudaciones y poder hacer frente al déficit fiscal que posee el Gobierno. Sin embargo, el Presidente tiene duda de que la medida impositiva afecte significativamente a la economía nacional. Los asesores económicos del Gobierno trataron de construir una tabla para organizar estas opiniones... Pero no pudieron... Trata de completarla... CONTRACCION ECONOMISTAS ESTABLE (E) EXPANSION(X) © TOTAL ACADEMICOS (A) 125 100 EMPRESAS PRIVADAS (P) 35 110 GOBIERNO (G) 25 40 65 200 TOTAL 1. Construya una tabla de probabilidades. 2. Determine: a. P(A) b. P(P) c. P(G) d. P(E) e. P(X) f. P© g. P(AC) h. P(GX) i. P(X|A) Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 71 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 72 Probabilidad Condicional. La probabilidad condicional de B dado A es la probabilidad de que el suceso B ocurra, dado que el suceso A ya ocurrió, y se puede calcular dividiendo la probabilidad de que ocurran ambos sucesos, A y B, entre la probabilidad del suceso A: P(B\A) = P(AB) P(A) P(AB) = P(A) * P(B\A) Es la probabilidad de que el evento B ocurra, dado que o a condición de que el evento A ya haya ocurrido. Ejemplo: La probabilidad de que un trabajador tomado aleatoriamente sea hombre es P(H)=0.60. Sin embargo, si se desea calcular la probabilidad de que el trabajador sea hombre dado que es un miembro del personal administrativo P(H\A). P(H\A) = P(HA)/P(A) = 0.24/0.34 = 0.71 Otra opción: P(H\A) =[P(H)*P(A\H)]/P(A)=(0.60 * 0.40)/0.34=0.71 0.60 --> 1 0.24 --> X Ejercicios 16 y 17 Pág. 85 Reglas de la probabilidad. A. Regla de la Multiplicación. Consiste en determinar la probabilidad del evento conjunto P(AB), es decir de la probabilidad de "A y B". Esta se obtiene simplemente multiplicando sus respectivas probabilidades. El procedimiento depende de sí A y B son dependientes o independientes. Probabilidades de eventos independientes. P(AB) = P(A) * P(B) Eventos independientes. Dos sucesos A y B son independientes si la ocurrencia de uno no afecta la probabilidad de ocurrencia del otro. La ocurrencia de uno no tiene que ver nada con la del otro. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 72 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 73 El 20% de los carros que pasan por el Km. 12 de la Carretera Sánchez, se detienen en un Motel, para alquilar una cabaña. ¿Cuál es la probabilidad de que los próximos dos carros se detengan? Asumiendo que estos son eventos independientes. P(C1C2) = 0.20 * 0.20 = 0.04 ¿Cuál es la probabilidad de que el primer carro se pare y que el segundo siga? P(C1C2) = 0.20 * 0.80 = 0.16 Probabilidad de Eventos dependientes. P(AB) = P(A) * P(B\A) Eventos dependientes. Dos sucesos A y B son dependientes si la ocurrencia de uno afecta la probabilidad de ocurrencia del otro. La ocurrencia de uno tiene que ver con la del otro. Ejemplo: La probabilidad conjunta de que sea hombre y miembro administrativo. P(HA) = 0.24 P(HA) = P(H) * P(A\H) = 0.60 * 0.40 = 0.24 P(A\H) = P(AH)/P(H) = 0.24/0.60 = 0.40 Regla de la Adición. Se utiliza para determinar la probabilidad de A o B, P(AB). La probabilidad del evento A o B (cuando los eventos no son mutuamente excluyentes). P(AB)= P(A) + P(B) - P(AB) La razón por la cual se debe restar la probabilidad conjunta es para evitar el doble conteo. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 73 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 74 Eventos no mutuamente excluyentes. Los sucesos A y B son no mutuamente exclusivos si pueden ocurrir simultáneamente. Si la ocurrencia de un evento no prohíbe la ocurrencia del otro. Ejemplo: La probabilidad de sacar un as o una de las tres cartas de corazones de una baraja. P(AC)=P(A)+P(C)- P(AC) P(AC)=(4/52) + (13/52) - (1/52) = 16/52 En un curso de Métodos Cuantitativos para la toma de decisiones. De 200 estudiantes inscritos en el curso, 160 aprobaron el examen parcial, 140 aprobaron el examen final y 124 aprobaron ambos. A = evento de aprobar el examen parcial B = evento de aprobar el examen final P(A) = 160/200 = 0.80 P(B) = 140/200 = 0.70 P(AB) = 124/200 = 0.62 P(AB)= P(A) + P(B) - P(AB) = 0.80 + 0.70 – 0.62 = 0.88 La probabilidad de que un hombre sea un trabajador hombre o un trabajador administrativo. P(HA)=P(H)+P(A)- P(HA) = 0.60+0.34-0.24 = 0.70 Probabilidad del evento A o del evento B (cuando los eventos son mutuamente excluyentes). P(AUB) = P(A) + P(B) Eventos mutuamente excluyentes. Los sucesos A y B son mutuamente exclusivos si no pueden ocurrir simultáneamente. Si la ocurrencia de un evento prohíbe la ocurrencia del otro. Si A y B son mutuamente excluyente P(AB)= 0 Ejercicios 18 al 22 - Pág. 90 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 74 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 75 Teorema de Bayes. Este fue desarrollado por el reverendo Thomas Bayes (1702-1761). Asumimos: Una industria X utiliza dos máquinas para producir su producto. La máquina A produce el 60% de la producción total. La máquina B produce el 40% restante. El 2% de las unidades producidas por A son defectuosas. Las unidades de B tienen un 4% de defectos. Podríamos decir: P(A) = 0.60 P(D\A) = 0.02 P(D'\A) = 0.98 P(B) = 0.40 P(D\B) = 0.04 P(D'\B) = 0.96 P(AD') = P(A) * (D'\A) = 0.60 * 0.98 = 0.588 P(AD) = P(A) * (D\A) = 0.60 * 0.02 = 0.012 P(BD') = P(B) * (D'\B) = 0.40 * 0.96 = 0.384 P(BD) = P(B) * (D\B) = 0.40 * 0.04 = 0.016 según la probabilidad condicional. P(A\D) = P(AD)/P(D) = [P(A) * P(D\A)]/P(D) Sin embargo, para la P(D) existen dos formas en las cuales la unidad puede ser defectuosa. Utilizando la regla de la adición. P(D) = P(AD) + P(BD) P(D) = P(A) * P(D\A) + P(B) * P(D\B) Teorema de Bayes. P(A\D) = P(AD)/P(D) P(A\D) = P(AD)/[P(AD) + P(BD)] P(A\D)=P(A)*P(D\A)]/[P(A)*P(D\A) + P(B)* P(D\B)] P(A\D)=0.012/(0.012+0.016)=0.429 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 75 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 76 Técnicas de conteo basadas en el Análisis Combinatorio. Permutaciones. Son las diferentes agrupaciones que pueden formarse con n elementos, entrando todos en cada agrupación y diferenciándose una de otra sólo en el orden de colocación de los elementos. Las permutaciones pueden ser sin repetición si los n elementos dados son diferentes, y con repetición si entre los n elementos dados hay algunos o algunos que aparecen repetidos. La permutación es un arreglo ordenado de un conjunto de elementos. El número de permutaciones de n elementos tomados r a la vez es: nPr = n!/(n-r)! Nota: La permutación considera el orden de los elementos de los subconjuntos. Combinaciones. Son las diferentes formaciones que podemos hacer con n elementos diferentes entrando de n en r; pudiendo ser r <= n, de modo tal que dos formaciones solo se diferencian en la naturaleza de uno de sus elementos por lo menos. El número de combinaciones de n elementos tomados r a la vez es: nCr = n!/r!(n-r)! Nota: La combinación no considera el orden de los elementos de los subconjuntos. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 76 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 77 Caso I. Suponga que el 60% de los chips de computadora de una compañía se producen en una de sus fábricas (denotada por A) y 40% se producen en su otra fábrica (denotada A'). Para un chip seleccionado al azar, la probabilidad de que haya provenido de la fábrica A es de 0.60. Suponga que se entera de que el chip esta defectuoso y que las tasas de defectos para las dos fábricas son del 35% (para A) y del 25% (para A'). Podemos usar la fórmula del Teorema de Bayes para determinar que hay una probabilidad del 0.677 de que el chip defectuoso haya provenido de la fábrica A. Construya el diagrama de árbol. P(A|D)=[P(A)*P(D|A)]/[P(A)*P(D|A)+P(A')* P(D|A')] Caso II. Una empresa manufactura recibe embarque de partes de dos proveedores distintos. Actualmente el 65% de las partes que compra proviene del proveedor 1 y el 35% restante del proveedor 2. Los datos históricos sugieren que la calidad de las partes varía según su origen. El desempeño en término de calidad de los dos proveedores es el siguiente: Porcentaje de piezas buenas del proveedor 1 es de 98% Porcentaje de piezas buenas del proveedor 2 es de 95% A) Determine las probabilidades conjuntas de eventos dependientes de piezas buenas y malas según su origen. B) Construya el diagrama de árbol con las dos etapas antes mencionadas. C) Demuestre el Teorema de Bayes P(Proveedor 1 | Piezas Malas) Caso III. La Autoridad Metropolitana de Transporte AMET está formada por 1200 oficiales, 960 hombres y 240 mujeres. El pasado 27 de febrero fueron ascendidos 324 oficiales, 288 hombres y 36 mujeres. A) Construya una tabla de contingencia tomando en consideración el género y oficiales ascendidos y no ascendidos. B) Construya la tabla de probabilidades. C) Probabilidad de que un oficial seleccionado al azar sea hombre y también que sea ascendido. D) Probabilidad de que un oficial seleccionado al azar sea mujer y también que sea ascendido. E) Probabilidad de que un oficial seleccionado al azar sea hombre y también que no sea ascendido. F) Probabilidad de que sea ascendido dado que sea una mujer. G) Probabilidad de que no sea ascendido dado que sea una mujer. H) Probabilidad de que dos oficiales seleccionados al azar sean ascendidos. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 77 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 78 Caso IV. Una fábrica utiliza tres máquinas X, Y, Z para producir ciertos artículos. Supongamos que: 1. La máquina X produce el 50% de todos los artículos, de los cuales el 3% son defectuosos. 2. La máquina Y produce el 30% de todos los artículos, de los cuales el 4% son defectuosos. 3. La máquina Z produce el 20% de todos los artículos, de los cuales el 5% son defectuosos. a. Encuentre la probabilidad de que el artículo seleccionado aleatoriamente sea defectuoso. b. Suponga que se ha encontrado un artículo defectuoso, entre la producción. Encuentre la probabilidad de que este provenga de cada una de las máquinas, es decir, de X, Y, y Z. c. Construya el diagrama de árbol. Caso V. Un fabricante de videorreproductoras de casete (VCR) compra un microchip en particular, llamado LS-24, a tres proveedores: Hall Electronics, Schuller Sales y Crawford Components. 30% de los chips LS-24 se compran a Hall Electonics, 20% a Schuller Sales y el 50% restante a Crawford Components. El fabricante tiene registro de los tres fabricantes y sabe que el 3% de los chips de Hall Electronics están defectuosos, el 5% de los chips de Schuller Sales tienen defectos y el 4% de los chips comprados a Crawford Components están defectuosos. Identifique los chips: A1 = El LS-24 de Hall Electronics A2 = El LS-24 de Schuller Sales A3 = El LS-24 de Crawford Components. B1 = El LS-24 está defectuoso B2 = El LS-24 no está defectuoso. 1. Construya un diagrama de árbol que incluya las probabilidades conjuntas. 2. Calcule la probabilidad de que la parte seleccionada provenga de de Crawford Components, debido a que era un chip aceptable. 3. Calcule la probabilidad de que el chip LS-24 provenga de Schuller Sales, dado el hecho de que el chip seleccionado estaba defectuoso. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 78 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 79 Caso VI. Relación entre delincuente y victima Homicidios (H) Robo (R) Agresión (A) Extraño (E) 12 379 727 Conocido o Pariente (C) 39 106 642 No se sabe (N) 18 20 57 Totales 1118 787 95 69 2000 505 1426 DETERMINE: a) b) c) d) e) f) g) h) i) P(E) P(E|H) P(C) P(C|A) P(N) P(N|R) P(H) P(EH) P(CR) P(R) P(A) P(NA) Construya la tabla de probabilidades. Si se escoge aleatoriamente a una persona, ¿qué probabilidad hay que haya sido víctima de un extraño, dado que se escogió a una víctima de robo? Dado que se seleccionó a una víctima de agresión, ¿qué probabilidad hay de que el delincuente sea un extraño? Calcule la probabilidad de que cuando se selecciona aleatoriamente a uno de los 2000 sujetos, la persona escogida haya sido robada por un conocido o un pariente. Si se escogen al azar dos sujetos distintos, calcule la probabilidad de que ambos hayan sido robados. Si se selecciona al azar a una de las víctimas de crímenes representadas en la tabla, calcule la probabilidad de obtener a una persona que fue víctima de alguien a quien no conoce o que haya sido asesinada. Si se selecciona al azar a una de las víctimas de crímenes representadas en la tabla, calcule la probabilidad de obtener a una persona que fue víctima de un homicidio, dado que el criminal fue un extraño. Si se selecciona al azar a una de las víctimas de crímenes representadas en la tabla, calcule la probabilidad de obtener a una persona que fue víctima de un extraño, dado que fue asesinada. Si se escoge al azar dos sujetos distintos, calcule la probabilidad de que ambos hayan sido víctimas de criminales desconocidos. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 79 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 80 Distribución de Probabilidades (Probability distribution) La Distribución Binomial (Binomial Distribution) - Una Distribución Discreta de Probabilidad. Desarrollada por Jacob Bernoulli (1654-1705). Esta se caracteriza por las siguientes propiedades: - Sólo debe haber dos posibles resultados. - La probabilidad de un éxito , sigue siendo constante de un ensayo al siguiente, al igual que lo hace la probabilidad de fracaso, 1 - . - La probabilidad de un éxito en un ensayo es totalmente independiente de cualquier otro ensayo. - El experimento puede repetirse muchas veces. Una distribución binomial. Cada ensayo en una distribución binomial termina en solo uno de dos resultados mutuamente excluyentes, uno de los cuales se identifica como un éxito y el otro como un fracaso. La probabilidad de cada resultado permanece constante de un ensayo al siguiente. Eventos mutuamente excluyentes. Los sucesos A y B son mutuamente exclusivos si no pueden ocurrir simultáneamente. Si la ocurrencia de un evento prohíbe la ocurrencia del otro. Probabilidad de una x n-x Distribución Binomial P(x)=nCx()(1-) n = número de ensayos. = probabilidad de un éxito. x = número de éxitos. Combinaciones. Son las diferentes formaciones que podemos hacer con n elementos diferentes entrando de n en r; pudiendo ser r <= n, de modo tal que dos formaciones solo se diferencian en la naturaleza de uno de sus elementos por lo menos. El número de combinaciones de n elementos tomados r a la vez es: nCr = n!/r!(n-r)! Nota: La combinación no considera el orden de los elementos de los subconjuntos. Caso I. Solo 20% de los empleados de la población civil que está en una base militar restringida, porta su identificación personal. Si llegan 10 empleados, cual es la probabilidad de que el guardia de seguridad encuentre: a. ¿Ocho empleados con identificación? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 80 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 81 Probabilidad de una x n-x Distribución Binomial P(x)=nCx()(1-) n = 10 empleados = 0.20 x=8 8 10-8 P(x=8|n=10,=0.20)=10C8(0.20) (1-0.20) = Use la Calculadora o la Tabla de Distribución Binomial - Págs. 584-588 b. ¿Cuatro empleados con identificación? 4 10-4 P(x=4|n=10,=0.20)=10C4(0.20) (1-0.20) = c. ¿A lo sumo 5 empleados con identificación? P(x<=5|n=10,=0.20)= P(X=0)+P(X=1)+P(X=2)+ P(X=3)+P(X=4)+P(X=5)=0.9986 012345 678910 Evento A Distribución Binomial Acumulada esta comprende un rango de valores. Use la Calculadora o la Tabla de Distribución Binomial Acumulada - Págs. 589-598 d. ¿Por lo menos 4 empleados con identificación? P(x>=4|n=10,=0.20)=1-P(x<=3|n=10,=0.20) 0123 45678910 Evento A' Evento A Use la Calculadora o la Tabla de Distribución Binomial Acumulada - Págs. 589-598 Distribución Binomial Acumulada no da directamente la probabilidad de que un número de éxito sea igual o mayor que alguna cantidad. e. ¿Entre 4 y 7 empleados inclusive con identificación? P(4<=x<=7|n=10,=0.20)=P(x<=7|n=10,=0.20)P(x<=3|n=10,=0.20) Evento A 0123 4567 8910 P(X<=3) P(X<=7) Use la Calculadora o la Tabla de Distribución Binomial Acumulada - Págs. 589-598 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 81 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 82 Caso II. El 80% de los estudiantes de Métodos Cuantitativos I del maestro Rubén Estrella pueden conectarse a INTERNET. ¿Cuál es la probabilidad de que en el próximo fin de semana de 10 estudiantes seleccionados aleatoriamente, 6 estén conectados para verificar si le llego el archivo de "distribución de probabilidades"? Probabilidad de una x n-x Distribución Binomial P(x)=nCx()(1-) n = 10 estudiantes = 0.80 ==> 0.80 > 0.50 x=6 ¿Cuál es la probabilidad de que no estén conectados (de no éxito)? '=1- 0 1 2 3 4 5 6 7 8 9 10 ( = 0.80) 10 9 8 7 6 5 4 3 2 1 0 ( = 0.20) en lugar de hallar x éxitos en , se halla: n-x fracasos a 1 - 6 éxitos a = 0.80 = 4 fracasos a = 0.20 P(x=6|n=10,=0.80)=P(x=4|n=10,=0.20) Use la Calculadora o la Tabla de Distribución Binomial - Págs. 584-588 Media de una Distribución Binomial. E(X)==n Varianza de una Distribución Binomial. ²=n(1-) Caso III. Una universidad se enteró de que el 20% de sus alumnos se dan de baja del curso de Métodos Cuantitativos para Negocios. Suponga que en este cuatrimestre se inscribieron 32 alumnos. a. ¿Cuál es la probabilidad de que dos o menos se den de baja? b. ¿Cuál es la probabilidad de que se den de baja exactamente cuatro? c. ¿Cuál es la cantidad esperada o media de deserciones? d. ¿Cuál es la probabilidad de que por lo menos 3 se den de baja? e. ¿Cuál es la probabilidad de que se den de baja entre 5 y siete inclusive? f. ¿Cuál es la probabilidad de que a lo sumo 6 se den de baja? g. ¿Qué tan dispersos están los datos? Ejercicios 6 al 12 Pág. 113 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 82 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 83 La Distribución hipergeometrica (Hypergeometric Distribution) Si se selecciona una muestra sin reemplazo de una población finita conocida y contiene una proporción relativamente grande de la población, de manera que la probabilidad de éxito sea perceptiblemente alterada de una selección a la siguiente, debe utilizarse la distribución hipergeométrica. La distribución hipergeométrica de probabilidad se relaciona estrechamente con la distribución binomial. La diferencia principal entre las dos estriba en que, con la distribución hipergeométrica, los intentos no son independientes, y en que la probabilidad de éxito cambia de un intento a otro. P(x)=[(rCx)*(N-rCn-x)]/(NCn) N r n x es el tamaño de la población. es el número de éxitos en la población. es el tamaño de la muestra. es el número de éxitos en la muestra. (rCx) representa la cantidad de manera en las que se puede seleccionar x éxitos de un total de r éxitos de la población. (N-rCn-x) representa la cantidad de maneras en que se pueden seleccionar n-x fracasos de un total de N-r fracaso en la población. (NCn) representa la cantidad de formas en las que se puede seleccionar una muestra de tamaño n de un población de tamaño N. Caso I. Jovanna Meléndez como gerente de Recursos Humanos debe contratar a 10 personas entre 30 candidatos, 22 de los cuales tienen títulos universitarios. ¿Cuál es la probabilidad de que 5 de los que contrate tengan un título? N=30 candidatos r=22 candidatos con títulos n=10 candidatos a contratar x=5 candidatos con títulos P(x)=[(rCx)*(N-rCn-x)]/(NCn) P(x=5)=[(22C5)*(30-22C110-5)]/(30C10) nCr = n!/r!(n-r)! Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 83 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 84 B) ¿Cuál es la probabilidad de que a lo sumo 4 de los que contrate tengan un título? P(x<=4)=P(x=1)+P(x=2)+P(x=3)+P(x=4) Ejercicios del 13 al 17 - Pág. 115. La Distribución de Poisson (Poisson Distribution). Es una distribución de probabilidad discreta que aplica a ocurrencias de algún suceso dentro de un intervalo especificado. La variable aleatoria x es el número de ocurrencias del suceso en el intervalo. El intervalo puede ser tiempo, distancia, área, volumen o alguna unidad similar. La distribución de Poisson se utiliza frecuentemente para el modelado de tasas de llegadas en situaciones de espera en fila. Fue ideada por el matemático francés Simeón Poisson (1781-1840). Esta mide la probabilidad de un evento aleatorio sobre algún intervalo de tiempo o espacio. Se basa en dos supuestos: 1.- La probabilidad de ocurrencia del evento es constante para dos intervalos cualesquiera de tiempo o espacio de igual longitud. 2.- La ocurrencia del evento en un intervalo es independiente de la ocurrencia de otro intervalo cualquiera. Función de probabilidad x - de Poisson P(x)=( * e)/x! x es el número de veces que ocurre el evento. es el número promedio de ocurrencias por unidad de tiempo o de espacio. e = 2.71828, la base del logaritmo natural. La Media es La desviación estándar es = Caso I. Carmín Guzmán, gerente de trafico de telecomunicaciones del Banco Popular, está evaluando el flujo de las llamadas telefónicas recibidas. Para tal fin selecciona la central telefónica del Banco Popular de Plaza Central, a la cual llegan 2 llamadas por minuto promedio y se sabe que tiene distribución de Poisson. Si el operador se distrae por un minuto, cual es la probabilidad de que el número de llamadas no respondidas sea: a) ¿cero? b) ¿Por lo menos 1? c) ¿Entre 3 y 5, inclusive? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 84 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 85 Función de probabilidad de Poisson x - P(x)=( * e)/x! a) ¿cero? =2 llamadas / minuto x=0 llamada no respondida e=2.71828 Función de probabilidad de Poisson 0 -2 P(x=0|=2)=(2 * 2.71828)/0! Use la Calculadora o la Tabla de Distribución de Poisson - Págs. 599-604. b) ¿Por lo menos 1? =2 llamadas / minuto x>=1 llamadas no respondidas e=2.71828 Función de probabilidad de Poisson P(x>=1|=2)=1-P(x=0) c) ¿Entre 3 y 5, inclusive? =2 llamadas / minuto 3<=x<=5 llamadas no respondidas e=2.71828 Función de probabilidad de Poisson P(3<=x<=5|=2)=P(<=5)-P(x<=2) =P(x=0)+P(x=1)+P(x=2)+P(x=3)+P(x=4)+P(x=5)P(x=0)+P(x=1)+P(x=2) Evento A 012 345 678 P(X<=2) P(X<=5) Use la Calculadora o la Tabla de Distribución de Poisson - Págs. 599-604. Caso II. El cable utilizado para asegurar las estructuras de los puentes tiene un promedio de 3 defectos por cada 100 yardas. Si usted necesita 50 yardas, a. ¿cuál es la probabilidad de que haya una defectuosa? b. ¿cuál es la probabilidad de que haya dos o más defectuosas? Ejercicios del 18 al 21 - Pág. 118. Para entregar: Investigar la diferencia entre la distribución de Poisson y la distribución binomial. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 85 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 86 Caso I. El gerente de Anthony, basado en su experiencia, estima que la probabilidad de que cualquier cliente compre es de 0.30. ¿Cuál es la probabilidad de que 4 de los de los siguientes 10 clientes que entren hagan una compra? Caso II. En una encuesta que se realizó se habló con cientos de estudiantes de edades de 18 a 28 años de finanzas personales. En la encuesta se encontró que 33% de los estudiantes tienen tarjeta de crédito. a. En una muestra de seis estudiantes, ¿Cuál es la probabilidad de que dos tengan tarjeta de crédito? b. En una muestra de seis estudiantes, ¿Cuál es la probabilidad de que por lo menos dos tengan tarjeta de crédito? c. En una muestra de diez estudiantes, ¿Cuál es la probabilidad de que ninguno tenga tarjeta de crédito? Caso III. El 50% de las industrias manufactureras de tamaño mediano planearon visitas de representantes de su administración a Canadá y México, para aprovechar las oportunidades que abrió el Tratado de Libre Comercio en Norteamérica. Un grupo exportador e importador de Toronto, Canadá, invitó a 20 manufactureras estadounidenses medianas a participar en una conferencia con el fin de investigar las oportunidades de negocios. a. ¿Cuál es la probabilidad de que 12 o más de estas empresas manden representantes? b. ¿Cuál es la probabilidad de que 5 de estas empresas, como máximo, manden representantes? Caso IV. El 40% de las personas que viajan por negocios llevan un teléfono celular o una computadora portátil (USA Today, 12 septiembre del 2000). En una encuesta de 15 personas, a. ¿Cuál es la probabilidad de que tres tengan un teléfono celular o una computadora portátil? b. ¿Cuál es la probabilidad de que doce no tengan ni teléfono celular ni una computadora portátil? c. ¿Cuál es la probabilidad de que por lo menos tres tengan un teléfono celular o una computadora portátil? Caso V. Al departamento de reservaciones de American Airlines llegan en promedio 48 llamadas por hora. a. Calcule la probabilidad de recibir tres llamadas en un intervalo de cinco minutos. b. Calcule la probabilidad de recibir diez llamadas en un intervalo de quince minutos. Caso VI. El promedio anual de las veces que los clientes de Air Santo Domingo toman vuelos locales por motivos de personales es 4. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 86 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 87 a. ¿Cuál es la probabilidad de que un cliente tome dos vuelos locales en un año por motivos personales? b. ¿Cuál es la probabilidad de que un cliente tome uno o más vuelos locales en un semestre? Caso VII. Según la revista Beverage Digest, la Coca clásica y la Pepsi ocuparon el primero y segundo lugares en la preferencia de las personas (The Wall Street Journal Almanac, 1998). Suponga que en un grupo de 10 personas, seis prefieren Coca clásica y cuatro prefieren Pepsi. Se selecciona una muestra aleatoria de tres miembros de ese grupo. a. ¿Cuál es la probabilidad de que exactamente dos prefieran Coca clásica? b. ¿Cuál es la probabilidad de que la mayoría (dos o tres) prefieran Pepsi? Caso VIII. Un embarque de 10 artículos contiene dos unidades defectuosas y ocho no defectuosas. Al revisarlo, se tomará una muestra y las unidades se inspeccionarán. Si se encuentra una unidad defectuosa, se rechazará todo el embarque. a. Si se selecciona una muestra de tres artículos, ¿cuál es la probabilidad de rechazar el embarque? b. Si se selecciona una muestra de cuatro artículos, ¿cuál es la probabilidad de rechazar el embarque? c. Si se selecciona una muestra de cinco artículos, ¿cuál es la probabilidad de rechazar el embarque? d. Si la gerencia estuviera de acuerdo en que hubiera una probabilidad de 0.90 de rechazar un embarque con dos defectuosas y ocho no defectuosas? Caso IX. De los 15 altos ejecutivos de un negocio de importaciones y exportaciones, se seleccionan 12 para ser enviados al Japón a estudiar un nuevo proceso de producción. Ocho de los ejecutivos ya tienen algo de entrenamiento en el proceso. ¿Cuál es la probabilidad de que 5 de los enviados tengan algo de conocimiento sobre el proceso antes de partir para el lejano oriente? Caso X. Supongamos que se está interesado en la probabilidad de que exactamente 5 clientes lleguen durante la siguiente hora. La observación simple de las últimas 80 horas ha demostrado que 800 clientes han entrado al negocio. Caso XI. Un fabricante en California le suministra un diseño de prototipo para una pieza de aeronave que requiere un negocio. Este nuevo producto, que es enviado en lotes de n = 12, sufre de una tasa de defectos de 40%. a. Si usted no desea un riesgo mayor del 10% en la probabilidad de que 5 de los 12 sean defectuosos ¿debería comprarle a ese distribuidor? b. Si usted no desea enfrentar un riesgo mayor del 20% de probabilidad de que más de 5 salgan defectuosos, debería comprarle a este proveedor? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 87 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 88 Caso XII. En el curso de una hora, una máquina específica llena 1,000 botellas de Cerveza Presidente. En cada uno de los intervalos, se selecciona aleatoriamente una muestra de 20 botellas y se verifica el volumen del contenido en cada una. Sea X el número de botellas seleccionada con contenido insuficiente. Suponga que en una hora específica se producen 100 botellas llenadas en forma deficiente. Calcule la probabilidad de que al menos tres botellas con contenido deficiente se incluyan en las muestreadas. Caso XIII. Se lanza una moneda 100 veces. Encuentre la probabilidad de que ocurra cara entre 48 y 53 veces inclusive. Caso XIV. Suponga que hay 300 errores de impresión distribuidos aleatoriamente a lo largo de un libro de 500 páginas. Encuentre la probabilidad P de que una página dada contenga: a) Exactamente 2 errores de impresión. b) 2 o más errores de impresión. c) Entre 3 y 5 errores inclusive. d) Exactamente 7 errores de impresión. Caso XV. PlayTime Toys, Inc. emplea a 50 personas en el Departamento de Ensamblaje. Cuarenta de los empleados pertenecen al sindicato y diez no. Se seleccionan cinco empleados al azar para formar un comité que va a hablar a la gerencia acerca de los horarios en que inician los turnos. ¿Cuál es la probabilidad de que cuatro de los cinco empleados seleccionados para el comité pertenezcan a un sindicato? Caso XVI. En un estudio reciente se descubrió que el 90% de las familias dominicanas tiene televisores. En una muestra de nueve familias, ¿Cuál es la probabilidad de que: a) Las nueves tengan televisores? b) Menos de 5 tengan televisores? c) Más de 5 tengan televisores? d) Al menos siete familias tengan televisores? e) Entre 3 y 8 inclusive tengan televisores? f) Determine el valor esperado o media. g) Determine la varianza h) Determine la desviación. Caso XVII. Claro hace planes para contratar este año a 5 analistas financieros. Hay un grupo de 12 candidatos aprobados, y el presidente de Claro, decide elegir al azar a quienes va a contratar. De los solicitantes aprobados, 8 son hombres y 4 mujeres. a) ¿Cuál es la probabilidad de que 3 de los 5 contratados sean hombres? b) ¿Cuál es la probabilidad de que 2 de los 5 contratados sean mujeres? c) ¿Cuál es la probabilidad de que menos de 4 de los 5 contratados sean hombres? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 88 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 89 Caso XVIII. Seguros UNIVERSAL asegura propiedades frente a la playa a lo largo de la región Este del País; el cálculo aproximado es que, cualquier año, la probabilidad de que un huracán de categoría III (vientos sostenidos de más de 110 millas por hora) o más intenso azote una región de la costa es de 0.05. Si un dueño de una casa veraniega obtiene un crédito hipotecario de 30 años por una propiedad recién comprada en Punta Cana, ¿Cuál es la probabilidad de que experimente por lo menos un huracán durante el periodo del crédito? Se recomienda determinar el valor esperado o media antes de calcular la probabilidad para determinar µ. Caso XIX. En una encuesta realizada se determinó que uno de cada 4 inversionistas dispone de fondos cotizados en bolsa en sus portafolios. Considere una muestra de 20 inversionistas. Calcule la probabilidad de que exactamente 4 inversionistas disponen de fondos cotizados en bolsa en sus portafolios. Calcule la probabilidad de que por lo menos dos tienen fondos contizados en bolsa en sus portafolios. Si usted encuentra que exactamente 12 inversionistas disponen de fondos cotizados en bolsa de portafolios, ¿dudaría de la exactitud de los resultados de la encuesta? Calcule el número esperado de inversionistas que tienen fondos cotizados en bolsa en sus portafolios. Caso XX. Los pasajeros e una línea aérea llegan al azar y de manera independiente a la instalación de revisión de pasajeros en un aeropuerto internacional. La razón media de llegadas es de 10 personas por minuto. Calcule la probabilidad de que no haya llegadas en un periodo de un minuto. Determine la probabilidad de que tres pasajeros o menos lleguen en un periodo de un minuto. Calcule la probabilidad de que no haya llegadas en un periodo de 15 minutos. Estime la probabilidad de cuanto menos una llegada en un periodo de 15 minutos. Caso XXI. Una encuesta de la Revista Fortune sirve como fuente para este problema, que su supervisor le solicita que resuelva. De los 10 empleados hombres, 7 tenían esposas que también trabajan. 1) ¿Cuál es la probabilidad de que a lo sumo un esposo tenga una esposa que esté empleada fuera de casa si se seleccionan 3 trabajadores al azar? 2) La encuesta reveló que 6 de los 10 empleados ganaban más de US$95,000 al año. De los 3 seleccionados, ¿cuál es la probabilidad de que todos tres ganen más de US$95,000? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 89 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 90 Caso XXII. Un gerente de crédito de VISA ha descubierto que el 10% de los usuarios de tarjeta no paga el monto completo de la deuda durante un mes dado. Desea determinar que de 20 usuarios seleccionados de manera aleatoria. 1) 5 no sean pagadas. 2) menos de 10 no sean pagadas. 3) entre 4 y 8 no sean pagadas. 4) determine el valor esperado. 5) determine la variabilidad. 7) a lo sumo 5 no sean pagadas. 8) como mínimo 3 no sean pagadas. 9) más de 10 no sean pagadas. 10) por lo menos 1 no sea pagada. Caso XXIII. Cada año más de 50 millones de huéspedes se hospedan en hoteles que ofrecen alojamiento y desayuno. El sitio web Bed and Breakfast Inns de Norteamérica, que recibe un promedio de siete visitantes por minuto, permite a muchos hoteles de este tipo atraer clientes. a) Calcule la probabilidad de que nadie visite el sitio web en un periodo de un minuto. b) Estime la probabilidad de dos o más visitantes al sitio web en un periodo de un minuto. c) Calcule la probabilidad de uno o más visitantes en un periodo de 30 segundos. d) Determine la probabilidad de cinco o más visitantes en un periodo de un minuto. Caso XXIV. Una encuesta de restaurantes de ZAGAT proporciona las calificaciones de los platillos, la decoración y el servicio de algunos restaurantes de Estados Unidos. Para 15 establecimientos ubicados en Boston, el precio medio de una cena, incluyendo una bebida y la propina, es de $48.60. Usted está de viaje de negocios en Boston y cenará en tres de estos restaurantes. Su empresa rembolsará un máximo de $50 por cena. Los socios de negocios familiarizados con estos establecimientos le han dicho que el costo de la cena en un tercio de los restaurantes de la encuesta rebasa los $50 por cena. Suponga que selecciona al azar tres de estos negocios para comer. a) ¿Cuál es la probabilidad de que ninguna de las cenas rebase el costo que cubre su empresa? b) ¿Cuál es la probabilidad de que una de las cenas supere el costo que cubre su empresa? c) ¿Cuál es la probabilidad de que dos de las cenas rebasen tal costo? d) ¿Cuál es la probabilidad de que tres de las cenas rebasen dicho costo? Caso XXV. Una encuesta reciente de la American Accounting Association reveló que 23% de los estudiantes graduados en contabilidad elige la contaduría pública. Suponga que elige una muestra de 15 recién graduados. a) ¿Cuál es la probabilidad de que dos hayan elegido contaduría pública? b) ¿Cuál es la probabilidad de que cinco hayan elegido la contaduría pública? c) ¿Cuál es la probabilidad de que ninguno haya elegido contaduría pública? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 90 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 91 d) ¿Cuántos graduados esperaría que eligieran contaduría pública? e) ¿Cuál es la dispersión en esta situación? f) ¿Cuál es la probabilidad de que a lo sumo seis hayan elegido la contaduría pública? g) ¿Cuál es la probabilidad de que por lo menos tres hayan elegido la contaduría pública? Caso XXVI. Un taller automovilístico tiene en existencia 10 transmisiones reconstruidas. De ellas, tres no funcionan correctamente y tienen algún defecto interno que causará problemas en las primeras 1,000 millas de recorrido. Cuatro de ellas seleccionadas aleatoriamente e instalan en los vehículos de los clientes. a) Calcule la probabilidad de que ninguna trasmisión defectuosa se instale. b) Calcule la probabilidad de que se instale exactamente una transmisión defectuosa. c) Calcule la probabilidad de que a lo sumo 2 trasmisiones sean defectuosa y se instale. Caso XXVII. En las últimas 80 horas han llegado a una bodega de recepción 240 camiones para ser descargados. Se tiene interés en la probabilidad de cierto número de arribos, como se indica a continuación. a) 5 arribos en la siguiente hora. b) ningún arribo en la siguiente hora c) a lo sumo 3 arribos en una hora d) 2 arribos en 30 minutos. e) Entre 4 y 8 arribos en 20 minutos. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 91 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 92 La distribución normal o gaussiana (Standard Normal Distribution) y la regla empírica (Empirical Rule) La distribución normal es una distribución de datos continuos (*) (no discretos) que produce una curva simétrica en forma de campana. La distribución gaussiana fue presentada por Karl Friedrich Gauss (1777-1855) en el 1812. La campana de Gauss o curva de distribución normal, curva de probabilidad normal; se caracteriza por: - Es unimodal. - Es simétrica (la simetría es perfecta). - La mitad izquierda de su histograma es aproximadamente una imagen especular de su mitad derecha. - La asimetría de la distribución es cero. - Las colas de la curva se aproximan más, pero nunca tocan, el eje horizontal. - La media, la mediana y la moda son iguales. - La mitad de las observaciones está por encima de la media y la mitad está por debajo. - Si las observaciones están altamente dispersas, la curva en forma de campana se aplanara y se esparcirá. La desviación estándar determina el ancho de la curva. A valores mayores de la desviación estándar se tienen curvas más anchas y bajas, que muestran una mayor dispersión en los datos. - El punto más alto de la curva normal es la media, que también es la mediana y la moda de la distribución. - El área total bajo la curva de la distribución normal de probabilidad es 1. (*) Variables continúas: Son las que pueden tomar cualquier valor dentro de un intervalo dado. Por muy próxima que puedan estar dos observaciones, si el instrumento de medida tiene la precisión suficiente siempre puede haber una tercera observación que caiga entre las dos primeras. Los valores de una variable continua proceden en general de mediciones, por ejemplo las cantidades de leche que las vacas producen son datos continuos porque son mediciones que pueden asumir cualquier valor dentro de un intervalo continuo. Se pueden obtener de un número infinito de posibles valores que pueden asociarse a puntos de una escala continua, de tal manera que no haya huecos ni interrupciones. La Regla Empírica o Regla 68-95-99. Esta regla solo aplica a un conjunto de datos cuya distribución tiene aproximadamente forma de campana. Esta afirma que: - Cerca del 68.26% de todos los puntajes u observaciones queda a menos de una desviación estándar de la media. - Cerca del 95.44% de todos los puntajes u observaciones queda a menos de dos desviaciones estándar de la media. - Cerca del 99.7% de todos los puntajes u observaciones que a menos de tres desviaciones estándar de la media. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 92 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 93 La Desviación Normal o Formula Z. Z = (X - )/ Valor de Z: Es el número de desviaciones estándar a las que una observación está por encima o por debajo de la media. X es algún valor específico de la variable aleatoria. es la media es la desviación estándar Caso I. Claudia Cáffaro en su viaje que realizo en el fin de semana pasado, para reunirse con los funcionarios de la Casa Matriz de diseño de modas a la cual pertenece, determinaron que el público al cual se dirigen estaba en constante cambio en su tamaño físico y en sus proporciones. Por lo que realizaron un estudio y llegaron a la conclusión de que las estaturas de sus clientes estaban distribuidas normalmente alrededor de una media de 67 pulgadas, con una desviación estándar de 2 pulgadas. Si Claudia fuera a expresar en Valor de Z la estatura de dos de sus clientes, que tienen 64 y 73 pulgadas respectivamente. Que debe hacer? También represéntelo gráficamente. La Desviación Normal o Formula Z. Z = (X - )/ Si se selecciona aleatoriamente a un cliente del negocio de Claudia: 1. ¿Cuál es la probabilidad de que la estatura del mismo esté entre 67 y 69 pulgadas? 2. ¿Cuál es la probabilidad de que la estatura del cliente sea superior a 69 pulgadas? 3. ¿Cuál es la probabilidad de que la estatura del cliente sea inferior a 69 pulgadas? 4. ¿Cuál es la probabilidad de que la estatura de esté entre 64.5 y 70.3 pulgadas? 5. ¿Cuál es la probabilidad de que la estatura de esté entre 69.3 y 70.5 pulgadas? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 93 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 94 Aproximación de la distribución Binomial a la distribución Normal. Media de una Distribución Binomial. E(X) = = n = np Varianza de una Distribución Binomial. ² = n(1- ) = npq _______ ____ Desviación ² = √n(1- ) = √ npq Si n es muy grande. p = = denota probabilidad de tener éxito en uno de los n ensayos. q = denota la probabilidad de fracasar en uno de los n ensayos. p+q=1 p=1–q q=1–p n > 5 np > 5 n(1- ) > 5 nq > 5 Si n es muy grande y np y nq son mayores que 5, p se aproxima a 0.5, podemos aproximar. Caso: El 40% de los sindicalistas del Sindicato quiere huelga. Si seleccionan 15 miembros ¿Cuál es la probabilidad de que 10 apoyen un paro? Probabilidad de una x n-x Distribución Binomial P(x) = nCx () (1-) 10 15-10 P(x=10|n=15, =0.40) = 15C10*(0.40)*(1-0.40) = 3003 * 0.0001049 * 0.07776 = 0.02449 1) Media de una Distribución Binomial. E(X) = = n = np = 15 * 0.40 = 6 2) Varianza de una Distribución Binomial. ² = n(1- ) = npq = 15 * 0.40 * 0.60 = 3.6 ______ ____ 3) Desviacion = √n(1- ) = √ npq = 1.89737 4)Factor de Correccion de Continuidad X – 0.5 = 10 – 0.5 = 9.5 X + 0.5 = 10 + 0.5 = 10.5 5) Z = (9.5 – 6) / 1.89737 = 1.85 Z = (10.5 – 6) / 1.89737 = 2.37 6) P(9.5 ≤ X ≤ 10.5) = P(1.85 ≤ Z ≤ 2.37) = 0.4911 – 0.4678 = 0.0233 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 94 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 95 El Teorema del Limite Central indica que en el caso de muestras grandes (n > 30), la distribución de las medias de muestra es aproximadamente normal con media y desviación estándar /n. Provocando así una variación de la ecuación: = (X' - )/(/n) La regla general es que si n es por lo menos 30, el Teorema del Limite Central asegurara una distribución normal en las medias muestrales incluso si la población no es normal. Caso I. Los tiempos de reemplazo de los reproductores de CD tienen una distribución normal con una media de 7.1 años y una desviación estándar de 1.4 años (basados en datos de "Getting Things Fixed", Consumer Reports). Determine la probabilidad de que un reproductor de CD seleccionado al azar tenga un tiempo de reemplazo de menos de 8 años. Caso II. Suponga que los pesos del papel desechado por los hogares cada semana estan normalmente distribuidos con un media de 9.4 lbs y una desviación estándar de 4.2 lbs. Determine la probabilidad de seleccionar aleatoriamente un hogar y obtener uno que desecha entre 5 y 8 lbs de papel en una semana. Caso III. Segun la International Mass Retail Association, las muchachas estadounidenses entre los 13 y 17 años gastan en promedio US$31.2 dólares al mes cuando van de compras. Suponga que las cantidades tienen una distribución normal con una desviación estándar de US$8.27 dólares. Si seleccionamos al azar a una muchacha perteneciente a esa categoria de edades, ¿qué probabilidad hay de que gaste entre US$35 y US$40 dólares en un mes? Caso IV. Los puntajes de cociente intelectual (IQ) están distribuidos normalmente con una media de 100 y una desviación estándar de 15. Mensa es una organización para personas con cociente intelectual elevado, y solo acepta personas con un IQ mayor que 131.5. Si se escoge aleatoriamente a una persona, determine la probabilidad de que satisfaga el requisito de Mensa. Caso V. VERIZON registro los mensajes telefónicos para sus clientes, los cuales promediaron 150 segundos, con una desviación estándar de 15 segundos. VERIZON desea determinar la probabilidad de que una sola llamada dure: a) Entre 145 y 150. b) Sea mayor que 145. c) Sea menor que 155. d) Entre 145 y 155. e) Sea Mayor que 155. f) Entre 160 y 170 g) Entre 140 y 145. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 95 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 96 Caso VI. Cerca del 4.4% de los accidentes fatales de vehículos motorizados se debe a neumáticos defectuosos (basados en datos del Consejo Nacional de Seguridad de Estados Unidos). Si un estudio de seguridad de autopistas inicia con la selección de 750 casos fatales de choque de vehículos motorizados, estime la probabilidad de que exactamente 35 de ellos hayan sido causados por neumáticos defectuosos. Represente gráficamente la situación planteada. Caso VII. El promedio de los salarios en los bancos comerciales de New York es de US$22.87 por hora, con una desviación estándar de US$5.87. ¿Cuál debe ser su salario por hora si desea ganar (Represente gráficamente cada situación planteada: a. Más que el 80% de todos los empleados? b. Más que el 30% de todos los empleados? c. Menos que el 20% de todos los empleados? d. Más que el 50% de todos los empleados? Caso VIII. Los registros muestran que el 45% de todos los automóviles producidos por Ford Motor Company contiene partes importadas de Japón. ¿Cuál es la probabilidad de que los próximos 200 carros, 115 contengan partes japonesas. Represente gráficamente. Caso IX. El precio promedio del boleto de entrada a un juego de béisbol de ligas mayores fue de $11.98 dólares en 1998 (USA Today, 1 de noviembre de 1998). Sumando a los boletos el costo de alimentos, estacionamiento y souvenirs, el costo promedio aproximado fue de $110.00 dólares para una familia de 4 miembros, con una desviación de $20.00 dólares. a. ¿Cuál es la probabilidad de que una familia gaste más de $100.00 dólares? b. ¿Cuál es la probabilidad de que una familia gaste $90.00 dólares o menos? c. ¿Cuál es la probabilidad de que una familia gaste $80.00 dólares a 130 dólares? d. ¿Cuál es la probabilidad de que una familia gaste entre $120.00 dólares y 130 dólares? e. ¿Cuál es la probabilidad de que una familia gaste entre $95.00 dólares y 100 dólares? f. ¿Cuál debe ser el gasto de una familia que está por encima del 80% de los datos evaluados? g. ¿Cuál debe ser el gasto del 50% de las familias de 4 miembros? h. ¿Cuál debe ser el gasto de una familia que separa el 40% del 60 restante de los datos evaluados? i. Si se toma una muestra de 50 familias, ¿cuál es la probabilidad de que gasten entre 115.00 dólares y 125.00 dólares? Caso X. ¿Cuál es el ingreso que separa el 10% de la gente más pobre del 90% restante de la población dominicana? Si el ingreso medio es de RD$5,200 y la desviación es de RD$1,300. Ejercicios 32, 34, 35 y 36 de las págs. 133-134 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 96 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 97 Caso XI. El 40% de los sindicalistas del Sindicato quiere huelga. Si seleccionan 15 miembros ¿Cuál es la probabilidad de que 10 apoyen un paro? Caso XII. Los registros muestran que 45% de todos los automóviles producidos por Ford Motor Company contienen partes importadas de Japón. ¿Cuál es la probabilidad de que los próximos 200 carros, 115 contengan partes japonesas? Caso XIII. Cuando usted firma un contrato para obtener una tarjeta de crédito, ¿lo lee detenidamente? En una encuesta de FindLaw.com se preguntó a las personas: ¿Cuánto cuidado pone al leer un contrato de tarjeta de crédito? (USA Today, 16 de octubre de 2003). Los hallazgos arrojaron que 44% lee cada palabra, 33% lee lo suficiente para entender el contrato, 11% sólo le da un vistazo y 4% no lo lee. 1) Para una muestra de 500 personas, ¿Cuántas esperaría que dijeran que leen cada palabra de un contrato de tarjeta de crédito? 2) Para una muestra de 500 personas, ¿Cuál es la probabilidad de que 200 o menos digan que leen cada palabra de un contrato de tarjeta de crédito? Resuelva por aproximación y compare ambas probabilidades. 3) Represente gráficamente el punto 2. Caso XIV. La distribución de los ingresos anuales de un grupo de empleados de mandos medios en Compton Plastics se aproxima a una distribución normal, con una media de $47,200 y una desviación estándar de $800. 1)¿Entre que par de valores de los ingresos anuales se encuentran aproximadamente el 68.26%? 2)¿Entre que par de valores de los ingresos anuales se encuentran aproximadamente el 95.44%? 3) ¿Cuál es ingreso anual que está a más del 80%? 4) ¿Cuál es ingreso anual que está a más del 30%? 5) ¿Cuál es ingreso anual que está a menos del 20%? 6) ¿Cuál es ingreso anual que está a más del 50%? Caso XV. La Administración de Pizzarelli se da cuenta de que el 70% de sus nuevos clientes regresa a comer. Si seleccionan aleatoriamente a 80 clientes, ¿cuál es la probabilidad de que 60 o más regresen a consumir pizza? Resuelva por aproximación, compare ambas probabilidades y Represente gráficamente. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 97 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 98 Caso XVI. Orange planea instalar nuevos equipos que mejorarían la eficiencia de sus operaciones. Sin embargo, antes de que los ejecutivos puedan decidir si dicha inversión será eficaz en función de los costos, deben determinar la probabilidad de una muestra de n = 35, basados en estudios previos donde se determinó que la duración media de las llamadas es de 150 segundos con una desviación estándar de 15 segundos. a) Entre 145 y 150. b) Sea mayor que 145. c) Sea menor que 155. d) Entre 145 y 155. e) Sea Mayor que 155. f) Entre 160 y 170 g) Entre 140 y 145. Caso XVII. Se emprende un estudio para investigar la relación del tabaquismo en mujeres embarazadas con los defectos de nacimiento en los hijos. De las madres estudiadas, 40% fuma y 60% no lo hace. Cuando nacen sus hijos, existe algún tipo de defecto congénito en 20. Sea X el número de hijos cuya madre fumó durante el embarazo. a) ¿Cuál es la probabilidad de que 12 o más de los niños sean hijos de madres fumadoras? b) Resuelva por aproximación y compare ambas probabilidades. c) Represente gráficamente. d) Interprete los resultados. Caso XVIII. Suponga que el 4% de la población mayor de 65 años tiene la enfermedad de Alzheimer. Suponga que se toma una muestra aleatoria de 3,500 personas mayores de 65. a) Encuentre la probabilidad de que menos de 150 de ellas tengan la enfermedad. b) Resuelva por aproximación y compare ambas probabilidades. c) Represente gráficamente. d) Interprete los resultados. Caso XIX. Al medir los miligramos de glucosa por decilitro de sangre, se obtiene una variable aleatoria X continua. Después de 12 horas de ayuno, la media es de 85 y una desviación de 25 (después de 50 años de edad, la media y la desviación estándar tienden a aumentar). ¿Cuál es la probabilidad de que después de 12 horas de ayuno, un adulto menor de 50 años elegido aleatoriamente reporte: a) un valor de mayor de 60? Represente gráficamente e Interprete. b) Menor que 85? Represente gráficamente e Interprete. c) Entre 60 y 85 inclusive? Represente gráficamente e Interprete. d) mayor que 140 (la frontera de la diabetes empieza en 140). Represente gráficamente e Interprete. e) ¿Entre que par de valores se encuentran aproximadamente el 68.26%? Represente gráficamente e Interprete. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 98 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 99 f)¿Entre que par de valores se encuentran aproximadamente el 95.44%? Represente gráficamente e Interprete. g) ¿Cuál es el valor que está a más del 80%? Represente gráficamente e Interprete. h) ¿Cuál es el valor que está a más del 30%? Represente gráficamente e Interprete. i) ¿Cuál es el valor que está a menos del 20%? Represente gráficamente e Interprete. j) ¿Cuál es el valor que está a más del 50%? Represente gráficamente e Interprete. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 99 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 100 Distribución Muestral Generalmente las poblaciones son demasiado grandes como para ser estudiadas en su totalidad. Es necesario seleccionar una muestra representativa de un tamaño más manejable. Esta muestra se utiliza luego para sacar conclusiones sobre la población. Distribución Muestral: Es una lista de todos los valores posibles para un estadístico y la probabilidad relacionada con cada valor. Error de Muestreo: Es la diferencia entre el parámetro poblacional y el estadístico de la muestra para estimar el parámetro. X'-X" X'- Parámetro: Es una medición numérica que describe alguna característica de una población. - Medida descriptiva de la población completa de observaciones que tienen interés para el investigador. Estadístico: Es una medición numérica que describe alguna característica de una muestra. El estadístico se utiliza como estimador del parámetro. Al confiar en una muestra para sacar alguna conclusión o inferencia sobre la población. Combinaciones. Son las diferentes formaciones que podemos hacer con n elementos diferentes entrando de n en r; pudiendo ser r <= n, de modo tal que dos formaciones solo se diferencian en la naturaleza de uno de sus elementos por lo menos. El número de combinaciones de n elementos tomados r a la vez es: nCr = n!/r!(n-r)! Nota: La combinación no considera el orden de los elementos de los subconjuntos. Caso I. Las ventas en miles de dólares de Electrom, S.A. durante los últimos 6 meses fueron de 70, 77, 73, 78, 85 y 80. Asumiendo que estos seis meses constituyen una población, la media claramente es = 77.17. El director de Marketing desea estimar esta media "desconocida" tomando una muestra de tamaño n=4. Se espera que el error de muestreo que es probable que ocurra sea relativamente pequeño. Realice la distribución muestral. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 100 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 101 1º Podemos obtener muchas muestras de tamaño 4. Específicamente 6C4 = 15 2º Construya la tabla en base a la cantidad de muestra del primer punto, indicando los elementos muéstrales (Xi), y Medias Muéstrales (X') 3º Construya la tabla con la Probabilidad de cada media muestral. 4º Calcule la media de las medias muéstrales. La Media de las Medias Muéstrales: X"= estándar de las medias muéstrales/K. Varianza de la Distribución Muestral de las Medias Muéstrales: ²x'=(X'-X")²/K Error Estándar de la Muestral de las Medias Muéstrales: x'=²x' Una aproximación cercana puede obtenerse mediante: ²x'=²/n x'=/n Si el tamaño de la muestra es más del 5% de la población, n>0.05N, debe aplicarse el factor de corrección para poblaciones finitas (fpc). Error Estándar utilizando el fpc: x'=(/n)((N-n/N-1)) (N-n/N-1) es el fpc. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 101 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 102 70 73 77 78 80 85 TABLA DE DISTRIBUCION MUESTRAL POBLACION ELEMENTOS VENTAS NUMERO DE MEDIA (X') LA MUESTRA MENSUALES MUESTRA (X) MUESTRAL 70 70 73 77 78 1 77 70 73 77 80 2 73 70 73 77 85 3 78 70 73 78 80 4 85 70 73 78 85 5 80 70 73 80 85 6 77.17 MEDIA 70 77 78 80 7 VARIANZA 70 77 78 85 8 DESVICION 70 77 80 85 9 70 78 80 85 10 73 77 78 80 11 73 77 78 85 12 73 77 80 85 13 73 78 80 85 14 77 78 80 85 15 MEDIA DE X' VENTAS VALORES DE CUADRADO DE MENSUALES DESVIACION X-X' VALORES DE DESV. ERROR DE MUESTREO (X'-X") CUADRADO DEL ERROR (X'X") VARIANZA ERROR ESTANDAR 70 77 73 78 85 80 MEDIA SUMATORIA VARIANZA DESVIACION SQRT Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 102 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 103 TABLA DE PROBABILIDADES F/K MEDIAS (X') FRECUENCIA P(X') Ejercicios 1 al 5 - Págs. 149-150 Teorema del Limite Central. A medida que n se vuelve más grande, la distribución de las medias muéstrales se aproxima a una distribución normal con una media X"= y un error estándar de x'=/n. A mayor n menor x' Por tanto, incluso si la población no está distribuida normalmente, la distribución de muestreo de las medias muéstrales será normal si n es lo suficientemente grande. La regla general es que si n es por lo menos 30, el Teorema del Limite Central asegurara una distribución normal en las medias muéstrales incluso si la población no es normal. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 103 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 104 En síntesis: Teorema del Límite Central: Dado que: 1.- La variable aleatoria x tiene una distribución (que podría ser o no normal) con media y una desviación estándar . 2.- Se seleccionan aleatoriamente muestras de tamaño n de esa población. Conclusiones: 1.- A medida que aumenta el tamaño de las muestras, la distribución de las medias de muestra se acercara a una distribución normal. 2. - La media de las medias de muestra será la media de la población X"=. 3.- La desviación estándar de las medias de muestra será x'=/n. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 104 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 105 Reglas prácticas de uso común: 1.- Para muestras de tamaño n mayor que 30, la distribución de las medias de muestra se puede aproximar razonablemente bien con una distribución normal. La aproximación es más exacta a medida que aumenta el tamaño de muestra n. 2.- Si la población original también está distribuida normalmente, las medias de muestra tendrán una distribución normal para cualquier tamaño de muestra n. El Teorema del Limite Central indica que en el caso de muestras grandes (n > 30), la distribución de las medias de muestra es aproximadamente normal con media y desviación estándar /n. Provocando así una variación de la ecuación: = (X' - )/(/n) La regla general es que si n es por lo menos 30, el Teorema del Limite Central asegurara una distribución normal en las medias muéstrales incluso si la población no es normal. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 105 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 106 Caso I. Tartus Industries cuenta con siete empleados de producción (a quienes se les considera población). En la tabla siguiente se incluyen los ingresos por hora de cada empleado. Empleado Joe Sam Sue Bob Jan Art Ted Ingresos por hora 7 7 8 8 7 8 9 Encontrar: a) La media de la población. b) La desviación estándar de la población. c) La media de la distribución muestral de media con muestras de tamaño 2. d) La desviación estándar de la distribución muestral de medias, es decir, el error estándar de las medias. e) La tabla de Probabilidades. Caso II. Los tiempos de servicio de los ejecutivos que laboran en Standard Chemicals son los siguientes: Nombre Snow Tolson Kraft Irwin Jones Años 20 22 26 24 28 a) ¿Cuántas muestras de tamaño 2 son posibles? b) Elabore una lista de todas las muestras posibles de 2 ejecutivos de la población y calcule las medias. c) Organice las medias en una distribución muestral. d) Compare la media poblacional y la media de las medias de las muestras. e) Compare la dispersión en la población con la dispersión de la distribución muestral de la media. f) Construya la tabla de probabilidades. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 106 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 107 Caso III. En el despacho de abogados hay seis socios. En la siguiente tabla se incluye el número de casos que en realidad atendió cada socio en los tribunales durante el mes pasado. Socio Ruud Wu Sass Flores Wilhelms Schueller Número de Casos 3 6 3 3 0 1 a) ¿Cuántas muestras de tamaño 3 son posibles? b) Elabore una lista de todas las muestras posibles de 3 de la población y calcule las medias. c) Organice las medias en una distribución muestral. d) Compare la media poblacional y la media de las medias de las muestras. e) Compare la dispersión en la población con la dispersión de la distribución muestral de la media. f) Construya la tabla de probabilidades. Caso IV. Hay cinco vendedores en Mi-Motors Ford. Los cinco representantes de ventas y el número de automóviles que vendieron la semana pasada son los siguientes. Representante de Ventas Peter Hankish Connie Stalter Juan Lopez Ted Bames Peggy Chu Autos Vendidos 8 6 4 10 6 a) ¿Cuántas muestras de tamaño 3 son posibles? b) Elabore una lista de todas las muestras posibles de 3 de la población y calcule las medias. c) Organice las medias en una distribución muestral. d) Compare la media poblacional y la media de las medias de las muestras. e) Compare la dispersión en la población con la dispersión de la distribución muestral de la media. f) Construya la tabla de probabilidades. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 107 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 108 Caso V. Una población consta de cinco números 2, 3, 6, 8, 11. Considerar todas las muestras posibles de tamaño dos que pueden extraerse con reemplazo de esta población. Encontrar: f) La media de la población. g) La desviación estándar de la población. h) La media de la distribución muestral de media. i) La desviación estándar de la distribución muestral de medias, es decir, el error estándar de las medias. j) La tabla de Probabilidades. Caso VI. De una lista de 500 firmas, sería posible obtener muchas muestras diferentes de tamaño 50. Específicamente se podría obtener 500C50 muestras diferentes de tamaño n=50. Debido a que 500C50 es un número más bien grande, se asume en aras de la simplicidad de la discusión, que se tiene una población de N = 4 ingresos para cuatro estudiantes universitarios. Estos ingresos son de $100, $200, $300 y $400. El ingreso promedio puede calcularse como µ=$250. a) ¿Cuántas muestras de tamaño 2 son posibles? b) Elabore una lista de todas las muestras posibles de 2 de la población y calcule las medias. c) Organice las medias en una distribución muestral. d) Compare la media poblacional y la media de las medias de las muestras. e) Compare la dispersión en la población con la dispersión de la distribución muestral de la media. f) Construya la tabla de probabilidades. Caso VII. Una población de las ventas semanales (en miles de dólares) en Blazing Salads, un restaurante vegetariano en Chicago, es 27, 32, 17, 21 y 32. a) Calcule e interprete la desviación poblacional. b) Determine n = 2 y desarrolle la distribución muestral. c) Calcule e interprete la desviación de la distribución muestral y compare con la desviación poblacional. d) Calcule e interprete la µ. e) Calcule e interprete la media de las medias muéstrales; y compare con la media poblacional. f) Construya la tabla de probabilidades. g) Ahora desarrolle la distribución muestral con n=3 h) Calcule la media de las medias muestrales y la desviación de la distribución muestral. Y Compare con las del punto c y e. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 108 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 109 Caso VIII. Orange registró los mensajes telefónicos de sus clientes, los cuales promedian 150 segundos, con una desviación de 15 segundos, por lo que planea instalar nuevos equipos que mejorarían la eficiencia de sus operaciones. Sin embargo, antes que los ejecutivos puedan decidir si dicha inversión será eficaz en función de los costos, deben determinar la probabilidad de que la media de una muestra de n = 35: b. Esté entre 145 y 150. c. Sea mayor que 145. d. Sea menor que 155. e. Esté entre145 y 155. f. Sea mayor que 155. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 109 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 110 Distribución de Proporciones Muéstrales Muchos asuntos de negocios tratan la proporción de la población . Una firma de marketing puede querer averiguar si un cliente (1) compra o (2) no compra el producto. Un banco con frecuencia debe determinar si un depositante (1) pedirá o (2) no pedirá un crédito para auto. Muchas firmas deben determinar la probabilidad de que un proyecto para presupuestar capital (1) generara o (2) no generara un rendimiento positivo. un cliente (1) compra (p = ) o (2) no compra el producto (q = 1 - ) un depositante (1) pedirá un crédito para auto (p = ) o (2) no pedirá un crédito para auto (q = 1 - ) Valor esperado (media) de la Distribución Muestra de la Proporción: E(p) = = ∑p/K Error estándar de la Distribución _______ ____ Muestra de la Proporción: p = (1-)/n = pq/n Si el tamaño de la muestra es más del 5% de la población, n>0.05N, debe aplicarse el factor de corrección para poblaciones finitas (fpc). Error estándar de la Distribución _______ ________ Muestra de la Proporción:p = (1-)/n * (N-n/N-1) ____ ________ p = pq/n * (N-n/N-1) Caso I. Publicidad Sarmiento pregunta a toda la población N=4 clientes si vieron el anuncio publicitario de Sarmiento en el periódico de esta mañana. Se registró una respuesta “si” como éxito, y “no” como fracaso. Los cuatros clientes S1, N2, N3 y S4. La proporción poblacional de éxitos es = 0.5. Se tomaron muestras de tamaño n = 2 (4C2 = 6), y la proporción de éxitos se registra en la siguiente tabla: p = x/n Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 110 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 111 Xi Núm. De éxitos P 1 S1, N2 1 0.50 2 S1, N3 1 0.50 3 S1, S4 2 1.00 4 N2, N3 0 - 5 N2, S4 1 0.50 6 N3, S4 1 0.50 TOTAL 3.00 Valor esperado (media) de la Distribución Muestra de la Proporción: E(p) = = ∑p/K = 3/6 = 0.5 Error estándar de la Distribución Muestra de la Proporción: p = (1-)/n * (N-n/N-1) ________ _______ p = 0.5*0.5/2 * (4-2/4-1) p = 0.35355339 * 0.81649658 = 0.289 Z = (p - )/p Caso II. BellLabs adquiere componentes para sus teléfonos celulares en lotes de 200 de una firma en Palo Alto. El componente tiene una tasa de defectos del 10%. Una política establecida recientemente por BellLabs establece que si el siguiente envío tiene: a. b. c. d. e. Más del 12% de defectos, definitivamente buscará un nuevo suplidor. Entre el 10 y el 12% de defectos, considerará un nuevo proveedor. Entre el 5 y 10% de defectos, definidamente no conseguirá un nuevo proveedor. Menos del 5% de defectos, incrementará sus pedidos. Cuál decisión es más probable que tome BellLabs? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 111 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 112 a. Más del 12% de defectos, definitivamente buscará un nuevo suplidor. Valor esperado (media) de la Distribución Muestra de la Proporción: E(p) = = 0.10 Error estándar de la Distribución Muestra de la Proporción: p = (1-)/n __________ p = 0.1*0.9/200 = 0.021 P(p > 0.12): Z = (p - )/p Z = (0.12 – 0.10)/0.021 = 0.95 Z = 0.95 área de 0.3289 P(p > 0.12) = P(Z > 0.95) = 0.5 - 0.3289 = 0.1711 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 112 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 113 b. Entre el 10 y el 12% de defectos, considerará un nuevo proveedor. Valor esperado (media) de la Distribución Muestra de la Proporción: E(p) = = 0.10 Error estándar de la Distribución Muestra de la Proporción: p = (1-)/n __________ p = 0.1*0.9/200 = 0.021 P(0.10 <= p <= 0.12): Z = (p - )/p Z = (0.12 – 0.10)/0.021 = 0.95 Z = 0.95 área de 0.3289 P(0.10 <= p <= 0.12) = 0.3289 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 113 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 114 c. Entre el 5 y 10% de defectos, definitivamente no conseguirá un nuevo proveedor. Valor esperado (media) de la Distribución Muestra de la Proporción: E(p) = = 0.10 Error estándar de la Distribución Muestra de la Proporción: Error Estándar p = (1-)/n __________ p = 0.1*0.9/200 = 0.021 P(0.05 <= p <= 0.10): Z = (p - )/p Z = (0.05 – 0.10)/0.021 = -2.38 Z = 2.38 área de 0.4913 P(0.05 <= p <= 0.10) = 0.4913 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 114 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 115 d. Menos del 5% de defectos, incrementará sus pedidos. Cúal decisión es más probable que tome BellLabs? Valor esperado (media) de la Distribución Muestra de la Proporción: E(p) = = 0.10 Error estándar de la Distribución Muestra de la Proporción: p = (1-)/n __________ p = 0.1*0.9/200 = 0.021 P(p < 0.05): Z = (p - )/p Z = (0.05 – 0.10)/0.021 = -2.38 Z = 2.38 área de 0.4913 P(p < 0.05) = 0.5 - 0.4913 = 0.0087 Webster: Ejercicios 9 al 12 - Pág. 157 Webster: Ejercicios 13 al 17 - Pág. 160 Webster: Ejercicios 18 al 46 - Pág. 164-166 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 115 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 116 Caso II. El 30% de todos los empleados de una empresa tienen capacitación avanzada. Si en una muestra de 500 empleados menos del 27% estaba preparado de forma adecuada, todos los nuevos contratos necesitarán registrarse en un programa de capacitación. ¿Cuál es la probabilidad de que inicie el programa? Valor esperado (media) de la Distribución Muestra de la Proporción: E(p) = = 0.30 Error estándar de la Distribución Muestra de la Proporción: p = (1-)/n ____________ p = 0.30*0.70/500 = 0.02049 P(p < 0.27): Z = (p - )/p Z = (0.27 – 0.30)/ 0.02049 = - 1.46 Z = -1.46 área de 0.4279 P(p < 0.27) = P(Z < -1.46) = 0.5 - 0.4279 = 0.0721 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 116 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 117 Caso III. La proporción de todos los clientes de Pizza Hut que comen en el sitio es del 75%. En una muestra de 100 clientes. ¿Cuál es la probabilidad de que menos del 20% lleven su comida a casa? Valor esperado (media) de la Distribución Muestra de la Proporción: E(p) = = 0.75 Comen en el Sitio Error estándar de la Distribución Muestra de la Proporción: p = (1-)/n ____________ p = 0.75*0.25/100 = 0.04330 P(p < 0.20): Z = (p - )/p Z = (0.20 – 0.25)/ 0.04330 = - 1.16 Z = -1.16 área de 0.3770 P(p < 0.20) = P(Z < -1.16) = 0.5 – 0.3770 = 0.1230 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 117 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 118 Caso IV. El Director de Distribuidora Corripio piensa que el 30% de los pedidos proviene de nuevos clientes. Para ver la proporción de clientes nuevos se usará una muestra aleatoria simple de 100 pedidos. a) ¿Cuál es la probabilidad de que la proporción muestral de p esté entre 0.20 y 0.40? b) ¿Cuál es la probabilidad de que la proporción muestral de p esté entre 0.25 y 0.35? Caso V. La proporción poblacional es 0.30. ¿Cuál es la probabilidad de que las proporciones muéstrales y poblacional estén entre ± 0.04 con los tamaños siguientes? a) n = 100 b) n = 200 c) n = 500 d) n = 1000 e) ¿Qué ventaja tiene un tamaño grande de muestra? n = 100 E(p) = π = 0.30 σp = √ (0.3*0.7)/100 = 0.04583 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 118 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 119 Caso VI. La Revista Mercado informa que el 66% de los adultos y 87% de los jóvenes entre 12 y 17 años usan Internet. Considere estos datos como proporciones poblacionales y suponga que se usará una muestra de 300 adultos y 300 jóvenes para obtener información respecto de su opinión acerca de la seguridad de Internet. a) ¿Cuál es la probabilidad de que la diferencia entre la proporción muestral y la proporción poblacional de adultos que usan Internet no sea mayor de ± 0.04? b) ¿Cuál es la probabilidad de que la diferencia entre la proporción muestral y la proporción poblacional de jóvenes que usan Internet no sea mayor de ± 0.04? c) ¿Son diferentes las probabilidades anteriores? Si es así por qué? d) En caso de que el tamaño de la muestra sea 600. ¿es menor la probabilidad? ¿Por qué? Caso VII. Las personas terminan por desechar 12% de lo que compran en el supermercado. Asuma que esta es la verdadera proporción poblacional y que planea realizar una encuesta por muestreo de 450 compradores para investigar más acerca de su comportamiento. ¿Cuál es la probabilidad de que la encueste genere una proporción muestral de ± 0.03 de la proporción población? ¿Cuál es la probabilidad de que la encueste genere una proporción muestral de ± 0.015 de la proporción población? Caso VIII. The Grocery Manufacturers of America informa que el 76% de los consumidores lee los ingredientes que se mencionan en la etiqueta de un producto. Suponga que la proporción poblacional es 0.76 y que de la población de consumidores se selecciona una muestra de 400. ¿Cuál es la probabilidad de que la diferencia entre las proporciones muestral y poblacional no sea mayor que ± 0.03? ¿Si la muestra es de 750 consumidores, cuál es la probabilidad de que la diferencia entre las proporciones muestral y poblacional no sea mayor que ± 0.03? Investigar los siguientes Métodos de Muestreo y dar dos Ejemplos: Valor 2 adicionales a los 100. Muestreo Aleatorio Simple Muestreo Sistemático Muestreo Estratificado Muestreo por Conglomerados Muestreo de Conveniencia Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 119 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 120 Métodos de Muestreo Muestra: Es un subconjunto de elementos extraídos de una población. - Es una porción representativa de la población, que se selecciona para su estudio porque la población es demasiado grande para analizarla en su totalidad. Muestra Aleatoria o Probabilística: Se seleccionan los miembros de la población de modo que cada uno tenga la misma probabilidad de ser escogido. Son muestras en que los elementos a seleccionar se obtienen con base en la probabilidad. Cada elemento de una población tiene cierta probabilidad de ser elegido como parte de la muestra. Muestra Aleatoria Simple (Random Sample): Una muestra es seleccionada de modo que todos los elementos de la población tienen la misma probabilidad de ser elegidos. De igual manera, todas las muestras de tamaño n tienen la misma posibilidad de ser elegidas. Las muestras aleatorias simples se obtienen por muestreo con reemplazo en una población finita o por muestreo sin reemplazo en una población sin reemplazo. Una muestra aleatoria simple de n sujetos se selecciona de tal manera que toda posible muestra de tamaño n tenga la misma probabilidad de ser escogida. Ejemplos: Suponga que una población consta de 845 empleados de un Empresa, de la cual se va a elegir una muestra de 52 empleados. Una forma de asegurarse de que todos los empleados de la población tienen las mismas posibilidades de que se les elija consiste en escribir primero el nombre de cada empleado en un papel y depositarlos todos en una caja. Después de mezclar todos los papeles, se efectúa la primera selección tomando uno de la caja sin mirarlo. Se repite este proceso hasta terminar de elegir la muestra de 52 empleados. Se asume que una cadena nacional de comidas rápidas desea seleccionar aleatoriamente 5 de los 50 estados de USA para tomar muestras sobre el gusto de los consumidores. Una muestra aleatoria simple garantizará que las 50C5=2,118,760 muestras de tamaño 5, tengan la misma probabilidad de ser utilizadas en el estudio. Muestreo Estratificado (Stratified Sampling): Subdividimos la población en por lo menos dos subpoblaciones (o estratos) distintas que comparten categorías (como género, edad, departamento, tipo de industria, etc.), y luego sacamos una muestra de cada estrato. Se obtienen mejores resultados cuando los elementos que los forman son lo más parecido posible. Muestreo en el que la población se divide en segmentos y se selecciona una muestra para cada segmento. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 120 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 121 Ejemplos: En una fábrica que consta de 600 trabajadores queremos tomar una muestra de 20. Sabemos que hay 200 trabajadores en la Sección A, 150 en la B, 150 en la C y 100 en la D. SECCION TRABAJADORES p = 20/600 Selección A 200 6.666666667 7 B 150 5 5 C 150 5 5 D 100 3.33333333 3 TOTAL 600 20 Por ejemplo, podemos estudiar los gastos en publicidad de las 352 empresas más grandes de Estados Unidos. Suponga que el objetivo del estudio consiste en determinar si las empresas con altos rendimientos sobre el capital (una medida de rentabilidad) gastan en publicidad la mayor parte del dinero ganado que las empresas con un de registro bajo rendimiento o déficit. Suponga que deseamos seleccionar una muestra de 50 empresas para realizar el estudio. Estrato 1 2 3 4 5 Probabilidad Recuperación de Capital 30% y más de 20% a 30% de 10% a 20% de 0% a 10% Déficit Proporción Número de Frecuencia Número Número Empresas Relativa Muestreado Muestreado 8 0.02 1.14 1 35 0.10 4.97 5 189 0.54 26.85 27 115 0.33 16.34 16 5 0.01 0.71 1 352 1.00 50.00 50 Si los tamaños de muestra de los distintos estratos reflejan la población general, decimos que tenemos un muestreo proporcional. Muestra que se obtienen al estratificar el marco muestral y luego seleccionar un número fijo de elementos de cada uno de los estratos pro promedio de una técnica de muestreo aleatorio simple. Muestreo Proporcional: Muestra que se obtienen al estratificar el marco muestral y luego seleccionar de cada estrato un número de elementos en proporción al tamaño de los estratos, por medio de una técnica de muestreo aleatorio simple. Cuando se extrae una muestra aleatoria proporcional, el marco muestral se subdivide en varios estratos y luego de cada estrato se extrae una submuestra. Una forma conveniente de expresar el concepto de muestreo proporcional es establecer una proporción. Por ejemplo, “uno de cada 150”, le induce a seleccionar un (1) elemento por cada 150 elementos en el estrato. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 121 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 122 Muestreo sistemático (Systematic Sampling): Seleccionamos un punto inicial y luego seleccionamos cada k-ésimo (digamos, cada quincuagésimo) elemento de la población. La técnica sistemática es fácil de describir y ejecutar; no obstante, conlleva algunos peligros cuando el marco muestral es repetitivo o de naturaleza cíclica. En estas condiciones, puede que los resultados no se aproximen a una muestra aleatoria simple. Este procedimiento de selección es muy útil e implica elegir dentro de una población N un número n de elementos a partir de un intervalo K. Este último (K) es un intervalo que se va a determinar por el tamaño de la población y el tamaño de la muestra. De manera que tenemos que K = N/n, en donde K = un intervalo de selección sistemática, N = la población y n = la muestra. Antes de aplicar el muestreo aleatorio sistemático, debe observar con cuidado el orden físico de la población. Cuando el orden físico se relaciona con la característica de la población, no debe aplicar el muestreo aleatorio sistemático. Muestreo por cúmulos o conglomerados (Clusters Sampling): Muestreo que se obtiene al muestrear algunas, pero no todas, las subdivisiones posibles que hay dentro de una población. Estas subdivisiones, denominadas conglomerados, a menudo ocurren de manera natural dentro de la población. En el muestreo por conglomerados (o clusters) los elementos de la población primero se dividen en grupos separados, llamados conglomerados o clusters. Cada elemento pertenece a uno y sólo un conglomerado. Se toma una muestra aleatoria simple de los conglomerados. Todos los elementos en cada conglomerado muestreado forman una muestra. Este muestreo tiende a proporcionar mejores resultados cuando los elementos dentro de los conglomerados no son semejantes. Lo ideal es que cada conglomerado sea una representación, a pequeña escala, de la población completa. Una de las principales aplicaciones del muestreo por conglomerados es el muestreo de áreas, en el que los conglomerados son las manzanas de una ciudad u otras zonas bien definidas. A menudo se emplea para reducir el costo de muestrear una población dispersa en cierta área geográfica. Por lo general, precisa tama Primero dividimos el área de la población en secciones (o cúmulos) y luego seleccionamos aleatoriamente unas cuantas de esas secciones escogiendo todos los miembros de las secciones seleccionadas. Una diferencia importante entre el muestreo por cúmulos y el estratificado es que en el muestreo por cúmulos se usan todos los miembros de cúmulos seleccionados, mientras que en el muestreo estratificado se usa una muestra de miembros de cada estrato. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 122 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 123 Muestreo de conveniencia o de juicio (Convenience Sampling): Simplemente utilizamos resultados que ya están disponibles. Las muestras son elegidas con base en el hecho de que son típicas. Cuando se obtiene una muestra de juicio, la persona que elabora la muestra elige unidades que considera representativas de la población. La validez de los resultados de una muestra de juicio refleja la solidez del juicio del recolector de datos. Error de muestreo: Es la diferencia entre el resultado de una muestra y el verdadero resultado de la población; tal error es consecuencia de las fluctuaciones aleatorias de las muestras. Error de muestreo: Este error ocurre cuando los datos de una muestra se obtienen, registran o analizan de forma incorrecta. Tal error es consecuencia de una equivocación y no de una fluctuación aleatoria y predispuesta, cuando se usa un instrumento de medición defectuoso, cuando se hacen preguntas predispuestas en una encuesta, cuando mucha gente se niega a responder o cuando se cometen errores al copiar los datos de la muestra. Sesgo muestral: Tendencia a favorecer la elección de unos determinados elementos de la muestra en detrimento de otros. Este análisis de las muestras conduce a distinguir entre las dos ramas principales del análisis estadístico: 1) Estadística descriptiva o deductiva, y 2) Estadística inferencial o inductiva. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 123 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 124 Diseño y Dirección de un Estudio Muestral. Fase I – Planificación Identificación y delimitación de la Población a estudiar. o Enfoque del Estudio: Cualitativo. Cuantitativo. Mixto. Selección del Procedimiento de Observación. o Diseño y Construcción del Instrumento de Medición (Cuestionarios, Escala de medición de actitudes, Observación, Entrevistas, otros tipos). o Selección de Instrumentos de Medición. Selección de tipo de muestreo. o Muestreo Aleatorio Simple. o Muestreo Sistemático. o Muestreo Estratificado (Estratos = Segmentos = Subpoblaciones). o Muestreo por Conglomerados (Racimos = Clúster = Secciones = Cúmulos). o Muestreo de Conveniencia. o Otros: Muestra de Expertos, Muestra Caso-Tipo, Muestra por cuotas, etc. Selección Procedimientos Estadísticos. o Estimación. o Selección de Prueba Estadística. Determinar el Tamaño necesario de la Muestra. o Cálculo de la Muestra. o Viabilidad, Costo y Tiempo. Fase II – Recolección de Datos. Seleccionar las unidades de análisis de la muestra. Realizar observaciones. Administración del Instrumento de Medición. o Auto-administrado. o Por entrevista personal. o Por entrevista telefónica. Validez. Confiabilidad o Fiabilidad. Objetividad. Fase III – Análisis de Datos y Conclusiones. Selección de los programas estadísticos (Softwares: MegaStat - SPSS – Minitab – SPCXL – Stata – SPCXL – Otros) para analizar los datos. Calcular las estadísticas de la Muestra (Estadísticas Descriptivas). Estimar los valores de los parámetros de la población (Puntuales, de intervalos). Pruebas de Hipótesis en relación a la Población (Descriptivas, Correlacionales, Causales). Análisis paramétrico / Análisis no paramétrico. Análisis multivariados. Elaboración del Reporte de Resultados. LAPIN Lawrence L. Statistics for Modern Business. The Dryden Press: 1995. ESTRELLA, Rubén Darío. Modelos Estadísticos para la Toma de Decisiones. Edición 2016. HERNANDEZ SAMPIERI Roberto, FERNANDEZ COLLADO Carlos and BAPTISTA LUCIO Pilar. Métodos de la Investigación. Mc Graw Hill. Quinta Edición. 2010. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 124 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 125 Fases del Diseño de Investigación. I. II. III. IV. V. VI. VII. VIII. IX. X. XI. Selección y Definición del Tema de Investigación. a. ¿Qué estudiar? Planteamiento, formulación y sistematización del Problema de Investigación. a. ¿Cuál es la situación actual? b. ¿Cuáles son las preguntas de investigación que deben ser respondidas? Objetivos de Investigación. i. ¿Qué propósitos tiene la investigación que se plantea? b. Objetivos Generales. c. Objetivos Específicos Justificación de la Investigación (Teoría, Metodología, Práctica). a. ¿Cuáles son los motivos para hacer el estudio propuesto? Marco de Referencia (Teórico Conceptual). a. ¿Quiénes han investigado anteriormente sobre el tema planteado? b. ¿Qué hay escrito al respecto? Hipótesis de Trabajo. a. ¿Qué se pretende probar? Aspectos Metodológicos de la Investigación. i. ¿Cómo se va a realizar la investigación?? b. Tipo de Estudio (Exploratorio, Descriptivo, Explicativo). c. Método de Investigación (Observación, Inducción, Deducción, Análisis, Síntesis). d. Técnicas y Procedimientos para la recolección de la información (Encuestas, etc.) e. Tratamiento que se va a dar a la información. Tabla de Contenido de la Investigación. Bibliografía a. ¿A qué fuentes escribas se va a referir el investigador? Cronograma (tiempo para realizar la Investigación). a. ¿Cuánto tiempo va a emplear en hacer el estudio? Presupuesto (Costos de la Investigación). a. ¿Qué recursos se necesitan? HERNANDEZ SAMPIERI Roberto, FERNANDEZ COLLADO Carlos and BAPTISTA LUCIO Pilar. Métodos de la Investigación. Mc Graw Hill. Quinta Edición. 2010. MENDEZ Carlos. METODOLOGIA Guía para elaborar diseños de investigación en ciencias económicas, contables y administrativas. Mc Graw Hill: Segunda Edición, 2001. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 125 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 126 Elementos de una Propuesta de Investigación. 1. Comunicación de Propuesta. 2. Antecedentes. 3. Planteamiento del Problema y Objetivos de Investigación. 4. Estrategia y Metodología de Investigación. a. Sitio y Acceso. b. Perfil Socioeconómico. c. Potencial del mercado para el proyecto de investigación. Metodología a. Recolección de datos secundarios. b. Recolección de datos primarios. c. Técnicas de análisis de datos 5. Naturaleza del Reporte Final. a. Introducción. b. Resumen para la Administración. c. Reconocimiento de las limitaciones del estudio. d. Descripción de la Metodología. e. Presentación de Resultados. f. Conclusiones y Recomendaciones. g. Apéndice 6. Presupuesto y Programa. a. Costos directos (materiales y provisiones) b. Costos directos (otro personal) c. Cuota de consultoría d. Costo Total e. Términos f. Marco de tiempo. 7. Antecedentes de los consultores. DAVIS Duane. Investigación en Administración para la toma de decisiones. International Thomson Editores: Quinta Edición. 2001. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 126 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 127 El Proceso de Investigación de Mercados. I. II. III. IV. V. VI. VII. VIII. Identificación del Problema y establecimiento de los Objetivos de la Investigación. Creación del Diseño de la Investigación. Elección del Método de Investigación. Selección del Procedimiento de Muestreo. Recabar Datos. Análisis de los Datos. Redacción y Presentación del Informe. a. Página de título (Presentación). b. Contenido. c. Antecedentes y Objetivos. d. Resumen Ejecutivo. e. Metodología. f. Hallazgos. g. Apéndices. Seguimiento. El Proceso de Medición. I. II. III. IV. V. VI. VII. VIII. Identificar el concepto de interés (Utilizar el concepto para). Desarrollar un constructo (Que se utiliza para crear). Una definición constitutiva (Que permite que un investigador desarrolle). Una definición operacional (Que permite que un investigador cree). Una escala de medición (Que requiere que el investigador). Evalúe la confiabilidad y la validez de la escala (Si la evaluación es satisfactoria, el investigador). Utiliza la Escala (Lo que conduce a). Los hallazgos de la investigación. MCDANIEL Carl and GATES Roger. Investigación de Mercados. CENGAGE Learning: Octava Edición. 2011. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 127 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 128 Estimados y Tamaño de Muestra (Estimates and Sample Sizes) Estadística Inferencial: Implica la utilización de una muestra para extraer alguna inferencia o conclusión sobre la población correspondiente. - Apoyándose en el cálculo de probabilidades y a partir de datos muéstrales, efectúa estimaciones, decisiones, predicciones y otras generalizaciones sobre un conjunto mayor de datos. La estadística es inferencial cuando se derivan conclusiones generales para un conjunto de datos más amplio a partir de la información proporcionada por los datos estudiados. Las dos aplicaciones principales de la estadística inferencial implican el uso de datos de muestra para (1) estimar el valor de un parámetro de población y (2) llegar a una conclusión acerca de una población. Estimador (Estimator): es una estadística de muestra (como la media de muestra) que se usa para aproximar un parámetro de población. Existen dos tipos de estimadores que se utilizan normalmente: - Estimador puntual - Estimador por intervalo Estimado puntual (Point Estimate): es un valor individual (o punto) que se usa para aproximar un parámetro de población. Estimador Puntual: utiliza un número único o valor para localizar una estimación del parámetro. La media de muestra es el mejor estimado de la media de población. Podemos decir que la media de la muestra es un estimador no predispuesto de la media de la población, lo que quiere decir que la distribución de las medias de muestra tiende a centrarse alrededor del valor de la media de la población. (Es decir, las medias de muestra no tienden a sobreestimar sistemáticamente el valor de , y tampoco tienden a subestimar sistemáticamente dicho valor. En vez de ello, tienden a centrarse en el valor de misma). Estimación por intervalo (Interval Estimate): especifica el rango dentro del cual está el parámetro desconocido. Intervalo de Confianza (Confidence internal): denota un rango dentro del cual puede encontrarse el parámetro. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 128 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 129 Es una gama (o un intervalo) de valores que probablemente contiene el valor verdadero del parámetro de población. Un intervalo de confianza se asocia a un grado de confianza, que es una medida de la certeza que tenemos de que nuestro intervalo contiene el parámetro de población. Nivel de confianza - grado o coeficiente de confianza (Level of Confidence or Confidence Coefificient): es la probabilidad 1- (a menudo expresada como el valor porcentual equivalente) de que el intervalo de confianza contiene el verdadero valor del parámetro. Existen tres niveles de confianza relacionados comúnmente con los intervalos de confianza: 99, 95 y 90%, denominados coeficientes de confianza. Valor Alfa : Es la probabilidad de error o la probabilidad de que un intervalo dado no contenga la media poblacional desconocida. Valor Crítico /2 (Critical Value): Es el número que está en la frontera que separa las estadísticas de muestra que probablemente ocurrirán, de aquellas que probablemente no ocurrirán. Es un puntaje con la propiedad de que separa un área de /2 de la cola derecha de la distribución normal estándar. Margen de Error (Margin of Error): Es la máxima diferencia probable (con una probabilidad de 1-) entre la media de muestra observada y el verdadero valor de la media de población . El margen de error también se denomina error máximo de la estimación y puede obtenerse multiplicando el valor crítico y la desviación estándar de las medias de muestras. = /2 * /n = /2 * x' Intervalo de confianza para estimar (media poblacional real desconocida) cuando es conocido. I.C. para estimar = X' Caso I. Para estimar el gasto promedio de los clientes en el McDonald's local, los estudiantes de Métodos Cuantitativos II toman una muestra de 200 clientes y encuentran un gasto promedio de US$5.67, con una desviación estándar poblacional de US$1.10. ¿Cuál es el intervalo de confianza del 95% para los gastos promedio de todos los clientes? Interprete sus resultados. Datos: =/2*/n=1.96*1.10 /200=0.15 n=200 N.C.=95% I.C. para estimar = X' x'=US$5.67 I.C.=? = US$5.670.15 =US$1.10 = US$5.52 US$5.82 Interpretación del Caso: Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 129 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 130 Los estudiantes poseen un 95% de confianza de que la media poblacional desconocida del gasto de los clientes del McDonal's evaluados se encuentra entre el intervalo US$5.52 US$5.82. Si se construyen todos los NCn intervalos de confianza, el 95% de ellos contendrá la media poblacional desconocida. Esto por supuesto significa que el 5% de todos los intervalos estaría errado - no contendrían la media poblacional, el Valor alfa . Calculo del cuando se desconoce (desviación estándar poblacional): Si n > 30, podemos sustituir de la fórmula del por la desviación estándar de la muestra s. = /2 * s/n = /2 * sx' Procedimiento para construir un intervalo de confianza para (basado en una muestra grande: n > 30). 1. Encuentre el valor critico /2 que corresponda al grado de confianza deseado. 2. Evalúe el margen de error = /2 * x'. Si se desconoce la desviación estándar de la población , use el valor de la desviación estándar de la muestra s, siempre que n > 30. 3. Con el valor del margen de error calculado y el valor de la media de muestra X', obtenga los valores de X'- y X'+. Sustituya estos valores en el formato general del intervalo de confianza: X'- X'+ = X' (X'-,X'+) 4. Redondee los valores resultantes aplicando la regla de redondeo. Regla de Redondeo para intervalos de confianza empleados para estimar . 1. Si usa el conjunto de datos original para construir un intervalo de confianza, redondee los límites del intervalo de confianza a una posición decimal más que las empleadas en el conjunto de datos original. 2. Si desconoce el conjunto de datos original y solo usa las estadísticas resumidas (n,x',s), redondee los límites del intervalo de confianza de acuerdo al mismo número de posiciones decimales que se usan para la media de muestra. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 130 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 131 Justificación: La idea básica en que se apoya la construcción de intervalos de confianza tiene que ver con el teorema del límite central, que indica que en el caso de muestras grandes (n > 30), la distribución de las medias de muestra es aproximadamente normal con media y desviación estándar /n. El formato de los intervalos de confianza en realidad es una variación de la ecuación: = (X' - )/(/n) X' - = (/n) - = (/n) - X' (-1) = X' - (/n) Precisión: Un intervalo estrecho ofrece mayor precisión, aunque la probabilidad de que contenga se reduce. Caso I. Una muestra consiste en 75 televisores adquiridos hace varios años. Los tiempos de reemplazo de esos televisores tienen una media de 8.2 años y una desviación estándar de 1.1 años (basados en datos de "Getting Things Fixed", Consumer Reports). Construya un intervalo de confianza del 90% para el tiempo de reemplazo medio de todos los televisores de esa época. Caso II. Utilice el grado de confianza y los datos de muestra dados para determinar (a) el margen de error y (b) el intervalo de confianza para la media de la población . 1. Estaturas de mujeres: confianza del 95%; n=50, x'=63.4 pulgs., s=2.4 pulgs. 2. Promedios de calificaciones: confianza del 99%; n=75, x'=2.76, s=0.88. 3. Puntajes en una prueba: confianza del 90%; n=150, x'=77.6; s=14.2. Ejercicios de la Sección 1 al 10 págs. 175 y 176. Estimación de una proporción de población. Las decisiones dependen con frecuencia de parámetros que son binarios, parámetros con solo dos posibles categorías dentro de las cuales pueden clasificarse las respuestas. En este evento, el parámetro de interés es la proporción poblacional. Tanto las proporciones como las probabilidades se expresan en forma decimal o fraccionaria. Al trabajar con porcentajes, los convertimos en proporciones omitiendo el signo de por ciento y dividiendo entre 100. Por ejemplo, la tasa del 48% de personas que no compran libros puede expresarse en forma decimal como 0.487. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 131 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 132 Estimado puntual para la proporción de población. La proporción de muestra p es el mejor estimado puntual de la proporción de población. p = x/n Proporción de muestra de x éxitos en una muestra de tamaño n. Intervalo de confianza para la proporción poblacional. Muchos asuntos de negocios tratan la proporción de la población . Una firma de marketing puede querer averiguar si un cliente (1) compra o (2) no compra el producto. Un banco con frecuencia debe determinar si un depositante (1) pedirá o (2) no pedirá un crédito para auto. Muchas firmas deben determinar la probabilidad de que un proyecto para presupuestar capital (1) generara o (2) no generara un rendimiento positivo. Repasando: p= p = denota probabilidad de tener éxito en uno de los n ensayos. q = denota la probabilidad de fracasar en uno de los n ensayos. p+q=1 p=1-q q=1-p n > 5 np > 5 n(1-) > 5 nq > 5 Si n y n(1-) son mayores que 5, la distribución de las proporciones muéstrales será normal y la distribución muestral de la proporción muestral tendrá una media igual a la proporción poblacional y error estándar de: Error estándar de la distribución muestral de las proporciones muéstrales: p = (1-)/n = pq/n Estimación del Error estándar de la distribución muestral de las proporciones muéstrales: sp = p(1-p)/n = pq/n Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 132 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 133 Margen de error del estimado de la proporción de la población: E = ()(pq/n) Regla de redondeo para estimados de intervalo de confianza para la proporción de población Redondee los límites del intervalo de confianza a tres dígitos significativos. Intervalo de confianza para estimar la proporción poblacional. I.C. para estimar la proporción poblacional =pE Caso I. En una encuesta de 1068 estadounidenses, 673 dijeron que tenían contestadoras telefónicas (basados en datos de International Mass Retail Association, informados en USA Today). Utilizando estos resultados de muestra, determine: a. El estimado puntual de la proporción de la población de todos los estadounidenses que tienen contestadora telefónica. b. El estimado de intervalo del 95% de la proporción de todos los estadounidenses que tienen contestadora telefónica. a. Estimado puntual para la proporción de población. p = x/n = 673/1068 = 0.630 b. Intervalo de confianza para estimar la proporción poblacional. E = ()(pq/n) E = 1.96 ((0.630)(0.370)/1068) = 0.0290 I.C. para estimar la proporción poblacional =pE 0.630 - 0.0290 < < 0.630 + 0.0290 0.601 < < 0.659 Este resultado a menudo se informa en el formato siguiente: "Se estima que el porcentaje de los estadounidenses que tiene contestadora telefónica es del 63%, con un margen de error de más o menos 2.9 puntos porcentuales. También debe informarse el nivel de confianza, pero eso casi nunca se hace en los medios de comunicación. EJERCICIOS DE LA SECCION 20 AL 25 - PAG. 182. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 133 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 134 Distribución t de Student Los factores como el costo y el tiempo a menudo limitan severamente el tamaño de las muestras, y es posible que la distribución normal no sea una aproximación adecuada a la distribución de las medias de muestras pequeñas. En muestras pequeñas, la media de muestra X' generalmente es el mejor estimado puntual de la media de la población . Es posible construir intervalos de confianza para muestras pequeñas utilizando la distribución normal con el mismo margen de error, siempre que la población original tenga una distribución normal y se conozca la desviación estándar de la población (condición que casi nunca se cumple en aplicaciones reales). Si tenemos una muestra pequeña (n30) y queremos construir un intervalo de confianza pero no conocemos , a veces podemos usar la Distribución t de Student ideada por Willian Gosset (1876-1937). Gosset era un empleado de la cervecería Guiness que necesitaba una distribución susceptible de usarse con muestras pequeñas. La cervecería donde trabajaba no permitía la publicación de los resultados de investigaciones, así que Gosset publico bajo el pseudónimo Student. Condiciones para usar la Distribución t de Student. 1.- La muestra es pequeña (n30). 2.- Se desconoce . 3.- La población padre tiene una distribución esencialmente normal. (Dado que a menudo se desconoce la distribución de la población padre, la estimamos construyendo un histograma con datos de muestra.) Propiedades importantes de la Distribución t de Student. 1.- La distribución t de Student es diferente para los diferentes tamaños de muestra. (Ver Figura 7.3 en la Pág. 177). 2.- La distribución t de Student tiene la misma forma general de campana simétrica que la distribución normal estándar, pero refleja la mayor variabilidad (con distribuciones más amplias) que cabe esperar cuando la muestra es pequeña. 3.- La distribución t de Student tiene una media t=0 (así como la distribución normal estándar tiene una media de Z=0). Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 134 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 135 4.- La desviación estándar de la distribución t de Student varia con el tamaño de la muestra, pero es mayor que 1 (a diferencia de la distribución normal estándar, que tiene =1). Al igual que la distribución Z, la distribución t tiene una media de cero, es simétrica respeto a la media y oscila entre - y + . Sin embargo, mientras que la distribución Z tiene una varianza de ²=1, la varianza de la distribución t es mayor que 1. 5.- A medida que aumenta el tamaño de muestra n, la distribución t de Student se acerca más a la distribución normal estándar. Con valores de n > 30, las diferencias son tan pequeñas que podemos utilizar los valores críticos de z en lugar de crear una tabla mucho más grande de valores críticos de t. Varianza de la distribución t ²= (n-1)/(n-3) La varianza depende de los grados de libertad (g.l.), que definimos como el número de observaciones que se pueden escoger libremente. Es el número de observaciones menos el número de restricciones impuestas sobre las observaciones, en donde una restricción es algún valor que tales observaciones deben poseer. Grados de libertad. El número de grados de libertad de un conjunto de datos corresponde al número de puntajes que puede variar después de haber impuestos ciertas restricciones a todos los puntajes. Es el número de observaciones menos el número de restricciones impuestas sobre tales observaciones. g.l. = n - 1 Podría parecer un poco extraño que, con una población distribuida normalmente, a veces utilicemos la distribución t para encontrar valores críticos, pero cuando se desconoce el uso de s de una muestra pequeña incorpora otra fuente de error. A fin de mantener el grado de confianza deseado, compensamos la variabilidad adicional ensanchando el intervalo de confianza mediante un proceso que sustituye el valor crítico Z por el valor crítico más grande de t. El estadístico t t = (X'-)/(s/n) Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 135 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 136 Caso I. Cuando se usan pruebas destructivas, los elementos de una muestra se destruyen durante el proceso de probarlos. Las pruebas de choques de automóviles son un ejemplo muy costoso de pruebas destructivas. Si usted estuviera encargado de tales pruebas de choque, no querría decirle a su supervisor que necesita chocar y destruir más de 30 automóviles para poder usar la distribución normal. Supongamos que usted ha probado 12 automóviles deportivos Dodge Viper (Precio d lista actual: US$59,300 dólares) chocándolos en diversas condiciones que simulan colisiones representativas. Un análisis de los 12 automóviles dañados da como resultado costos de reparación cuya distribución al parecer tiene forma de campana, con una media de X'=US$26,227 y una desviación estándar de s=$15,873 (basado en datos de Highway Loss Data Institute). Determine lo siguiente. a) El mejor estimado puntual de la media de población , el costo de reparación medio de todos los Dodge Viper implicados en colisiones. b) El estimado de intervalo del 95% de , el costo de reparación medio de todos los Dodge Viper implicados en colisiones. Solución: a) El mejor estimado puntual de la media de población es el valor de la media de muestra X'. En este caso, entonces, el mejor estimado puntual de es US$26,227 dólares. b) DATOS: n = 12 automóviles deportivos Dodge Viper X'=US$26,227 dólares costo de reparación s =US$15,873 dólares N.F.= 95% ===> t= ? I.C. para = ? Dada las condiciones anteriores: 1.- La muestra es pequeña (n30). 2.- Se desconoce . 3.- La población padre tiene una distribución esencialmente normal. (Dado que a menudo se desconoce la distribución de la población padre, la estimamos construyendo un histograma con datos de muestra.) podemos usar la Distribución t de Student: g.l. = grados de libertad g.l. = n-1 = 12-1 = 11 usando la tabla de la distribución t (Pág. 606) con los g.l.=11 y N.C.=95% cuyas colas equivalen a 5% (0.05) determinamos el valor critico t. g.l.=11; I.C. con N.C.=95% (0.950); dos colas=5% (0.050) ==> t=2.201 donde E = t (s/n) E = 2.201 (15,873/12) = US$10,085.29 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 136 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 137 El intervalo de confianza es: X' - E < < X' + E US$26,227-US$10,085.29< < US$26,227+US$10,085.29 US$16,142 < < US$36,312 [Este resultado también podría expresarse en el formato de =US$26,227US$10,085.29 o como (US$16,142, US$36,312).] Con base en los resultados de muestra dados, tenemos un 95% de confianza en que los limites de USD16,142 y USD36,312 contendrán realmente el valor de la media de población . Estos costos de reparación parecen muy altos. Efectivamente, el Dodge Viper es actualmente el automóvil más costoso de reparar después de una colisión. Tal información es importante para compañías que aseguran Dodge Vipers contra choques. Caso II. Utilice el grado de confianza y los datos de muestra dados para determinar (a) el margen de error y (b) el intervalo de confianza para la media de la población . 1) Estaturas de mujeres: confianza del 95%; n=10, x'=63.4 pulgadas, s=2.4 pulgadas. 2) Promedios de calificaciones: confianza del 99%; n=15, x'=2.76, s=0.88 3) Puntajes en una prueba: confianza del 90%; n=16, x'=77.6, s=14.2 4) Salarios de policías: confianza del 92%; n=19, x'=$23,228, s=$8,779 Caso III. Ejercicios 12 al 18 Págs. 179-180 y Analizar figura 7.4 Pág. 179. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 137 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 138 Determinación del tamaño apropiado de la muestra (Sample Sizes) El tamaño de la muestra juega un papel importante al determinar la probabilidad de error así como en la precisión de la estimación. Una vez se ha seleccionado el nivel de confianza, los factores importantes influyen en el tamaño muestral: (1) la varianza de la población ² y (2) el tamaño del error tolerable que el investigador está dispuesto a aceptar. Tamaño de la muestra para estimar . = (X' - )/x' = (X' - )/(/n) X' - = (/n) n(X' - ) = n = /(X' - ) n = ²²/(X' - )² n = [/E]² E = Error de Muestreo El tamaño de la muestra debe ser entero. Regla de redondeo para el tamaño de muestra n. Al calcular el tamaño de muestra n, si la formula anterior no produce un numero entero, siempre debe aumentarse el valor de n al siguiente numero entero mayor. El tamaño de la muestra no depende del tamaño de la población (N); el tamaño de muestra depende del grado de confianza deseado, el margen de error deseado y del valor de la desviación estándar . La duplicación del margen de error hace que el tamaño de la muestra requerida se reduzca a la cuarta parte de su valor original. Por otro lado, si se reduce a la mitad el margen de error se cuadruplicara el tamaño de la muestra. Lo que esto implica es que si queremos resultados más exactos, es preciso aumentar sustancialmente el tamaño de la muestra. Dado que las muestras grandes generalmente requieren más tiempo y dinero, a menudo es necesario efectuar un trueque entre el tamaño de la muestra y el margen de error E. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 138 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 139 Caso I. Un economista desea estimar los ingresos medios durante el primer año de trabajo de un graduado universitario que, en un alarde de sabiduría, tomo un curso de estadística. ¿Cuantos de tales ingresos es necesario encontrar si queremos tener una confianza del 95% en que la media de muestra este a menos de US$500 dólares de la verdadera media de la población? Suponga que un estudio previo revelo que, para tales ingresos, =US$6250. DATOS: N.C.=95% ===> Z=1.96 Queremos que la media de la muestra este dentro de un margen de US$500 de la media de la población. E=US$500 =US$6,250 n = ²²/(X' - )² n = [(1.96)²*(6250)²]/(500)²= n = [/E]² n = [(1.96 * 6250)/500]²= Caso II. ¿Qué tan grande se requiere que sea una muestra para que proporcione una estimación del 90% del número promedio de graduados de las universidades de la nación con un error de 2000 estudiantes si una muestra piloto reporta que s=8,659? Caso III. Nielsen Media Research quiere estimar la cantidad media de tiempo (en horas) que los estudiantes universitarios de tiempo completo dedican a ver televisión cada día entre semana. Determine el tamaño de muestra necesario para estimar esa media con un margen de error de 0.25 horas (15 minutos). Suponga que se desea un grado de confianza del 96%, y que un estudio piloto indico que la desviación estándar se estima en 1.87 horas. ¿QUE PASA SI SE DESCONOCE ? 1.- Podemos utilizar la REGLA PRACTICA DE INTERVALO. En conjuntos de datos representativos, el intervalo del conjunto tiene una anchura aproximada de cuatro desviaciones estándar (4s), así que la desviación estándar se puede aproximar de la siguiente manera: desviación estándar intervalo/4 intervalo/4 Esta expresión proporciona una estimación burda de la desviación estándar, si conocemos los puntajes máximo y mínimo. Si conocemos el valor de la desviación estándar, podemos usarlo para entender mejor los datos, obteniendo estimaciones burdas de los puntajes máximo y mínimo como se indica. 2.- Realizar un estudio piloto iniciando el proceso de muestreo. Con base en la primera recolección de por lo menos 31 valores de muestra seleccionados al azar, calculamos la desviación estándar de la muestra s y la usamos en lugar de . Este valor puede refinarse a medida que se obtengan más datos de muestra. mínimo (media) - 2 * (desviación estándar) máximo (media) + 2 * (desviación estándar) Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 139 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 140 Caso I. Si razonamos que los precios de los libros de textos universitarios típicamente varían entre US$10 y US$90 dólares. Usted planea estimar el precio de venta medio de un libro de texto universitario. ¿Cuántos libros de textos deberá muestrear si desea tener una confianza del 95% en que la media de la muestra estará a menos de US$2 dólares de la verdadera media de la población ? DATOS: intervalo/4 (US$90-US$10)/4 US$20 N.C.=95% ===> Z=1.96 E=US$2 dólares n = ²²/(X' - )² n = [(1.96)²*(20)²]/(2)²= n = [/E]² n = [(1.96 * 20)/2]²= Caso II. Boston Marketing Company lo acaba de contratar para realizar una encuesta con el fin de estimar la cantidad media de dinero que los asistentes al cine de Massachussets gastan (por película). Primero use la regla práctica del intervalo para hacer un estimado burdo de la desviación estándar de las cantidades gastadas. Es razonable suponer que las cantidades típicas varían entre US$3 dólares y unos US$15 dólares. Luego utilice esa desviación estándar para determinar el tamaño de muestra que corresponde a una confianza del 98% y a un margen de error de 25 centavos de dólar. Tamaño de la muestra para estimar la proporción poblacional. Si despejamos a "n" de la expresión del margen de error E. E = ()(pq/n) E² = ()²(pq/n)² E² = ()²(pq/n) E²n = ()²(pq) n = [()²(pq)]/E² Cuando se puede obtener un estimado razonable de p utilizando muestras previas, un estudio piloto o los conocimientos de algún experto se utiliza la formula anterior. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 140 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 141 Cuando no se conoce el estimado puntual p: n = [()²* 0.25]/E² Si no se puede conjeturarse un valor, puede asignarse el valor de 0.5 tanto a p como a q, con lo que el tamaño de muestra resultante será al menos tan grande como necesita ser. La justificación para la asignación de 0.5 es la siguiente: el valor más alto posible del producto p*q es de 0.25, y ocurre cuando p=0.5 y q=0.5 como se puede observar en la siguiente tabla que usted debe completar: p q p*q 0.1 0.9 0.09 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Caso I. Las compañías de seguros se están preocupando porque el creciente uso de teléfonos celulares está teniendo como resultado un mayor número de accidentes automovilísticos, y están considerando implementar tarifas más altas para conductores que usan tales aparatos. Queremos estimar, con un margen de error de tres puntos porcentuales, el porcentaje de conductores que hablan por teléfono mientras conducen. Suponiendo que queremos tener una confianza del 95% en nuestros resultados, ¿cuantos conductores deberán encuestar? a. Supongamos que tenemos un estimado de p basado en un estudio previo que indicó que el 18% de los conductores habla por teléfono (basados en datos de la revista Prevention). b. Suponga que no tenemos información previa que sugiera un posible valor de p. SOLUCION: a) DATOS: p=0.18 q=0.82 N.F.=95% ==> Z=1.96 E=0.03 = tres puntos porcentuales n = [()²(pq)]/E² n = [(1.96)²(0.18*0.82]/(0.03)² n= b) DATOS: N.F.=95% ==> Z=1.96 E=0.03 = tres puntos porcentuales n = [()²* 0.25]/E² n = [(1.96)²* 0.25]/(0.03)² n= Si comparamos estos dos resultados de tamaño de muestra vemos que, si no tenemos conocimiento de un estudio anterior, se requiere una muestra más grande para obtener los mismos resultados que cuando se puede estimar el valor de p. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 141 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 142 Caso II. Una compañía de comunicaciones está considerando un proyecto para prestar servicio telefónico de larga distancia. Se le pide a usted realizar un sondeo de opinión para estimar el porcentaje de los consumidores que está satisfecho con su servicio telefónico de larga distancia actual. Usted quiere tener una confianza del 90% en que su porcentaje de muestra estará a menos de 2.5 puntos porcentuales del valor real para la población, y un sondeo sugiere que el porcentaje en cuestión anda alrededor del 85%. ¿Qué tan grande deberá ser la muestra? Caso III. Planeta Azul proporciona agua embotellada, en contenedores de 15 galones, a las casas de un sector del Distrito Nacional. El gerente desea estimar el número promedio de contenedores que una casa típica utiliza cada mes. Se toma una muestra de 75 casas y se registra el número de contenedores. La media es 3.2, con una desviación de 0.78. a. ¿Qué revelaría un intervalo de confianza del 92%? b. Sin embargo, el gerente siente que el intervalo anterior es demasiado amplio. ¿Cuántas casas deben tomar como muestra para estar 99% seguro de que el intervalo no estará errado en más de 0.10 contenedores? c. Se selecciona una muestra pequeña de 10 casas para estimar el número promedio de miembros de la familia por casa. Los resultados son 1,3,4,7,2,2,3,5,6 y 6 personas en cada casa. ¿Cuáles son los resultados de un intervalo de 99% para el número promedio de miembros de la familia? d. De las 75 casas de la muestra, 22 tienen ablandadores de agua en casa. ¿Cuál es el estimado del intervalo del 95% de la proporción de todas las casas del sector que tiene ablandadores? e. Si el intervalo oscila entre el 18.8% y el 39.2% de todas las casas que tienen ablandadores y carece de precisión, ¿qué tan grande debe tomarse una muestra para producir un intervalo de sólo el 10%? Caso IV. Se pidió a 200 personas de una muestra identificar su principal fuente de información de noticias; 110 dijeron que esa fuente es los noticiarios televisivos. a. ¿Cuál es el estimado puntual de la proporción poblacional? b. Determine un intervalo de confianza de 95% para la proporción de las personas en la población que consideran a la televisión como su principal fuente de información noticiosa. Interprete los resultados. a. ¿Qué tamaño debe tener una muestra para estimar la proporción de la población, con un margen de error igual a 0.05 y un nivel de confianza de 95%? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 142 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 143 Caso V. Al ensayar un nuevo método de producción, se seleccionaron 18 empleados al azar, y se les pidió lo probaran. La tasa de producción promedio muestral para los 18 empleados fue 80 partes por hora, y la desviación estándar muestral fue de 10 partes por hora. Suponiendo que la población tiene una distribución de probabilidad normal. a. Determine un intervalo de confianza de 90% de la tasa de producción promedio poblacional con el nuevo método, Interprete los resultados y Represente gráficamente. b. Construya un intervalo de confianza de 95% de la tasa de producción promedio poblacional con el nuevo método, Interprete los resultados y Represente gráficamente. c. Construya un intervalo de confianza de 99% de la tasa de producción promedio poblacional con el nuevo método, Interprete los resultados y Represente gráficamente. d. ¿Cuál es estimado puntual de la tasa de producción promedio poblacional con el nuevo método? Caso VI. Media Metrix, Inc., vigila a los usuarios de Internet en siete países: Australia, Gran Bretaña, Canadá, Francia, Alemania, Japón y Estados Unidos. Según las cifras de medición recientes, los usuarios estadounidenses ocupan el primer lugar en el uso de Internet con un promedio de 13 horas por mes. Suponga que en un estudio de seguimiento en el participaron 145 usuarios de Internet canadienses, la media muestral fue de 10.8 horas por mes y la desviación estándar muestral fue de 9.2 horas. a. Formule las hipótesis nula y alternativa que servirán para determinar si los datos de la muestra sustentan la conclusión de que los usuarios de Internet canadienses tienen una media poblacional menor que el promedio estadounidenses de 13 horas por mes. b. Con un nivel de significancia de 0.01 ¿Cuál es el valor crítico para comprobar la estadística de prueba, y ¿cuál es la regla de rechazo? c. ¿Basado en la estadística de prueba y regla de decisión la información es correcta? d. Interprete los resultados, de sus conclusiones. e. Represente gráficamente la situación. Caso VII. Una compañía de comunicaciones esta considerando un proyecto para prestar servicio telefónico de larga distancia. Se le pide a usted realizar un sondeo de opinión para estimar el porcentaje de los consumidores que esta satisfecho con su servicio telefónico de larga distancia actual. Usted quiere tener una confianza del 90% en que su porcentaje de muestra estará a menos de 2.5 puntos porcentuales del valor real para la población, y un sondeo sugiere que el porcentaje en cuestión anda alrededor del 85%. ¿Que tan grande deberá ser la muestra? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 143 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 144 Estimadores y Estimaciones. Un estimador es el proceso mediante el cual se obtiene la estimación. Una estimación es el resultado numérico del estimador. Estimador: es una estadística de muestra (como la media de muestra) que se usa para aproximar un parámetro de población. Existen dos tipos de estimadores que se utilizan normalmente: - Estimador puntual - Estimador por intervalo Estimado puntual: es un valor individual (o punto) que se usa para aproximar un parámetro de población. Estimador Puntual: utiliza un número único o valor para localizar una estimación del parámetro. La media de muestra es el mejor estimado de la media de población. Podemos decir que la media de la muestra es un estimador no predispuesto de la media de la población, lo que quiere decir que la distribución de las medias de muestra tiende a centrarse alrededor del valor de la media de la población. (Es decir, las medias de muestra no tienden a sobreestimar sistemáticamente el valor de , y tampoco tienden a subestimar sistemáticamente dicho valor. En vez de ello, tienden a centrarse en el valor de misma). Estimación por intervalo: especifica el rango dentro del cual está el parámetro desconocido. Intervalo de Confianza: denota un rango dentro del cual puede encontrarse el parámetro. Los Estimadores deben ser: 1) Insesgados 2) Eficientes 3) Consistentes 4) Suficientes Estimador Insesgado. Un estimador es insesgado si la media de su distribución muestral es igual al parámetro correspondiente. E(') = = al parámetro que se intenta estimar '= estimador E(X') = X" = E(X') - = 0 X"= estándar de las medias muéstrales. Si E(X') - 0 , si excede es un estimador sesgado (hacia arriba). Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 144 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 145 REPASO: Distribuciones de Datos Sesgadas. Una distribución de datos esta sesgada, si no es simétrica y se extiende más hacia un lado que hacia otro. Sesgo describe la falta de simetría en una distribución. Los datos sesgados a la izquierda se dice que tienen sesgo negativo; la media y la mediana están a la izquierda de la moda. Generalmente tiene la media a la izquierda de la mediana. Sesgo negativo describe distribuciones asimétricas en la que la mediana excede a la media; la cola de la distribución es hacia los valores bajos. Los datos sesgados a la derecha se dice que tienen sesgo positivo; la media y la mediana están a la derecha de la moda. Sesgo positivo describe distribuciones asimétricas en las que la media excede la mediana; los valores se alargan hacia los valores altos. En ambos casos, la moda es por definición la observación que ocurre con mayor frecuencia, por tanto esta en el pico de la distribución. Coeficiente de Sesgo de Pearson. P = 3 (Media - Mediana) s Si P < 0, los datos están sesgados a la izquierda. Si P > 0, los datos están sesgados a la derecha. Si P = 0, los datos están distribuidos normalmente. Estimador Eficiente. La eficiencia de un estimado depende de su varianza. '1 y '2 son dos estimadores insesgados, pero será un estimador eficiente aquel cuya varianza en muestreo repetidos con un tamaño muestral dado es menor. Varianza de la Distribución Muestral de las Medias Muéstrales: ²x'=(X'-X")²/K Si '1 es un estimador eficiente en relación a '2, la varianza de la distribución muestral de '1 es menor que la de '2. Los valores posibles para '2 están más dispersos. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 145 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 146 Estimador consistente. Un estimador es consistente si, a medida que n aumenta, el valor del estadístico se aproxima al parámetro. Para que un estimado sea consistente, debe ser insesgado y su varianza debe aproximarse a cero a medida que n aumenta. La varianza de la distribución muestral de las medias muéstrales es ²x' es ²/n. A medida que n aumenta, ²x' se aproximara a cero. Por tanto, se puede decir que X' es un estimador consistente de . Estimador suficiente. Un estimador es suficiente si utiliza toda la información relevante sobre el parámetro contenido en la muestra. Es decir, ningún otro estimador puede proporcionar más información sobre el parámetro. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 146 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 147 Prueba de Hipótesis (Hypothesis Testing - STOH Statistical Test of Hipothesis) Las hipótesis indican lo que estamos buscando o tratando de probar y pueden definirse como explicaciones tentativas del fenómeno investigado formuladas a manera de proposiciones. Las hipótesis no necesariamente son verdaderas, pueden o no serlo, pueden o no comprobarse con hechos. Son explicaciones tentativas, no los hechos en sí. Dentro de la investigación científica, las hipótesis son proposiciones tentativas acerca de las relaciones entre dos o más variables y se apoyan en conocimientos organizados y sistematizados. Una hipótesis en el contexto de la estadística inferencial es una proposición respecto a uno o varios paramétros, y lo que el investigador hace por medio de la Prueba de Hipótesis es determinar si la hipótesis poblacional es congruente con los datos obtenidos en la muestra (Wiersma y Jurs, 2008; Gordon, 2010). Una hipótesis de investigación establece las expectativas del investigador. Es una declaración tentativa acerca de un fenómeno. Con mucha frecuencia es un pensamiento bien fundamentado, basado en una teoría o en un modelo o derivado de la fase exploratoria de la investigación. Para que sea útil, debe apoyarse en una prueba estadística de hipótesis y una defensa lógica fundamentada en los datos recolectados. La hipótesis de investigación se deriva directamente de una definición de problema bien meditada y especificada. Una hipótesis de investigación debe ser declaratoria y operacional, así como reflejar una posibilidad de solución basada en cierto conocimiento, investigación previa o necesidades identificadas de la población en estudio. Sin embargo, y aún más importante, una hipótesis de investigación tiene que ser probable. Sampieri H., Roberto. "Metodología de la Investigación". McGraw Hill: Quinta Edición. 2010 BEST SELLER INTERNACIONAL. DAVIS Duane. Investigación en Administración para la toma de decisiones. International Thomson Editores: Quinta Edición. 2001. Hipótesis nulas son, en cierto modo, el reverso de las hipótesis de investigación. También constituyen proposiciones acerca de la relación entre variables; que sirven solo para refutar o negar lo que afirma la hipótesis de investigación. Hipótesis alternativas, como su nombre lo indica, son posibilidades "alternas" ante las hipótesis de investigación y nula: Ofrece otra descripción o explicación distintas a las que proporcionan estos tipos de hipótesis. Si la hipótesis de investigación establece: "esta silla es roja", y podrían formularse una o más hipótesis alternativas: ""esta silla es azul", "esta silla es verde", "esta silla es amarilla", etcétera. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 147 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 148 Hipótesis estadísticas son las transformaciones de las hipótesis de investigación, nulas y alternativas en símbolos estadísticos. Se pueden formular solo cuando los datos del estudio que se van a recolectar y analizar para probar o rechazar las hipótesis son cuantitativos (números, porcentajes, promedios). Es decir, el investigador traduce su hipótesis de investigación y su hipótesis nula (y cuando se formulan hipótesis alternativas, también estas) en términos estadísticos. En estadística, una hipótesis es una afirmación o declaración que se hace acerca de una propiedad de una población. Componentes de una Prueba de Hipótesis. Hipótesis nula - denotada por Ho (Null Hypothesis) es una declaración acerca del valor de un parámetro de población (como la media) y debe contener la condición de igualdad escrita con el símbolo =, o . (Al efectuar realmente la prueba, operaremos bajo el supuesto de que el parámetro es igual a algún valor específico.) En el caso de la media, la hipótesis nula se expresara en una de estas tres posibles formas: Ho: = algún valor Ho: algún valor Ho: algún valor Por ejemplo, la hipótesis nula que corresponde a la creencia común de que la temperatura corporal media es 98.6ºF se expresa como Ho:=98.6. Probamos la hipótesis nula directamente en el sentido de que suponemos que es verdad y llegamos a una conclusión que puede ser rechazar Ho o bien en no rechazar Ho. Nunca se puede aceptar la hipótesis nula como verdadera. El no rechazo de la hipótesis nula solamente significa que la evidencia muestral no es lo suficientemente fuerte como para llegar a su rechazo. Antes que se rechace la hipótesis nula, la media muestral debe diferir significativamente de la media poblacional planteada como hipótesis. Es decir, que la evidencia debe ser muy convincente y concluyente. Una conclusión con base en un rechazo de la hipótesis nula es más significativa que una que termine en una decisión de no rechazo. Diferencia estadísticamente insignificante En la diferencia entre el valor de la media poblacional bajo la hipótesis y el valor de la media muestral que es lo suficientemente pequeña como para atribuirla a un error de muestreo. Hipótesis Alternativa - denotada por Ha (Alternative Hypothesis) es la declaración que debe ser verdad si la hipótesis nula es falsa. En el caso de la media, la hipótesis alternativa se expresara en una de tres posibles formas: Ha: algún valor Ha: > algún valor Ha: < algún valor Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 148 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 149 Obsérvese que Ha es lo contrario de Ho. Por ejemplo, si Ho se da como =98.6, se sigue que la hipótesis alternativa está dada por Ha98.6. Errores Tipo I y Tipo II. Al probar una hipótesis nula, llegamos a una conclusión de rechazarla o no rechazarla. Tales conclusiones a veces son correctas y a veces equivocadas. Hay dos tipos de errores que podemos cometer. Error Tipo I. El error de rechazar la hipótesis nula, dado que es verdadera. La probabilidad de cometer un error tipo I es igual al nivel de significancia, o valor en el que se prueba la hipótesis. Error Tipo II. Es no rechazar una hipótesis nula que es falsa. Usamos el símbolo para representar la probabilidad de error tipo II. Para el responsable de las decisiones administrativas, cometer un error al depender de una propuesta de decisión débilmente comprobada podría significar pérdidas importantes para la empresa. De igual manera, una decisión equivocada también significaría la pérdida de oportunidades. El tomador de decisiones suele estar más consciente de las pérdidas de efectivo que de las pérdidas de oportunidades porque las primeras son más visibles. Es por esto que la mayoría de los investigadores y los gerentes se esfuerzan por evitar un error tipo I. Como controlar los errores tipo I y tipo II. Consideraciones prácticas que podrían ser pertinentes: 1. Para cualquier fija, un aumento en el tamaño de muestra n hace que disminuya. Es decir, una muestra más grande reduce la posibilidad de cometer el error de no rechazar la hipótesis nula, dado que en realidad es falsa. 2. Para cualquier tamaño de muestra fijo n, una disminución de causará un incremento en . Por otra parte, un incremento en causará una disminución en . 3. Si queremos reducir tanto como , deberemos aumentar el tamaño de muestra. Estadística de Prueba. Una estadística de muestra o un valor basado en los datos de una muestra. Se utiliza una estadística de prueba para tomar la decisión de rechazar o no la hipótesis nula. = (X' - )/(/n) = (X' - )/(s/n) Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 149 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 150 Región critica. El conjunto de todos los valores de la estadística de prueba que nos harían rechazar la hipótesis nula. Valor crítico. El valor o valores que separan la región crítica de los valores de la estadística de prueba que no nos harían rechazar la hipótesis nula. Los valores críticos dependen de la naturaleza de la hipótesis nula, la distribución de muestreo pertinente y el nivel de significancia . Prueba de dos colas para Hay cuatro pasos involucrados en una prueba: Paso 1: Plantear las hipótesis. Paso 2: Con base en los resultados de la muestra, calcular el valor del estadístico de prueba Z. Paso 3: Determinar la regla de decisión con base en los valores críticos de Z. Paso 4: Interpretación y conclusiones. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 150 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 151 Caso I. Como gerente de compras de una gran empresa de seguros usted debe decidir si actualizar o no los computadores de la oficina. A usted se le ha dicho que el costo promedio de los computadores es de US$2,100. Una muestra de 64 minoristas revela un precio promedio de US$2,251, con una desviación estándar de US$812. ¿A un nivel de significancia del 5% parece que su información es correcta? Datos: Ho:=US$2,100 n=64 minoristas X'=US$2,251 precio promedio (de los computadores) de la muestra s=US$812 =5%=0.05 (nivel de significancia) Paso 1: Plantear las hipótesis. El gerente de compra desea probar la hipótesis de que la media poblacional es =US$2,100 bajo un nivel de significancia =5%=0.05. Debido a que se plantea la hipótesis de que =US$2,100, la hipótesis nula y la alternativa son: Ho: = 2,100 Ha: 2,100 Paso 2: Con base en los resultados de la muestra, calcular el valor del estadístico de prueba Z. Para probar la hipótesis, se calcula el estadístico de prueba Z, y se compara con los valores críticos de Z. = (X' - H)/(/n) = (X' - H)/(s/n) en donde X' es la media muestral H es el valor de la media poblacional bajo hipótesis nula /n es el error estándar de la distribución muestral Ho: = 2,100 n=64 minoristas X'=US$2,251 s=US$812 = (2,251 - 2,100)/(812/8) = (151)/(101.5) = 1.49 Paso 3: Determinar la regla de decisión con base en los valores críticos de Z. El nivel de significancia del 5% se divide en dos colas. El 95% restante se divide por 2 para hallar el área de 0.4750. En la tabla Z esta área de 0.4750 da los valores críticos de Z de 1.96. La Regla de Decisión es: "No se rechaza la hipótesis nula sí -1.96 Z 1.96. Se rechaza sí Z<1.96 o Z>1.96. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 151 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 152 Vale la pena destacar que las zonas de rechazo están en ambas colas. Si Z<-1.96 o Z>1.96, se rechaza la hipótesis nula. Paso 4: Interpretación y conclusiones. El paso final en la prueba de hipótesis es donde cae el valor del estadístico para la muestra y determinar si la hipótesis nula debería rechazarse o no. El valor del estadístico para la muestra es X'=US$2,251 produce una Z=1.49 ==> 1.49<1.96 y cae dentro de la zona de no rechazo. Interpretación: La diferencia entre el valor de la media poblacional bajo la hipótesis nula de = 2,100 y el valor de la media muestral de X'=US$2,251 es estadísticamente insignificante. Podría resultar simplemente del error de muestreo. De hecho sí =2,100; el 95% de todas las muestras de tamaño n=64 producirán valores de Z entre 1.96. Caso II. Un contrato de manejo laboral exige una producción diaria de 50 unidades. Una muestra de 150 días revela una media de 47.3, con una desviación estándar de 5.7 unidades. Fije =5% y determine si se cumple con la disposición del contrato. Caso III. Un gerente de una empresa considera que los empleados gastan un promedio de 50 minutos para llegar al trabajo. Se toma una muestra de 70 empleados que se toman en promedio 47.2 minutos con una desviación estándar de 18.9 minutos. Fije en 1% y pruebe la hipótesis. TAREA: Ejercicios 1 al 16 Págs. 204-205. Para entregar en la próxima clase. Las colas de una distribución son las regiones extremas delimitadas por valores críticos. Rechazamos la hipótesis nula Ho si nuestra estadística de prueba está en la región crítica o área de rechazo porque eso indica una discrepancia significativa entre la hipótesis nula y los datos de la muestra. Algunas pruebas son de cola izquierda, con la región crítica situada en la región de extrema izquierda de la curva; otras podrían ser de cola derecha, con la región critica en la región de la extrema derecha bajo la curva. En las pruebas de dos colas, el nivel de significancia se divide equitativamente entre las dos colas que constituyen la región crítica o área de rechazo. En las pruebas de cola derecha o izquierda, el área de la región crítica es . Si examinamos la hipótesis nula Ho, deberemos poder deducir si una prueba es de cola derecha, de cola izquierda o de dos colas. La cola corresponderá a la región crítica que contenga los valores que podrían contradecir significativamente la hipótesis nula. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 152 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 153 Vale la pena destacar que tanto en la prueba de cola a la izquierda como a la derecha el signo igual se coloca en la hipótesis nula. Esto es porque la hipótesis nula se está probando a un valor específico (como 5%) y el signo igual da a la hipótesis nula un valor específico para probarla. Una prueba de cola a la izquierda tiene una zona de rechazo solo en la cola izquierda y se da bajo la condición de: Ho: algún valor Ha: < algún valor Una prueba de cola a la derecha tiene una zona de rechazo solo en la cola derecha y se da bajo la condición de: Ho: algún valor Ha: > algún valor Caso I. Determinación de valores críticos o zona de no rechazo: Muchos pasajeros de cruceros usan parches cutáneos que suministran dramamina al cuerpo con el fin de evitar el mareo. Se prueba una aseveración respecto a la dosis media con un nivel de significancia de = 0.05. Las condiciones son tales que es posible usar la distribución normal estándar (porque aplica el teorema del límite central). Encuentre el o los valores críticos de z si la prueba es (a) de dos colas, (b) de cola izquierda y (c) de cola derecha. Represente gráficamente el valor crítico y la región crítica. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 153 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 154 Caso II. Baskin-Robbins, la franquicia de helados, afirma que el número de tiendas que se abre se ha incrementado por encima del promedio semanal de 10.4 experimentado en tiempo de escasez (The Wall Street Journal, febrero de 1997). ¿Existe alguna evidencia para sustentar esta afirmación si 50 semanas muestran una media de 12.5 y una desviación estándar de 0.66 tiendas? La gerencia está dispuesta a aceptar una probabilidad del 4% de rechazo de la hipótesis nula si esta es cierta. Datos: n=50 semanas X'=12.5 tiendas de la muestra s=0.66 tiendas =4%=0.04 (nivel de significancia) Paso 1: Plantear las hipótesis. La afirmación de que el incremento es por encima del promedio semanal de 10.4 sirve como hipótesis alternativa debido a que >10.4 no contiene el signo igual. Una prueba de cola a la derecha tiene una zona de rechazo solo en la cola derecha y se da bajo la condición de: Ho: algún valor Ha: > algún valor Ha: > 10.4 tiendas semanal Ho: 10.4 tiendas semanal Paso 2: Con base en los resultados de la muestra, calcular el valor del estadístico de prueba Z. Para probar la hipótesis, se calcula el estadístico de prueba Z, y se compara con los valores críticos de Z. = (X' - H)/(/n) = (X' - H)/(s/n) en donde X' es la media muestral H es el valor de la media poblacional bajo hipótesis nula /n es el error estándar de la distribución muestral Ho: 10.4 tiendas semanal n=50 semanas X'=12.5 tiendas de la muestra s=0.66 tiendas =4%=0.04 (nivel de significancia) = (12.5 - 10.4)/(0.66/50) = 2.1/0.093 = 22.5 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 154 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 155 Paso 3: Determinar la regla de decisión con base en los valores críticos de Z. El nivel de significancia del 4%. El 50% se resta de 4% para hallar el área de 0.46. En la tabla Z esta área de 0.46 da el valor crítico de Z de 1.75. La Regla de Decisión es: "No se rechaza la hipótesis nula sí Z 1.75. Se rechaza sí Z>1.75. Paso 4: Interpretación y conclusiones. El paso final en la prueba de hipótesis es donde cae el valor del estadístico para la muestra y determinar si la hipótesis nula debería rechazarse o no. El valor del estadístico para la muestra produce una Z=22.5 ==> 22.5>1.75 y cae dentro de la zona de rechazo o región critica. Interpretación: La hipótesis nula se rechaza ya que en tiempo de escasez no se abren más de 10.4 tiendas semanal Caso III. Según Wall Street Journal (mayo 12 de 1997) muchas compañías de ropa deportiva están tratando de comercializar sus productos entre los más jóvenes. El articulo sugirió que la edad promedio de los consumidores había caído por debajo de la media de 34.4 años que caracterizo los comienzo de la década. Si una muestra de 1000 clientes reporta una media de 33.2 años y una desviación de 9.4, ¿qué se concluye a un nivel de significancia de del 4%? Datos: n=1000 clientes X'=33.2 años (edad promedio de la muestra de los consumidores de ropa deportiva) s=9.4 años =4%=0.04 (nivel de significancia) Paso 1: Plantear las hipótesis. La afirmación de que la edad de los consumidores estaba por debajo de 34.4 años sirve como hipótesis alternativa debido a que < 34.44 no contiene el signo igual. Una prueba de cola a la izquierda tiene una zona de rechazo solo en la cola izquierda y se da bajo la condición de: Ho: algún valor Ha: < algún valor Ha: < 34.4 años (edad promedio de los consumidores de ropa deportiva) Ho: 34.4 años Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 155 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 156 Paso 2: Con base en los resultados de la muestra, calcular el valor del estadístico de prueba Z. Para probar la hipótesis, se calcula el estadístico de prueba Z, y se compara con los valores críticos de Z. = (X' - H)/(/n) = (X' - H)/(s/n) en donde X' es la media muestral H es el valor de la media poblacional bajo hipótesis nula /n es el error estándar de la distribución muestral Ho: 34.4 años n=1000 clientes X'=33.2 años (edad promedio de la muestra de los consumidores de ropa deportiva) s=9.4 años =4%=0.04 (nivel de significancia) = (33.2 - 34.4)/(9.4/1000) = -1.2/0.297254 = -4.04 Paso 3: Determinar la regla de decisión con base en los valores críticos de Z. El nivel de significancia del 4%. El 50% se resta de 4% para hallar el área de 0.46. En la tabla Z esta área de 0.46 da el valor critico de Z de 1.75. La Regla de Decisión es: "No se rechaza la hipótesis nula sí Z 1.75. Se rechaza sí Z<1.75. Paso 4: Interpretación y conclusiones. El paso final en la prueba de hipótesis es donde cae el valor del estadístico para la muestra y determinar si la hipótesis nula debería rechazarse o no. El valor del estadístico para la muestra produce una Z=-4.04 ==> -4.04<1.75 y cae dentro de la zona de rechazo o región critica. Interpretación: La hipótesis nula se rechaza ya que la edad promedio no ha caído por debajo del grupo de edad de 34.4 años. Ejercicios 17 al 26 - Pág. 209 para entregar en la próxima clase. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 156 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 157 Condiciones para usar la Distribución t de Student en Prueba de Hipótesis. 1.- La muestra es pequeña (n30). 2.- Se desconoce . 3.- La población padre tiene una distribución esencialmente normal. (Dado que a menudo se desconoce la distribución de la población padre, la estimamos construyendo un histograma con datos de muestra.) Propiedades importantes de la Distribución t de Student. 1.- La distribución t de Student es diferente para los diferentes tamaños de muestra. (Ver Figura 7.3 en la Pág. 177). 2.- La distribución t de Student tiene la misma forma general de campana simétrica que la distribución normal estándar, pero refleja la mayor variabilidad (con distribuciones más amplias) que cabe esperar cuando la muestra es pequeña. 3.- La distribución t de Student tiene una media t=0 (así como la distribución normal estándar tiene una media de Z=0). 4.- La desviación estándar de la distribución t de Student varia con el tamaño de la muestra, pero es mayor que 1 (a diferencia de la distribución normal estándar, que tiene =1). Al igual que la distribución Z, la distribución t tiene una media de cero, es simétrica respeto a la media y oscila entre - y + . Sin embargo, mientras que la distribución Z tiene una varianza de ²=1, la varianza de la distribución t es mayor que 1. 5.- A medida que aumenta el tamaño de muestra n, la distribución t de Student se acerca más a la distribución normal estándar. Con valores de n > 30, las diferencias son tan pequeñas que podemos utilizar los valores críticos de z en lugar de crear una tabla mucho más grande de valores críticos de t. Grados de libertad. El número de grados de libertad de un conjunto de datos corresponde al número de puntajes que puede variar después de haber impuestos ciertas restricciones a todos los puntajes. Es el número de observaciones menos el número de restricciones impuestas sobre tales observaciones. g.l. = n - 1 Podría parecer un poco extraño que, con una población distribuida normalmente, a veces utilicemos la distribución t para encontrar valores críticos, pero cuando se desconoce el uso de s de una muestra pequeña incorpora otra fuente de error. A fin de mantener el grado de confianza deseado, compensamos la variabilidad adicional ensanchando el intervalo de confianza mediante un proceso que sustituye el valor crítico Z por el valor crítico más grande de t. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 157 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 158 El estadístico t t = (X'-)/(s/n) Prueba de dos colas para Hay cuatro pasos involucrados en una prueba: Paso 1: Plantear las hipótesis. Paso 2: Con base en los resultados de la muestra, calcular el valor del estadístico de prueba Z. Paso 3: Determinar la regla de decisión con base en los valores críticos de Z. Paso 4: Interpretación y conclusiones. Caso I Un distribuidor de bebidas plantea la hipótesis de que las ventas por mes promedian US$12,000. Diez meses seleccionados como muestra reportan una media de US$11,277 y una desviación estándar de US$3,772. Si se utiliza un valor del 5%. ¿Qué puede concluir acerca de la impresión que tienen el distribuidor sobre las condiciones del negocio? Ejercicios 33 al 40 Págs. 215-216. El Método de valor P para probar hipótesis (P-Value Method of Testing Hypotheses). Dado una hipótesis nula y datos de muestra, el valor p refleja la verosimilitud de obtener los valores de muestra en cuestión suponiendo que la hipótesis nula realmente es verdad. Valor P (o valor de probabilidad) es la probabilidad de obtener un valor de la estadística de prueba que será al menos tan extremo como se obtiene a partir de los datos de muestra, suponiendo que la hipótesis es verdad. Valor P es el nivel más bajo de significancia (valor mínimo) al cual se puede rechazar la hipótesis nula. Es el área en la cola que está más allá del valor del estadístico para la muestra. Los valores P miden la confianza que sentimos al rechazar una hipótesis nula. Por ejemplo, un valor P de 0.0002 nos llevaría a rechazar la hipótesis nula, pero también sugeriría que los resultados de muestra son extremadamente inusitados si el valor que se asegura que tiene es en realidad correcta. En contraste, dado un valor P de 0.40, no rechazamos la hipótesis nula porque los resultados de muestra podrían ocurrir fácilmente si el valor que se asegura que tiene si es el correcto. Algunos criterios de decisión basados exclusivamente en el valor P: - Rechazar la hipótesis nula si el valor P es menor que el nivel de significancia, o igual a él. - No rechazar la hipótesis nula si el valor P es mayor que el nivel de significancia. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 158 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 159 Valor P Interpretación Menor que 0.01 Muy significativo estadísticamente Indicios muy claros en contra de la hipótesis nula 0.01 a 0.05 Estadísticamente significativo Suficientes indicios en contra de la hipótesis nula Mayor que 0.05 Insuficientes indicios en contra de la hipótesis nula Caso I. A comienzo de los años 90 Sony Corporation introdujo su Play Station de 32 bits en el mercado de los juegos de video. La gerencia esperaba que el nuevo producto incrementara las ventas mensuales en Estados Unidos por encima de los US$283,000,000 que Sony había experimentado en la década anterior. Una muestra de 40 meses reporto una media de US$297,000,000. Se asume una desviación estándar de US$97,000,000. Pruebe la hipótesis nula a un nivel de significancia del 1%. Calcule e interprete el valor p. Datos: n=40 meses X'=US$297,000,000 ventas de la muestra s=US$97,000,000 =1%=0.01 (nivel de significancia) Paso 1: Plantear las hipótesis. La afirmación de que el nuevo producto incrementara las ventas por encima de US$283,000,000 sirve como hipótesis alternativa debido a que > US$283,000,000 no contiene el signo igual. Una prueba de cola a la derecha tiene una zona de rechazo solo en la cola derecha y se da bajo la condición de: Ho: algún valor Ha: > algún valor Ha: > US$283,000,000 (ventas mensuales) Ho: US$283,000,000 (ventas mensuales) Paso 2: Con base en los resultados de la muestra, calcular el valor del estadístico de prueba Z. Para probar la hipótesis, se calcula el estadístico de prueba Z, y se compara con los valores críticos de Z. = (X' - H)/(/n) = (X' - H)/(s/n) en donde X' es la media muestral H es el valor de la media poblacional bajo hipótesis nula /n es el error estándar de la distribución muestral Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 159 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 160 Ho: US$283,000,000 (ventas mensuales) n=40 meses X'=US$297,000,000 ventas de la muestra s=US$97,000,000 =1%=0.01 (nivel de significancia) = (297,000,000 - 283,000,000)/(97,000,000/40) = 14,000,000/15,337,047.42 = 0.91 El valor Z para el nivel de insignificancia de 1% se obtiene en la tabla después de restar 0.50.01= 0.49, el cual corresponde a 2.33 Paso 3: Determinar la regla de decisión con base en los valores críticos de Z. En la tabla Z el valor Z de 0.91 tiene el área de 0.3186. Por lo tanto el: valor P = 0.5 - 0.3186 = 0.1814 La Regla de Decisión es: - Rechazar la hipótesis nula si el valor P es menor que el nivel de significancia, o igual a él. - No rechazar la hipótesis nula si el valor P es mayor que el nivel de significancia. Paso 4: Interpretación y conclusiones. El paso final en la prueba de hipótesis es donde cae el valor del estadístico para la muestra y determinar si la hipótesis nula debería rechazarse o no. Como el valor de significancia es menor que 0.1814 para la muestra de Z=0.91 cae en la zona de no rechazo. Interpretación: La hipótesis nula no se rechaza. Ejercicios 27 al 32 Pág. 213. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 160 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 161 Caso II. En el verano de 1997, el Congreso de USA aprobó un presupuesto federal que contenía varias partidas para reducciones de impuestos. Los analistas afirmaron que ahorraría al contribuyente promedio US$800.00 dólares. Una muestra de 500 contribuyentes demostró una reducción promedio en los impuestos de US$785.10 con una desviación estándar de US$277.70. Pruebe la hipótesis a un nivel de significancia del 5%. Calcule e Interprete el valor p. Datos: n= 500 contribuyentes X'=US$785.10 s=US$277.70 =5%=0.05 (nivel de significancia) Paso 1: Plantear las hipótesis. Ha: = US$800.00 Ho: US$800.00 Paso 2: Con base en los resultados de la muestra, calcular el valor del estadístico de prueba Z. = (X' - H)/(/n) = (X' - H)/(s/n) = (785.10 – 800.00)/(277.70/500) = -14.9/12.42 = - 1.20 El valor Z para el nivel de insignificancia de 5% se divide entre dos. Se obtiene en la tabla el valor de Z = 1.96. Paso 3: Determinar la regla de decisión con base en los valores críticos de Z. En la tabla Z, el valor Z de 1.20 tiene el área de 0.3849. Por lo tanto el: 0.5 - 0.3849 = 0.1151 valor P = 2 * 0.1151 = 0.2302 La Regla de Decisión es: - Rechazar la hipótesis nula si el valor P es menor que el nivel de significancia, o igual a él. - No rechazar la hipótesis nula si el valor P es mayor que el nivel de significancia. Paso 4: Interpretación y conclusiones. El paso final en la prueba de hipótesis es donde cae el valor del estadístico para la muestra y determinar si la hipótesis nula debería rechazarse o no. Como el valor de significancia es menor que 0.2302 para la muestra de Z = -1.20 cae en la zona de no rechazo. Interpretación: La hipótesis nula no se rechaza. Ejercicios 27 al 32 Pág. 213. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 161 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 162 Caso III. Forbes (Septiembre 1996) reportó que Freddie Maman, representante de la cantante de pop Madonna, estimó que las ventas diarias de su nuevo álbum excedería las de su éxito más grande de 1994, Like a Virgin, el cual tuvo un promedio de ventas de 27,400 copias. ¿Freddie está en lo cierto a un nivel de significancia del 10% si 50 observaciones (días) poseen un media de 28,788 copias con una desviación estándar de 3,776? Calcule e interprete el valor p. Y Represente gráficamente incluyendo el valor P. Caso IV. La Asociación Internacional de Transporte Aéreo pide a los viajeros de negocios que califiquen los aeropuertos internacionales trasatlánticos. La calificación máxima posible es 10. Una revista dedicada a los viajes desea clasificar a los aeropuertos según la calificación que reciben. De los que tienen una calificación de media de población de 7 ó más se consideran que ofrecen un servicio superior. Suponga que a una muestra aleatoria de 12 viajeros se les pidió calificar al aeropuerto Heathrow de Londres, y que las calificaciones obtenidas son 7, 8, 10, 8, 6, 9, 6, 7, 7, 8, 9 y 8. Suponiendo que la población de calificaciones se puede aproximar con una distribución normal, ¿puede decirse que Heathrow ofrece un servicio superior? Usando un nivel de significancia de 0.05, necesitamos una prueba que determine si la media de la población de calificaciones para el aeropuerto es mayor de 7. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 162 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 163 Distribución Chi-cuadrada (Chi-Square Distribution) En secciones anteriores determinamos (1) el estimado puntual, (2) intervalo de confianza y (3) determinamos el tamaño de la muestra para medias y proporciones, en esta sección los aplicaremos a la varianza de población ² o desviación estándar de población . Muchas situaciones reales, como el control de calidad en un proceso de fabricación, requiere estimar valores de varianzas o desviaciones estándar de población. Además de fabricar productos cuyas mediciones producen una media deseada, el fabricante debe elaborar productos con una calidad uniforme que no abarquen toda la gama desde extremadamente buenos hasta extremadamente deficientes. Dado que tal uniformidad a menudo se puede medir por la varianza o la desviación estándar, estas se convierten en estadísticas vitales para mantener la calidad de los productos. Distribución Chi cuadrada. En una población distribuida normalmente con varianza ², seleccionamos aleatoriamente muestras independientes de tamaño n y calculamos la varianza de muestras s² para cada muestra. La estadística de muestra ²=(n-1)s²/² tiene una distribución llamada distribución Chi cuadrada. ²=(n-1)s²/² n = tamaño de muestra s²= varianza de muestra ²= varianza de población La distribución Chi cuadrada está determinada por el número de grados de libertad, por el momento usaremos n-1 grados de libertad. Propiedades de la Distribución de la estadística Chi cuadrada. 1.- La Distribución Chi cuadrada no es simétrica, a diferencia de las distribuciones normal y t Student (A medida que aumenta el número de grados de libertad, la distribución se vuelve más simétrica). 2.- Los valores de Chi cuadrada pueden ser cero o positivos, pero no pueden ser negativos. 3.- La distribución Chi cuadrada es diferente para cada número de grados de libertad, que es gl=n-1. A medida que aumenta el número de grados de libertad, la distribución Chi cuadrada se acerca a una distribución normal. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 163 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 164 Caso I. Usando la tabla H Distribución Chi-cuadrado. Encuentre los valores críticos de ² que determinan regiones críticas que contienen un área de 0.025 en cada cola. Suponga que el tamaño de muestra pertinente es de 10, de modo que el número de grados de libertad es 10-1=9 Solución: El valor crítico de la derecha (²=19.023) se obtiene directamente localizando 9 en la columna de grados de libertad de la izquierda y 0.025 en la fila superior. El valor critico de ²=2.700 de la izquierda también corresponde a 9 en la columna de grados de libertad, pero es preciso localizar 0.975 (que se obtiene de restar 0.025 a 1) en la fila superior porque los valores de esa fila siempre son áreas a la derecha del valor crítico. Al obtener valores críticos de Chi cuadrada de la H Distribución Chi-cuadrado, obsérvese que los números de grados de libertad son enteros consecutivos del 1 al 30, seguidos de 40, 50, 60, 70, 80, 90 y 100. Si no se encuentra en la tabla un numero de grados de libertad (digamos 52), por lo regular puede usarse el valor critico más cercano. Por ejemplo, si el número de grados de libertad es 52, remítase a la tabla y use 50 grados de libertad. (Si el número de grados de libertad esta exactamente a la mitad entre dos valores de la tabla, como 55, simplemente calcule la media de los dos valores de ².) Para números de grados de libertad mayores que 100, use la ecuación siguiente: ²=1/2 [Z+(2k-1)]² donde k es el número de grados de libertad. Caso II. Encuentre los valores críticos ²L y ²R que corresponden al grado de confianza y tamaño de muestra dados. 1. 95%;n=26 3. 90%;n=60 2. 99%;n=17 4. 95%;n=50 Estimadores de ². Dado que las varianzas de muestras s² (que se obtienen con la formula s²=[(x-x')²]/(n1)) tienden a centrarse alrededor del valor de la varianza de la población ², decimos que s² es un estimador no predispuesto de ². Es decir, las varianzas de muestras s² no tienden a sobreestimar sistemáticamente ²; en vez de ello, tienden a centrarse en el valor de ² mismo. Además, los valores s² tienden a producir errores más pequeños al estar más cerca de ² que otras medidas de variación. Por estas razones, el valor s² es el mejor valor individual (o estimado puntual) de las diversas estadísticas que podríamos usar para estimar ². La varianza de muestra s² es el mejor estimado puntual de la variación de la población ². Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 164 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 165 Dado que s² es el mejor estimado puntual de ², seria natural esperar que s sea el mejor estimado puntual de , pero no sucede así, porque s es un estimador predispuesto de . Por otra parte, si el tamaño de muestra es grande, la predisposición es tan pequeña que podemos usar s como un estimado razonablemente bueno de . Aunque s² es el mejor estimado puntual de ², no tenemos una indicación de lo bueno que es realmente. Para compensar esta deficiencia, deducimos un estimado de intervalo (o intervalo de confianza) que es más revelador. Intervalo de confianza (o estimado de intervalo) para la varianza de población ². ²=(n-1)s²/² Despeje: ²=(n-1)s²/² El intervalo de confianza es: (n-1)s²/²R < ² < (n-1)s²/²L El intervalo de confianza para la desviación estándar se obtiene calculando la raíz cuadrada de cada componente anterior: [(n-1)s²/²R] < < [(n-1)s²/²L] Con un área total de dividida equitativamente entre las dos colas de una distribución Chi cuadrada, ²L denota el valor critico de cola izquierda y ²R denota el valor critico de cola derecha. Los límites de intervalos de confianza para ² y se deben redondear aplicando la regla de redondeo siguiente: 1. Si usa el conjunto de datos original para construir un intervalo de confianza, redondee los límites del intervalo de confianza a una posición decimal más que las empleadas en el conjunto de datos original. 2. Si desconoce el conjunto de datos original y solo usa las estadísticas resumidas (n,s), redondee los límites del intervalo de confianza al mismo número de posiciones decimales que se usan para la desviación estándar o varianza de muestra. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 165 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 166 Caso I. La Panificadora Pepín produce bizcochos que se empacan en cajas cuyos rótulos dicen contienen 12 bizcochos con un total de 42 onzas. Si la variación entre los bizcochos es demasiado grande, algunas cajas pesaran menos de lo debido (engañando a los clientes) y otras pesaran más (reduciendo las utilidades). El supervisor de control de calidad determino que puede evitar problemas si los bizcochos tienen una media de 3.50 onzas y una desviación estándar de 0.06 onzas o menos. Se seleccionan aleatoriamente doce bizcochos de la línea de producción y se pesan, con los resultados que se dan aquí (en onzas). Construya un intervalo de confianza del 95% para ² y un intervalo de confianza del 95% para , y luego determine si el supervisor de control de calidad está en problemas. 3.43 3.37 3.58 3.50 3.68 3.61 3.42 3.52 3.66 3.50 3.36 3.42 Solución: Con base en los datos de muestra, la media de X'=3.504 parece excelente porque está muy cerca del valor deseado. Los puntajes dados tienen una desviación estándar de s=0.109, que podría parecer mayor que el valor deseado de 0.06 o menos. Procedamos a obtener el intervalo de confianza para ². Con una muestra de 12 puntajes tenemos 11 grados de libertad. Con un grado de confianza del 95%, dividimos =0.05 equitativamente entre las dos colas de la distribución ² y nos remitimos a los valores de 0.975 y 0.025 en la fila superior. Los valores críticos de ² son ²L=3.816 y ²R=21.920. Utilizando estos valores críticos junto con la desviación estándar de muestra s=0.109 y el tamaño de muestra de 12 construimos el intervalo de confianza del 95% evaluando lo siguiente: (n-1)s²/²R < ² < (n-1)s²/²L (12-1)(0.109)²/21.920 <²< (12-1)(0.109)²/(3.816) 0.006 < ² < 0.034 Si sacamos la raíz cuadrada de cada parte (antes de redondear) obtenemos: 0.077 < < 0.185 Con base en el intervalo de confianza del 95% para , parece que la desviación estándar es mayor que el valor deseado de 0.06 o menos, así que el supervisor de control de calidad está en problemas y deberá tomar medidas correctivas para hacer que el peso de los bizcochos sea más uniforme. El intervalo de confianza de 0.077 < < 0.185 también puede expresarse como (0.077,0.185), pero el formato de =sE no puede usarse porque el intervalo de confianza no tiene a s en su centro. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 166 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 167 Caso II. Un recipiente anticongelante para automóvil supuestamente contiene 3,785 ml del líquido. Consciente de que las fluctuaciones son inevitables, la gerente de control de calidad quiere estar muy segura de que la desviación estándar sea de menos de 30 ml; De lo contrario, algunos recipientes se desbordaran, mientras que otros no tendrán suficiente anticongelantes. Ella selecciona aleatoriamente una muestra, con los resultados que se dan aquí. Utilice estos resultados para construir el intervalo de confianza del 99% para el verdadero valor de . ¿Sugiere este intervalo de confianza que las fluctuaciones están en un nivel aceptable? 3,761 3,861 3,769 3,772 3,675 3,861 3,888 3,819 3,788 3,800 3,720 3,748 3,753 3,821 3,811 3,740 3,740 3,839 Caso III. a) Los valores que se listan son tiempos de espera (en minutos) de clientes del BHD, donde los clientes se forman en una sola fila que alimenta tres ventanillas. Construya un intervalo de confianza del 95% para la desviación estándar de la población. 6.5 6.6. 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7 b) Los valores que se listan son tiempos de espera (en minuto) de clientes del Banco Popular, donde los clientes pueden formarse en cualquiera de tres filas distintas que se han formado frente a tres ventanillas distintas. Construya un intervalo de confianza del 95% para y compare los resultados con el intervalo de confianza para los datos del Banco BHD. ¿Sugieren los intervalos de confianza alguna diferencia en la variación de los tiempos de espera de cada banco? ¿Cuál sistema parece mejor: el de fila única o el de múltiples filas? 4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10.0 Caso IV. Se espera que un proceso estandarizado produzca arandelas con una desviación muy pequeña en su espesor. Suponga que se tomaron 10 de estas arandelas y sus espesores, en pulgadas fueron: 0.123 0.124 0.126 0.120 0.130 0.133 0.125 0.128 0.124 0.126 ¿Cuál es un intervalo de confianza de 90 por ciento para la desviación estándar del espesor de una arandela producida mediante este proceso? Caso V. Al diseñar una nueva máquina que se usará en una línea de ensamble de un planta de la General Motors, un ingeniero obtiene mediciones de la longitud de los brazos de una muestra aleatoria de operadores de máquina de sexo masculino. Los resultados obtenidos en centímetros se dan en seguida. Construya un intervalo de confianza del 95% para la longitud media de los brazos de todos los empleados de este tipo. 76.80 70.90 75.60 69.40 69.30 71.70 75.70 72.50 75.50 72.20 71.20 68.50 72.50 75.90 71.90 73.00 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 167 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 168 Caso VI. El cuerpo de cadete de la Marina está revisando sus pedidos de uniformes porque tiene un excedente de uniformes para reclutas altos y una escasez de uniformes para los reclutas bajos. Su revisión se basa en una muestra aleatoria de estaturas de reclutas de sexo masculino con edades entre los 18 y los 24 años, que se lista aquí (en pulgadas): 69.90 69.00 70.40 69.40 68.40 66.80 72.60 68.30 69.90 70.00 69.60 69.20 70.20 71.70 70.50 71.80 69.20 70.20 70.60 70.80 70.80 72.80 71.00 70.00 Construya un intervalo de confianza del 99% para la desviación estándar con un valor alfa del 0.05. Determinación del tamaño de muestra. (Sample Sizes) Los procedimientos para encontrar el tamaño de muestra necesario para estimar ² son muchos más complejos que los procedimientos que se dieron antes para las medias y proporciones. En lugar de aplicar procedimientos muy complicados, usaremos la tabla 6-2. Caso I. Con una confianza del 95%, queremos estimar dentro de un margen de error del 10%. ¿Qué tamaño deberá tener la muestra? Supongamos que la población está distribuida normalmente. Solución: En la tabla 6-2 vemos que una confianza del 95% y un error del 10% para corresponde a un tamaño de muestra de 191. Deberemos seleccionar aleatoriamente 191 valores de la población. Caso II. Determine el tamaño de muestra mínimo necesario para tener una confianza del 95% en que la desviación estándar de la muestra s estará a menos del 30% de . Caso III. Determine el tamaño de muestra mínimo necesario para tener una confianza del 99% en que la desviación estándar de la muestra s estará a menos del 20% de . Caso IV. Determine el tamaño de muestra mínimo necesario para tener una confianza del 99% en que la varianza de la muestra estará a menos del 30% de la varianza de la población. Caso V. Determine el tamaño de muestra mínimo necesario para tener una confianza del 95% en que la varianza de la muestra estará a menos del 40% de la varianza de la población. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 168 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 169 El análisis de varianza – ANOVA (Analysis of Variance) Es un método para probar la igualdad de dos o más medias de población analizando varianzas de muestra. Es una prueba estadística para analizar si más de dos grupos difieren significativamente entre sí en cuanto a sus medias y varianzas. El uso del diseño experimental del análisis de la varianza es cada vez mayor en investigación de mercados. El análisis de la varianza se basa en mantener la independencia de las variables de tratamiento. Distribución F Los métodos de ANOVA emplean la distribución F, que tiene las siguientes propiedades: 1. La distribución F no es simétrica; esta sesgada hacia la derecha. 2. Los valores de F pueden ser 0 o positivos, pero no pueden ser negativos. 3. Hay una distribución F distinta para cada par de grados de libertad del numerador y el denominador. Esta fue denominada así en 1924 en honor a Sir Ronald A. Fisher (1890-1962). La estadística de prueba F es el cociente de dos estimados, de modo que una estadística de prueba F significativamente grande (situada muy a la derecha en la gráfica de la distribución F) es un indicio en contra de que las medias de población sean iguales. Estadística de Prueba para ANOVA. F=varianza entre muestras/varianza dentro de las muestras El numerador mide la variación entre las medias de muestra. El estimado de la varianza del denominador depende solo de las varianzas de las muestras y no resulta afectado por las diferencias entre las medias de las muestras. Por consiguiente, si las medias de muestra tienen valores muy parecidos, la estadística de prueba F tiene un valor cercano a 1, y concluimos que no hay diferencias significativas entre las medias de muestra. En cambio, si el valor de F es excesivamente grande, rechazamos la afirmación de que las medias son iguales. Cálculos con tamaños de muestra iguales. F=varianza entre muestras/varianza dentro de las muestras Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 169 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 170 Si todos los conjuntos de datos tienen el mismo tamaño de muestra, como se presenta en la tabla a continuación. Primero calculamos la varianza entre muestras evaluando ns², donde s² es la varianza de las medias de muestra. INTERVALOS DE TIEMPO (EN MINUTOS ENTRE ERUPCIONES DEL VOLCAN "EL VIEJO FIEL" GEISER OLD FAITHFUL - PARQUE NAC. YELLOWSTONE N MEDIA X' DESVIACION 1951 74 60 74 42 74 52 65 68 62 66 62 60 1985 89 90 60 65 82 84 54 85 58 79 57 88 1995 86 86 62 104 62 95 79 62 94 79 86 85 1996 88 86 85 89 83 85 91 68 91 56 89 94 12 63,3 9,4 12 74,3 14,2 12 81,7 13,7 12 83,8 10,9 BASADOS EN DATOS DEL GEOLOGO RICK HUTCHINSON Y EL SERVICIO NACIONAL DE ESTADOS UNIDOS Descriptive statistics count mean sample variance sample standard deviation #1 #2 #3 #4 12 12 12 12 63.25 74.25 81.67 83.75 89.30 200.75 188.24 119.11 9.45 14.17 13.72 10.91 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 170 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 171 La Varianza para una muestra de datos no agrupados (s²). _ s² = [(Xi-X)²]/n-1 X" X´ X-X" 63.25 -12.48 74.25 -1.48 81.67 5.94 83.75 8.02 75.73 VAR. DESV. (X-X")^2 155.75 2.1904 35.284 64.32 85.848 9.2654 s² =[(63.25-75.73)²+(74.25-75.73)² +(81.67-75.73)² +(83.75-75.73)²]/(4-1)=85.85 = ²x' ²x'=²/n Por tanto: ² =n * ²x' Paso I. Por ejemplo las medias de las muestras de la tabla anterior son 63.3, 74.3, 81.7, 83.8. Esos cuatro valores tienen una desviación estándar de s=9.26116, así que: Varianza entre muestras = ns² = 12 (9.26116) ² = 1,029.23 Estimación de la varianza entre tratamientos: Por tanto: ² = n * ²x' = 12 * 85.85 = 1,030.2 Paso II. A continuación, estimamos la varianza dentro de las muestras calculando s²p, que es la varianza conjunta que se obtiene calculando la media de las varianzas de muestra. Las desviaciones estándar de muestra son 9.4, 14.2, 13.7 y 10.9, así que Descriptive statistics Count Mean sample variance sample standard deviation #1 #2 #3 #4 12 12 12 12 63.25 74.25 81.67 83.75 89.30 200.75 188.24 119.11 9.45 14.17 13.72 10.91 Varianza dentro de las muestras = s²/K =(9.4² + 14.2² + 13.7² + 10.9²)/4 = 149.13 Estimación de la varianza Dentro de los tratamientos = (89.3+74.25+81.67+83.75)/4=597.4/4=149.35 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 171 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 172 Paso III. Por último, evaluamos la estadística de prueba F como sigue: F=varianza entre muestras/varianza dentro de las muestras F= Estimación de la varianza entre tratamientos / Estimación de la varianza Dentro de los tratamientos F=1,029.23/149.125 = 6.9018 F=1,030.02/149.35 = 6.8967 Si llevamos más posiciones decimales obtendremos una estadística de prueba más exacta: F=6.9018 Paso IV. El valor crítico de F se obtiene suponiendo una prueba de cola derecha, ya que los valores grandes de F corresponden a diferencias significativas entre las medias. Con k muestras cada una de las cuales tiene n puntajes, los números de grados de libertad se calculan como sigue: Grados de libertad con k muestras del mismo tamaño n. Grados de libertad del numerador = k - 1 Grados de libertad del denominador = k * (n-1) = N - k Para los datos de muestra de la tabla anterior k=4 y n=12, así que los grados de libertad son 3 para el numerador y 44 para el denominador. Con un =0.05, 3 grados de libertad para el numerador y 44 grados de libertad para el denominador, el valor critico es F = 2.84 (La tabla de Distribución F no incluye 44 grados de libertad para el denominador, así que usamos el valor más cercano, que corresponde a 40 grados de libertad). Regla de decisión: "No rechazar si F 2.84. Rechazar sí F > 2.84". Paso V. Con base a estos resultados, rechazamos la hipótesis nula de que las medias son iguales. Hay suficientes indicios para justificar que se rechace la afirmación de que las cuatro muestras provienen de poblaciones cuyas medias son iguales. One factor ANOVA ANOVA table Source Treatment Error Total Mean n Std. Dev 63.3 12 9.45 Group 1 74.3 12 14.17 Group 2 81.7 12 13.72 Group 3 83.8 75.7 12 48 10.91 Group 4 14.34 Total SS 3,090.06 6,571.42 9,661.48 df 3 44 47 MS 1,030.021 149.350 F 6.90 p-value .0007 Tabla de Análisis de Varianza – Tabla ANOVA Fuentes de Variacion Causas Posibles Error Muestral Suma de Cuadrados Factor A 3,090.06 Error E 6,571.42 Grados de Libertad Cuadrados medios F de Prueba 3 1030.02083 6.89667373 F Teórica 2.82 Valor-p .0007 44 149.350379 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 172 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 173 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 173 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 174 Análisis de Varianza con un Factor (One-Factor ANOVA) Caso I. Supongamos que queremos medir la blancura de tres marcas de detergentes en el lavado A1, A2, y A3. Con un nivel de significancia del 5% deseamos probar que el que el interés promedio por cada marca según la blancura que producen es igual. En el centro de la tabla, aparece la escala de 0 a 10, el interés por cada marca según la blancura que producen las distintas marcas en el lavado. POR CADA MARCHA SEGUN LA BLANCURA QUE PRODUCEN ANALISIS DE VARIANZA - ANOVA INDEPENDENCIA DE LAS VARIABLES DE TRATAMIENTO PERSONAS ELEGIDAS ALEATORIAMENTE 1 2 3 4 5 MEDIA = X' EFECTO DEL TRATAMIENTO TRATAMIENTOS – EXPERIMENTOS MARCAS DE DETERGENTES A1 A2 A3 4 7 3 4 6 1 5 8 4 5 6 3 7 8 4 5 7 3 0 2 -2 X" 5 INTERES POR CADA MARCHA SEGUN LA BLANCURA QUE PRODUCEN DISTINTAS MARCAS. ESCALA DE 0 A 10. Ho: A MEDIAr = MEDIAs Ho: MEDIA1 = MEDIA2 = MEDIA3 Ha: Ǝ MEDIAr ≠ MEDIAs (Al menos existen don medias que son diferentes) k = n. de poblaciones = n = n. de observaciones muestrales = k * n = n. total de observaciones muestrales = 3 k>2 5 15 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 174 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 175 Paso I. Descriptive statistics ANALISIS VARIANZA DENTRO DE LAS MUESTRAS A1 A2 A3 Count 5 5 5 Mean 5.00 7.00 3.00 sample variance sample standard deviation 1.50 1.00 SUM VAR. 4.00 1.50 1.22 1.00 1.22 Mínimum 4 6 1 Máximum 7 8 4 Range 3 2 3 Paso II. EFECTO DEL FACTOR TRATAMIENTO ANALISIS VARIANZA ENTRE MUESTRA X' A1 A2 A3 X" 5.00 7.00 3.00 5.00 Mean n 5.0 5 1.22 A1 7.0 5 1.00 A2 3.0 5 1.22 A3 5.0 15 X'-X" 0.00 2.00 -2.00 SUMATORIA VARIANZA DESVIACION (X'-X")^2 0.00 4.00 4.00 8.00 4 2 Std. Dev 2.00 Total Paso III. F=varianza entre muestras/varianza dentro de las muestras = ns²/(∑s²/K) Varianza entre muestras = ns² = 5 * 4 = 20 Varianza dentro de las muestras = ∑s²/K = 4/3 = 1.3333 F = 15 ANOVA table Source SS Df MS F p-value 15.00 .0005 Treatment 40.00 2 20.000 Error 16.00 12 1.333 Total 56.00 14 Suma de Cuadrados Grados de Libertad Fuentes de Variacion Causas Posibles Error Muestral Factor A Error E 40.00 16.00 2 12 Cuadrados medios 20.000 1.333 F de Prueba 15 F Teórica 3.89 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 175 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 176 MEDIA SUMA CUADRADOS DENTRO DE LAS MUESTRAS - ERROR (X(X(XA1 X')^2 A2 X')^2 A3 X')^2 4 1 7 0 3 0 4 1 6 1 1 4 5 0 8 1 4 1 5 0 6 1 3 0 7 4 8 1 4 1 5 7 3 SCD Error SUMATORIA DE CUADRADOS 6 4 6 16 SUMA SUMA CUADRADOS DENTRO MUESTRAS SUMA DE CUADRADOS ENTRE LAS MUESTRAS A1 A2 A3 X" MEDIA - X' 5 7 3 5 Treatment n*(X'-X")^2 0 20 20 40 SUMA SCE SUMA CUADRADOS ENTRE MUESTRAS SUMA DE LOS CUADRADOS DE LA MUESTRA TOTAL A1 (X-X")^2 A2 (X-X")^2 A3 (X-X")^2 4 1 7 4 3 4 4 1 6 1 1 16 5 0 8 9 4 1 5 0 6 1 3 4 7 4 8 9 4 1 SUMATORIA 6 24 26 SCT = SCD + SCE SCT = 56 SCD = 16 SCE = 40 X" = 5 SCT 56 SUMA DE CUADRADOS DE LA MUESTRA TOTAL Fo = F observada = F empírica Fo = (SCE / (k-1)) (SCD / (k*(n-1))) Numerador Denominador Dividendo 40.00 16 Divisor Resultado 2 20.00 12 1.33 15.00 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 176 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 177 Paso IV. G.L. NUMERADOR G.L. DENOMINADOR F-distribution df1 = 2 df2 = 12 K-1 K*(N-1) 2 12 P(lower) P(upper) F .9500 .0500 3.89 Regla de decisión: "No rechazar si F 3.89. Rechazar sí F > 3.89". Factor (Variable independiente): Causa posible de la heterogeneidad de las poblaciones (A). Niveles del Factor (Tratamientos): Cada uno de los valores posibles del Factor (A1, A2, A3…Ak). Variables dependientes o Variable respuesta: Son los valores de las observaciones. Efectos: Serán la medida de influencia del factor y, por tanto, de los tratamientos. (X’-X”) Error muestral: Es el error debido a la aleatoriedad en la selección de los elementos muéstrales. Unidades experimentales (Réplicas): En este caso las personas seleccionadas para el experimento. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 177 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 178 La homogeneidad de los datos xi se puede medir con su varianza, ya que cuanto menor sea la varianza, esto es, cuanto menos sea la dispersión alrededor de su media global X” más homogéneas son las observaciones xi. Suma de Cuadrados Dentro de las Muestras (SCD) = ∑ (Xi – X´)^2 Suma de Cuadrados Entre las Muestras (SCE) = ∑ n * (X´i – X”)^2 Grados de libertad con k muestras del mismo tamaño n. Grados de libertad del numerador = k - 1 Grados de libertad del denominador = k * (n-1) = N - k Estas sumas divididas entre sus correspondientes grados de libertad proporcionan los valores de los cuadrados medios. Suma de Cuadrados Medios Dentro de las Muestras (SCMD) = [∑ (Xi – X´)^2]/(k – 1) Suma de Cuadrados Medios Entre las Muestras (SCME) = [∑ n * (X´i – X”)^2]/(N – k) F = SCME / SCMD Fuentes de Variacion Causas Posibles Error Muestral Factor A Error E Suma de Cuadrados SCE = 40.00 SCD = 16.00 Grados de Libertad Cuadrados medios F de Prueba F Teórica SCME = (k – 1) = 2 (N – k) = SCMD = 12 1.333 20.000 15 3.89 Paso V. Con base a estos resultados, rechazamos la hipótesis nula de que el interés promedio por cada marca según la blancura que producen es igual. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 178 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 179 Caso II. Se desea contrastar si el comportamiento de los consumidores es homogéneo en función del día de la semana en que realizan su compra en un supermercado. Para ello se eligen al azar observaciones muéstrales de cinco clientes, de lunes a sábado. El volumen de compra medido en miles de unidades monetarias (u.m.) de cada una de las observaciones se recoge en la tabla siguiente: Poblaciones Volumen de compra de 5 clientes de lunes a sábado en el Supermercado L M MI J V S a 5 7 8 4 6 6 Observaciones b c d 6 4 2 3 3 5 4 4 7 6 2 5 2 3 7 5 6 3 e 3 2 2 5 5 7 Contrastar si el comportamiento es homogéneo en función del día de la semana A un nivel de significancia de 10% k = n. de poblaciones = 6 n = n. de observaciones muestrales = 5 N = k * n = n. total de observaciones muestrales = Ho: A MEDIAr = MEDIAs Ho: MEDIA1 = MEDIA2 = MEDIA3 Ha: Ǝ MEDIAr ≠ MEDIAs (Al menos existen don medias que son diferentes) L M MI J V A 5 7 8 4 6 B 6 3 4 6 2 C 4 3 4 2 3 D 2 5 7 5 7 E 3 2 2 5 5 30 S 6 5 6 3 7 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 179 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 180 Caso III. Se desea contrastar si el comportamiento de los consumidores es homogéneo en función del día de la semana en que realizan su compra en un supermercado. Para ello se eligen al azar observaciones muéstrales de cinco clientes, de lunes a sábado. El volumen de compra medido en miles de unidades monetarias (u.m.) de cada una de las observaciones se recoge en la tabla siguiente: Poblaciones Volumen de compra de 5 clientes de lunes a sábado en el Supermercado a 4 3 4 6 7 5 L M MI J V S b 2 3 5 7 8 4 Observaciones c d 3 4 4 4 4 3 8 5 5 5 4 5 e 2 3 4 6 9 4 Contrastar si el comportamiento es homogéneo en función del día de la semana A un nivel de significancia de 1% k = n. de poblaciones = n = n. de observaciones muestrales = k * n = n. total de observaciones muestrales = 6 5 30 Ho: A MEDIAr = MEDIAs Ho: MEDIA1 = MEDIA2 = MEDIA3 Ha: Ǝ MEDIAr ≠ MEDIAs (Al menos existen don medias que son diferentes) a b c d e L 4 2 3 4 2 M 3 3 4 4 3 MI 4 5 4 3 4 J 6 7 8 5 6 V 7 8 5 5 9 S 5 4 4 5 4 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 180 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 181 Caso IV. Con la particularidad de que el número de observaciones recogida cada día es distinto. Se desea contrastar si el comportamiento de los consumidores es homogéneo en función del día de la semana en que realizan su compra en un supermercado. Para ello se eligen al azar observaciones muéstrales de cinco clientes, de lunes a sábado. El volumen de compra medido en miles de unidades monetarias (u.m.) de cada una de las observaciones se recoge en la tabla siguiente: Poblaciones Volumen de compra de 5 clientes de lunes a sábado en el Supermercado L M MI J V S a 5 8 5 7 4 5 b 4 6 6 3 5 2 Observaciones c d 3 7 5 8 9 7 3 7 4 2 e 4 5 Contrastar si el comportamiento es homogéneo en función del día de la semana A un nivel de significancia de 10% k = n. de poblaciones = n = n. de observaciones muestrales = k * n = n. total de observaciones muestrales = 6 5 30 Ho: A MEDIAr = MEDIAs Ho: MEDIA1 = MEDIA2 = MEDIA3 Ha: Ǝ MEDIAr ≠ MEDIAs (Al menos existen don medias que son diferentes) A B C D E L 5 4 3 M 8 6 7 5 MI 5 6 8 9 4 J 7 3 7 3 V 4 5 7 4 5 S 5 2 2 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 181 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 182 Caso V. Queremos contrastar si la compra media por día es homogénea en función del día del mes en que se realiza la compra en un supermercado. Para abaratar los costes de la experimentación elegimos al azar diez días, y en cada uno de ellos tomamos un número distinto de observaciones muéstrales. La compra en miles de u.m., de cada una de las observaciones, aparece en la tabla siguiente. 1 2 3 4 5 6 A1 6 6 7 6 5 A2 8 5 5 5 6 7 A3 6 8 9 7 5 A4 5 6 3 2 4 4 A5 4 7 7 4 5 3 A6 5 6 4 5 A7 8 5 5 6 A8 9 8 8 7 8 A9 4 5 6 3 2 4 A10 5 4 5 4 2 Contrastar con un nivel de significación del 5% la homogeneidad de la compra diaria durante el mes. Caso VI. El vicepresidente de mercado del Banco BHD León en los recientes esfuerzos promocionales para atraer nuevos depositantes incluye algunos juegos y premios en cuatro sucursales del banco. Está convencido que diferentes tipos de premios atraerían a diferentes grupos de grupos de ingreso. Las personas de un nivel de ingreso prefieren los regalos, mientras que los de otro grupo de ingreso pueden sentirse más atraídas por viajes gratuitos a sitios favoritos para pasar vacaciones. Este decide utilizar el monto de los depósitos como una medida representativa del ingreso. El desea determinar si existe una diferencia en el nivel promedio de depósitos entre las cuatro sucursales. Si se halla alguna diferencia, ofrecerá una diversidad de premios promocionales. Aquí aparecen siente depósitos seleccionados aleatoriamente de cada sucursal en unidades de US$100 más cercano. Depósito 1 2 3 4 5 6 7 Sucursal1 5.1 4.9 5.6 4.8 3.8 5.1 4.8 Sucursal2 1.9 1.9 2.1 2.4 2.1 3.1 2.5 Sucursal3 3.6 4.2 4.5 4.8 3.9 4.1 5.1 Sucursal4 1.3 1.5 0.9 1 1.9 1.5 2.1 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 182 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 183 Caso VII. Un productor de pinturas para vivienda desea comparar el factor brillo de su pintura utilizando cuatro emulsiones diferentes. Se pintan cinco tablas con cada tipo de emulsión y la clasificación que se dio a cada una aparece aquí: A un nivel del 1%, existe alguna diferencia en la clasificación promedio? Tablas 1 2 3 4 5 Emulsion1 79 82 57 79 83 Emulsion2 69 52 62 61 60 Emulsion3 83 79 85 78 75 Emulsion4 75 78 78 73 71 Caso VIII. Un estudio reciente realizado por American Assembly of Collegiate Scholls of Business comparó los salaries de los nuevos graduados en diversos campos. Una parte de sus resultados se representa en la tabla siguiente. A un nivel del 5%, ¿parece que hay diferencia en los salarios promedios (en miles de dólares) de los graduados en los diferentes campos? SIC = Sistemas de Información por Computador. MC = Métodos Cuantitativos Graduado 1 2 3 4 5 6 7 Finanzas 23.2 24.7 24.2 22.9 25.2 23.7 24.2 Mercadeo 22.1 19.2 21.3 19.8 17.2 18.3 17.2 SIC 23.3 22.1 23.4 24.2 23.1 22.7 22.8 MC 22.2 22.1 23.2 21.7 20.2 22.7 21.8 Caso IX. NCP fabrica impresoras y aparatos de fax en sus tres plantas situadas en Atlanta, Dallas y Seattle. Con el fin de medir el conocimiento de los empleados de estas tres plantas acerca de la administración de la calidad, se toma una muestra aleatoria de seis empleados de cada planta y se le explica el examen acerca de su conocimiento de calidad. En la tabla a continuación se muestran las puntuaciones obtenidas en los exámenes de 18 empleados. Los gerentes de la empresa quieren usar los datos para probar la hipótesis de que la media de las puntuaciones de los exámenes es la misma en las tres plantas. A un nivel del 5%. EMPLEADOS 1 2 3 4 5 6 PLANTA1 ATLANTA 85 75 82 76 71 85 PLANTA2 DALLAS 71 75 73 74 69 82 PLANTA3 SEATTLE 59 64 62 69 75 67 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 183 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 184 Caso X. En una auditoría, los auditores tienen que emitir opiniones acerca de diversos aspectos con base en sus propias experiencias directas (Direct), indirectas (Inderect) o la combinación (Combination) de ambas. En un estudio se pidió a los auditores que dieran su opinión acerca de la frecuencia con que se presentan errores en una auditoría. Luego se compararon estas opiniones con los resultados reales. Suponga que los resultados que se presentan a continuación de un estudio similar; los valores bajos indican opiniones más acertadas. Use α = 0.05 para determinar si el tipo de experiencia en que se basa la opinión afecta su calidad. ¿Cuál es su conclusión? Auditores 1 2 3 4 5 6 7 Direct 17 18.5 15.8 18.2 20.2 16 13.3 Indirect 16.6 22.2 20.5 18.3 24.2 19.8 21.2 Combination 25.2 24 21.5 26.8 27.5 25.8 24.2 Caso XI. En la publicidad de cuatro pinturas (Paint 1, 2, 3 y 4) se dice que tienen el mismo tiempo de secado. Para verificarlo, se prueban cinco muestras de cada una de las pinturas. Se registra el tiempo en minutos necesarios para que el secado sea suficiente para la aplicación de una segunda mano. Los datos obtenidos se listan a continuación. Con un α = 0.05 como nivel de significancia, realice una prueba para determinar si la media de los tiempos de secado es la misma en cada tipo de pintura. Paint1 128 137 135 124 141 Paint2 144 133 142 146 130 Paint3 133 143 137 136 131 Paint4 150 142 135 140 153 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 184 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 185 Caso XII. La encuesta de satisfacción de clientes de restaurantes de Consumer Reports se basa en más de 148,599 visitas a diferentes cadenas de restaurantes de servicio completo (sitio web de Consumer Reports). Una de las variables en el estudio es el precio de los alimentos, la cantidad promedio que paga una persona por la comida y la bebida, menos propina. Se selecciona una muestra de ocho restaurantes de mariscos (Seafood), ocho italianos (Italian) y ocho de carnes (Steakhouse). Los datos a continuación muestran los precios de la comida en dólares de los 24 negocios muestreados. Utilice un α = 0.05 para probar si hay una diferencia significativa entre el precio medio de la comida en los tres tipos de restaurantes. Restaurantes 1 2 3 4 5 6 7 8 Italian 12 13 15 17 18 20 17 24 Seafood 16 18 17 26 23 15 19 18 Steakhouse 24 19 23 25 21 22 27 31 Caso XIII. Con el fin de probar si la media del tiempo necesario para mezclar un lote de un material es la misma si emplea las máquinas de tres fabricantes. Jacobs Chemical obtiene los datos siguientes sobre el tiempo (en minutos) requeridos para mezclar el material. Use los datos para probar si las medias poblacionales de los tiempos necesarios para mezclar un lote de material usando las máquinas de estos tres fabricantes difieren. Use un α = 5%. FABRICANTE1 FABRICANTE2 20 28 26 26 24 31 22 27 FABRICANTE3 20 19 23 22 Caso XIV. En un experimento diseñado para investigar la percepción de los valores éticos corporativos entre personas especializadas en Marketing, se obtuvieron los datos siguientes (las puntuaciones más altas indican valores éticos más elevados). Use un α = 5% para probar si existe una diferencia significativa de percepción entre los tres grupos. Gerentes de Marketing 6 5 4 5 6 4 Investigación de Mercados 5 5 4 4 5 4 Publicidad 6 7 6 5 6 6 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 185 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 186 Caso XV. Para probar si existe una diferencia significativa entre cuatro máquinas respecto del número de horas entre dos averías, se obtuvieron los datos siguientes. Con α = 5%, como nivel de significancia, ¿cuál es la diferencia, si hay alguna, entre las medias poblacionales de los tiempos de las cuatro máquinas? Máquina1 6.4 7.8 5.3 7.4 8.4 7.3 Máquina2 8.7 7.4 9.4 10.1 9.2 9.8 Máquina3 11.1 10.3 9.7 10.3 9.2 8.8 Máquina4 9.9 12.8 12.1 10.8 11.3 11.5 Caso XVI. Suponga que se selecciona una muestra de 10 empleados de agencias de publicidad con su salario anual, para investigar si hay alguna diferencia en la compensación promedio anual de directores artísticos con un 5% de nivel de significancia en las cuatro regiones: Oeste, Sur, Norte y Noreste. El salario base (en miles de dólares) para cada uno de los individuos muestreados es: OESTE 60.9 45.9 62.1 66.6 68 65 49.4 62.3 62.6 57.2 SUR 50.8 39.6 44.2 40 53.9 45.4 61.1 42.3 38.4 38.3 NORTE 49.5 42.3 35.5 49.1 56.7 41.4 51.3 49.4 42.1 55.7 NORESTE 65.9 58.6 49.3 53.9 48.5 52.9 52.4 48.1 46.5 45.9 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 186 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 187 Caso XVII. Es ampliamente sabido que lso excesos o “picos” de voltaje pueden causar daños en equipos electrónicos sensibles. Se realiza un estudio de los picos de voltaje para indagar si existe diferencias en su frecuencia promedio entre los siete días de la semana o nocon un alfa de 0.05. En un periodo de 10 semanas seleccionadas aleatoriamente, se observa el número de picos de voltaje durante 10 períodos de 24 horas para cada uno de los siete días de la semana. LUNES 25 21 20 20 21 20 25 21 18 22 MARTES 24 20 19 16 21 19 24 15 20 14 MIERCOLES 16 20 19 21 17 13 23 23 23 23 JUEVES 22 17 19 21 19 13 27 15 20 20 VIERNES 33 28 44 33 22 36 28 27 22 16 SABADO 28 28 31 21 33 22 22 20 22 26 DOMINGO 35 20 29 19 26 23 26 30 29 29 Caso XVIII. ¿Que concluye usted acerca de la aseveración de que las tres poblaciones correspondientes a los tres grupos de edades tienen la misma temperatura corporal media? TEMPERATURAS CORPORALES (ºF) POR EDAD 18-20 n X' s 21-29 30 o más 98,0 98,4 97,7 98,5 97,1 99,6 98,2 99,0 98,2 97,9 98,6 98,6 97,0 97,5 97,3 5 97,940 0,568 5 98,580 0,701 5 97,800 0,752 BASADOS EN DATOS DEL DOCTOR PHILIP MACKOWIAK, EL DR. STEVEN WASSERMAN Y EL DR. MYRON LEVINE DE LA UNIVERSITY OF MARYLAND. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 187 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 188 Caso XIX. La City Resouce Recovery Company (CRRC) recolecta desperdicios desechados por los hogares de la región. Los desperdicios deben separarse en las categorías de metal, papel, plástico y vidrio. Al planificar que equipo necesita para recolectar y procesar la basura, la CRRC consulta los datos que se resumen en la siguiente tabla: En el nivel de significancia de 0.05, pruebe la afirmación de que las cuatro poblaciones específicas tienen la misma media. Con base en los resultados, ¿cree usted que las cuatro categorías requieran los mismos recursos para su recolección y procesamiento? N X' S METAL PAPEL PLASTICO VIDRIO 62 62 62 62 2,218 9,428 1,911 3,752 1,091 4,168 1,065 3,108 Cálculos con tamaños de muestra desiguales. F=varianza entre muestras/varianza dentro de las muestras F= [ (ni(X'i-X")²) / k-1 ] / [ ((ni-1)s²i) / (ni-1)] donde: X" = media de todos los puntajes de muestra combinados k = número de medias de población que se comparan ni = número de valores en la i-esima muestra N = número total de valores en todas las muestras combinadas X'i = media de los valores de la i-esima muestra s²i = varianza de los valores de la i-esima muestra Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 188 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 189 Análisis de Varianza con un Factor en Bloques (Randomized Blocks ANOVA) En un estudio de investigación de mercados se plantea contrastar si el consumo medio de cuatro vehículos es homogéneo. Para ello se realizan pruebas experimentales con tres conductores distintos. Para eliminar el efecto que puedan tener los conductores sobre el consumo de los vehículos se recoge la información, de tal manera que todos los conductores realizan pruebas con todos los vehículos. En la siguiente tabla se exponen los consumos de combustibles por cada 100 km de cada automóvil con cada conductor. Contrastar con un nivel de significancia del 5%. 1. La hipótesis de igualdad de consumos medios con los cuatro automóviles. 2. La hipótesis de igualdad de consumos medios de los tres conductores. SCTR = Suma de Cuadrados debido a los Tratamientos = b * ∑ (X´i – X”)^2 SCBL = Suma de Cuadrados debido a los Bloques = a * ∑ (X´i – X”)^2 SCE = Suma de Cuadrados debido al Error = [∑(X^2)] - [b * ∑ (X´i – X”)^2] – [a * ∑ (X´i – X”)^2] – [a*b*X”^2 ] A1 8 7 6 B1 B2 B3 A2 7 6 5 BLOQUES A3 5 6 4 A4 6 7 5 TRATAMIENTOS B=3 K=A=4 A2 7 6 5 A3 5 6 4 A4 6 7 5 SUMATORIA X´ (X´-X")^2 X´^2 B1 B2 B3 A1 8 7 6 26 6.5 0.25 42.25 26 6.5 0.25 42.25 20 5 1 25 SUMATORIA X´ (X´-X")^2 X´^2 21 7 1 49 18 6 0 36 15 5 1 25 18 6 0 36 SUM Xi 72 2 146 MEDIA Xi 1.5 109.5 SCTR SUMA CUADRADO TRATAMIENTOS 6 6 6 36 SCBL 6 SUMA CUADRADO 6 BLOQUES Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 189 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 190 SCE = Suma de Cuadrados debido al Error = [∑(X^2)] - [b * ∑ (X´i – X”)^2] – [a * ∑ (X´i – X”)^2] – [a*b*X”^2 ] Estas sumas divididas entre sus correspondientes grados de libertad proporcionan los valores de los cuadrados medios. BLOQUES TRATAMIENTOS A1 8 7 6 B1 B2 B3 A2 7 6 5 X^2 64 49 36 X^2 49 36 25 149 SUMATORIA A3 5 6 4 110 A4 6 7 5 X^2 25 36 16 77 SCE 2 SUMA CUADRADO ERROR Randomized blocks ANOVA n Std. Dev 3 1.000 3 1.000 3 1.000 3 1.000 A1 A2 A3 A4 6.500 6.500 5.000 6.000 4 4 4 12 1.291 0.577 0.816 1.128 Source SS df MS F pvalue Treatments 6.00 3 2.000 6.00 .0308 Blocks B1 B2 B3 Total 6.00 2 3.000 9.00 .0156 2.00 14.00 6 11 0.333 ANOVA table Error Total Causas Posibles Factor A Suma de Cuadrados 6.00 Bloques Factor B 6.00 2 Error E 2.00 6 Fuentes de Variacion Error Muestral Grados de Libertad 3 Cuadrados F medios de Prueba 2 6 3 9 0.33333333 36 49 25 110 446 Mean 7.000 6.000 5.000 6.000 X^2 F Teórica 4.76 5.14 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 190 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 191 Fuentes de Variacion Causas Posibles Factor A Bloques Factor B Error Muestral Error E Suma de Cuadrados SCTR SCBL SCE Grados de Libertad K–1 Cuadrados medios CMTR=SCTR/(K-1) B–1 CMBL=SCBL/(B-1) (K-1)*(B-1) CME=SCE/(K-1)(B-1) F de Prueba CMTR/CME F Teórica Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 191 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 192 Causas Posibles Factor A Suma de Cuadrados 6.00 Bloques Factor B 6.00 2 Error E 2.00 6 Fuentes de Variacion Error Muestral Grados de Libertad 3 Cuadrados medios 2 3 0.33333333 F de Prueba 6 F Teórica 9 5.14 4.76 Contrastes y Conclusiones: 1) Visto que F del Factor A es mayor FA = 6 > 4.76 = F (3,6-0.05) Por tanto, rechazamos que los consumos medios de la conducción de los cuatro automóviles sean homogéneos, con un nivel de significancia del 5%. 2) Visto que F del Factor B es mayor FB = 9 > 5.14 = F (2,6-0.05) Por tanto, rechazamos que los consumos medios de la conducción de la conducción de los tre conductores sean homogéneos, con un nivel de significancia del 5%. Caso II. Prueba de estrés para controladores de tráfico aéreo. Como resultado de un estudio para medir la fatiga y el estrés de los controladores de tráfico aéreo, se propusieron modificaciones y rediseños a su estación de trabajo. Después de evaluar diversos diseños, se seleccionaron tres alternativas consideradas con el mayor potencial para reducir el estrés en los controladores. La pregunta clave es con α = 5%: ¿en qué medida difieren estas tres alternativas en su efecto sobre el estrés de los sujetos de estudio¿ Controller1 Controller2 Controller3 Controller4 Controller5 Controller6 System1 15 14 10 13 16 13 System2 15 14 11 12 13 13 System3 18 14 15 17 16 13 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 192 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 193 Caso III. Un vendedor de automóviles realiza una prueba para determinar si el tiempo en minutos que se necesita para afinar un motor pequeño depende de si se utiliza un analizador de motor computarizado o uno electrónico. Debido a que el tiempo de afinación varía entre automóviles compactos, medianos y grandes, en el experimento se utilizaron los tres tipos de vehículos como bloques. Los datos obtenidos se indican a continuación. Tratamientos Analizador Computarizado Electrónico 50 42 55 44 63 46 Bloques Automóvil Compacto Mediano Grande Caso IV. El U.S Department of Housing and Urban Development publica datos que reflejan el Mercado de rentas mensuales en las áreas metropolitanas. Los datos siguientes representan los precios de alquiler ($) mensuales aceptables en cinco zonas metropolitanas para departamentos de 1, 2 y 3 habitaciones (The New York Times Almanac, 2006). 1 HABITACION 2 HABITACIONES 3 HABITACIONES BOSTON 1,077.00 1,266.00 1,513.00 MIAMI 775.00 929.00 1,204.00 SAN DIEGO 975.00 1,183.00 1,725.00 SAN JOSÉ 1,107.00 1,313.00 1,889.00 WASHINGTON 1,045.00 1,187.00 1,537.00 Caso V. El Instituto Nacional de Salud practicó encuestas a 1,060 adultos para determinar cómo pasaban su tiempo libre. Los datos han sido desglosados por grupos de edad y se han condensados a sólo 16 observaciones para efectos de computación. ¿Parece haber alguna diferencia en el tiempo promedio que se pasa en las diferentes actividades? Las observaciones están en horas por semana. Haga una prueba para determinar si debería utilizarse el bloqueo. Use el valor alfa 0.05. ENCUESTADOS POR EDAD 15-18 19-25 26-35 36 Y MÁS AÑOS TV 35 22 25 27 LECTURA 12 13 15 20 ACTIVIDAD DEPORTES TIEMPO CON LA FAMILIA 10 6 12 8 8 15 5 20 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 193 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 194 Caso VI. El concesionario Martin Motors tiene tres automóviles de la misma marca y modelo. El director desea comparar el consumo de combustible de ellos (designados automóvil A, B y C) con cuatro tipos de gasolina. En cada prueba se puso un galón de gasolina al tanque vacío de los automóviles y se condujeron hasta que se agotó. En la siguiente tabla se muestra el número de millas que se recorrieron en cada prueba. TIPO DE GASOLINA REGULAR SUPER REGULAR SIN PLOMO PREMIUM SIN PLOMO DISTANCIA (MILLAS) AUTO A AUTO B AUTO C 22.40 20.80 21.50 17.00 19.40 20.70 19.20 20.20 21.20 20.30 18.60 20.40 A un nivel de significancia del 0.05: 1) ¿Hay alguna diferencia entre los tipos de gasolina? 2) ¿Hay alguna diferencia entre los automóviles? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 194 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 195 Análisis de Varianza con dos Factores (Two Factors ANOVA) – Experimentos Factoriales En algunos experimentos tal vez se quieran formular conclusiones acerca de más de una variable o factor. Un experimento factorial es el diseño que permite obtener conclusiones simultáneas acerca de dos o más factores. El término factorial se utiliza porque las condiciones experimentales incluyen todas las posibles combinaciones de los factores. Por ejemplo, para a niveles de un factor A y b niveles de un factor B, el experimento incluirá una colección de datos en el tratamiento de las combinaciones ab. En numerosos experimentos, se investigan dos o más factores. No se considera extraño ninguno de ellos y cada uno interesa primordialmente al experimentador. En tal caso, se habla de un experimento factorial, para resaltar el hecho de interés se centra en el efecto de esos dos o más factores en una respuesta medida. Caso I. Un estudio acerca del examen de admisión de graduados en administración (GMAT, por su siglas en inglés), una prueba estandarizada que utilizan las escuelas de negocios para evaluar una habilidad de los aspirantes a cubrir un programa de grado en ese campo. Las puntuaciones del GMAT están en el rango de 200 a 800; las de nivel más elevado significan una aptitud más alta. Con la intensión de mejorar el desempeño de los estudiantes en el GMAT, una de las principales universidades de Texas considera ofrecer los siguientes tres programas de preparación para ese examen: 1. Una sesión de repaso de tres horas, en la que se revisa el tipo de preguntas que suele encontrarse en el GMAT. 2. Un programa de un día en el que se ve el material más relevante del examen, junto con un examen muestra que se califica. 3. Un curso intensivo de 10 semanas en el que se identifican las debilidades de cada estudiante y se establecen programas individualizados de mejora. Por tanto, un factor en este estudio es el programa de preparación, el cual tiene tres tratamientos: un repaso de tres horas, un programa de un día y un curso de 10 semanas. Por lo general, los aplicantes del GMAT son estudiantes de tres licenciaturas: negocios, ingeniería y artes y ciencias. En consecuencia el segundo factor de interés en el Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 195 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 196 experimento es si la licenciatura influye en la calificación del GMAT. Para este segundo factor hay también tres tratamientos: negocios, ingeniería y artes y ciencias. Pruebe la influencia de estos factores con un α = 0.05. Factor A: Preparation Program Three-hour review One-day program 10-week course Factor B: College Business 500 580 460 540 560 600 Engineering 540 460 560 620 600 580 Arts and Sciences 480 400 420 480 480 410 a = número de niveles del factor A = 3 programas b = número de niveles del factor B = 3 licenciaturas r = número de replicaciones = 2 sujetos por combinaciones de tratamientos N = número total de observaciones en el experimento = 18 SCT = Suma de Cuadrados Total = ∑ (Xij – X”)^2 SCA = Suma de Cuadrados del Factor A = br * ∑ (X´i – X”)^2 SCB = Suma de Cuadrados del Factor B = ar * ∑ (X´j – X”)^2 SCAB = Suma de Cuadrados debido a la interacción = r * ∑ (X´ij – X’i – X’j + X”)^2 SCE = STC - SCA – SCB – SCAB Los cálculos de análisis de varianza con los datos de la tabla anterior permitirán contestar las siguientes preguntas: Efecto Principal (Factor A): ¿Difieren los programas de preparación en cuanto a sus efectos sobre las calificaciones en la prueba GMAT? Efecto Principal (Factor B): ¿Difieren las licenciaturas en cuanto a las puntuaciones de la prueba GMAT? Efecto Interacción (Factores A y B): ¿Se desempeñan mejor los alumnos de algunas licenciaturas en determinado tipo de programas de preparación, y los de otras licenciaturas en otro tipo de programa de preparación? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 196 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 197 Factor A: Factor B: College Preparation Program Business Engineering Three-hour review 500 540 Arts and Sciences 480 SUM SUM MEAN (X´ij) 580 1,080 540 460 540 1,000 500 560 600 1,160 580 460 1,000 500 560 620 1,180 590 600 580 1,180 590 400 880 440 420 480 900 450 480 410 890 445 SUM 3,240 3,360 2,670 9,270 MEAN (X´j) (X´j-X")^2 SUM 540 625 7,550 560 2,025 445 4,900 X" SCB 45,300 Factor 2 (B) SUM MEAN (X´ij) One-day program SUM MEAN (X´ij) 10-week course 469.44 1,469.44 277.78 1,469.44 1,002.78 44.44 2,960 MEAN (X"i) Factor 1 (A) (X´i-X")^2 493.33 469.44 3,080 513.33 2.78 3,230 538.33 SUM. GRAL. 544.44 515 1,016.67 6,100.00 277.78 44.44 544.44 5,600.00 11,200.00 SUM SCAB SCA = Suma de Cuadrados del Factor A = br * ∑ (X´i – X”)^2 SCB = Suma de Cuadrados del Factor B = ar * ∑ (X´j – X”)^2 SCAB = Suma de Cuadrados debido a la interacción = ∑ (X´ij – X’i – X’j + X”)^2 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 197 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) SUM SCA 198 Factor A: Factor B: College Preparation Program Three-hour review One-day program 10-week course Business 500 580 460 540 560 600 (X-X")^2 225 4,225 3,025 625 2,025 7,225 17,350 X" 515 Engineering 540 460 560 620 600 580 (X-X")^2 625 3,025 2,025 11,025 7,225 4,225 28,150 Arts and Sciences 480 400 420 480 480 410 (X-X")^2 1,225 13,225 9,025 1,225 1,225 11,025 36,950 SCT = Suma de Cuadrados Total = ∑ (Xij – X”)^2 SCE = STC - SCA – SCB – SCAB = 82,450 – 6,100 – 45,300 – 11,200 = 19,850 Estas sumas divididas entre sus correspondientes grados de libertad proporcionan los valores de los cuadrados medios. Suma de Variacion Cuadrados Factor 1 (A) 6,100.0000 Fuentes de Causas Posibles Causas Posibles Factor 2 (B) 45,300.0000 Interacción Error Muestral Interacción 11,200.0000 Error E 19,850.0000 Grados de Libertad 2 2 4 9 Cuadrados F medios de Prueba 3,050.0000 1.3829 22,650.0000 10.2695 2,800.0000 1.2695 2,205.5556 F Teórica 4.2565 4.2565 3.6331 Two factor ANOVA Factor 2 Means: Business Factor 1 Three-hour review One-day program 10-week course Engineering Arts and Sciences 540.0 500.0 440.0 493.3 500.0 580.0 540.0 590.0 590.0 560.0 450.0 445.0 445.0 513.3 538.3 515.0 MS 3,050.000 22,650.000 2,800.000 2,205.556 F 1.38 10.27 1.27 pvalue .2994 .0048 .3503 replications per 2 cell ANOVA table Source Factor 1 Factor 2 Interaction Error Total SS 6,100.00 45,300.00 11,200.00 19,850.00 82,450.00 df 2 2 4 9 17 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 198 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) STC 82,450 199 Suma de Variacion Cuadrados Factor 1 (A) SCA SCB b-1 Cuadrados medios SCA/(a-1) SCB/(b-1) Fuentes de Causas Posibles Causas Posibles Factor 2 (B) Grados de Libertad a-1 F de Prueba F Teórica SCA/(a-1) / SCE/[ab(n-1)] SCB/(b-1) / SCE/[ab(n-1)] SCAB/[(a-1)(b-1)] / Interacción Interacción SCAB (a-1)(b-1) SCAB/[(a-1)(b-1)] Error Muestral Error E SCE ab(n-1) SCE/[ab(n-1)] SCE/[ab(n-1)] Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 199 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 200 ANOVA table Source F pvalue 3,050.000 1.38 .2994 22,650.000 10.27 .0048 1.27 .3503 SS df MS Factor 1 6,100.00 2 Factor 2 45,300.00 2 Interaction 11,200.00 4 2,800.000 Error Total 19,850.00 82,450.00 9 17 2,205.556 Para hacer la prueba de hipótesis de dos factores en este estudio se utilizó un nivel de significancia del α = 0.05. El valor-p utilizado para probar si hay diferencias significativas entre los tres programas de preparación Factor 1 (A) es de .2994 es mayor que α = 0.05, no existe diferencia significativa entre las medias de las puntuaciones obtenidas en el GMAT para los tres programas de preparación. Sin embargo, en relación con el efecto de la licenciatura, Factor 2 (B), el valor-p = 0.0048 es menor que α = 0.05; por tanto, si hay una diferencia significativa en las medias de las puntuaciones en el GMAT entre las tres licenciaturas. Por último, debido a que el valor-p de 0.3503 corresponde al efecto de la interacción es mayor que α = 0.05, no hay efecto significativo de interacción. Por tanto, en este estudio No se encuentran razones para pensar que los tres programas de preparación difieren en su capacidad para capacitar a estudiantes de las distintas licenciaturas para el GMAT. Se encontró que la licenciatura sí es factor significativo. Al revisar los cálculos de la tabla, vemos que las medias muestrales son: estudiantes de negocios X´=540, ingeniería X´=560 y artes y ciencias X’=445. Se pueden realizar pruebas para los distintos tratamientos; sin embargo, después de observar las tres medias muestrales es posible anticipar que no hay diferencia entre los alumnos con las licenciaturas en ingeniería y negocios. Pero los de artes y ciencias parecen estar menos preparados para este examen que los de las otras dos licenciaturas. Quizás esta observación haga que la universidad busque otras opciones para ayudar a este grupo a prepararse para el GMAT. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 200 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 201 Gráfica de Interacción por el Factor 2. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 201 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 202 Caso II. Supongamos que el investigador de mercados se interese por el efecto de dos variables que influyen en la compra de un producto. Por ejemplo, consideremos un punto de venta donde existe servicio de cafetería, venta de prensa, Alimentación y restaurante, etc., abierto los siete días de la semana. Si deseamos investigar el mercado de alquiler de vídeos en este centro dependiendo de dos factores. A. Que el alquiler se realice en día laborable, víspera de festivo o festivo. B. La zona local, donde se ubican los estantes que contienen los vídeos, con tres niveles: cerca de la cafetería, próximo a la sección de venta de prensa o cerca del restaurante. Trataremos de estudiar la influencia de los factores A y B sobre la variable dependiente que mide el volumen de alquiler de vídeos. Estos dos factores actúan de forma no independiente, puesto que puede existir influencia o interacción entre que sea día festivo y que el punto de alquiler de vídeos esté situado cerca del restaurante, o que sea día laborable y el punto de alquiler de vídeos esté próximo a la sección de venta de prensa. Estudiamos, por tanto, la influencia de forma conjunta, esto es, interactuando y no marginalmente. Las poblaciones consideradas serían, por tanto, (A, B): A indica el día de la semana, con tres niveles: Laborales (L), víspera de festivo (VF) o festivo (F) B indica dónde situamos el punto de alquiler también con tres niveles: Próximo a la cafetería ©, Prensa (P) o restaurante ®. Situación 1: Supongamos que queremos analizar si el número medio de cintas de video alquiladas por día depende de que sea día laborable, víspera de festivo o festivo, y también si depende de la ubicación de los estantes donde están colocadas las cintas, esto es, cerca del punto de venta de prensa, del restaurante o de la cafetería de un centro comercial abierto los siete días de la semana. Para ello se toman las siguientes observaciones, que expresan el número de cintas de vídeo alquiladas dependiendo del día de la semana y de la ubicación de las cintas. Tomando tres observaciones muéstrales para cada combinación de fila columna. Contrastar con un nivel de significancia del 1%. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 202 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 203 L VF F C 30 25 20 24 28 30 32 35 28 P 10 15 10 32 30 21 25 35 40 R 15 20 10 32 28 25 20 25 30 Caso III. Un concesionario de automóviles desea hacer una investigación de mercado sobre el número medio de vehículos vendidos en función de dos factores: A = la gama a la que pertenecen los vehículos. B = el color de esos vehículos. Dado que el número de gamas es grande, elegimos al azar las tres más representativas, y por el mismo motivo, elegimos al azar tres colores. Los vehículos vendidos de esas gamas con esos colores se eligen al azar entre los coches matriculados, en tres períodos de tiempo iguales. Los datos obtenidos figuran en la tabla siguiente. Contrastar con un nivel de significación del 1%. A1 A2 A3 B1 4 4 4 4 3 3 2 2 1 B2 2 2 1 3 3 2 1 1 1 B3 1 1 1 3 3 2 1 1 0 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 203 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 204 Caso IV. En un experimento factorial con dos niveles para el factor A y tres niveles para el factor B se obtuvieron los datos siguientes. FACTOR A NIVEL1 NIVEL1 135 165 125 95 NIVEL2 FACTOR B NIVEL2 90 66 127 105 NIVEL3 75 93 120 136 Realice una prueba para determinar si hay algunos efectos principales significativos y algún efecto de interacción. Use valor de significancia del 5%. Caso V. Una empresa de ventas por catálogo realizó un experimento factorial para probar el efecto del tamaño de un anuncio de revista y su diseño sobre el número de solicitudes de catálogos recibido (datos en miles). Se pusieron a consideración tres diseños publicitarios y dos tamaños. Los datos obtenidos se presentan a continuación. Pruebe si hay efectos significativos debido al tipo de diseño, al tamaño del anuncio o a la interacción. Valor alfa 0.05. DISEÑO A B C TAMAÑO DEL ANUNCIO PEQUEÑO GRANDE 8 12 12 8 22 26 14 30 10 18 18 14 Caso VI. Un parque de diversión estudió algunos métodos para reducir el tiempo de espera (en minutos) al bajar y subir a los pasajeros a los juegos. Se propusieron dos métodos para realizar estas tareas. Para tomar en cuenta las diferencias potenciales debido al tipo de juego y a la interacción que puede haber entre tipo de juego y método de subir y bajar a los pasajeros, se diseñó un experimento factual. Use los datos siguientes para probar cualquier efecto significativo debido al método de subir y bajar a los pasajeros, el tipo de juego y la interacción. Use valor de significancia del 5%. MÉTODOS SUBIR Y BAJAR MÉTODO1 MÉTODO2 MONTAÑA RUSA 41 43 49 51 TIPO DE JUEGO RUEDA DE LA FORTUNA 52 44 50 46 TOBOGÁN 50 46 48 44 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 204 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 205 Caso VII. Para identificar si hay alguna diferencia significativa en la rapidez de dos sistemas de software para traducir el inglés en otros idiomas, se diseñó un experimento factorial. Como el idioma al que se traduzca es también un factor importante, los sistemas se prueban traduciendo tres: español, francés y alemán. Utilice los datos siguientes del tiempo en horas necesario para efectuar esta tarea. SOFTWARE SISTEMA1 SISTEMA2 ESPAÑOL 8 12 6 10 IDIOMA FRANCÉS 10 14 14 16 ALEMÁN 12 16 16 22 Realice una prueba para determinar si hay alguna diferencia significativa debido al idioma al que se traduce y si hay algún efecto de interacción. Use valor de significancia del 5%. Caso VIII. En una fábrica se diseña un experimento factorial para determinar si hay diferencia entre el número de partes defectuosas producidas por dos máquinas y si el número de defectos depende también de si a estas máquinas se les suministra la materia prima manualmente o mediante un sistema de alimentación automático. A continuación se presentan los datos del número de partes defectuosas producidas. Use el valor alfa 0.05 para probar si hay algún efecto significativo debido a la máquina, al sistema de suministro de la materia prima y a la interacción. MÁQUINA 1 MÁQUINA 2 SUMINISTRO DE MATERIA PRIMA MANUAL AUTOMÁTICO 30 30 34 26 20 24 22 28 Caso IX. Robert Altoff es Vicepresidente de Ingeniería de un fabricante de máquinas lavadoras domésticas. Como parte del desarrollo de un producto nuevo, Altoff desea determinar el tiempo óptimo del ciclo de lavado. Parte del desarrollo es estudiar la relación entre el detergente empleado (cuatro marcas) y la duración del ciclo de lavado (18, 20, 22 o 24 minutos). A fin de realizar el experimento se asignan 32 cargas estándar de ropa (con igual contenido de suciedad y pesos totales iguales) a las 16 combinaciones detergente-ciclo de lavado. Los resultados (en libras de suciedad eliminada) se muestran en la siguiente tabla. MARCA DEL DETERGENTE A B C D 18 0.13 0.11 0.14 0.10 0.16 0.17 0.09 0.13 TIEMPO DEL CICLO (MIN) 20 22 0.12 0.19 0.11 0.17 0.15 0.18 0.14 0.17 0.15 0.18 0.14 0.19 0.12 0.16 0.13 0.16 24 0.15 0.18 0.20 0.18 0.19 0.21 0.15 0.17 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 205 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 206 A un nivel de siginificancia de 0.05. 1) Pruebe el efecto de interacción de la marca y el tiempo del ciclo sobre la “suciedad eliminada”. 2) Con base a los resultados anteriores, realice las pruebas de hipótesis apropiadas para detectar las diferencias entre las medias de los factores. Caso X. La American Accounting Association realize un studio para comparer los salaries semanales de hombres y mujeres empleados en el sector público o privado en contabilidad. GÉNERO HOMBRES MUJERES SECTOR PUBLICO PRIVADO 978.00 1,335.00 1,035.00 1,167.00 964.00 1,236.00 996.00 1,317.00 1,117.00 1,192.00 863.00 1,079.00 975.00 1,160.00 999.00 1,063.00 1,019.00 1,110.00 1,037.00 1,093.00 1) Pruebe el efecto de interacción del género y el sector en los salarios. A un nivel del 5% de significancia. 2) Con base a los resultados anteriores, realice las pruebas de hipótesis adecuadas para detectar las diferencias entre las medias de los factores. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 206 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 207 Caso XI. Supongamos que se realiza un estudio para probar la efectividad de tres tipos de sistemas de incentivos en la productividad de los empleados. La gerencia considera que las diferencias de productividad podrían ser distintas entre hombres y mujeres. Se obtuvo la siguiente tabla de resultados. Género Hombres Mujeres I 26 34 46 48 42 49 74 61 51 53 Sistema de Incentivos II 51 50 33 28 47 50 48 60 71 42 III 52 64 39 54 58 53 77 56 63 59 1) Pruebe el efecto de interacción del género y el sistema de incentivos. A un nivel del 5% de significancia. 2) Con base a los resultados anteriores, realice las pruebas de hipótesis adecuadas para detectar las diferencias entre las medias de los factores. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 207 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 208 Análisis de Regresión y Correlación (Correlation and Regression) El modelo estadístico que nos permite representar la relación entre dos variables (dependiente e independiente) se denomina Ecuación de Regresión, ya que a través de este modelo podemos regresar o proyectar datos sobre el posible comportamiento futuro del fenómeno. El primero en desarrollar el análisis de regresión fue el científico inglés Sir Francis Galton (1822-1911). Este estudio el fenómeno de la herencia y demostró que cuando matrimonios con estaturas altas o bajas tienen hijos, las estaturas de esos hijos tienden a exhibir regresión, es decir, a desplazarse hacia una estatura media más representativa. Dada una colección de datos de muestra apareados, la ecuación de regresión y = bo + bix y = f(x) describe la relación entre dos variables. La grafica de la ecuación de regresión se denomina línea de regresión (o línea de mejor ajuste, o línea de mínimos cuadrados). Esta definición expresa una relación entre "x" (variable independiente o variable predictoria) y "y" (llamada variable dependiente o variable de respuesta). Variable dependiente (Y): Es la variable que se desea explicar o predecir; también se le denomina regresando o variable de respuesta. Variable independiente (X): se utiliza para explicar a Y. Notación para la ecuación de regresión. Parámetro Estadística de Poblac. de Muestra Ordenada al origen de la ecuación de regresión o bo Pendiente de la la ecuación de regresión 1 b1 Ecuación de la línea de Regresión Y=o+ix y=bo+bix Donde bo es la ordenada de origen y bi es la pendiente. bo y bi son estadísticas de muestra que sirven para estimar los parámetros de población o y ix. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 208 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 209 Mínimos cuadrados ordinarios (MCO). El propósito del análisis de regresión es determinar una recta que se ajuste a los datos muéstrales mejor que cualquier otra recta que pueda dibujarse. bo y bi estos valores los podemos determinar a través de un procedimiento matemático que se denomina Mínimos Cuadrados Ordinarios (MCO). MCO producirá una recta que se extiende por el centro del diagrama de dispersión aproximándose a todos los puntos de datos mas que cualquier otra recta. Suma de los cuadrados de X. SCx = (Xi-X')² SCx = X² - [(X)²/n] Suma de los cuadrados de Y. SCy = (Yi-Y')² SCy = Y² - [(Y)²/n] Suma de los productos cruzados de X y Y. SCxy = (Xi-X')(Yi-Y') SCxy = XY - [(X)(Y)/n] Vale la pena notar que las primeras porciones de cada una de estas fórmulas: SCx = (Xi-X')² SCy = (Yi-Y')² SCxy = (Xi-X')(Yi-Y') Ilustran como la recta MCO se basa en las desviaciones de las observaciones a partir de su media. Dadas las sumas de cuadrados y los productos cruzados, es sencillo calcular la pendiente de la recta de regresión y el intercepto, así: La Pendiente de la recta de regresión. bi = SCxy/SCx El intercepto de la recta de regresión. bo = Y' - biX' donde Y' y X' son las medias de los valores de Y y los valores de X. NOTA: Estos cálculos son extremadamente sensibles a la aproximación. Por tanto, se aconseja en aras de la exactitud, efectuar los cálculos hasta con cinco o seis cifras decimales. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 209 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 210 El error estándar de estimación Se. Es una medida del grado de dispersión de los valores Yi alrededor de la recta de regresión. Mide la variación de los puntos de datos por encima y por debajo de la recta de regresión. Refleja la tendencia a desviarse del valor real de Y cuando se utiliza el modelo de regresión para fines predictivos. El error estándar de estimación mide la variación promedio de los puntos de datos alrededor de la recta de regresión que se utiliza para estimar Y y por ende proporciona una medida del error que se presentara en dicha estimación. Se = (Yi-Y^i)²/n-2 Suma de Cuadrados del Error - SCE SCE = SCy - (SCxy)²/SCx En un modelo de regresión simple, se imponen dos restricciones en el conjunto de datos, debido a que se deben dos parámetros, o y ix. Por tanto hay n-2 grados de libertad y CME es Cuadrado Medio del Error CME = SCE/n-2 El Error Estándar Se = CME El error estándar siempre se expresa en las mismas unidades que la variable dependiente Y. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 210 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 211 Caso I. La gerencia de Aeromar, considera que existe una relación directa entre los gastos publicitarios y el número de pasajeros que escogen viajar por Aeromar. Para determinar si esta relación existe, y si es así cual podría ser la naturaleza exacta, los analistas decidieron utilizar los procedimientos de MCO para determinar el modelo de regresión. Represente gráficamente los resultados. y=bo+bix Datos de Regresión para AEROMAR Observación Publicidad Pasajeros Mes En miles US$ En miles X Y 1 10 15 2 12 17 3 8 13 4 17 23 5 10 16 6 15 21 7 10 14 8 14 20 9 19 24 10 10 17 11 11 16 12 13 18 13 16 23 14 10 15 15 12 16 TOTALES 187 268 XY X^2 Y^2 Coeficiente de Correlación de Pearson Es una prueba estadística para analizar la relación entre dos variables medidas en un nivel por intervalos o de razón. El valor positivo para un bi indica una relación directa. A medida que la publicidad aumenta, también lo hace el número de pasajeros. Ahora es útil obtener una medida de la fuerza de esa relación. Esta es la función del Coeficiente de Correlación, desarrollada por Carl Pearson, a veces se le llama el Coeficiente de Correlación producto-momento de Pearson. El Coeficiente de Correlación r puede asumir cualquier valor entre -1 y +1, es decir, -1 r +1 Un valor de r= -1 indica una relación negativa entre X y Y. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 211 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 212 Interpretación: El Coeficiente r de Pearson puede variar de -1 a +1, donde: -1.00 = Correlación negativa perfecta. (“a mayor X, menor Y”, de manera proporcional. Es decir, cada vez que X aumenta una unidad, Y disminuye siempre una cantidad constante) Esto también se aplica “a menor X, mayor Y”. -0.90 = Correlación negativa muy fuerte. -0.75 = Correlación negativa considerable. -0.50 = Correlación negativa media. -0.25 = Correlación negativa débil. -0.10 = Correlación negativa muy débil. -0.00 = No existe Correlación alguna entre las variables. + 0.10 = Correlación positiva muy débil. + 0.25 = Correlación positiva débil. + 0.50 = Correlación positiva media. + 0.75 = Correlación positiva considerable. + 0.90 = Correlación positivia muy fuerte. +1.00 = Correlación positiva perfecta. (“a mayor X, mayor Y” o “a menor X, menor Y”, de manera proporcional. Cada vez que X aumenta una unidad, Y aumenta siempre una cantidad constante). Suma de Cuadrados Total SCT = (Yi-Y')² SCR = (Y^i-Y')² SCE = (Yi-Y^i)² Suma de Cuadrados de la Regresión Suma de Cuadrado de Error Coeficiente de Correlación de Pearson r = SCR/SCT r = SCxy / (SCx)(SCy) Consideraciones: cuando el coeficiente r de Pearson se eleva al cuadrado (r^2), se obtiene el coeficiente de determinación y el resultado indica la varianza de factores comunes. Esto es, el porcentaje de la variación de una variable debido a la variación de la otra variable y viceversa (o cuánto explica o determina una variable de la otra. Por ejemplo si la correlación entre “productividad” y “asistencia al trabajo” es de r=0.80 y r^2=0.64. La productividad constituye a, o explica, 64% de la variación de la “asistencia al trabajo”. 0.66 ≤ r^2 ≤ 0.85 indica Buena predicción. r^2 > 0.85 ambas variables miden casi el mismo concepto. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 212 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 213 Análisis de Varianza en la Regresión. El procedimiento ANOVA mide la cantidad de variación en el modelo de muestreo. Suma de Cuadrados de la Regresión. SCR = (SCxy) ²/Scx Suma de Cuadrados del Error. SCE = SCy - (SCxy)²/SCx Suma de los Cuadrados Total. SCT = SCR + SCE Causas Posibles Error Muestral ANOVA table Source Regression Residual Total Causas Posibles Error Muestral Fuentes de Suma de Grados de Cuadrados Variacion Cuadrados Libertad medios Regresión Error Total SCR SCE SCT SS 161.0441 10.6893 171.7333 df 1 13 14 K n-k-1 n-1 MS 161.0441 0.8223 Teórica F 195.86 Suma de Grados de Cuadrados Variacion Cuadrados Libertad medios Regresión Error Total 161.0441 10.6893 F CMR = SCR/K CMR/CME CME=SCE/n-k-1 Fuentes de 171.7333 F de Prueba 1 13 14 161.0441 F de Prueba 195.86 F Teórica 4.67 0.8223 Ho: La publicidad no tiene poder explicativo sobre las ventas de tickets. Ha: La publicidad si tiene poder explicativo sobre las ventas de tickets. Si el nivel de significancia es de 0.05. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 213 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 214 Prueba para la Bi (Pendiente). Si la pendiente de la recta de regresión poblacional real pero desconocida es cero, no existe relación entre los pasajeros y la publicidad contraria a los resultados muéstrales. Ho: Bi = 0 Ho: Bi ≠ 0 Esta prueba emplea es estadístico t. La prueba t para el coeficiente de regresión poblacional. t = (bi – Bi)/Sbi Error Estándar del Coeficiente de Regresión Sbi. Sbi = Se/√SCx Sbi = Se/√SCx = 0.907 / √137.73333 = 0.07726 t = (bi – Bi)/Sbi t = (1.0813 – 0)/0.07726 = 13.995 Si nivel de significancia es 0.05 t 0.05,13 = ± 2.160 Debido a que t = 13.995, la Ho de Bi = 0 se rechaza. Al nivel del 5% parece existir una relación entre pasajeros y publicidad. I.C. par Bi = bi ± t * Sbi = 1.08 ± (2.160) (0.07726) 0.913 ≤ Bi ≤ 1.247 Regression output variables Intercept Publicidad coefficients std. error 4.3863 0.9913 1.0813 0.0773 t (df=13) 4.425 13.995 p-value .0007 3.24E09 confidence interval 95% 95% lower upper 2.2447 6.5278 0.9144 1.2482 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 214 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 215 Caso II. Para apoyar las ventas de un producto de consumo masivo en un mercado altamente competitivo una empresa inicio a comienzos de año una intensa campaña publicitaria. La comparación entre la inversión publicitaria y las ventas del producto en 12 meses se colocan en la siguiente tabla: a) Formule la ecuación de regresión. b) Si invertimos en publicidad $400,000 cuál debería ser las posibles ventas? VENTAS PUBLICIDAD MESES EN MILES EN MILES Y X ENERO 350 200 FEBRERO 300 250 MARZO 630 300 ABRIL 840 250 MAYO 930 330 JUNIO 1060 180 JULIO 1280 150 AGOSTO 850 350 SEPTIEMBRE 700 200 OCTUBRE 1160 250 NOVIEMBRE 1180 250 DICIEMBRE 1500 170 TOTALES 10780 2880 XY X^2 Y^2 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 215 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 216 Caso III. El departamento de ventas de una Compañía realiza un análisis comparativo entre el volumen de pedidos levantados y número de visitas efectuadas. Por sus diez vendedores en cierto periodo de tiempo, todos los vendedores trabajan en zonas similares, en lo referente al número de clientes que maneja cada uno y potencial de compra de dichos clientes. Los resultados obtenidos son los siguientes: a) Formule la ecuación de regresión. b) ¿Cuánto ascendería el posible monto de los pedidos si las visitas fueran 250? c) ¿Cuál es el grado de relación entre las variables? d) Determine el error estándar. e) Haga el diagrama de dispersión. f) Grafique la recta de regresión. PEDIDOS EN MILES VISITAS VENDEDOR US$ REALIZADAS 1 13,4 245 2 10,3 172 3 15,1 291 4 6,9 124 5 7,3 191 6 14,2 218 7 5,2 101 8 11,8 259 9 14,3 307 10 5,5 142 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 216 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 217 Caso IV. Suponga que se reunieron datos de una muestra de 10 restaurantes ubicados cerca de centros educativos. Para i-ésima observación o restaurante de la muestra, xi es el tamaño de la población estudiantil, en miles, y yi son las ventas trimestrales (en miles de dólares). Los valores de xi y yi para los 10 restaurantes de la muestra se resumen en la siguiente tabla: Ventas Población de Trimestrales Restaurante Estudiantes (miles) (miles de dólares 1 2 58 2 6 105 3 8 88 4 8 118 5 12 117 6 16 137 7 20 157 8 20 169 9 22 149 10 26 202 a. Trace un diagrama de dispersión para estos datos. b. ¿Qué indica el diagrama de dispersión que trazó anteriormente, acerca de la relación entre las dos variables? c. Formule la ecuación de regresión. d. Realice una interpretación de la pendiente de la ecuación de regresión. e. ¿Cuál es el grado de relación entre las variables? f. Determine el error estándar. g. Grafique la recta de regresión. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 217 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 218 Caso V. Los datos siguientes muestran las ventas (en millones) de cajas y los gastos de publicidad (en millones de dólares) para 7 marcas principales de refrescos (Superbrands ’98, 20 de octubre de 1997). Gastos de Publicidad Ventas de cajas Marca (millones de dólares) (en millones) Coca-Cola Classic 131.3 1,929.2 Persi-Cola 92.4 1,384.6 Diet Coke 40.4 811.4 Sprite 55.7 541.5 Dr. Pepper 40.2 536.9 Mountain Dew 29.0 535.6 7-Up 11.6 219.5 a. Trace un diagrama de dispersión para estos datos. b. Formule la ecuación de regresión. c. Realice una interpretación de la pendiente de la ecuación de regresión. d. ¿Cuál es el grado de relación entre las variables? e. Determine el error estándar. f. Prediga las ventas para una marca que gaste 70 millones de dólares en publicidad. g. Grafique la recta de regresión. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 218 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 219 Caso VI. En The Wall Street Journal Almanac 1998 aparecieron datos sobre el desempeño de las aerolíneas estadounidenses. A continuación vemos los datos sobre el porcentaje de vuelos que llegan puntuales y la cantidad de quejas por 100,000 pasajeros. Aerolínea % de Puntualidad Quejas Southwest 81.8 0.21 Continental 76.6 0.58 Northwest 76.6 0.85 US Airways 75.7 0.68 United 73.8 0.74 American 72.2 0.93 Delta 71.2 0.72 American West 70.8 1.22 TWA 68.5 1.25 a. Trace un diagrama de dispersión para estos datos. b. ¿Qué indica el diagrama de dispersión que trazó en el inciso a)? c. Formule la ecuación de regresión, que indique cómo se relaciona el número de quejas por cada 100,000 pasajeros con el porcentaje de vuelos que llegan a tiempo. d. Realice una interpretación de la pendiente de la ecuación de regresión. e. ¿Cuál es el grado de relación entre las variables? f. Determine el error estándar. g. ¿Cuál es la cantidad estimada de quejas por 100,000 pasajeros, si el porcentaje de vuelos puntuales es de 80 porciento? h. Grafique la recta de regresión. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 219 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 220 Caso VII. La empresa Nielsen Media Research reúne datos que muestran qué publicistas obtienen la mayor difusión durante las horas estelares de transmisión en 6 redes televisivas. A continuación se presentan los datos de la cantidad de familias espectadoras, en millones, y la cantidad de veces que salió el anuncio al aire durante la semana del 28 de abril al 4 de mayo de 1997 (USA Today, 5 de mayo de 1997). Veces que salió al Familias Marca Anunciada aire espectadoras Wendy's 28 191.7 Ford Escort 20 174.6 Ausin Powers movie 14 161.3 Nissan 16 161.1 Pizza Hut 16 147.7 Saturn 16 146.3 Father's Day Movie 11 138.2 a. Forme la ecuación de regresión estimada que describa cómo se relaciona la cantidad de veces que sale un anuncio con la cantidad de familia espectadoras. b. Proponga una interpretación de la pendiente de la ecuación de regresión estimada. c. ¿Cuál es la cantidad estimada de familias espectadoras si un anuncio sale 15 veces al aire en una semana. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 220 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 221 Caso VIII. Un gerente de ventas reunió los datos siguientes relacionados con las ventas anuales y años de experiencia. Años de Ventas anuales Vendedor Experiencia (miles de dólares) 1 1 80 2 3 97 3 4 72 4 4 102 5 6 103 6 8 111 7 10 119 8 10 123 9 11 117 10 13 136 a. Trace un diagrama de dispersión para estos datos. b. Formule una ecuación de regresión estimada con la que se puedan predecir las ventas anuales, dados los años de experiencia. c. Use la ecuación de regresión para predecir las ventas anuales de un vendedor con 9 años de experiencia. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 221 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 222 Caso IX. El gerente de ventas de Copier Sales of America, que tiene una fuerza de ventas muy numerosa en Estados Unidos y Canadá, quiere determinar si existe una relación entre el número de llamadas de ventas que se realizan al mes y el número de copiadoras que se venden durante ese mes. El gerente selecciona una muestra aleatoria de 10 representantes y determina el número de llamadas de ventas que cada uno hizo el pasado y la cantidad de copiadoras vendidas. La información de la muestra se presenta a continuación: Número de Número de Llamadas Copiadoras Representante de Ventas de Ventas Vendidas Tom Keller 20 30 Jeft Hall 40 60 Brian Virost 20 40 Greg Fish 30 60 Susan Welch 10 30 Carlos Ramírez 10 40 Rich Niles 20 40 Mike Kiel 20 50 Mark Reynolds 20 30 Soni Jones 30 70 h. Trace un diagrama de dispersión para estos datos. i. ¿Qué indica el diagrama de dispersión que trazó anteriormente, acerca de la relación entre las dos variables? j. Formule la ecuación de regresión. k. Realice una interpretación de la pendiente de la ecuación de regresión. l. ¿Cuál es el grado de relación entre las variables? m. Determine el error estándar. n. Grafique la recta de regresión. o. Prediga las ventas para 15, 35 y 60 llamadas. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 222 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 223 Caso X. La humedad influye en la evaporación, de modo que el equilibrio de solventes de las pinturas base agua durante su rocío se ve afectado por la humedad. Se emprende un estudio controlado para examinar la relación de la humedad con la magnitud de la evaporación del solvente. El conocimiento de esta relación es útil para que el pintor ajuste el aspersor de pintura de modo de considerar la humedad. Se obtienen los datos siguientes: HUMEDAD EVAPORACION RELATIVA SOLVENTE OBSERVACION (%) (% DE PESO) 1 35.3 11.0 2 29.7 11.1 3 30.8 12.5 4 58.8 8.4 5 61.4 9.3 6 71.3 8.7 7 74.4 6.4 8 76.7 8.5 9 70.7 7.8 10 57.5 9.1 11 46.4 8.2 12 28.9 12.2 13 28.1 11.9 14 39.1 9.6 15 46.8 10.9 16 48.5 9.6 17 59.3 10.1 18 70.0 8.1 19 70.0 6.8 20 74.4 8.9 21 72.1 7.7 22 58.1 8.5 23 44.6 8.9 24 33.4 10.4 25 28.6 11.1 Las estadísticas de resumen para estos datos son: Sumatoria de x = 1,314.90 Sumatoria de y = 235.70 Sumatoria de x*x = 76,308.53 Sumatoria de y*y = 2,286.07 Sumatoria de x*y = 11,824.44 i. Trace un diagrama de dispersión para estos datos. j. ¿Qué indica el diagrama de dispersión que trazó en el inciso a)? k. Formule la ecuación de regresión, que indique cómo se relaciona la humedad con la evaporación. l. Realice una interpretación de la pendiente de la ecuación de regresión. m. ¿Cuál es el grado de relación entre las variables? n. Determine el error estándar. o. ¿Cuál es la magnitud de la evaporación del solvente cuando la humedad relativa es 50%? Grafique la recta de regresión. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 223 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 224 Pruebas no paramétricas (Nonparametric Statistics) En la práctica, surgen muchas situaciones en las cuales simplemente no es posible hacer de forma segura ningún supuesto sobre el valor de un parámetro o sobre la forma de la distribución poblacional. Más bien se deben utilizar otras pruebas que no dependan de un solo tipo de distribución o de valores de parámetros específicos. Estas pruebas se denominan Pruebas no paramétricas o libres de distribución. Pruebas no paramétricas. Son procedimientos estadísticos que pueden utilizarse para contrastar hipótesis cuando no son posibles los supuestos respecto a los parámetros o a las distribuciones poblacionales. Experimento multinomial. Es un experimento que satisface las siguientes condiciones. 1. El número de ensayos es fijo. 2. Los ensayos son independientes. 3. Todos los resultados de ensayos individuales se deben clasificar en una y sólo una de varias categorías distintas. 4. Las probabilidades de las diferentes categorías se mantienen constantes para cada ensayo. Distribución Chi-cuadrado Las dos aplicaciones más comunes de Chi-cuadrado son: 1. Pruebas de bondad de ajuste. 2. Pruebas de independencia. Prueba de bondad de ajuste. Sirve para probar la hipótesis de que una distribución de frecuencia observada se ajusta a (o concuerda con) alguna distribución propuesta. Medidas sobre qué tan cerca se ajustan los datos muéstrales observados a una forma de distribución particular planteada como hipótesis. Si el ajuste es razonablemente cercano, puede concluirse que si existe la forma de distribución planteada como hipótesis. Por ejemplo, se puede plantear la hipótesis que la distribución poblacional es uniforme y que todos los valores posibles tienen la misma probabilidad de ocurrir. Las hipótesis que se probarían son: Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 224 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 225 Ho: La distribución poblacional es uniforme. Ha: La distribución poblacional no es uniforme. Si existe una gran diferencia entre lo que realmente se observa en la muestra y lo que se esperaría observar si la hipótesis nula fuera correcta, en tal caso es menos probable que la hipótesis nula sea verdadera. Es decir, la hipótesis nula debe rechazarse cuando las observaciones obtenidas en la muestra difieren mucho del patrón que se espera que ocurra si la distribución planteada como hipótesis si se presenta. En las pruebas de bondad de ajuste usaremos la siguiente notación: Oi representa la frecuencia observada de un resultado. E representa la frecuencia esperada de un resultado. k representa el número de diferentes categorías o resultados. n representa el número de ensayos total. La prueba Chi-cuadrado tiene k-m-1 grados de libertad, en donde m es el número de parámetros a estimar. En muchos casos, podemos determinar una frecuencia esperada multiplicando la probabilidad p de una categoría por el número de ensayos distintos n: E = np Por ejemplo, si probamos la aseveración de que un dado es equitativo lanzándolo 60 veces, tendremos n = 60 (porque hay 60 ensayos) y p = 1/6 (porque un dado es equitativo sí los seis posibles resultados son igualmente probables, con la misma probabilidad de 1/6). Por tanto, la frecuencia esperada para cada categoría o celda es: E = np E = 60(1/6) = 10 Supuestos. Los supuestos siguientes aplican cuando probamos una hipótesis de que la proporción de población para cada una de las k categorías (de un experimento multinomial) es la que se asegura. 1. Los datos constituyen una muestra aleatoria. 2. Los datos de muestra consisten en conteos de frecuencia para las k diferentes categorías. 3. Para cada una de las k categorías, la frecuencia esperada es por lo menos 5. La prueba de Chi-cuadrado de bondad de ajuste es confiable solo si todo Ei es por lo menos 5. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 225 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 226 Estadística de prueba para pruebas de bondad del ajuste en experimentos multinomiales. ²=[(Oi-Ei)/Ei] Valores Críticos. 1. Los valores críticos se encuentran en la tabla de Chi-cuadrado usando k-1 grados de libertad, donde k es el número de categorías. 2. Las pruebas de hipótesis de bondad del ajuste siempre son de cola derecha. La forma de la estadística de prueba ² es tal que una concordancia cercana entre los valores observados y los esperados produce un valor pequeño de ². Un valor grande de ² indica una fuerte discrepancia entre los valores observados y los esperados. Por tanto, un valor significativamente alto de ² hará que se rechace la hipótesis nula de que no hay diferencia entre las frecuencias observadas y esperadas. Entonces, la prueba es de cola derecha porque el valor crítico y la región crítica se encuentran a la extrema derecha de la distribución. A diferencia de pruebas de hipótesis previas en las que teníamos que determinar si la prueba era de cola izquierda, de cola derecha o de dos colas, todas estas pruebas de bondad del ajuste son de cola derecha. Caso I. Jennifer Calcaño gerente de crédito del BHD, en la torre Principal en Santo Domingo, trata de seguir una política de extender un 60% de sus créditos a empresas comerciales, un 10% a personas naturales y un 30% a prestatarios extranjeros. Para determinar si la política se estaba siguiendo, José Rondón, vicepresidente de mercadeo, selecciona 85 créditos que se aprobaron recientemente. Encuentra que 62 de tales créditos se otorgaron a negocios, 10 a personas naturales, y 13 a prestatarios extranjeros. Al nivel del 10%, ¿parece que el patrón de cartera deseado se preserva? Pruebe la hipótesis de que: Ho: Se mantuvo el patrón deseado: 60% son créditos comerciales, 10% son préstamos personales y 30% son créditos extranjeros. Ha: El patrón deseado no se mantuvo. Tabla de Tipo de Crédito. Tipo de Crédito Oi Ei Comercial Personal Extranjero 62,00 10,00 13,00 51,00 8,50 25,50 Total 85,00 85,00 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 226 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 227 Estadística de prueba para pruebas de bondad del ajuste en experimentos multinomiales. El valor ² es ²=[(Oi-Ei)²/Ei] ²=[(62-51)²/51]+[(10-8.5)²/8.5]+[(13-25.5)²/25.5] = 8.76 Valores Críticos. 1. Los valores críticos se encuentran en la tabla de Chi-cuadrado usando k-1 grados de libertad, donde k es el número de categorías. 2. Las pruebas de hipótesis de bondad del ajuste siempre son de cola derecha. Con un = 10% y k = 3 categorías de crédito (comerciales, privados y extranjeros), existen km-1= 3-0-1=2 grados de libertad, el valor critico es ² 0.10,2 = 4.605 Regla de decisión: "No rechazar la hipótesis nula ² 4.605. Rechazar sí la hipótesis nula ² > 4.605. Interpretación. Las diferencias entre lo que el VP José Rondón observo y lo que esperaba observar si el patrón de crédito deseado se alcanzaba era demasiado grande como para ocurrir por simple azar. Existe solo un 10% de probabilidad de que una muestra de 85 créditos seleccionados aleatoriamente pudieran producir las frecuencias observadas aquí demostradas, si el patrón deseado en la cartera de crédito del banco se estuviera manteniendo. Caso II. Prueba de normalidad. Las especificaciones para la producción de tanques de aire utilizados en inmersión requieren que los tanques se llenen a una presión de 600 libras por pulgadas cuadradas (psi). Se permite una desviación de 10 psi. Las especificaciones de seguridad permiten una distribución normal en los niveles de llenado. Usted acaba de ser contratado por Aqua Lung, un importante fabricante de equipos de inmersión. Su primera tarea es determinar si los niveles de llenado se ajustan a una distribución normal. Aqua Lung está seguro de que media de 600 psi y la desviación estándar de 10 psi prevalece. En este esfuerzo se miden n=1000 tanques y se halla la distribución presentada en la siguiente tabla. Sus hipótesis son: Ho: Los niveles de llenado están distribuidos normalmente. Ha: Los niveles de llenado no están distribuidos normalmente. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 227 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 228 Tabla de llenado para los tanques de buceo. Frecuencia Probabilidades Frecuencias PSI Real Oi pi Esperadas Ei 0 y por debajo de 580 20 580 y por debajo de 590 142 590 y por debajo de 600 310 600 y por debajo de 610 370 610 y por debajo de 620 128 6200 y por encma 30 Totales 1000 O-E (O-E)^2 [(O-E)^2]/E Determine la probabilidad para cada clase mediante la fórmula Z y complete la tabla de probabilidades y frecuencias esperadas. Valor Crítico. Se desea probar la hipótesis al nivel del 5%. Debido a que tanto la media poblacional como la desviación estándar son dadas y no tienen que estimarse, m = 0. Existe k = 6 clases en la tabla de frecuencias, de manera que los grados de libertad son k-1=5. Se encuentra que el valor critico es ² 0.05,5 =11.07 Regla de decisión: "No rechazar la hipótesis nula si ² es menor que 11.07. Rechazar la hipótesis nula si ² es mayor que 11.07" Estadística de prueba para pruebas de bondad del ajuste en experimentos multinomiales. Determine el valor ² ²=[(Oi-Ei)²/Ei] Interpretación: Si la hipótesis nula se acepta. Las diferencias entre lo que se observó y lo que se espera observar si los contenidos estuvieran distribuidos normalmente con una media de 600 y una desviación estándar de 10 pueden atribuirse al error de muestreo. Si la media poblacional y la desviación estándar no fueran conocidas, se hubieran tenido que estimar de los datos muéstrales de la tabla. Entonces m=2, y los grados de libertad serian k2-1 o 6-2-1=3. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 228 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 229 Tablas de contingencia o Tabulación Cruzada. Una prueba de independencia. Tabla de Contingencia o tabla de frecuencia bidireccional (Contingency Table). Es una tabla en la que las frecuencias corresponden a dos variables. (Se utiliza una variable para clasificar las filas y otra para clasificar las columnas). Las tablas contingencias son aquellas que sirven para comparar dos variables. Es un cuadro de dos dimensiones, y cada dimensión contiene una variable. A su vez, cada variable se subdivide en dos o más categorías. Prueba de independencia. Una prueba de independencia prueba la hipótesis nula de que la variable de fila y la variable de columna de una tabla de contingencia no están relacionadas. (La hipótesis nula es la declaración de que las variables de fila y de columna son independientes.) Es muy importante reconocer que, en este contexto, la palabra contingencia se refiere a dependencia, pero solo se trata de una dependencia estadística y no puede usarse para establecer un vínculo directo de causa y efecto entre las dos variables en cuestión. Supuestos. Al probar la hipótesis nula de independencia entre las variables de fila y de columna de una tabla de contingencia, aplican los supuestos siguientes (Obsérvese que estos supuestos no exigen que la población padre tenga una distribución normal ni alguna otra distribución especifica.) 1. Los datos de muestra se escogen aleatoriamente. 2. La hipótesis nula Ho es la declaración de que las variables de fila y de columna son independientes; la hipótesis alternativa Ha es la declaración de que las variables de fila y de columna son dependientes. 3. Para cada celda de la tabla de contingencia, la frecuencia esperada E es de por lo menos 5. Estadística de prueba para prueba de independencia. El valor ² es Chi-cuadrada es una prueba estadística para evaluar hipótesis acerca de la relación entre dos variables categóricas. ²=[(Oi-Ei)/Ei] Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 229 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 230 Valores críticos. 1. Los valores críticos se encuentran en la tabla usando: grados de libertad = (r-1)(c-1) 2. Las pruebas de independencia con tablas de contingencia solo implican regiones criticas de cola derecha. Frecuencia esperada para una tabla de contingencia. Frecuencia esperada (E)= [(Total de fila)*(Total de columna)]/Gran Total La estadística de prueba nos permite medir el grado de discrepancia entre las frecuencias observadas y las que esperaríamos en teoría si las dos variables son independientes. Valores pequeños de la estadística de prueba ² indican coincidencia entre las frecuencias observadas y las frecuencias esperadas con variables de fila y de columna independientes. Los valores grandes de la estadística de prueba ² están a la derecha de la distribución Chi-cuadrada y reflejan diferencias significativas entre las frecuencias observadas y las esperadas. En muestreos grandes repetidos, la distribución de la estadística de prueba ² se puede aproximar con la distribución Chi-cuadrada, siempre que todas las frecuencias esperadas sean de por lo menos 5. Caso I. Santo Domingo Motors desea determinar si existe alguna relación entre el ingreso de los clientes y la importancia que dan al precio de los automóviles de lujo. Los gerentes de la compañía desean probar la hipótesis de que: Ho: Ingreso e importancia del precio son independientes. Ha: Ingreso e importancia del precio no son independientes. Atributo b: Atributo a: Ingresos Nivel de Importancia Grande Frecuencia Esperada Bajo 83 Medio 62 Alto 37 Total 182 Moderado Frecuencia Esperada 52 71 49 172 63 58 63 184 198 191 149 538 Poco Frecuencia Esperada Totales Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 230 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 231 Los clientes están agrupados en tres niveles de ingreso y se les pide asignar un nivel de significancia para poner precio a la decisión de compra. Los resultados se muestran en la siguiente tabla de contingencia. Debido a que 182/538=33.83% de todos los datos que respondieron a la encuesta agregan a un nivel de importancia "grande" al precio, entonces si el ingreso y el precio no están relacionados, se esperaría que 33.83% de ellos, en cada clasificación de ingresos respondan que el precio era de "gran" importancia. Por tanto, los Ei para un nivel de importancia "bajo" son (198)(0.3383)=66.98, (191)(0.3383)=64.62 y (149)(0.3383)=50.41 De forma similar los demás niveles de importancia. Determine: El valor ² es ²=[(Oi-Ei)/Ei] Valores críticos. 1. Los valores críticos se encuentran en la tabla usando: grados de libertad = (r-1)(c-1) 2. Las pruebas de independencia con tablas de contingencia solo implican regiones críticas de cola derecha. Si se determina en 1%, y con (f-1)(c-1)=(3-1)(3-1)=4 grados de libertad ²0.01,4=13.277 Regla de decisión: "No rechazar la hipótesis nula si ² es menor que 13.277. Rechazar la hipótesis nula si ² es mayor que 13.277" Interpretación. La hipótesis nula se rechaza. Existe solo 1% de probabilidad de que si no existe relación entre ingreso y significancia del precio, las diferencias entre Oi y Ei serian lo suficientemente grandes como para producir un Chi-cuadrado más grande que 13.277. Existe evidencia de una relación entre el ingreso de los clientes y la importancia dada al precio de un auto de lujo. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 231 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 232 Caso I Jesús Diequez, Gerente de Calidad de Mars, Inc. asegura que sus dulces M&M están distribuidos según los porcentajes de color de 30% marrón, 20% amarillo, 20% rojo, 10% anaranjado, 10% verde y 10% azul. Usando los datos de muestra de la siguiente tabla y un nivel de significación de 0.05 pruebe la afirmación de que la distribución de colores es la que el gerente de calidad asegura. FRECUENCIAS DE LOS DULCES M&M CATEGORÍA DE COLOR FREC. OBSERVADA MARRON AMARILLO ROJO ANARANJADO VERDE AZUL 33 26 21 8 7 5 FREC. ESPERADA Caso II. A los compradores del centro comercial local se les pide calificar un nuevo producto en una escala continua que comienza en cero. Con base en los siguientes datos agrupados, ¿puede usted concluir al nivel del 5% que los datos están distribuidos normalmente, con una media de 100 y una desviación estándar de 25? CALIFICACIÓN FRECUENCIA MENOS DE 50 50-70 70-90 90-110 110-130 130-150 150-170 MAS DE 170 1 51 112 151 119 43 21 2 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 232 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 233 Caso III. Aída Henríquez, gerente de mercadeo de Trans World Airways (TWA) desea determinar si existe alguna relación entre el número de vuelos que las personas toman y su ingreso. ¿A qué conclusión llega al nivel del 1% con base en los datos para 100 viajeros en la tabla de contingencia? FRECUENCIA DE VUELOS INGRESO NUNCA RARA VEZ CON FRECUENCIA TOTALES MENOS DE US$30,000 20 15 2 US30,000-US$50,000 8 5 1 US50,000-US70,000 7 8 12 MAS DE US$70,000 2 5 15 Totales Caso IV. A los compradores del centro comercial local se les pide calificar un nuevo producto en una escala continua que comienza en cero. Con base a los siguientes datos agrupados, ¿puede usted concluir al nivel del 5% que los datos están distribuidos normalmente, con una media de 100 y una desviación de 25? CALIFICACION FRECUENCIA MENOS DE 50 1 50-70 5 70-90 112 90-110 151 110-130 119 130-150 43 150-170 21 MAS DE 170 2 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 233 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 234 Caso V. En un análisis de segmentación de mercado para tres cervezas, el grupo de investigación encargado ha planteado la duda de si las preferencias para las tres cervezas son diferentes entre los consumidores hombres y mujeres. Si la preferencia de las cervezas fuera independiente del sexo del consumidor, se iniciaría una campaña publicitaria para todas las cervezas. Sin embargo, si la preferencia depende del sexo del consumidor, se ajustarán los promociones para tener en cuenta los distintos mercados metas. Pruebe el supuesto a un nivel de significancia de un 5%. Los datos de la tabla constituyen las frecuencias observadas para las seis clases o categorías. SEXO HOMBRE MUJER CERVEZA PREFERIDA LIGERA CLARA OSCURA 20 40 20 30 30 10 Caso VI. La empresa National Computer Products, Inc. (NCP) fabrica impresoras y máquinas de fax en plantas de Atlanta, Dallas y Seattle, Estados Unidos. Para evaluar los conocimientos de sus empleados acerca de administración de calidad total se tomó una muestra aleatoria de seis empleados en cada planta y se les sometió a un examen de conciencia de la calidad. Las calificaciones de esos 18 empleados se presentan a continuación. Con estos datos, los gerentes desean probar la hipótesis de que la media de la calificación del examen es igual para las tres plantas con un nivel de significancia de un 5%. PLANTA PLANTA PLANTA 1 2 3 ATLANTA DALLAS SEATTLE 85 71 59 75 75 64 82 73 62 76 74 69 71 69 75 85 82 67 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 234 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 235 Caso VII. Proquín contrata, anualmente, unos 400 empleados para sus cuatro plantas en todo el país. El director de personal pregunta si se podría aplicar una distribución normal a la población de las calificaciones obtenidas. Si se pudiera aplicar esa distribución, sería muy útil para evaluar calificaciones específicas. Esto es, las calificaciones de 20% superior, 40% inferior, etc., se podrían identificar con rapidez. En consecuencia se desea probar la hipótesis nula de que la población de calificaciones en la prueba de actitud se apega a una distribución de probabilidad normal. Si se toma una muestra una muestra de 50 calificaciones, cuya media es de 68.42 y su desviación estándar es de 10.41. Los datos se muestra a continuación en la siguiente tabla. Interprete los resultados. INTERVALO DE FRECUENCIA CALIFICACIONES OBSERVADA MENOS DE 55.1 5 55.1 59.68 5 59.68 63.01 9 63.01 65.82 6 65.82 68.42 2 68.42 71.02 5 71.02 73.83 2 73.83 77.16 5 77.16 81.74 5 81.74 O MAS 6 TOTAL 50 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 235 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 236 Caso VIII. Decoración Ruddy se especializa en arreglos de jardines residenciales. El costo estimado de mano de obra en determinada oferta de decoración se basa en la cantidad de árboles, arbustos, etc., que se plantan en el proyecto. Para fines de estimación de costos, los gerentes aplican dos horas de mono de obra plantar un árbol mediano. Los tiempos reales, en horas, para una muestra de 10 árboles plantados durante el mes pasado son los siguientes: 1.9 1.7 2.8 2.4 2.6 2.5 2.8 3.2 1.6 2.5 Con un nivel de significancia de 0.05, pruebe si la media del tiempo de plantación de árboles es mayor de dos horas. A. Establezca las hipótesis nula y alternativa. B. ¿Cuál es el valor crítico para la prueba y cuál es la regla de decisión? C. Calcule la media muestral. D. Determine la desviación estándar. E. Calcule el valor del estadístico de prueba. F. ¿Cuál es su conclusión? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 236 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 237 Pruebas con dos Poblaciones. Estimación con muestras grandes. Intervalo de confianza para la diferencia entre dos medias poblacionales para muestras grandes: I.C. para (µ1-µ2) = (X’1 – X’2) ± Zσx’1-x’2 Error Estándar de las diferencias entre medias muéstrales: σx’1-x’2 = √ (σ12/n1) + (σ22/n2) Estimación del error estándar de la diferencia entre medias muéstrales: sx’1-x’2 = √ (s12/n1) + (s22/n2) Intervalo de confianza cuando las varianzas son desconocidas: I.C. para (µ1-µ2) = (X’1 – X’2) ± Zsx’1-x’2 Caso I. Vimenca transporta remesas entre Santo Domingo y Samaná por dos rutas. Una muestra de 100 camiones enviados por la ruta del Este reveló un tiempo promedio de tránsito X’este=17.2 horas con una desviación estándar Seste=5.3 horas, mientras que 75 camiones que utilizan la ruta Norte necesitaron un promedio de X’norte=19.4 horas con una desviación estándar de Snorte=4.5horas. El transportador de Vimenca, desea desarrollar un intervalo de confianza del 95% para la diferencia en el tiempo promedio entre estas dos rutas alternas. N este = 100 camiones Nnorte= 75 camiones X’este = 17.2 horas X’norte= 19.4 horas Seste = 5.3 horas Snorte= 4.5 horas N.C. 95% RUTA ESTE NORTE UNIDADES X' 17.2 19.4 HORAS S 5.3 4.5 HORAS N 100 75 CAMIONES Debido a que las desviaciones poblacionales son desconocidas, el error estándar es: sx’1-x’2 = √ (s12/n1) + (s22/n2) sx’1-x’2 = √ (5.32/100) + (4.52/75) sx’1-x’2 = √ (0.2809) + (0.27) sx’1-x’2 = 0.7422 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 237 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 238 Intervalo de confianza cuando las varianzas son desconocidas: I.C. para (µ1-µ2) = (X’1 – X’2) ± Zsx’1-x’2 I.C. para (µ1-µ2) = (17.2 – 19.4) ± (1.96)(0.7422) I.C. para (µ1-µ2) = – 2.2 ± 1.4547 -3.7 ≤ (µ1-µ2) ≤ -0.75 horas El transportador puede tener un 95% de confianza en que la ruta del norte toma entre 0.75 horas y 3.7 horas más. Pruebas con dos Poblaciones Estimación con muestras pequeñas con varianzas poblacionales iguales Estimado mancomunado de la varianza común a ambas poblaciones: Sp2 = s12 (n1 - 1) + s22 (n2 - 1) n1 + n2 – 2 Intervalo de confianza para la diferencia entre medias poblacionales cuando σ12 = σ22 desconocidas: I.C. para (µ1-µ2) = (X’1 – X’2) ± t √ (sp2/n1) + (sp2/n2) Caso II. En la cafetería de los estudiantes de PUCMM, una máquina expendedora de bebidas dispensa bebidas en tazas de papel. Una muestra de 15 tazas da una media de 15.3 onzas con una varianza de 3.5. Después de ajustar la máquina, una muestra de 10 tazas produce un promedio de 17.1 onzas con una varianza de 3.9. Si se asume que s2 (varianza) es constante antes y después del ajuste, construya un intervalo de confianza del 95% para la diferencia entre los contenidos promedio de llenado. Se asume que las cantidades dispensadas están distribuidas normalmente. Entonces, N1 = 15 tasas N2 = 10 tazas X’1 = 15.3 onzas X’2 = 17.1 onzas S12 = 3.5 onzas S22 = 3.9 onzas Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 238 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 239 TIPO X' S2 N llenado llenado 1 2 UNIDADES 15.3 17.1 ONZAS 3.5 3.9 ONZAS 15 10 TAZAS Sp2 = s12 (n1 - 1) + s22 (n2 - 1) n1 + n2 – 2 Sp2 = 3.5 (15 - 1) + 3.9 (10 - 1) 15 + 10 – 2 Sp2 = 3.66 Intervalo de confianza para la diferencia entre medias poblacionaes cuando σ12 = σ22 desconocidas: Con un α = 0.05 (un nivel de confianza del 95%) y n1 + n2 – 2 = 23 g.l., la tabla t indica un valor de 2.069. I.C. para (µ1-µ2) = (X’1 – X’2) ± t √ (sp2/n1) + (sp2/n2) I.C. para (µ1-µ2) = (15.3 – 17.1) ± 2.069 √ (3.66/15) + (3.66/10) I.C. para (µ1-µ2) = – 1.8 ± 1.61 -3.41 ≤ (µ1-µ2) ≤ -0.19 onzas Se puede tener un nivel de confianza del 95% en que el ajuste incrementó el nivel del contenido entre 0.19 onzas y 3.41 onzas. Pruebas con dos Poblaciones Estimación con muestras pequeñas con varianzas poblacionales desiguales Grados de libertad cuando las varianzas poblacionales non son iguales. g.l. = (s12/n1 + s22/n2)2______ (s12/n1) 2 / (n1- 1) + (s22/n2) 2 / (n2- 1) Intervalo para la diferencia entre medias poblacionales: I.C. para (µ1-µ2) = (X’1 – X’2) ± t √ (s12/n1) + (s22/n2) Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 239 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 240 Caso III. El Listin Diario describió dos programas de entrenamiento utilizados por GBM Dominicana. Doce ejecutivos a quienes se les dio primer tipo de entrenamiento obtuvieron un promedio de 73.5 en la prueba de competencia. Aunque el artículo de noticias no reportó la desviación estándar para estos 12 empleados, se asume que la varianza en los puntajes para este grupo fue de 100.2. Quince ejecutivos a quienes se les administró el segundo programa de entrenamiento obtuvieron un promedio 79.8. Se asume una varianza de 121.3 para este segundo grupo. Haga un intervalo de confianza del 95% para la diferencia en los puntajes promedio para todos los ejecutivos que ingresaron a estos programas: N1 = 12 ejecutivos N2 = 15 ejecutivos X’1 = 73.5 puntos X’2 = 79.8 puntos S12 = 100.2 puntos S22 = 121.3 puntos PROGRAM PROGRAM TIPO 1 2 UNIDADES X' 73.5 79.8 EJECUTIVOS S 100.2 121.3 PUNTOS N 12 15 PUNTOS Grados de libertad cuando las varianzas poblacionales non son iguales. g.l. = (s12/n1 + s22/n2)2______ (s12/n1) 2 / (n1- 1) + (s22/n2) 2 / (n2- 1) g.l. = (100.2/12 + 121.3/15)2______ = 24.55 (100.2/12)2 / (12-1) + (121.3/15) 2 / (14-1) Si g.l. es fraccionario, se aproxima hacia abajo, hacia el entero inmediatamente anterior. G.L. = 24. Con un α = 0.05 (un nivel de confianza del 95%) y g.l. = 24, la tabla t indica un valor de 2.064. Intervalo para la diferencia entre medias poblacionales: I.C. para (µ1-µ2) = (X’1 – X’2) ± t √ (s12/n1) + (s22/n2) I.C. para (µ1-µ2) = (73.5 – 79.8) ± 2.064√ (100.2/12) + (121.3/15) I.C. para (µ1-µ2) = - 6.3 ± 8.36 -14.66 ≤ (µ1-µ2) ≤ 2.06 puntos Debido a que el intervalo contiene cero, no existe una fuerte evidencia de que exista diferencia alguna en la efectividad de los programas de entrenamiento. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 240 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 241 Pruebas con dos Poblaciones Intervalos de confianza para la diferencia entre dos Proporciones Error Estándar de la diferencia entre dos proporciones muéstrales: Sp1-p2 = √(p1(1-p1))/n1) + p2(1-p2))/n2) Intervalo para la diferencia entre proporciones poblacionales: I.C. para π1 – π2 = (p1 – p2) ± (Z) Sp1-p2 Caso IV. Una empresa realiza un estudio para determinar si el ausentismo de los trabajadores en el turno del día es diferente al de los trabajadores del turno de la noche. Se realiza una comparación de 150 trabajadores de cada turno. Los resultados muestran que 37 trabajadores diurnos han estado ausentes por lo menos cinco veces durante el año anterior, mientras que 52 trabajadores nocturnos han faltado por lo menos cinco veces. ¿Qué revelan estos datos sobre la tendencia al ausentismo entre los trabajadores? Calcule un intervalo de confianza del 90% para la diferencia entre las proporciones de trabajadores de los dos turnos que faltaron cinco veces o más. N turno día = 150 N turno noche = 150 p1 = 37/150 = 0.25 p2 = 52/150 = 0.35 Error Estándar de la diferencia entre dos proporciones muéstrales: Sp1-p2 = √(0.25*0.75/150) + (0.35*0.65/150) = 0.0526 Intervalo para la diferencia entre proporciones poblacionales: I.C. para π1 – π2 = (p1 – p2) ± (Z) Sp1-p2 I.C. para π1 – π2 = (0.25 – 0.35) ± (1.65) (0.0526) I.C. para π1 – π2 = – 0.10 ± 0.087 -18.7% ≤ (π1 – π2) ≤ - 1.3% La empresa puede estar 90% segura de que la proporción de trabajadores nocturnos ausentes en cinco o más oportunidades está entre 1.3% y 18.7% más alta que los del turno diurno. Pruebas de Hipótesis para dos medias con muestras independientes Hay cuatro pasos involucrados en una prueba: Paso 1: Plantear las hipótesis. Ho:1 = 2 Ha:1 2 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 241 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 242 O el equivalente Ho:1 - 2 = 0 Ha:1 - 2 0 Paso 2: Con base en los resultados de la muestra,calcular el valor del estadístico de prueba Z o t. Z = (X’1-X’2) – (µ1-µ2) SX’1-X’2 Paso 3: Determinar la regla de decisión con base en los valores críticos de Z o t. Paso 4: Interpretación y conclusiones. Caso V. Weaver Ridge Golf Course desea ver si el tiempo promedio en horas que requieren los hombres para jugar los 18 hoyos es diferente al de las mujeres. Se mide el tiempo de cincuenta partidos dobles de hombres y 45 de mujeres obteniendo, pruebe a nivel de confianza del 95%: SEXO HOMBRES MUJERES X' 3.5 4.9 S 0.9 1.5 N 50 45 Paso 1: Plantear las hipótesis. Ho:1 = 2 Ha:1 2 Paso 2: Con base en los resultados de la muestra, calcular el valor del estadístico de prueba Z o t. Z = (X’1-X’2) – (µ1-µ2) SX’1-X’2 Estimación del error estándar de la diferencia entre medias muestrales: sx’1-x’2 = √ (s12/n1) + (s22/n2) sx’1-x’2 = √ (0.92/50) + (1.52/45) = 0.257 Z = (3.5-4.9) – (0) 0.257 Z = - 5.45 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 242 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 243 Paso 3: Determinar la regla de decisión con base en los valores críticos de Z o t. Si α = 0.05 (con un nivel de confianza del 95%), el valor crítico de Z es ± 1.96. Regla de decisión: “No rechazar Z si esta entre ± 1.96. Rechazar si Z es menor que -1.96 o mayor que 1.96”. La Ho se rechaza porque la Z de la estadística de prueba es menor que – 1.96 de la Regla de Decisión. Paso 4: Interpretación y conclusiones. La evidencia sugiere que las mujeres toman más tiempo en promedio. Vale la pena notar también que el valor p relacionado con la prueba es virtualmente cero. Pruebas de Hipótesis para dos medias con muestras pequeñas con varianzas iguales Prueba de hipótesis con muestras pequeñas cuando σ22 = σ22 (desconocidas): t = (X’1-X’2) – (µ1-µ2) √ (sp2/n1) + (sp2/n2) Caso VI. Las negociaciones salariales entre su empresa y el sindicato de sus trabajadores están a punto de romperse. Existe un desacuerdo considerable sobre el nivel salarial promedio de los trabajadores en la planta de Atlanta y en la planta de Newport News, Virginia. Los salarios fueron fijados por el antigua acuerdo laboral de hace tres años y se basan estrictamente en la antigüedad. Debido a que los salarios están controlados muy de cerca por el contrato laboral, se asume que la variación en los salarios es la misma en ambas plantas y que los salarios están distribuidos normalmente. Sin embargo, se siente que existe una diferencia entre los niveles salariales promedio debido a los patrones de antigüedad diferentes entre las dos plantas. El negociador laboral que representa a la gerencia desea que usted desarrolle un intervalo de confianza del 98% para estimar la diferencia entre los niveles salariales promedio. Si existe una diferencia en las medias, deben hacerse ajustes para hacer que los salarios más bajos alcancen el nivel de los más altos. Dados los siguientes datos, ¿qué ajustes se requieren, si es el caso? Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 243 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 244 Las muestras de trabajadores tomadas de cada planta revelan la siguiente información: Planta de Atlanta Planta de Newport News N1 = 23 empleados N2 = 19 empleados X’1 = US$17.53 por hora X’2 = US$15.5 por hora S12 = 92.10 S22 = 87.10 PLANTA ATLANTA X' 17.53 S2 92.1 N 23 NEWPORT NEW 15.5 87.1 19 UNIDADES TRABAJADORES US$/HORA US$/HORA Paso 1: Plantear las hipótesis. Ho:1 = 2 Ha:1 2 Paso 2: Con base en los resultados de la muestra, calcular el valor del estadístico de prueba Z o t. t = (X’1-X’2) – (µ1-µ2) √ (sp2/n1) + (sp2/n2) Estimado mancomunado de la varianza común a ambas poblaciones: Sp2 = s12 (n1 - 1) + s22 (n2 - 1) n1 + n2 – 2 Sp2 = 92.10 (23 - 1) + 87.10 (19 - 1) 23 + 19 – 2 Sp2 = 89.85 t = (17.53-15.5) – (0) √ (89.85/23) + (89.85/19) t = 0.69 Paso 3: Determinar la regla de decisión con base en los valores críticos de Z o t. Si α = 0.02 (con un nivel de confianza del 98%), g.l. = n1 + n2 – 2 = 23+19-2 = 40, el valor crítico de t es ± 2.423. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 244 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 245 Regla de decisión: “No rechazar t si esta entre ± 2.423. Rechazar si t es menor que -2.423 o mayor que 2.423”. La Ho se acepta porque la t de la estadística de prueba está dentro del rango ± 2.423 de la Regla de Decisión. Paso 4: Interpretación y conclusiones. Parece que no hay diferencia en el salario promedio. Esta conclusión se confirma por el hecho de que intervalo contenía cero. Pruebas de Hipótesis para dos medias con muestras pequeñas con varianzas desiguales Prueba de hipótesis con muestras pequeñas cuando σ22 ≠ σ22: t = (X’1-X’2) – (µ1-µ2) √ (s21/n1) + (s22/n2) Caso VII. Un negocio vende dos tipos de amortiguadores de caucho para coches de bebés. Las pruebas de desgaste para medir la durabilidad revelaron que 13 amortiguadores de tipo 1 duraron un promedio de 11.3 semanas, con una desviación estándar de 3.5 semanas; mientras que 10 del tipo 2 duraron un promedio de 7.5 semanas, con una desviación estándar de 2.7 semanas. El tipo 1 es más costoso para fabricar y el CEO (Director Ejecutivo) de Acme no desea utilizarlo a menos que tenga un promedio de duración de por lo menos ocho semanas más que el tipo 2. El CEO tolerará una probabilidad de error de sólo el 2%. No existe evidencia que sugiera que las varianzas de la duración de los dos productos sean iguales. N1 = 13 amortiguadores N2 = 10 amortiguadores X’1 = 11.3 semanas X’2 = 7.5 semanas S1 = 3.5 semanas S2 = 2.7 semanas Paso 1: Plantear las hipótesis. Ho:1 = 2 Ha:1 2 Paso 2: Con base en los resultados de la muestra, calcular el valor del estadístico de prueba Z o t. t = (X’1-X’2) – (µ1-µ2) √ (s21/n1) + (s22/n2) Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 245 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 246 t = (11.3-7.5) – (0) √ (3.5/13) + (2.7/10) t = 2.94 Paso 3: Determinar la regla de decisión con base en los valores críticos de Z o t. Si α = 0.02 (con un nivel de confianza del 98%) Grados de libertad cuando las varianzas poblacionales non son iguales. g.l. = (s12/n1 + s22/n2)2______ (s12/n1) 2 / (n1- 1) + (s22/n2) 2 / (n2- 1) g.l. = (3.52/13 + 2.72/10)2______ (3.52/13) 2 / (13- 1) + (2.72/10) 2 / (10- 1) g.l. = 20.99 = 20 el valor crítico de t es ± 2.528. Regla de decisión: “No rechazar t si esta entre ± 2.528. Rechazar si t es menor que -2.528 o mayor que 2.528”. La Ho no se acepta porque la t de la estadística de prueba es mayor que 2.528 de la Regla de Decisión. Paso 4: Interpretación y conclusiones. La evidencia sugiere que el tipo 1 de amortiguador de caucho para coche de bebé presenta mayor durabilidad. Pruebas de Hipótesis para la diferencia entre dos proporciones Z = (p1 – p2) - (π1 – π2) Sp1-p2 Error Estándar de la diferencia entre dos proporciones muéstrales: Sp1-p2 = √(p1(1-p1))/n1) + p2(1-p2))/n2) Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 246 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 247 Caso VIII. Un minosta desea probar la hipótesis de que la proporción de sus clientes masculinos, quienes compran a crédito, es igual a la proporción de las mujeres que utilizan el crédito. Él selecciona 100 clientes hombres y encuentra que 57 compraron a crédito mientras que 52 de las 110 mujeres lo hicieron. Pruebe a un nivel del 1%. Paso 1: Plantear las hipótesis. Ho:π1 = π2 Ha:π1 π2 Paso 2: Con base en los resultados de la muestra, calcular el valor del estadístico de prueba Z o t. p1 = 57/100 = 0.57 hombres p2 = 52/110 = 0.473 mujeres Z = (p1 – p2) - (π1 – π2) Sp1-p2 Error Estándar de la diferencia entre dos proporciones muéstrales: Sp1-p2 = √(p1(1-p1))/n1) + p2(1-p2))/n2) Sp1-p2 = √(0.57 * 0.43/100) + (0.473 *0.527/110) Sp1-p2 = 0.069 Z = (0.57 – 0.473) – 0 0.069 Z = 1.41 Paso 3: Determinar la regla de decisión con base en los valores críticos de Z o t. Si α = 0.01 (con un nivel de confianza del 99%), el valor crítico de Z es ± 2.58. Regla de decisión: “No rechazar Z si esta entre ± 2.58. Rechazar si Z es menor que -2.58 o mayor que 2.58”. La Ho no se rechaza porque la Z de la estadística está dentro del rango de ± 2.58 de la Regla de Decisión. Paso 4: Interpretación y conclusiones. El minorista no puede concluir a un nivel del 1% que las proporciones de hombres y mujeres que compran a crédito difieren. Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 247 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA) 248 Modelos Estadísticos para la Toma de Decisiones | Ing. Rubén Darío Estrella, MBA – Cavaliere 248 Ingeniero de Sistemas (UNIBE), Administrador (PUCMM), Matemático (PUCMM), Teólogo (UNEV) y Maestro (SALOME UREÑA)