Download Diapositiva 1
Document related concepts
no text concepts found
Transcript
Curso: Estadística y Probabilidad para Ingenieros Facultad de Ingenierías Físico-Mecánicas Escuela de Ingenierías Eléctrica, Electrónica y de Telecomunicaciones Centro de Innovación y Desarrollo para la Investigación en Ingeniería del Software CONSTRUIMOS FUTURO 2 La Investigación sustentada por Procesos Líneas de Investigación: Calidad, Ingeniería, Sistemas y Modelado Organizacional de Conocimiento Gnosis Avanzada en Ingeniería y Telemática Aplicada Escuela de Ingeniería Eléctrica, Electrónica y de Telecomunicaciones Tecnología y Estándares en Ingeniería de Sistemas Software Gnosis Unificada para la Ingeniería del Aprendizaje. Facultad de Ingenierías Físico-Mecánicas Escuela de Ingenierías Eléctrica, Electrónica y de Telecomunicaciones Centro de Innovación y Desarrollo para la Investigación en Ingeniería del Software CONSTRUIMOS FUTURO 3 Escuela de Ingeniería Eléctrica, Electrónica y de Telecomunicaciones Continuous Representation MÓDULO 3. Probabilidad y Evento aleatorios ó estocásticos LECCIÓN 3.5. Estimaciones y Bondad de Ajuste CONFERENCIA 5: Para qué la estimación y porqué la bondad e ajuste . Fecha IDENTIFICACIÓN NOMBRE VERSIÓN Programa: Curso: Ingeniería Eléctrica e Ingeniería Electrónica Estadística para Ingenieros CEPI-V1 11_10_2010 MÓDULO 3. LECCIÓN 3.4. Prueba de Hipótesis Estimaciones y Bondad de Ajuste CEPI_M3_V1 CEPI_M3_L5_V1 08_11_2010 08_11_2010 miércoles, 09 de agosto de Material aprobado 2017 para uso público. Distribución limitada. Copyright © CIDLIS–UIS 2005 CONSTRUIMOS FUTURO (DD/MM/ AAAA) 4 La Investigación Sustentado por Procesos 9. Agenda Detallada- Módulo 3. Lección 3. Id 3 Módulo Lección Id. 5. Estimación y Bondad de Actividades ajuste • Estimador y estimación • Estimación puntual. Prueba de Hipótesis 3.1. • Distribuciones estadística muestrales • Estimación por intervalos. • Bondad de ajuste Tareas Preparar: Lección Preparar: Caso Preparar: Problema Plantear y resolver : Caso Inicio Plantear y resolver : Problema Establecer: Control de Tiempo Establecer: Relatoría Test Entrada: Caso y Problema Presentación Conferencia Ajustes de Caso Ajustes de Problema Planificación de Proyecto Asistencia Ejecución de Proyecto Seguimiento de Proyecto Test Salida: Caso, Problema y Proyecto Cierre de proyecto, caso, problema Entrega Evidencias de Relatoría. Entrega Evidencias: Caso, Problema, Proyecto Cierre Asistencia de Alumnos Auditoría Aleatoria miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 Trabajo Responsable Personal Profesor Personal Equipo Docencia Personal Equipo Docencia Individual Alumnos Individual Alumnos Personal Equipo Docencia Personal Equipo Docencia Docencia Alumnos / ED Docencia Instructor / ED / Al Docencia Alumnos / ED Docencia Alumnos / ED Docencia Alumnos / ED Docencia Alumnos / ED Docencia Alumnos / ED Docencia Alumnos / ED Individual Alumnos Personal Equipo de Docencia Individual Alumnos Personal Alumnos / ED Personal Equipo de Docencia Duración 2 ,0 1,0 1,0 1,00 2,00 Fecha Exacta Horas Día Mes Año Docencia 4,00 Alumnos 8,00 Soporte 8,00 Preparación 4,00 Otros 24,50 01 0,50 0,25 1,00 0,25 0,75 0,25 1,00 0,25 0,25 4,00 0,50 1,00 20,0 0,50 02 02 2011 02/03 (*) 03 04 01/04 04 La Investigación Sustentado por Procesos Propósito de la Lección Comprender, entender, definir, conceptualizar y aplicar el concepto de: • • • • Estimador y estimación. Estimación puntual. Distribuciones muestrales Estimación por intervalos: • • • • • • Intervalo de confianza. Variabilidad de un parámetro Error de Estimación Nivel de confianza Nivel de significación Valor crítica • Bondad de Ajuste. miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 5 La Investigación Sustentado por Procesos Guión de la Lección 1. 2. 3. 4. Registro de Preguntas de Caso y Problema. Revisión de requisitos de “Entrada de la Conferencia”. Test de Entrada. Caso y Problemas. Contenido de la Presentación de la Conferencia 5. Definir, conceptualizar, interpretar y aplicar concepto de hipótesis, hipótesis nula e hipótesis alternativa, región de rechazo y de aceptación de reglas de decisión de aceptación y/o rechazo 6. Definir, conceptualizar, interpretar y aplicar la prueba de hipótesis con Z para μ y P 7. Definir, conceptualizar, interpretar y aplicar la prueba de hipótesis con t-student, Chi-2 & F. 8. Entender el concepto y la aplicación de la bondad de ajuste. 9. Comprender y desarrollar pruebas de hipótesis a fin de determinar el comportamiento de la variabilidad. 10. Ajustes de Caso y Problema 11.Guías de planeación y seguimiento del Proyecto de clase. 12.Test de Salida: Caso, Problema y proyecto. 13.Cierre. miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 6 7 La Investigación Sustentado por Procesos ARTESANÍA (EMPIRIA) ENTORNO ERROR IMPACTOS PRUEBA INGENIERÍA IMPLEMENTACIÓN OPERACIÓN IMPLANTACIÓN INSTRUMENTOS SIMULACIÓN PROTOTIPOS Recopilación (assessment) MODELO (TEORÍA) PRODUCTOS COLECCIONES VALIDACIONES PROYECTOS DATOS MEJORAS DECISIONES BRECHAS Comprensión (research) TÁCTICA LOGÍSTICA CONTROL VALORACIONES ESCALAS Medición (Cuantificación) PROCESOS CATEGORIAS CRITERIOS CONOCIMIENTO RAZONES Evaluación (Cualificación) miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 FUENTES SÍNTESIS INFORMACIÓN La Investigación Sustentado por Procesos ¿ESTIMADOR ó ESTIMACIÓN? • La estimación es el conjunto de técnicas para dar un valor aproximado a un parámetro de una población a partir de los datos proporcionados por una muestra. • Un estimador de un parámetro poblacional es una función de los datos muestrales; es una fórmula que depende de los valores de una muestra, con la cual se hacen estimaciones. Por ejemplo, un estimador de la media poblacional, μ, sería la media muestral, , según la siguiente fórmula: x • Donde (x1, x2, ..., xn) sería el conjunto de datos de la muestra, el ejemplo es una estimación puntual. Sin embargo, el estimador es una variable aleatoria que asigna a cada valor de la función su probabilidad de aparición, es decir, la probabilidad de la muestra de la que se extrae. • El resultado de un estimador pueden ser: – un simple valor; estimación en un punto, o, – un rango de valores; un intervalo de confianza. parámetro poblaciona l ˆ estimación puntual Al valorar un punto, hay que calcular el margen de error asociado a la estimación de ese punto. Los estimadores de parámetros de población son diferenciados a veces de los valores verdaderos usando el símbolo de “sombrero”. miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 8 La Investigación Sustentado por Procesos 1. Estimación Puntual (EP) •EP es la estimación del valor del parámetro mediante un sólo valor, obtenido de una fórmula determinada (estimador). Ejemplo, estimar la talla media de un determinado grupo de individuos. Puede extraerse una muestra y ofrecer como estimación puntual la talla media de los individuos de la muestra. – Sea X una v.a. cuya función de probabilidad (o densidad de probabilidad si es continua) depende de unos parámetros desconocidos : – Representado mediante una muestra aleatoria simple de la variable. Se denota, mediante fc, a la función de densidad conjunta de la muestra, formada por observaciones independientes, puede factorizarse como: – Se denomina estimador de un parámetro a cualquier v.a. que se exprese en función de la muestra aleatoria y que tenga por objeto aproximar el valor de: • •Debe observarse, que el estimador no es un valor concreto, sino una variable aleatoria, porque aunque depende unívocamente de los valores de la muestra observados (X(i) = x(i)), la elección de la muestra es un proceso aleatorio. Una vez que la muestra ha sido elegida, se denomina estimación, al valor numérico que toma el estimador sobre esa muestra. miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 9 La Investigación Sustentado por Procesos 1. Estimación Puntual (EP) •Ejemplo: – Considerando una v.a, a la cual, sólo se le conoce que su ley de distribución es gaussiana, – Para muestras aleatorias de tamaño n = 3, – un posible estimador del parámetro es – Si al realizar un muestreo aleatorio simple, se obtiene: •El estimador sirve para aproximar el valor de un parámetro desconocido, pero...Si el parámetro es desconocido, ¿Cómo podemos decir que un estimador dado sirve para aproximarlo? Para hacerlo, es necesario definir, en qué sentido un estimador es bueno para cierto parámetro. miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 10 La Investigación Sustentado por Procesos 1. Estimación Puntual (EP) •Las características deseables para esta nueva variable aleatoria (usada para estimar el parámetro desconocido) son: – Carencia de sesgo: El valor medio que se obtiene de la estimación para diferentes muestras debe ser el valor del parámetro. – Consistencia: Cuando el tamaño de la muestra crece arbitrariamente, el valor estimado se aproxima al parámetro desconocido. – Eficiencia: El estimador, al ser v.a., no puede exigírsele, que para una muestra cualquiera, se obtenga como estimación el valor exacto del parámetro. Sin embargo, es deseable, que su dispersión con respecto al valor central (varianza), sea tan pequeña como sea posible. – Suficiencia: El estimador debería aprovechar toda la información existente en la muestra. miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 11 La Investigación Sustentado por Procesos 1. Estimación Puntual (EP) Carencia de sesgo ó insesgamiento: •El valor medio que se obtiene de la estimación para diferentes muestras debe ser el valor del parámetro. •Un estimador de un parámetro es insesgado si: • •La insesgamiento o carencia de sesgo se interpreta como: – Si se tiene un número indefinido de muestras de una población, todas ellas son del mismo tamaño n. – En cada muestra el estimador ofrece una estimación concreta del parámetro que buscamos. – Entonces, el estimador es insesgado, si en dicha cantidad indefinida de estimaciones, el valor medio es (el valor que se desea conocer). • miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 12 La Investigación Sustentado por Procesos 1. Estimación Puntual (EP) CONSISTENCIA: •Cuando el tamaño de la muestra crece arbitrariamente, el valor estimado se aproxima al parámetro desconocido. •Se dice que un estimador es un estimador consistente para el parámetro si: •o equivalentemente Este tipo de propiedades definidas cuando el número de observaciones n, tiende a infinito, se llaman propiedades asintóticas. miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 13 La Investigación Sustentado por Procesos 1. Estimación Puntual (EP) EFICIENCIA •El estimador, al ser v.a., no puede exigírsele, que para una muestra cualquiera, se obtenga como estimación el valor exacto del parámetro. Sin embargo, es deseable, que su dispersión con respecto al valor central (varianza), sea tan pequeña como sea posible. Dados dos estimadores y de un mismo parámetro , diremos que es más eficiente si: miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 14 15 La Investigación Sustentado por Procesos 1. Estimación Puntual (EP) SUFICIENCIA: El estimador debería aprovechar toda la información existente en la muestra Se dice que es un estimador suficiente del parámetro si para todo posible valor de . Esta definición, así enunciada, es un poco confusa, pero lo que expresa es que un estimador es suficiente, si usa toda la información existente en la muestra que sirva para estimar el parámetro. miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 La Investigación Sustentado por Procesos 1. Estimación Puntual (EP) Métodos para establecer estimadores: • MÉTODO DE ESTIMADORES DE MÁXIMA VEROSIMILITUD • MÉTODO DE ESTIMADORES DE LOS MOMENTOS • MÉTODO DE MÍNIMOS CUADRADOS (En otra ocasión) miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 16 La Investigación Sustentado por Procesos Métodos para establecer estimadores: MÉTODO DE ESTIMADORES DE MÁXIMA VEROSIMILITUD La función de verosimilitud de una muestra o conjunto de variables aleatorias X1, X2, ..., Xn se define como la función conjunta de densidad de dichas variables. Si representamos por L(X,q) la función de verosimilitud, entonces está dada por: Como las variables son independientes, entonces la función de verosimilitud puede expresarse como: Ahora, como las variables son idénticamente distribuidas, la función de densidad conjunta puede expresarse como: Dado que se toma la muestra aleatoria y se obtienen los resultados X1 = x1, X2 =x2, ..., Xn = xn, y como la función de verosimilitud es una función de densidad, entonces el objetivo que se pretende con el método de estimación es encontrar aquellos valores de los parámetros que maximicen la probabilidad de obtener los valores que se dieron en la muestra. Por lo tanto, para encontrar estos estimativos se debe derivar la función de verosimilitud con respecto a cada uno de los parámetros a estimar, igualar a cero y despejar el respectivo valor. Es decir miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 17 La Investigación Sustentado por Procesos Métodos para establecer estimadores: MÉTODO DE ESTIMADORES DE MÁXIMA VEROSIMILITUD Ejemplo. Si una variable aleatoria sigue una distribución exponencial con parámetro l, encontrar el estimador del parámetro usando el método de máxima verosimilitud. f(X) = le-lx, x > 0 La función de verosimilitud está dada por: Considerando el logaritmo tenemos que: Derivando el logaritmo de la función de verosimilitud con respecto al parámetro q se tiene: Se observa que, el estadístico usado para estimar el parámetro l es el inverso de la media muestral. Si el parámetro que estuviéramos estimando fuera el valor esperado q = 1/l, entonces el estadístico será la media muestral. Este estimador es insesgado. miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 18 La Investigación Sustentado por Procesos Métodos para establecer estimadores: MÉTODO DE ESTIMADORES DE MÁXIMA VEROSIMILITUD Ejemplo. Consideremos la estimación de los parámetros y ² de una distribución normal por el método de máxima verosimilitud. Si X~ N(, ²) q = {q1, q2} q1 = , q2 = ². La función de verosimilitud está dada por: El logaritmo de la función de verosimilitud está dado por: Derive respecto a y para encontrar sus respectivos estimadores miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 19 20 La Investigación Sustentado por Procesos Métodos para establecer estimadores: MÉTODO DE MOMENTOS –los momentos sirven para caracterizar una distribución de probabilidad. –Si dos variables aleatorias tienen los mismos momentos, dichas variables tienen la misma función de densidad y se pueden emplear para estimar sus respectivos parámetros. –El método consiste en igualar los primeros momentos de una población a los momentos correspondientes de una muestra: Definición. El r- ésimo momento (absoluto) de una variable aleatoria está dado por: xir . f ( xi ) si X es discreta iI r r E[ x ] x r . f ( xi ) dx si X es continua El r-ésimo momento de orden central m r de una muestra aleatoria X1, X2, ..., X n es la media de sus r- ésimas potencias: ( xi E[ X ]) r . f ( xi ) si X es discreta iI mr E[( x E[ X ]) r ] ( x E[ X ]) r . f ( xi ) dx si X es continua miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 CONTINUA La Investigación Sustentado por Procesos Métodos para establecer estimadores: MÉTODO DE MOMENTOS Luego si una distribución tiene p parámetros desconocidos, su estimación se da como: 1=m1 2=m2 …… p=mp Ejemplo. Si una variable aleatoria sigue una distribución exponencial con parámetro l, encontrar el estimador del parámetro usando el método de los momentos. f(X) = le-lx, x > 0 Como sólo existe un parámetro, bastará con usar el primer momento, es decir, 1 = m1 El primer momento de la distribución exponencial es 1/l, por lo cual se tiene que De nuevo, el estadístico usado para estimar el parámetro l es el inverso de la media muestral. Si el parámetro que estuviéramos estimando fuera el valor esperado q = 1/l, entonces el estadístico será la media muestral. Este estimador es insesgado. miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 21 22 La Investigación Sustentado por Procesos Métodos para establecer estimadores: MÉTODO DE MOMENTOS Ejemplo. Si una variable aleatoria tiene una distribución gama, con parámetros l y k desconocidos, se tiene lo siguiente: Se puede demostrar que el j-ésimo momento absoluto está dado por: De (1) se tiene que reemplazando en la ecuación(2) obtenemos: Por lo tanto los dos primeros momentos poblacionales están dados por: Igualando estos dos poblacionales a los momentos muestrales momentos respectivos se tiene: Por lo tanto miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 y La Investigación Sustentado por Procesos Métodos para establecer estimadores: MÉTODO DE MOMENTOS Ejemplo. Estimar por el método de los momentos los parámetros y ² de una distribución normal. Como son dos parámetros los que necesitamos estimar, usaremos los dos primeros momentos de la distribución normal, que están dados por: Igualando los dos primeros momentos poblacionales con sus respectivos momentos muestrales tenemos que: De lo anterior se concluye que el estimativo de la media poblacional es la media muestral , y es un estimativo insesgado, mientras que el estimativo de la varianza poblacional ² no es la varianza muestral S², sino la cuasivarianza, y es un estimativo sesgado. Ejemplo. Estimar por el método de los momentos el parámetro l de una distribución de Poisson. miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 23 La Investigación Sustentado por Procesos 1. Estimación Puntual (EP) • miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 24 La Investigación Sustentado por Procesos 2. Distribuciones Muestrales miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 25 La Investigación Sustentado por Procesos 2. Distribuciones Muestrales miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 26 La Investigación Sustentado por Procesos 2. Distribuciones Muestrales miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 27 La Investigación Sustentado por Procesos 3. Estimación por intervalos Es estimar un intervalo dentro del cual estará el valor de un parámetro estimado con una cierta probabilidad. La estimación por intervalos exige los siguientes conceptos: • INTERVALO DE CONFIANZA: expresión del tipo [θ1, θ2] ó θ1 ≤ θ ≤ θ2, donde θ es el parámetro a estimar. Este intervalo contiene al parámetro estimado con una determinada certeza o nivel de confianza. • VARIABILIDAD DEL PARÁMETRO. Si no se conoce, puede obtenerse una aproximación con los datos aportados por la literatura científica o en un estudio piloto. Hay métodos para calcular el tamaño de la muestra que prescinden de este aspecto. Habitualmente se usa como medida de esta variabilidad la desviación típica poblacional (σ). • ERROR DE LA ESTIMACIÓN. Medida de precisión correspondiente con la amplitud del intervalo de confianza. A mayor precisión deseada en la estimación de un parámetro, más estrecho deberá ser el intervalo de confianza; menor el error, y más sujetos deberán incluirse en la muestra estudiada. Llamaremos a esta precisión E, según la fórmula E = θ2 - θ1. • NIVEL DE CONFIANZA. Probabilidad que el verdadero valor del parámetro estimado en la población se sitúe en el intervalo de confianza obtenido. El nivel de confianza se denota por (1- α); frecuentemente se expresa con un porcentaje ((1-α)·100%). Es rutina tomar como nivel de confianza un 95% o un 99%, que corresponden α con 0,05 y 0,01, respectivamente. miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 28 La Investigación Sustentado por Procesos 3. Estimación por intervalos Mas conceptos: • VALOR Α (NIVEL DE SIGNIFICACIÓN). Probabilidad (en tanto por uno) de fallar en la estimación; la diferencia entre la certeza (1) y el nivel de confianza (1-α); una estimación con un nivel de confianza del 95%, el valor α es (100-95)/100 = 0,05. • VALOR CRÍTICO (Zα/2). Valor de la abscisa en una determinada distribución que deja a su derecha un área igual a α/2, siendo 1-α el nivel de confianza. Los valores críticos están tabulados o se calculan en función de la distribución poblacional; La distribución normal, de media 0 y desviación típica 1, el valor crítico para α = 0,05 se calcula aplicando el programa de distribución para ese valor (o el más aproximado), si se observa que corresponde a -0,64. Entonces Zα/2 = 0,64. • Ejemplo, en una muestra "3 es una estimación de la media con un margen de error de 0,6 y un nivel de confianza del 99%", se interpreta que el verdadero valor de la media se encuentra entre 2,7 y 3,3, con una probabilidad del 99%. Los valores 2,7 y 3,3 se obtienen restando y sumando, respectivamente, la mitad del error, para obtener el intervalo de confianza según las definiciones dadas. • Para un tamaño fijo de muestra, los conceptos de error y nivel de confianza van relacionados. Si se admite un error mayor, es decir, se aumenta el tamaño del intervalo de confianza, hay mayor probabilidad de éxito en una estimación; mayor nivel de confianza. miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 29 La Investigación Sustentado por Procesos 3. Estimación por intervalos miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 30 31 La Investigación Sustentado por Procesos Prueba de la Bondad del Ajuste La Estadística No Paramétrica sirve para corroborar la bondad de las diferentes distribuciones de variables. La bondad de ajuste está asociada a la interpretación de la prueba Chi-cuadrado para validar los procedimientos de la Inferencia Estadística Cómo se distribuyen Copyright © CIDLIS– UIS 2010 las variables de una población La Investigación Sustentado por Procesos Introducción • • • Cuando se realizan investigaciones, con frecuencia es importante obtener información a través de una muestra sobre la forma como se distribuyen los datos de una población. Algunos estudios producen resultados sobre los que no podemos afirmar que se distribuyen Normalmente, es decir con forma acampanada concentrados sobre la media. En estos casos debemos emplear técnicas no paramétricas que se utilizan ampliamente en las aplicaciones de las ciencias sociales, cuando no se puede asumir a priori que los datos de una muestra se ajusten a una distribución normal. 32 Copyright © CIDLIS– UIS 2010 Ahora nos ocuparemos del problema de verificar si de un conjunto de datos se puede afirmar que proviene de una determinada distribución 32 La Investigación Sustentado por Procesos Estadística No Paramétrica • • • • La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Algunos experimentos producen respuestas que no son cuantificables, es decir generan mediciones que pueden ordenarse, pero la posición de la respuesta en una escala de medición es arbitraria. Por ejemplo, suponga que desea evaluar y comparar las habilidades de cinco profesores de educación física, o las características de atención de los alumnos de una clase… Las pruebas no paramétricas no asumen ningún parámetro de distribución de las variables muestrales. 33 Copyright © CIDLIS– UIS 2010 Las pruebas paramétricas asumen los parámetros de la de la variable (media y varianza) y un tipo de distribución normal Las pruebas no paramétricas no asumen ningún parámetro de distribución de las variables muestrales. 33 34 La Investigación Sustentado por Procesos PRUEBA DE FISHER Prueba de la Bondad del Ajuste • • Para resolver este problema utilizaremos unas pruebas estadísticas que reciben el nombre general de "Pruebas de Bondad de Ajuste" y específicamente la prueba Chi Cuadrado (ji dos) aunque existen otras pruebas : • binomial, • de Anderson-Darling, • de Fisher, etc. Estas no serán objeto de estudio por ahora. El cálculo de estas pruebas, es sencillo, desde el punto de vista manual y matemático, sin embargo y siguiendo con nuestra práctica, facilita el trabajo hacerlo con la hoja de calculo de Excel. 34 Copyright © CIDLIS– UIS 2010 Es la prueba estadística de elección cuando la prueba de chi.cuadrado no puede ser empleada por tamaño muestral insuficiente. Profundiza esta información en la Web La Investigación Sustentado por Procesos Prueba de Chi-cuadrado (X2) • La prueba de Chi- Cuadrado es considerada como una prueba no paramétrica que mide la discrepancia (bondad de ajuste) entre una distribución observada a partir de la muestra y otra teórica que se supone debe seguir esa muestra, indicando en qué medida las diferencias existentes entre ambas, de haberlas, se deben al azar en el contraste de hipótesis. • Esta prueba se basa en la hipótesis nula (H0) de que no hay diferencias significativas entre la distribución muestral y la teórica. Mientras que la hipótesis alternativa (H1) siempre se enuncia como que los datos no siguen la distribución supuesta. H0: La distribución de la probabilidad es Normal H1: La distribución de la probabilidad NO es Normal 35 Copyright © CIDLIS– UIS 2010 H0 : f( x, θ) = F0 (x, θ) H1 : f( x, θ) ≠ F0 (x, θ) 35 36 La Investigación Sustentado por Procesos Naturaleza de la prueba de Chi-cuadrado La estructura básica de la prueba para la bondad del ajuste se muestra en la siguiente tabla Clases Frecuencias observadas (f oi – f ei) 2 ___________ f ei (f oi) Frecuencias esperadas en base a H0 (f ei) 1 fo1 fe1 (f o1 – f e1) 2 / f e1 2 fo2 fe2 (f o2 – fe2) 2 / f e2 3 fo3 fe3 (f o3 – fe3) 2 / f e3 : : : : K Total fok n fek n (f ok – f ek) 2 / f ek X2 = Σ(f oi – f ei) 2 / fei 36 Copyright © CIDLIS– UIS 2010 La Investigación Sustentado por Procesos Estadístico de Prueba El estadístico de prueba está definido como la sumatoria de los residuos expresados en términos de las frecuencias esperadas para cada una de las clases: X2 = Σi=1 hasta K (f oi – f ei)2 / f ei La prueba se basa en qué tan buen ajuste se tiene entre la frecuencia de ocurrencia de las observaciones en una muestra observada y las frecuencias esperadas que se obtienen a partir de la distribución hipotética. donde: •f oi = Total de valores que caen en el intervalo i. •f ei = Nro. esperado de valores en el intervalo i. •k = Nro. de intervalos de clase en que se distribuyen las observaciones. Formulación de Hipótesis: • H0: f(x, q) = fo (x, q) • H1: f(x, q) ≠ fo (x, q) Donde fo (x, q) es la distribución que se supone sigue la muestra aleatoria. La hipótesis alternativa siempre se enuncia como que los datos no siguen la distribución supuesta. Aceptar H0 si no existe diferencia significativa entre la distribución de la frecuencia observada en la muestra y la distribución teórica de la población. Copyright © CIDLIS– UIS 2010 37 La Investigación Sustentado por Procesos Estadístico de Prueba • Interpretación: cuanto mayor sea el valor de X2, menos verosímil es que la hipótesis H0 sea correcta. De la misma forma, cuanto más se aproxima a cero el valor de Chi-cuadrado, más ajustadas están ambas distribuciones. – Si X2 =0 La frecuencia teórica y observada concuerdan exactamente. – Si X2 >0 Mientras mayor es la diferencia mayor es la discrepancia. • • Debemos comparar el valor calculado, con el observado para determinar si dicha variación es aleatoria. En la práctica :Si Ho. = 0 no existe diferencia significativa entre la distribución de la frecuencia Observada y la distribución Teórica específicamente con los mismos parámetros. 38 Copyright © CIDLIS– UIS 2010 38 La Investigación Sustentado por Procesos Consideraciones Muestra Naturaleza de los datos a analizar • La muestra es aleatoria simple de una población. • El tamaño de la muestra es razonablemente grande (n ≥ 20) • Para esta prueba es necesario agrupar o distribuir las observaciones de la muestra en intervalos de clase, preferiblemente del mismo tamaño. • Se hacen conteos con números reales. • Por ejemplo, si tratamos de investigar la distribución que siguen los errores de ortografía cometidos por los alumnos en un dictado, podríamos pensar en una distribución de Poisson, así que en principio no consideraríamos una distribución normal. Para formular la hipótesis nula deberán tenerse en cuenta los siguientes aspectos La prueba se basa en la comparación de las frecuencias observadas • Por lo tanto la forma que tome el histograma de frecuencia es quizás la mejor indicación del tipo de distribución a considerar. • Es decir, se quiere determinar si las frecuencias observadas en la muestra están lo suficientemente cerca de las frecuencias esperadas bajo la 39 hipótesis nula. Ordenar las observaciones • El número de intervalos de clase debe ser por lo menos cinco. • El número esperado de observaciones en cada intervalo debe ser mayor o igual a cinco; en caso contrario, deberían agruparse varios intervalos para lograr esto. Copyright © CIDLIS– UIS 2010 39 40 La Investigación Sustentado por Procesos Ejemplo • Se realizo una encuesta en la universidad y se les pregunto a los estudiantes si estarían o no de acuerdo en sustituir por completo la modalidad presencial por la modalidad de estudio a distancia y se obtuvieron los siguientes datos: Hombres (Real) Mujeres (Real) 58 11 10 Hombres (Esperado) 45,35 17,56 16,09 Descripción 35 Están de acuerdo 25 Neutrales 23 No están de acuerdo Mujeres (Esperado) Se desea comprobar si la probabilidad de que las tendencias de la muestra sean iguales a las tendencias esperadas en la población H0: H1: Descripción 47,65 Están de acuerdo 18,44 Neutrales 16,91 No están de acuerdo PRUEBA.CHI se calcula con Excel: devuelve el valor de la distribución chi cuadrado (χ2) para la estadística y los grados de libertad apropiados. Copyright © CIDLIS– UIS 2010 PRUEBA.CHI fo – fe= 0 fo – fe≠ 0 0,000308 Se aproxima a 0 Acepto H0, los datos de la muestra se comportan muy parecido a los esperados La Investigación Sustentado por Procesos 5. Ajustes de Caso y Problema • Resolución de Preguntas de Caso y Problema • Plan para ajuste de Caso y Problema miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 41 La Investigación Sustentado por Procesos 7. Guía para la planeación y seguimiento de Proyecto de clase. 1. Planteamiento de equipo de docencia. Segunda parte del proyecto Estado de avance: 2. Selección de procesos por analizar. Tiempo para trabajar. La semana entrante se revisarán los temas. miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 42 La Investigación Sustentado por Procesos 7. Guía para la planeación y seguimiento de Proyecto de clase. 1. Planteamiento de equipo de docencia. Segunda parte del proyecto Estado de avance: 2. Selección de procesos por analizar. Presentación de estado de avance: ¿Hay variables aleatoria en su estudio? ¿Cuáles son variables estocásticas discretas? ¿Que modelo representan? miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 43 La Investigación Sustentado por Procesos 8. Test de Salida: Caso, Problema y proyecto. • Se hace después de la actividad de Proyecto de Clase. miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 44 La Investigación Sustentado por Procesos 9. Cierre. • • • • • Entrega de Actividades por parte de todos los equipo. Balances de las acciones. Acciones de Mejora. Auditoría Cierre de Relatoría. miércoles, 09 de agosto de 2017 Copyright © CIDLIS– UIS 2010 45 46 La Investigación sustentada por Procesos Líneas de Investigación: Calidad, Ingeniería, Sistemas y Modelado Organizacional de Conocimiento Gnosis Avanzada en Ingeniería y Telemática Aplicada Escuela de Ingeniería Eléctrica, Electrónica y de Telecomunicaciones Tecnología y Estándares en Ingeniería de Sistemas Software Gnosis Unificada para la Ingeniería del Aprendizaje. Facultad de Ingenierías Físico-Mecánicas Escuela de Ingenierías Eléctrica, Electrónica y de Telecomunicaciones Centro de Innovación y Desarrollo para la Investigación en Ingeniería del Software CONSTRUIMOS FUTURO