Download LIC. SANDRA IVONNE SANCHEZ HERNANDEZ ALUMNA
Document related concepts
no text concepts found
Transcript
LIC. SANDRA IVONNE SANCHEZ HERNANDEZ ALUMNA: JOHANA JETZABEL ONTIVEROS CHAVEZ MATERIA: ESTADISTICA APLICADA A LA EDUCACION II ¿QUE ES LA HIPOTESIS ESTADISTICA? puede definirse como una solución provisional (tentativa) para un problema dado, el nivel de verdad que se le asigne a tal hipótesis dependerá de la medida en que los datos empíricos recogidos apoyen lo afirmado en la hipótesis. A esto se le conoce como contrastación empírica de la hipótesis o bien proceso de validación de la hipótesis. Se puede usar de dos modos: mediante confirmación para la hipótesis universal o mediante verificación para la hipótesis existencial. Son proposiciones provisionales y explicatorias y por lo tanto su valor de veracidad o falsedad depende críticamente de las pruebas empíricas, en este sentido la replicabilidad de los resultados es fundamental para confirmar una hipótesis como solución de un problema. Es el primer método en desarrollarse, motivo por lo cual buena parte de la terminología de las pruebas de hipótesis se derivan de él, este método ha cobrado popularidad a causa de ser el más fácilmente aplicable a software de computo. ¿CUALES SON LOS TIPOS DE HIPOTESIS Y EN QUE CONSISTEN? HIPOTESIS ESTADISTICA Hipótesis estadística a una afirmación respecto a una característica de una población, contrastar una hipótesis es comparar las predicciones que se deducen de ella con la realidad que observamos; si hay coincidencia dentro del margen de error admisible, mantendremos la hipótesis implica sustituirla por otra capaz de explicar los datos observados. Afirmaciones son hipótesis estadísticas: El tabaco produce cáncer de pulmón. Disminuir los impuestos disminuye el fraude fiscal. Las mujeres son más apasionadas que los hombres. Conjunto de elementos de una o varias poblaciones. Vemos que el contraste de hipótesis requiere como pasos previos: Especificar la población de interés. Definir la variable a que nos referimos y como medirla. Relacionar la hipótesis con los parámetros de la o las poblaciones. TIPOS DE HIPOTESIS Las hipótesis estadísticas más habituales pueden clasificarse en dos grupos, según que: Especifiquen un valor concreto o un intervalo para un parámetro de la distribución de una variable. Establezcan la igualdad de algún parámetro en las distribuciones de una variable en dos o más poblaciones. El contraste de una hipótesis respecto a un parámetro está muy relacionado con la construcción de intervalos de confianza y tiene frecuentemente una respuesta satisfactoria en términos de estimación. La comparación de dos o más poblaciones requiere en general un diseño experimental que asegure la homogeneidad de las comparaciones. Se hace una breve explicación de los fundamentos del contraste de hipótesis y se exponen los elementos que deben ser considerados para seleccionar la prueba estadística adecuada a los datos, acompañando la lectura de ejercicios que deberían ser resueltos y discutidos con el facilitador para asegurar el aprendizaje deseado. EJEMPLO DE HIPOTESIS SIMPLE Se refiere a un solo valor del parámetro, es decir a un solo punto del espacio paramétrico, quedando totalmente especificada la forma de la función de cuantía o de densidad de la población al conocer ese valor del parámetro. Si la hipótesis no se refiere a un punto del espacio paramétrico o valor del parámetro, sino que se refiere a una región del espacio paramétrico, diremos que se trata de una hipótesis compuesta. La aplicación de los cálculos probabilísticos permite determinar a partir de que valores debemos rechazar una hipótesis garantizando que la probabilidad de cometer un error es un valor conocido a priori. Llamaremos hipótesis simple a aquellas que especifican un único valor para el parámetro por ejemplo: m=m0. Las hipótesis pueden clasificarse en dos grupos a) Especifican un valor concreto o un intervalo para los parámetros del modelo Ejemplo: La hipótesis de que la media de que una variable es 10. b) Determina el tipo de distribución de probabilidades que ha generado los datos. Ejemplo: Que la distribución de probabilidad es la distribución normal, aunque la metodología para realizar el contrasté de hipótesis es análoga en ambos casos. Distinguir ambos tipos de hipótesis es importante puesto que muchos problemas de contraste de hipótesis respecto a un parámetro son en realidad problemas de estimación que tienen una respuesta complementaria dando un intervalo de confianza para dicho parámetro, sin embargo la hipótesis respecto a la forma de la distribución se suele utilizar para validar un modelo estadístico. Planteamiento el contraste de hipótesis v Hipótesis nula (Ho): Es la hipótesis que se desea contrastar o la suposición que se desea comprobar. El nombre de hipótesis nula indica que Ho representa la hipótesis que mantendremos a no ser que los datos indiquen su falsedad y puede entenderse por tanto en el sentido de neutra. La hipótesis Ho nunca se considera probada aunque si puede ser rechazada por los datos. El enfoque actual considera también la definición de una hipótesis alternativa a la hipótesis nula, la cual se denota H1, en los casos en los que no se específica H1 en forma explícita se puede considerar que queda definida como implícitamente como Ho es falsa, sin embargo existen casos en los que H1 no es la simple negación de Ho cabria realizar otra hipótesis. Suponiendo que se tiene una muestra X=(X1, X2,…Xn)2 de una población de estudio y que se han formulado hipótesis, sobre un parámetro θ relacionado con la distribución estadística de la población y suponiendo que se dispone de un estadístico t(x) cuya función con respecto a θ Fθ (t) se conoce la hipótesis nula y alternativa, tienen la siguiente formulación: a) Para hipótesis simple: a) Para hipótesis compuesta: Un contraste, prueba o test para dichas hipótesis sería una función de la muestra de la siguiente forma: Donde θ(x) = 1 significa que debe rechazarse la hipótesis nula H0 y θ(x) = 0 significa que debe aceptarse la hipótesis nula H0 o que no hay evidencia estadística contra H0. A omega se le denomina región de rechazo en esencia para construir al test deseado, basta con escoger el estadístico del contraste t(x) y la región de rechazo, escogiendo un área de rechazo de tal forma que la probabilidad de que t(x) caiga en su anterior sea baja cuando se da H0. EJEMPLO DE HIPOTESIS COMPUESTA A las que especifiquen un intervalo de valores por ejemplo: m=m0; a m 2 una revisión de la controversia original. Criterios de decisión y nivel de significación. una mejor aproximación al problema de la alteración en la tasa de statdrolona. Se toma una muestra de cada grupo poblacional y a cada uno se le calculan las medidas de resumen que se desean comparar. Si la hipótesis de investigación plantea que los grupos difieren en cuanto a la variable estudiada, la hipótesis nula expresara que no existe diferencia significativa entre los grupos resumidos bien sea por promedios, porcentajes, etc… Muchas de estas pruebas se basan en el supuesto de que la población estudiada tiene una distribución normal y por lo tanto, las propiedades de la curva normal son aplicables. DEFINE ERROR DE TIPO I Y ERROR DE TIPO II Al realizar un contraste se puede cometer uno de los dos errores siguientes: Error tipo I, se rechaza la hipótesis nula H0 cuando es cierta. Error tipo II, se acepta la hipótesis nula H0 cuando es falsa. Debe tenerse en cuenta que sólo se puede cometer uno de los dos tipos de error y, en la mayoría de las situaciones, se desea controlar la probabilidad de cometer un error de tipo I. Se denomina nivel de significación de un contraste a la probabilidad de cometer un error tipo I, se denota por y, por tanto, Fijar el nivel de significación equivale a decidir de antemano la probabilidad máxima que se está dispuesto a asumir de rechazar la hipótesis nula cuando es cierta. El nivel de significación lo elige el experimentador y tiene por ello la ventaja de tomarlo tan pequeño como desee (normalmente se toma = 0'05, 0'01 o0'001). La selección de un nivel de significación conduce a dividir en dos regiones el conjunto de posibles valores del estadístico de contraste: La región de Rechazo, con probabilidad, bajo H0. La región de Aceptación, con probabilidad 1 - , bajo H0. Si el estadístico de contraste toma un valor perteneciente a la región de aceptación, entonces no existen evidencias suficientes para rechazar la hipótesis nula con un nivel de significación y el contraste se dice que estadísticamente no es significativo. Si, por el contrario, el estadístico cae en la región de rechazo entonces se asume que los datos no son compatibles con la hipótesis nula y se rechaza a un nivel de significación. En este supuesto se dice que el contraste es estadísticamente significativo. Por tanto, resolver un contraste estadístico es calcular la región de aceptación y la región de rechazo y actuar según la siguiente regla de decisión: Se obtiene la muestra = y se calcula el estadístico del contraste. (1.8) Según la forma de la región de rechazo, un contraste de hipótesis, paramétrico o no, se denomina Contraste unilateral o contraste de una cola es el contraste de hipótesis cuya región de rechazo está formada por una cola de la distribución del estadístico de contraste, bajo H0. Contraste bilateral o contraste de dos colas es el contraste de hipótesis cuya región de rechazo está formada por las dos colas de la distribución del estadístico de contraste, bajo H0. Test de hipótesis estadística. “La distribución del tamaño en Kb de los ficheros que resultan al digitalizar imágenes con un determinado programa puede suponerse normal. El programa ha sido mejorado en su última versión (versión B) hasta el punto de que quienes lo comercializan garantizan una disminución en el tamaño medio de los ficheros resultantes superior a 6 Kb con respecto a la versión anterior (versión A). Si rechazamos una hipótesis cuando debiera ser aceptada, diremos que se ha cometido un error de tipo I. Por otra parte, si aceptamos una hipótesis que debiera ser rechazada, diremos que se cometió un error de tipo II. En ambos casos, se ha producido un juicio erróneo. Para que las reglas de decisión (o no contraste de hipótesis) sean buenos, deben diseñarse de modo que minimicen los errores de la decisión; y no es una cuestión sencilla, porque para cualquier tamaño de la muestra, un intento de disminuir un tipo de error suele ir acompañado de un crecimiento del otro tipo. En la práctica, un tipo de error puede ser más grave que el otro, y debe alcanzarse un compromiso que disminuya el error más grave. La única forma de disminuir ambos a la vez es aumentar el tamaño de la muestra que no siempre es posible. EN QUE CONSISTE EL INTERVALO CONFIDENCIAL Y CUAL SU RELACION CON REGION CRITICA Se llama intervalo de confianza en estadística a un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Estos números determinan un intervalo que se calcula a partir de datos de una muestra y el valor desconocido es un parámetro poblacional, la probabilidad del éxito en la estimación se representa por 1-a y se denomina nivel de confianza, en estas circunstancias a es llamado error aleatorio o nivel de significación esto es una medida de las posibilidades de fallar en la estimación mediante tal intervalo. Los contrastes de hipótesis están muy relacionados con la teoría de los intervalos de confianza. En muchos casos se puede resolver la misma cuestión aplicada formulándola por cualquiera de las dos vías. Por ejemplo, el contraste: H0: θ = θ0 contra H1: θ ≠ θ0 Puede resolverse planteando el intervalo de confianza para θ, con coeficiente de confianza 1 − α. Supongamos que el intervalo obtenido es [a; b]. Entonces, si: Este contraste tendrá como nivel de significación α. Es posible proporcionar incluso el p-valor si se ajusta la anchura del intervalo para que sea lo más ancho posible y al mismo tiempo excluya θ0. Inversamente, es posible utilizar la región crítica de un contraste para proporcionar una estimación por intervalo del parámetro. Los contrastes bilaterales corresponden a intervalos también bilaterales centrados, mientras que los contrastes unilaterales derechos corresponden a estimaciones unilaterales por exceso y los unilaterales izquierdos, a estimaciones por defecto. Relación entre el intervalo y el contraste, relación con el intervalo de confianza para la media (sigma conocida). En estadística, se llama intervalo de confianza a un par o varios pares de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la estimación se representa con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.1 El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más probabilidad de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumenta su probabilidad de error. Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el parámetro a estimar, θ.2 Es habitual que el parámetro presente una distribución normal. También pueden construirse intervalos de confianza con la desigualdad de Chebyshev. En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de un parámetro poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo [θ1, θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de probabilidad de θ. En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un grano de valores calculado en muestra en el cual se encuentra el verdadero valor del parámetro, con una probabilidad determinada. Para construir un intervalo de confianza se puede comprobar que la distribución normal estándar cumple 1 P (-1.96 z 1.96) = 0.95. Luego si una variable X tiene distribución N, entonces el 95% de las veces se cumple. DEFINE INTERVALO CONFIDENCIAL Y SU RELACION CON EL COEFICIENTE CONFIDENCIAL Las medias o desviaciones estándar calculadas de una muestra se denominan estadísticos, podrían ser consideradas como un punto estimado de la media y desviación estándar real de la población o de los parámetros. De una población de media {\displaystyle \mu} \mu y desviación típica {\displaystyle \sigma} \sigma se pueden tomar muestras de {\displaystyle n} n elementos. Cada una de estas muestras tiene a su vez una media. Se puede demostrar que la media de todas las medias muéstrales coincide con la media poblacional: {\displaystyle \mu _{\bar {x}}=\mu } {\displaystyle \mu _{\bar {x}}=\mu } Pero además, si el tamaño de las muestras es lo suficientemente grande, o la distribución poblacional es normal, la distribución de medias muéstrales es, prácticamente, una distribución normal (o gaussiana) con media μ y una desviación típica dada por la siguiente expresión: {\displaystyle \sigma _{\bar {x}}={\frac {\sigma }{\sqrt {n}}}} {\displaystyle \sigma _{\bar {x}}={\frac {\sigma }{\sqrt {n}}}}. Esto se representa como sigue: {\displaystyle {\bar {X}}\sim N(\mu ,{\frac {\sigma }{\sqrt {n}}})} {\displaystyle {\bar {X}}\sim N(\mu ,{\frac {\sigma }{\sqrt {n}}})}. Si estandarizamos, se sigue que: {\displaystyle {\frac {{\bar {X}}-\mu }{\frac {\sigma }{\sqrt {n}}}}=Z\sim N(0,1)} {\displaystyle {\frac {{\bar {X}}-\mu }{\frac {\sigma }{\sqrt {n}}}}=Z\sim N(0,1)} En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado (véase el uso de las tablas en una distribución normal). En esta distribución normal de medias se puede calcular el intervalo de confianza donde se encontrará la media poblacional si solo se conoce una media muestral ( {\displaystyle {\bar {x}}} \bar{x}), con una confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A este valor se le llamará {\displaystyle 1-\alpha } {\displaystyle 1-\alpha } (debido a que {\displaystyle \alpha } \alpha es el error que se cometerá, un término opuesto). Para ello se necesita calcular el punto {\displaystyle X_{\alpha /2}} {\displaystyle X_{\alpha /2}} —o, mejor dicho, su versión estandarizada {\displaystyle Z_{\alpha /2}} {\displaystyle Z_{\alpha /2}} o valor crítico— junto con su "opuesto en la distribución" {\displaystyle X_{-\alpha /2}} {\displaystyle X_{-\alpha /2}}. Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen: ConfIntervNormalP.png Dicho punto es el número tal que: {\displaystyle \mathbb {P} [{\bar {x}}\geq X_{\alpha /2}]=\mathbb {P} [z\geq z_{\alpha /2}]=\alpha /2} Y en la versión estandarizada se cumple que: Así: {\displaystyle \mathbb {P} \left[{\bar {x}}-z_{\alpha /2}{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {x}}+z_{\alpha /2}{\frac {\sigma }{\sqrt {n}}}\right]=1-\alpha } {\displaystyle \mathbb {P} \left[{\bar {x}}z_{\alpha /2}{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {x}}+z_{\alpha /2}{\frac {\sigma }{\sqrt {n}}}\right]=1-\alpha } De lo cual se obtendrá el intervalo de confianza: {\displaystyle ({\bar {x}}-z_{\alpha /2}{\frac {\sigma }{\sqrt {n}}},{\bar {x}}+z_{\alpha /2}{\frac {\sigma }{\sqrt {n}}})} {\displaystyle ({\bar {x}}-z_{\alpha /2}{\frac {\sigma }{\sqrt {n}}},{\bar {x}}+z_{\alpha /2}{\frac {\sigma }{\sqrt {n}}})} Obsérvese que el intervalo de confianza viene dado por la media muestral {\displaystyle ({\bar {x}})} {\displaystyle ({\bar {x}})} ± el producto del valor crítico {\displaystyle Z_{\alpha /2}} {\displaystyle Z_{\alpha /2}} por el error estándar {\displaystyle ({\frac {\sigma }{\sqrt {n}}})} {\displaystyle ({\frac {\sigma }{\sqrt {n}}})}. Si no se conoce y n es grande (habitualmente se toma n ≥ 30):5 Aproximaciones para el valor {\displaystyle z_{\alpha /2}} {\displaystyle z_{\alpha /2}} para los niveles de confianza estándar son 1,96 para {\displaystyle 1-\alpha =95\%} {\displaystyle 1-\alpha =95\%} y 2,576 para {\displaystyle 1-\alpha =99\%} {\displaystyle 1-\alpha =99\%}.6 Ejemplo ilustrativo Solución: Realizando un gráfico ilustrativo en Winstats y Paint se obtiene: Con lectura en la tabla de la distribución normal para un área de 0,025 se obtiene Z = -1,96. Por simetría se encuentra el otro valor Z = 1,96 Remplazando valores y realizando lo cálculos se obtiene: Los cálculos en Excel se muestran en la siguiente figura: Interpretación: Existe un 95% de confianza de que la media poblacional se encuentre entre 23,02 y 24,98 REFERENCIAS BIBLIOGRAFICAS Ed. Alambra Universidad Ed. McGraw-Hill Ed. Addison-Wesley Autor: Hildebrand Autor: V. Quesada Fisher, R. A. (1956). Statistical Methods and Scientific Inference. Oliver and Boyd, Edinburgh Freund, J. E. (1962). Mathematical Statistics. Prentice Hall, Englewood Cliffs, NJ. Hacking, I. (1965) Logic of Statistical Inference. Cambridge University Press, Cambridge. Keeping, E. S. (1962). Introduction to Statistical Inference. D. Van Nostrand, Princeton, NJ.