Download cristian camilo grisales velez
Document related concepts
no text concepts found
Transcript
HIPOTESIS CRISTIAN CAMILO GRISALES VELEZ MUESTREO MILTON UNIVERSIDAD DE ANTIOQUIA FACULTAD NACIONAL DE SALUD PÚBLICA GESIS MEDELLIN 2010 Hipótesis Hipótesis estadística es un enunciado acerca de la distribución de probabilidad de una variable aleatoria. Las hipótesis estadísticas a menudo involucran uno o más características de la distribución, como por ejemplo forma o independencia de la variable aleatoria. Es importante recordar que las hipótesis son siempre enunciados relativos a la población o distribución bajo estudio, no enunciados en torno a la muestra. El valor del parámetro de la población especificado en la hipótesis suele determinarse de una de tres maneras: - puede resultar de la experiencia o conocimientos pasados del proceso, o incluso de experimentación previa. El objetivo entonces de la prueba de hipótesis suele ser entonces determinar si la situación experimental ha cambiado. -este valor puede determinarse a partir de alguna teoría o modelo con respecto al objeto que se estudia. Aquí el objetivo de la prueba de hipótesis es verificar la teoría o modelo. - surge cuando el valor del parámetro de la población es resultado de consideraciones experimentales, tales como especificaciones de diseño o ingeniería, o de obligaciones contractuales. En esta situación, el objetivo de la prueba de hipótesis es la prueba de conformidad. Prueba de hipótesis Prueba de hipótesis estadística es una conjetura de una o más poblaciones. Nunca se sabe con absoluta certeza la verdad o falsedad de una hipótesis estadística, a no ser que se examine la población entera. Esto por su puesto sería impráctico en la mayoría de las situaciones. En su lugar, se toma una muestra aleatoria de la población de interés y se utilizan los datos que contiene tal muestra para proporcionar evidencia que confirme o no la hipótesis. La evidencia de la muestra que es un constante con la hipótesis planteada conduce a un rechazo de la misma mientras que la evidencia que apoya la hipótesis conduce a su aceptación. Definición de prueba de hipótesis estadística es que cuantifica el proceso de toma de decisiones. Por cada tipo de prueba de hipótesis se puede calcular una prueba estadística apropiada. Esta prueba estadística mide el acercamiento del calor de la muestra (como un promedio) a la hipótesis nula. La prueba estadística, sigue una distribución estadística bien conocida (normal, etc.) o se puede desarrollar una distribución para la prueba estadística particular. La distribución apropiada de la prueba estadística se divide en dos regiones: una región de rechazo y una de no rechazo. Si la prueba estadística cae en esta última región no se puede rechazar la hipótesis nula y se llega a la conclusión de que el proceso funciona correctamente. Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en la distribución estadística que divide la región del rechazo (en la cual la hipótesis nula no se puede rechazar) de la región de rechazo. A hora bien el valor crítico depende del tamaño de la región de rechazo. Pasos de la prueba de hipótesis 1. expresar la hipótesis nula 2. expresar la hipótesis alternativa 3. especificar el nivel de significancia 4. determinar el tamaño de la muestra 5. establecer los valores críticos que establecen las regiones de rechazo de las de no rechazo. 6. determinar la prueba estadística. 7. coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada. 8. determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo. 9. determinar la decisión estadística. 10. expresar la decisión estadística en términos del problema. Hipótesis nula. Para todo tipo de investigación en la que tenemos dos o más grupos, se establecerá una hipótesis nula. La hipótesis nula es aquella que nos dice que no existen diferencias significativas entre los grupos. Por ejemplo, supongamos que un investigador cree que si un grupo de jóvenes se somete a un entrenamiento intensivo de natación, éstos serán mejores nadadores que aquellos que no recibieron entrenamiento. Para demostrar su hipótesis toma al azar una muestra de jóvenes, y también al azar los distribuye en dos grupos: uno que llamaremos experimental, el cual recibirá entrenamiento, y otro que no recibirá entrenamiento alguno, al que llamaremos control. La hipótesis nula señalará que no hay diferencia en el desempeño de la natación entre el grupo de jóvenes que recibió el entrenamiento y el que no lo recibió. Una hipótesis nula es importante por varias razones: Es una hipótesis que se acepta o se rechaza según el resultado de la investigación. El hecho de contar con una hipótesis nula ayuda a determinar si existe una diferencia entre los grupos, si esta diferencia es significativa, y si no se debió al azar. No toda investigación precisa de formular hipótesis nula. Recordemos que la hipótesis nula es aquella por la cual indicamos que la información a obtener es contraria a la hipótesis de trabajo. Al formular esta hipótesis, se pretende negar la variable independiente. Es decir, se enuncia que la causa determinada como origen del problema fluctúa, por tanto, debe rechazarse como tal. Tipos de error y nivel de significancia Si rechazamos una hipótesis cuando debiera ser aceptada diremos que se ha cometido un error de tipo i. por otra parte si aceptamos una hipótesis que debiera ser rechazada, diremos que se ha cometido un error de tipo ii. En ambos casos se ha producido un juicio erróneo. Para que las reglas de decisión sean buenas, deben diseñarse de modo que minimicen los errores de decisión, y no es una cuestión sencilla, porque para cualquier tamaño de la muestra, un intento de disminuir un tipo de error suele ir acompañado de un crecimiento del otro tipo. En la práctica un tipo de error puede ser más grave que el otro, y debe alcanzarse un compromiso que disminuya el error más grave, la única forma de disminuir ambos a la vez es aumentar el tamaño de la muestra, que no siempre es posible. Nivel de significancia Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos dispuestos a correr el riesgo de cometer un error de tipo i se llama nivel de significancia. Esta probabilidad se denota por , se suele especificar antes de la muestra, de manera que los resultados no influyan en nuestra elección. En la práctica es frecuente un nivel de significancia de 0.05 ó 0.01, si bien se usan otros valores. Si, por ejemplo, se escoge un nivel de significancia del 5% ó 0.05 al diseñar una regla de decisión entonces hay unas cinco oportunidades entre cien de rechazar la hipótesis cuando debiera haberse aceptado; es decir, tenemos un 95% de confianza de que hemos adoptado la decisión correcta. En tal caso decimos que la hipótesis ha sido rechazada al nivel de significancia 0.05 lo cual quiere decir que la hipótesis tiene una probabilidad del 5% de ser falsa. P-valor Si pretendemos desarrollar el siguiente contraste de hipótesis estadísticas, donde θ es un parámetro, es decir una constante que puede ser determinada con ayuda de los modelos de probabilidad de una o varias poblaciones univariantes o multivariantes El p valor o nivel de significación empírico del contraste es el dato obtenido a partir del valor del estadístico del contraste, θ, en las observaciones que corresponden a la realización de la muestra de tamaño n extraída de la población x, tal y como puede deducirse del ejemplo expuesto más abajo, y que nos informa sobre cuál sería el nivel de significación α más pequeño que nos hubiera permitido rechazar la hipótesis nula. Se rechazará la hipótesis nula si el p valor es menor o igual al nivel de significación adoptado por el experimentador. Por ejemplo, al contrastar la existencia de diferencias apreciables entre los valores medios de dos poblaciones normales e independientes: Siendo el estadístico a utilizar: Con distribución t de student con (n1+n2-2) grados de libertad; el p-valor se define de la forma siguiente: En el caso de que el contraste considerado sea unilateral superior, el p-valor se define como: Así mismo, el p-valor para un contraste unilateral inferior será: Uso del p valor El nivel de significativita es comúnmente representado por el símbolo griego α (alpha). Son comunes los niveles de significatividad del 0,05, 0,01 y 0,1. Si un contraste de hipótesis proporciona un valor p inferior a α, la hipótesis nula es rechazada, siendo tal resultado denominado 'estadísticamente significativo'. Cuanto menor sea el nivel de significatividad, más fuerte será la evidencia de que un hecho no se debe a una mera coincidencia (al azar). En algunas situaciones es conveniente expresar la significatividad estadística como 1 − α. en general, cuando se interpreta una significatividad dada, se debe tomar en cuenta que, precisamente, está siendo probada estadísticamente. Diferentes niveles de α tienen distintas ventajas y desventajas. Valores pequeños de α otorgan mayor confianza en la determinación de la significatividad, pero hacen correr mayores riesgos de equivocarse al rechazar una hipótesis nula falsa (error de tipo ii o "falso negativo"), con lo cual se pierde potencia de estudio. la elección de un nivel de α inevitablemente envuelve un compromiso entre significatividad y potencia, y consecuentemente entre errores de tipo i y de tipo ii. en algunos campos, por ejemplo física nuclear y de partículas, es común expresar la significatividad estadística en unidades de "σ" (sigma), el desvío estándar de una distribución de gauss. La significatividad estadística de "nσ" puede ser convertida en un valor α por medio de la función error: El uso de σ está motivado por la importancia de la distribución gaussiana para medir incertezas. Por ejemplo, si una teoría predice un que parámetro tendrá un valor de, digamos, 100, y el parámetro medido resulta de 109 ± 3, luego se puede informar la medición como un "desvío de 3σ" de la predicción teórica. En términos de α, esta afirmación es equivalente a decir que "asumiendo que la teoría sea cierta, la posibilidad de obtener el resultado experimental por casualidad es 0,27% (dado que 1 − erf(3/√2) = 0,0027). Los niveles fijos de significatividad tales como los mencionados pueden ser considerados como útiles en el análisis exploratorio de datos. Sin embargo, la recomendación de la estadística moderna es que, cuando el resultado de un test es esencialmente el resultado final de un experimento o de otro estudio, el valor p debería ser citado explícitamente. Y, sobre todo, debería ser citado si el valor p es juzgado o no como significativo. Esto es para permitir que el máximo de información sea transferido de un resumen de estudio a la meta análisis. Error Error de tipo i también mal llamado error de tipo alfa (α) (α es la probabilidad de que ocurra este error), es el error que se comete cuando el investigador rechaza la hipótesis nula (ho) siendo ésta verdadera en la población. Es equivalente a encontrar un resultado falso positivo, porque el investigador llega a la conclusión de que existe una diferencia entre las hipótesis cuando en realidad no existe. Es también conocido como nivel de significancia, si el nivel de confianza es 95% el nivel de significancia vendría a ser 5% error de tipo ii, también llamado error de tipo beta (β) (aunque β es la probabilidad de que exista éste error), se comete cuando el investigador no rechaza la hipótesis nula siendo ésta falsa en la población. es equivalente a la probabilidad de un resultado falso negativo, ya que el investigador llega a la conclusión de que ha sido incapaz de encontrar una diferencia que existe en la realidad. se acepta en un estudio que el valor del error beta debe estar entre el 5 y el 20%.. el poder o potencia del estudio representa la probabilidad de observar en la muestra una determinada diferencia o efecto, si existe en la población. es el complementario del error de tipo ii (1-β). errores en el contraste una vez realizado el contraste de hipótesis, se habrá optado por una de las dos hipótesis, la hipótesis nula o base o la hipótesis alternativa , y la decisión escogida coincidirá o no con la que en realidad es cierta. se pueden dar los cuatro casos que se exponen en el siguiente cuadro: es cierta es cierta se escogió no hay error error de tipo ii se escogió error de tipo i no hay error si la probabilidad de cometer un error de tipo i está unívocamente determinada, su valor se suele denotar por la letra griega α, y en las mismas condiciones, se denota por β la probabilidad de cometer el error de tipo ii, esto es: en este caso, se denomina potencia del contraste al valor 1-β, esto es, a la probabilidad de escoger cuando esta es cierta . potencia de una prueba estadística cuando es necesario diseñar un contraste de hipótesis, sería deseable hacerlo de tal manera que las probabilidades de ambos tipos de error fueran tan pequeñas como fuera posible. sin embargo, con una muestra de tamaño prefijado, disminuir la probabilidad del error de tipo i, α, conduce a incrementar la probabilidad del error de tipo ii, β. usualmente, se diseñan los contrastes de tal manera que la probabilidad α sea el 5% (0,05), aunque a veces se usan el 10% (0,1) o 1% (0,01) para adoptar condiciones más relajadas o más estrictas. el recurso para aumentar la potencia del contraste, esto es, disminuir β, probabilidad de error de tipo ii, es aumentar el tamaño muestral, lo que en la práctica conlleva un incremento de los costes del estudio que se quiere realizar. de la probabilidad de cometer un error del tipo ii se conoce como potencia de una prueba estadística. la potencia de una prueba es la probabilidad de rechazar la hipótesis nula cuando de hecho esta es falsa y debería ser rechazada. una manera en que podemos controlar la probabilidad de cometer un error del tipo ii en un estudio, consiste en aumentar el tamaño de la muestra. tamaños más grandes de muestra, nos permitirán detectar diferencias incluso muy pequeñas entre las estadísticas de muestra y los parámetros de la población. cuando se disminuye , aumentará de modo que una reducción en el riesgo de cometer un error de tipo i tendrá como resultado un aumento en el riesgo de cometer un error tipo ii. prueba de hipótesis z para la media (desvío de la población conocido) el estadístico de prueba a utilizar es: la potencia de una prueba β representa la probabilidad de que la hipótesis nula no sea rechazada cuando de hecho es falsa y debería rechazársele. la potencia de prueba 1-β representa la sensibilidad de la prueba estadística para detectar cambios que se presentan al medir la probabilidad de rechazar la hipótesis nula cuando de hecho es falsa y debería ser rechazada. la potencia de prueba estadística depende de qué tan diferente en realidad es la media verdadera de la población del valor supuesto. una prueba de un extremo es más poderosa que una de dos extremos, y se debería utilizar siempre que sea adecuado especificar la dirección de la hipótesis alternativa. puesto que la probabilidad de cometer un error tipo i y la probabilidad de cometer un error tipo ii tienen una relación inversa y esta última es el complemento de la potencia de prueba (1-β), entonces α y la potencia de la prueba varían en proporción directa. un aumento en el valor del nivel de significación escogido, tendría como resultado un aumento en la potencia y una disminución en α tendría como resultado una disminución en la potencia. un aumento en el tamaño de la muestra escogida tendría como resultado un aumento en la potencia de la prueba, una disminución en el tamaño de la muestra seleccionada tendría como resultado una disminución en la potencia.