Download cristian camilo grisales velez

Document related concepts
no text concepts found
Transcript
HIPOTESIS
CRISTIAN CAMILO GRISALES VELEZ
MUESTREO
MILTON
UNIVERSIDAD DE ANTIOQUIA
FACULTAD NACIONAL DE SALUD PÚBLICA
GESIS
MEDELLIN
2010
Hipótesis
Hipótesis estadística es un enunciado acerca de la distribución de probabilidad de una
variable aleatoria. Las hipótesis estadísticas a menudo involucran uno o más
características de la distribución, como por ejemplo forma o independencia de la variable
aleatoria.
Es importante recordar que las hipótesis son siempre enunciados relativos a la población o
distribución bajo estudio, no enunciados en torno a la muestra. El valor del parámetro de
la población especificado en la hipótesis suele determinarse de una de tres maneras:
- puede resultar de la experiencia o conocimientos pasados del proceso, o incluso de
experimentación previa. El objetivo entonces de la prueba de hipótesis suele ser entonces
determinar si la situación experimental ha cambiado.
-este valor puede determinarse a partir de alguna teoría o modelo con respecto al objeto
que se estudia. Aquí el objetivo de la prueba de hipótesis es verificar la teoría o modelo.
- surge cuando el valor del parámetro de la población es resultado de consideraciones
experimentales, tales como especificaciones de diseño o ingeniería, o de obligaciones
contractuales. En esta situación, el objetivo de la prueba de hipótesis es la prueba de
conformidad.
Prueba de hipótesis
Prueba de hipótesis estadística es una conjetura de una o más poblaciones. Nunca se
sabe con absoluta certeza la verdad o falsedad de una hipótesis estadística, a no ser que
se examine la población entera. Esto por su puesto sería impráctico en la mayoría de las
situaciones. En su lugar, se toma una muestra aleatoria de la población de interés y se
utilizan los datos que contiene tal muestra para proporcionar evidencia que confirme o no
la hipótesis. La evidencia de la muestra que es un constante con la hipótesis planteada
conduce a un rechazo de la misma mientras que la evidencia que apoya la hipótesis
conduce a su aceptación.
Definición de prueba de hipótesis estadística es que cuantifica el proceso de toma de
decisiones.
Por cada tipo de prueba de hipótesis se puede calcular una prueba estadística apropiada.
Esta prueba estadística mide el acercamiento del calor de la muestra (como un promedio)
a la hipótesis nula. La prueba estadística, sigue una distribución estadística bien conocida
(normal, etc.) o se puede desarrollar una distribución para la prueba estadística particular.
La distribución apropiada de la prueba estadística se divide en dos regiones: una región de
rechazo y una de no rechazo. Si la prueba estadística cae en esta última región no se
puede rechazar la hipótesis nula y se llega a la conclusión de que el proceso funciona
correctamente.
Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en
la distribución estadística que divide la región del rechazo (en la cual la hipótesis nula no
se puede rechazar) de la región de rechazo. A hora bien el valor crítico depende del
tamaño de la región de rechazo.
Pasos de la prueba de hipótesis
1. expresar la hipótesis nula
2. expresar la hipótesis alternativa
3. especificar el nivel de significancia
4. determinar el tamaño de la muestra
5. establecer los valores críticos que establecen las regiones de rechazo de las de no
rechazo.
6. determinar la prueba estadística.
7. coleccionar los datos y calcular el valor de la muestra de la prueba estadística
apropiada.
8. determinar si la prueba estadística ha sido en la zona de rechazo a una de no
rechazo.
9. determinar la decisión estadística.
10. expresar la decisión estadística en términos del problema.
Hipótesis nula.
Para todo tipo de investigación en la que tenemos dos o más grupos, se establecerá una
hipótesis nula.
La hipótesis nula es aquella que nos dice que no existen diferencias significativas entre los
grupos.
Por ejemplo, supongamos que un investigador cree que si un grupo de jóvenes se somete
a un entrenamiento intensivo de natación, éstos serán mejores nadadores que aquellos
que no recibieron entrenamiento. Para demostrar su hipótesis toma al azar una muestra
de jóvenes, y también al azar los distribuye en dos grupos: uno que llamaremos
experimental, el cual recibirá entrenamiento, y otro que no recibirá entrenamiento
alguno, al que llamaremos control. La hipótesis nula señalará que no hay diferencia en el
desempeño de la natación entre el grupo de jóvenes que recibió el entrenamiento y el que
no lo recibió.
Una hipótesis nula es importante por varias razones:
Es una hipótesis que se acepta o se rechaza según el resultado de la investigación. El
hecho de contar con una hipótesis nula ayuda a determinar si existe una diferencia entre
los grupos, si esta diferencia es significativa, y si no se debió al azar.
No toda investigación precisa de formular hipótesis nula. Recordemos que la hipótesis
nula es aquella por la cual indicamos que la información a obtener es contraria a la
hipótesis de trabajo.
Al formular esta hipótesis, se pretende negar la variable independiente. Es decir, se
enuncia que la causa determinada como origen del problema fluctúa, por tanto, debe
rechazarse como tal.
Tipos de error y nivel de significancia
Si rechazamos una hipótesis cuando debiera ser aceptada diremos que se ha cometido un
error de tipo i. por otra parte si aceptamos una hipótesis que debiera ser rechazada,
diremos que se ha cometido un error de tipo ii. En ambos casos se ha producido un juicio
erróneo.
Para que las reglas de decisión sean buenas, deben diseñarse de modo que
minimicen los errores de decisión, y no es una cuestión sencilla, porque para cualquier
tamaño de la muestra, un intento de disminuir un tipo de error suele ir acompañado de un
crecimiento del otro tipo. En la práctica un tipo de error puede ser más grave que el otro,
y debe alcanzarse un compromiso que disminuya el error más grave, la única forma de
disminuir ambos a la vez es aumentar el tamaño de la muestra, que no siempre es posible.
Nivel de significancia
Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos dispuestos a
correr el riesgo de cometer un error de tipo i se llama nivel de significancia. Esta
probabilidad se denota por , se suele especificar antes de la muestra, de manera que los
resultados no influyan en nuestra elección.
En la práctica es frecuente un nivel de significancia de 0.05 ó 0.01, si bien se usan
otros valores. Si, por ejemplo, se escoge un nivel de significancia del 5% ó 0.05 al diseñar
una regla de decisión entonces hay unas cinco oportunidades entre cien de rechazar la
hipótesis cuando debiera haberse aceptado; es decir, tenemos un 95% de confianza de
que hemos adoptado la decisión correcta. En tal caso decimos que la hipótesis ha sido
rechazada al nivel de significancia 0.05 lo cual quiere decir que la hipótesis tiene una
probabilidad del 5% de ser falsa.
P-valor
Si pretendemos desarrollar el siguiente contraste de hipótesis estadísticas, donde θ es un
parámetro, es decir una constante que puede ser determinada con ayuda de los modelos
de probabilidad de una o varias poblaciones univariantes o multivariantes
El p valor o nivel de significación empírico del contraste es el dato obtenido a partir del
valor del estadístico del contraste, θ, en las observaciones que corresponden a la
realización de la muestra de tamaño n extraída de la población x, tal y como puede
deducirse del ejemplo expuesto más abajo, y que nos informa sobre cuál sería el nivel de
significación α más pequeño que nos hubiera permitido rechazar la hipótesis nula.
Se rechazará la hipótesis nula si el p valor es menor o igual al nivel de significación
adoptado por el experimentador.
Por ejemplo, al contrastar la existencia de diferencias apreciables entre los valores medios
de dos poblaciones normales e independientes:
Siendo el estadístico a utilizar:
Con distribución t de student con (n1+n2-2) grados de libertad; el p-valor se define de la
forma siguiente:
En el caso de que el contraste considerado sea unilateral superior, el p-valor se
define como:
Así mismo, el p-valor para un contraste unilateral inferior será:
Uso del p valor
El nivel de significativita es comúnmente representado por el símbolo griego α (alpha).
Son comunes los niveles de significatividad del 0,05, 0,01 y 0,1. Si un contraste de
hipótesis proporciona un valor p inferior a α, la hipótesis nula es rechazada, siendo tal
resultado denominado 'estadísticamente significativo'. Cuanto menor sea el nivel de
significatividad, más fuerte será la evidencia de que un hecho no se debe a una mera
coincidencia (al azar).
En algunas situaciones es conveniente expresar la significatividad estadística como 1 − α.
en general, cuando se interpreta una significatividad dada, se debe tomar en cuenta que,
precisamente, está siendo probada estadísticamente.
Diferentes niveles de α tienen distintas ventajas y desventajas. Valores pequeños de α
otorgan mayor confianza en la determinación de la significatividad, pero hacen correr
mayores riesgos de equivocarse al rechazar una hipótesis nula falsa (error de tipo ii o
"falso negativo"), con lo cual se pierde potencia de estudio. la elección de un nivel de α
inevitablemente envuelve un compromiso entre significatividad y potencia, y
consecuentemente entre errores de tipo i y de tipo ii.
en algunos campos, por ejemplo física nuclear y de partículas, es común expresar la
significatividad estadística en unidades de "σ" (sigma), el desvío estándar de una
distribución de gauss. La significatividad estadística de "nσ" puede ser convertida en un
valor α por medio de la función error:
El uso de σ está motivado por la importancia de la distribución gaussiana para medir
incertezas. Por ejemplo, si una teoría predice un que parámetro tendrá un valor de,
digamos, 100, y el parámetro medido resulta de 109 ± 3, luego se puede informar la
medición como un "desvío de 3σ" de la predicción teórica. En términos de α, esta
afirmación es equivalente a decir que "asumiendo que la teoría sea cierta, la posibilidad
de obtener el resultado experimental por casualidad es 0,27% (dado que 1 − erf(3/√2) =
0,0027).
Los niveles fijos de significatividad tales como los mencionados pueden ser considerados
como útiles en el análisis exploratorio de datos. Sin embargo, la recomendación de la
estadística moderna es que, cuando el resultado de un test es esencialmente el resultado
final de un experimento o de otro estudio, el valor p debería ser citado explícitamente. Y,
sobre todo, debería ser citado si el valor p es juzgado o no como significativo. Esto es para
permitir que el máximo de información sea transferido de un resumen de estudio a la
meta análisis.
Error
Error de tipo i también mal llamado error de tipo alfa (α) (α es la probabilidad de que
ocurra este error), es el error que se comete cuando el investigador rechaza la hipótesis
nula (ho) siendo ésta verdadera en la población. Es equivalente a encontrar un resultado
falso positivo, porque el investigador llega a la conclusión de que existe una diferencia
entre las hipótesis cuando en realidad no existe. Es también conocido como nivel de
significancia, si el nivel de confianza es 95% el nivel de significancia vendría a ser 5%
error de tipo ii, también llamado error de tipo beta (β) (aunque β es la probabilidad de
que exista éste error), se comete cuando el investigador no rechaza la hipótesis nula
siendo ésta falsa en la población. es equivalente a la probabilidad de un resultado falso
negativo, ya que el investigador llega a la conclusión de que ha sido incapaz de encontrar
una diferencia que existe en la realidad.
se acepta en un estudio que el valor del error beta debe estar entre el 5 y el 20%..
el poder o potencia del estudio representa la probabilidad de observar en la muestra una
determinada diferencia o efecto, si existe en la población. es el complementario del error
de tipo ii (1-β).
errores en el contraste
una vez realizado el contraste de hipótesis, se habrá optado por una de las dos hipótesis,
la hipótesis nula o base
o la hipótesis alternativa
, y la decisión escogida coincidirá
o no con la que en realidad es cierta. se pueden dar los cuatro casos que se exponen en el
siguiente cuadro:
es cierta
es cierta
se escogió
no hay error error de tipo ii
se escogió
error de tipo i no hay error
si la probabilidad de cometer un error de tipo i está unívocamente determinada, su valor
se suele denotar por la letra griega α, y en las mismas condiciones, se denota por β la
probabilidad de cometer el error de tipo ii, esto es:
en este caso, se denomina potencia del contraste al valor 1-β, esto es, a la probabilidad
de escoger
cuando esta es cierta
.
potencia de una prueba estadística
cuando es necesario diseñar un contraste de hipótesis, sería deseable hacerlo de tal
manera que las probabilidades de ambos tipos de error fueran tan pequeñas como fuera
posible. sin embargo, con una muestra de tamaño prefijado, disminuir la probabilidad del
error de tipo i, α, conduce a incrementar la probabilidad del error de tipo ii, β.
usualmente, se diseñan los contrastes de tal manera que la probabilidad α sea el 5%
(0,05), aunque a veces se usan el 10% (0,1) o 1% (0,01) para adoptar condiciones más
relajadas o más estrictas. el recurso para aumentar la potencia del contraste, esto es,
disminuir β, probabilidad de error de tipo ii, es aumentar el tamaño muestral, lo que en la
práctica conlleva un incremento de los costes del estudio que se quiere realizar.
de la probabilidad de cometer un error del tipo ii se conoce como potencia de una prueba
estadística. la potencia de una prueba es la probabilidad de rechazar la hipótesis nula
cuando de hecho esta es falsa y debería ser rechazada. una manera en que podemos
controlar la probabilidad de cometer un error del tipo ii en un estudio, consiste en
aumentar el tamaño de la muestra. tamaños más grandes de muestra, nos permitirán
detectar diferencias incluso muy pequeñas entre las estadísticas de muestra y los
parámetros de la población. cuando se disminuye ,  aumentará de modo que una
reducción en el riesgo de cometer un error de tipo i tendrá como resultado un aumento
en el riesgo de cometer un error tipo ii. prueba de hipótesis z para la media (desvío de la
población conocido) el estadístico de prueba a utilizar es:
la potencia de una prueba β representa la probabilidad de que la hipótesis nula no sea
rechazada cuando de hecho es falsa y debería rechazársele. la potencia de prueba 1-β
representa la sensibilidad de la prueba estadística para detectar cambios que se presentan
al medir la probabilidad de rechazar la hipótesis nula cuando de hecho es falsa y debería
ser rechazada. la potencia de prueba estadística depende de qué tan diferente en realidad
es la media verdadera de la población del valor supuesto. una prueba de un extremo es
más poderosa que una de dos extremos, y se debería utilizar siempre que sea adecuado
especificar la dirección de la hipótesis alternativa. puesto que la probabilidad de cometer
un error tipo i y la probabilidad de cometer un error tipo ii tienen una relación inversa y
esta última es el complemento de la potencia de prueba (1-β), entonces α y la potencia de
la prueba varían en proporción directa. un aumento en el valor del nivel de significación
escogido, tendría como resultado un aumento en la potencia y una disminución en α
tendría como resultado una disminución en la potencia. un aumento en el tamaño de la
muestra escogida tendría como resultado un aumento en la potencia de la prueba, una
disminución en el tamaño de la muestra seleccionada tendría como resultado una
disminución en la potencia.