Download Contraste de hipótesis

Document related concepts
no text concepts found
Transcript
Fundamentos del contraste de
hipótesis
Programa de doctorado en
Estadística, Análisis de datos y
Bioestadística
Fundamentos de Inferencia
Estadística
Departament d’Estadística
Puntos a tratar:
 Contraste paramétrico de hipótesis
 Test estadístico vs. estadístico de test
 Error de tipo I y de tipo II
 Dos enfoques frecuentistas
enfrentados: Fisher vs. NeymanPearson
 Extensión de un test. Nivel de
significación. P-valor
 Uso y abuso del p-valor. Crisis del
Contraste paramétrico de
hipótesis
 Dado un modelo estadístico F, no
estamos interesados en determinar el
valor concreto de q  Q sino en decidir
entre dos hipótesis sobre cómo es el
verdadero valor de q,
H 0 : q О Q 0 (hipуt esis nula)
H 1 : q О Q1 (hipуt esis alt ernat iva)
Test estadístico / estadístico
de test
 Criterio de decisión a partir datos y: “test
estadístico”, función (y) con dos
valores, 0 (“no rechazamos H0”) y 1
(“rechazamos H0”)
 Estadístico en el que se basa el criterio
de decisión: “estadístico de test”, T(y)
(p.e. mide discrepancia de y respecto
H0, criterio del estilo de (y) = I{T(y)  c})
Error de tipo I y de tipo II
Es ciert a H0
No rechazamos Decisión
H0
Es ciert a H1
Error de t ipo II
correct a
Rechazamos H0 Error de t ipo I Decisión
correct a
Dos enfoques frecuentistas
enfrentados
 R. Fisher: hipótesis alternativa no muy
explícita, idea de credibilidad de H0 a
partir de p-valor: Pr{T(Y)T(y)|H0},
ayuda a la decisión final (+ otros
criterios)
 J. Neyman, E.S. Pearson: considerar
las probabilidades de error de tipo I y de
tipo II, procurar emplear el criterio de
decisión que minimice ambas
Algunos conceptos vinculados
a las probabilidades de error
 Función de potencia:
bT (q ) = P r {T (Y ) = 1 q }
= bT (q ) = P r {T (Y ) і c q }
 Si q  Q0, bT(q) es una probabilidad de
cometer el error de tipo I
 Si q  Q1, 1-bT(q) es una probabilidad
de cometer el error de tipo II y bT(q) se
denomina “potencia del test”
Extensión de un test 
 Todas estas probabilidades dependen
del valor de q concreto
 Extensión de un test T: máxima
probabilidad de error de tipo I
a T = sup bT (q )
qОQ 0
 Medida del nivel global de probabilidad
de error de tipo I
 Anteriores son probabilidades “a priori”
Ejemplo de función de
potencia
n = 1,
Y : N (m, 1 ),
T (y ) = y ,
H0 : m Ј 2
H1 : m > 2
T (y ) = 1 si y і 3
b
e
t
a
(
m
u
)
0. 0.2 0.4 0.6 0.8 1.0
bT (m) = P r {Y і 3 m} = 1 - F (3 - m)
a T = sup bT (q )
qОQ 0
Q
Q
0
64444444444447 4444444444448 6444444444444444714444444444444448
0
1
2
3
mu
4
5
Enfoque de Neyman-Pearson.
Nivel de significación
 Nivel de significación: máximo nivel de
probabilidad de error de tipo I aceptable,
prefijado. Un valor a tal que:
sup bT (q ) Ј a
qОQ 0
 Para a prefijado, utilizar el test  que
sea uniformemente más potente (UMP):
para todo otro test, U, bU (q)  b (q) para
todo q  Q1
Algunas objeciones al enfoque
de Neyman-Pearson
 Conceptuales:
– Asimetría entre hipótesis: papel de la nula
es más preponderante ¿Cómo elegir H0?
– Determinación del nivel de significación
¿Significado de “pequeño”? ¿porqué 0,05?
 Técnicas (solventables):
– No siempre existe test UMP (solución:
condiciones adicionales para descartar
tests inaceptables)
Enfoque de los usuarios (¡no
de Fisher!): p-valor
 Nivel de significación observado o “p-
valor”: dada y, mínimo nivel de
significación al que se rechazaría H0:
a obs = sup P r {T (Y ) і T (y ) q }
qОQ 0
 Uso de aobs muy criticado. Correcto si
se rechaza H0 cuando aobs  a, críticas
a su empleo como medida de seguridad
en la toma de cualquier decisión
Inferencia es inducción, cosas
como L o el p-valor: deducción
Estado de la naturaleza q  Q
Deducción:
Inducción:
Pr{T(Y) T(y)|H0}
Pr{T(Y) T(y)|H0} 
Pr{H0|y} !!
Datos observados y  Y
Verdadero enfoque de Fisher.
Crisis del enfoque frecuentista
 Fisher propuso emplear aobs como
medida de significación (gran avance
respecto de lo que se hacía antes: nada)
 No propuso utilizarlo como medida a
posteriori de creencia en H0, utilización en
la línea de verosimilitud, etc.
 Si requerido Pr{H0|y}, inaceptable Fisher o
Neyman-Pearson ¿Aceptable si tiene en
cuenta H0 y H1?¿Sólo enfoque de Bayes?
Uso erróneo de p-valores. I
 p-valor = P{“estadístico de test extremo” | “H0
cierta”}
 ...y no al contrario:
p-valor = P{“H0 cierta” | “estadístico de test extremo”}
 Consecuencia: NO indica si hipótesis nula es
muy o poco probable, es función de los datos,
un “estadístico” (una variable aleatoria) con
distribución dependiente de qué hipótesis es
realmente cierta (¡cuestión que desconocemos!)
Uso erróneo de p-valores. II
Si H0 cierta:
 el p-valor sigue distribución uniforme: todos
los p-valores pueden darse por igual,
luego...
 MUY INCORRECTO afirmar que hipótesis
nula es “muy significativa” o “la aceptamos
con mucha seguridad” si se obtuvo p-valor
grande, p.e. 0,90 ¡Este valor era igual de
probable que, p.e., 0,01!
Uso erróneo de p-valores. III
Si H0 es falsa:
 Distribución de los p-valores es, en
general, desconocida, luego...
 POCO JUSTIFICABLE afirmar “rechazamos
H0 muy significativamente” si hemos obtenido
p-valor “muy pequeño”. Diferencia real entre
0,02 i 0,001 depende de su verdadera
distribución, normalmente desconocida
 “Calibración de p-valores”: metodología para
tratar de comparar p-valores correctamente
Uso correcto del p-valor
 Fijamos un nivel de significación, a, p.e. 0,05
(probabilidad de error I aceptable)
 Si p-valor observado es  a  rechazamos
H0
 Si p-valor observado es > a  no rechaz. H0
 Manera “ortodoxa” (¡pero no la más habitual
a la práctica!) de realizar un test
 Así: tendremos una probabilidad a priori
como máximo a, de cometer error de tipo I
Utilització correcta del p-valor
 Es decir, a la larga, si cierta H0: de cada 100
veces que obtuviésemos los datos y
aplicásemos el test, solament la
rechazaríamos equivocadamente 100a veces
 No és vàlida cualquier otra consideración en
función de que el p-valor sea grande o
pequeño
 ...pero si uno es el investigador que ha
obtenido un p-valor muy pequeño ¡duele no
poder utilitzar este hecho!
El p-valor no lo es todo
 Supongamos que no hemos rechazado H0: error
común: pensar que probabilidad de error es 1-a
 Ahora es P{“error de tipo II”} = P{“aceptar H0” |
“H0 falsa”}= 1-Potencia del test
 Potencia depende, entre otras cosas, del tamaño
muestral. Se debería fijar tamaño muestral
adecuado para garantizar potencia aceptable
 Si no, demasiado fácil aceptar una H0 que nos
interesa: bastaría utilizar pocos datos!