Download Contraste de hipótesis
Document related concepts
no text concepts found
Transcript
Fundamentos del contraste de
hipótesis
Programa de doctorado en
Estadística, Análisis de datos y
Bioestadística
Fundamentos de Inferencia
Estadística
Departament d’Estadística
Puntos a tratar:
Contraste paramétrico de hipótesis
Test estadístico vs. estadístico de test
Error de tipo I y de tipo II
Dos enfoques frecuentistas
enfrentados: Fisher vs. NeymanPearson
Extensión de un test. Nivel de
significación. P-valor
Uso y abuso del p-valor. Crisis del
Contraste paramétrico de
hipótesis
Dado un modelo estadístico F, no
estamos interesados en determinar el
valor concreto de q Q sino en decidir
entre dos hipótesis sobre cómo es el
verdadero valor de q,
H 0 : q О Q 0 (hipуt esis nula)
H 1 : q О Q1 (hipуt esis alt ernat iva)
Test estadístico / estadístico
de test
Criterio de decisión a partir datos y: “test
estadístico”, función (y) con dos
valores, 0 (“no rechazamos H0”) y 1
(“rechazamos H0”)
Estadístico en el que se basa el criterio
de decisión: “estadístico de test”, T(y)
(p.e. mide discrepancia de y respecto
H0, criterio del estilo de (y) = I{T(y) c})
Error de tipo I y de tipo II
Es ciert a H0
No rechazamos Decisión
H0
Es ciert a H1
Error de t ipo II
correct a
Rechazamos H0 Error de t ipo I Decisión
correct a
Dos enfoques frecuentistas
enfrentados
R. Fisher: hipótesis alternativa no muy
explícita, idea de credibilidad de H0 a
partir de p-valor: Pr{T(Y)T(y)|H0},
ayuda a la decisión final (+ otros
criterios)
J. Neyman, E.S. Pearson: considerar
las probabilidades de error de tipo I y de
tipo II, procurar emplear el criterio de
decisión que minimice ambas
Algunos conceptos vinculados
a las probabilidades de error
Función de potencia:
bT (q ) = P r {T (Y ) = 1 q }
= bT (q ) = P r {T (Y ) і c q }
Si q Q0, bT(q) es una probabilidad de
cometer el error de tipo I
Si q Q1, 1-bT(q) es una probabilidad
de cometer el error de tipo II y bT(q) se
denomina “potencia del test”
Extensión de un test
Todas estas probabilidades dependen
del valor de q concreto
Extensión de un test T: máxima
probabilidad de error de tipo I
a T = sup bT (q )
qОQ 0
Medida del nivel global de probabilidad
de error de tipo I
Anteriores son probabilidades “a priori”
Ejemplo de función de
potencia
n = 1,
Y : N (m, 1 ),
T (y ) = y ,
H0 : m Ј 2
H1 : m > 2
T (y ) = 1 si y і 3
b
e
t
a
(
m
u
)
0. 0.2 0.4 0.6 0.8 1.0
bT (m) = P r {Y і 3 m} = 1 - F (3 - m)
a T = sup bT (q )
qОQ 0
Q
Q
0
64444444444447 4444444444448 6444444444444444714444444444444448
0
1
2
3
mu
4
5
Enfoque de Neyman-Pearson.
Nivel de significación
Nivel de significación: máximo nivel de
probabilidad de error de tipo I aceptable,
prefijado. Un valor a tal que:
sup bT (q ) Ј a
qОQ 0
Para a prefijado, utilizar el test que
sea uniformemente más potente (UMP):
para todo otro test, U, bU (q) b (q) para
todo q Q1
Algunas objeciones al enfoque
de Neyman-Pearson
Conceptuales:
– Asimetría entre hipótesis: papel de la nula
es más preponderante ¿Cómo elegir H0?
– Determinación del nivel de significación
¿Significado de “pequeño”? ¿porqué 0,05?
Técnicas (solventables):
– No siempre existe test UMP (solución:
condiciones adicionales para descartar
tests inaceptables)
Enfoque de los usuarios (¡no
de Fisher!): p-valor
Nivel de significación observado o “p-
valor”: dada y, mínimo nivel de
significación al que se rechazaría H0:
a obs = sup P r {T (Y ) і T (y ) q }
qОQ 0
Uso de aobs muy criticado. Correcto si
se rechaza H0 cuando aobs a, críticas
a su empleo como medida de seguridad
en la toma de cualquier decisión
Inferencia es inducción, cosas
como L o el p-valor: deducción
Estado de la naturaleza q Q
Deducción:
Inducción:
Pr{T(Y) T(y)|H0}
Pr{T(Y) T(y)|H0}
Pr{H0|y} !!
Datos observados y Y
Verdadero enfoque de Fisher.
Crisis del enfoque frecuentista
Fisher propuso emplear aobs como
medida de significación (gran avance
respecto de lo que se hacía antes: nada)
No propuso utilizarlo como medida a
posteriori de creencia en H0, utilización en
la línea de verosimilitud, etc.
Si requerido Pr{H0|y}, inaceptable Fisher o
Neyman-Pearson ¿Aceptable si tiene en
cuenta H0 y H1?¿Sólo enfoque de Bayes?
Uso erróneo de p-valores. I
p-valor = P{“estadístico de test extremo” | “H0
cierta”}
...y no al contrario:
p-valor = P{“H0 cierta” | “estadístico de test extremo”}
Consecuencia: NO indica si hipótesis nula es
muy o poco probable, es función de los datos,
un “estadístico” (una variable aleatoria) con
distribución dependiente de qué hipótesis es
realmente cierta (¡cuestión que desconocemos!)
Uso erróneo de p-valores. II
Si H0 cierta:
el p-valor sigue distribución uniforme: todos
los p-valores pueden darse por igual,
luego...
MUY INCORRECTO afirmar que hipótesis
nula es “muy significativa” o “la aceptamos
con mucha seguridad” si se obtuvo p-valor
grande, p.e. 0,90 ¡Este valor era igual de
probable que, p.e., 0,01!
Uso erróneo de p-valores. III
Si H0 es falsa:
Distribución de los p-valores es, en
general, desconocida, luego...
POCO JUSTIFICABLE afirmar “rechazamos
H0 muy significativamente” si hemos obtenido
p-valor “muy pequeño”. Diferencia real entre
0,02 i 0,001 depende de su verdadera
distribución, normalmente desconocida
“Calibración de p-valores”: metodología para
tratar de comparar p-valores correctamente
Uso correcto del p-valor
Fijamos un nivel de significación, a, p.e. 0,05
(probabilidad de error I aceptable)
Si p-valor observado es a rechazamos
H0
Si p-valor observado es > a no rechaz. H0
Manera “ortodoxa” (¡pero no la más habitual
a la práctica!) de realizar un test
Así: tendremos una probabilidad a priori
como máximo a, de cometer error de tipo I
Utilització correcta del p-valor
Es decir, a la larga, si cierta H0: de cada 100
veces que obtuviésemos los datos y
aplicásemos el test, solament la
rechazaríamos equivocadamente 100a veces
No és vàlida cualquier otra consideración en
función de que el p-valor sea grande o
pequeño
...pero si uno es el investigador que ha
obtenido un p-valor muy pequeño ¡duele no
poder utilitzar este hecho!
El p-valor no lo es todo
Supongamos que no hemos rechazado H0: error
común: pensar que probabilidad de error es 1-a
Ahora es P{“error de tipo II”} = P{“aceptar H0” |
“H0 falsa”}= 1-Potencia del test
Potencia depende, entre otras cosas, del tamaño
muestral. Se debería fijar tamaño muestral
adecuado para garantizar potencia aceptable
Si no, demasiado fácil aceptar una H0 que nos
interesa: bastaría utilizar pocos datos!