Download Guia Modulo3 Parte 3

Document related concepts
no text concepts found
Transcript
Parte 3. Generalidades de las pruebas de confrontación de hipótesis
Autor: Santiago Perez Lloret
En los documentos anteriores hemos analizado las características, ventajas y
desventajas de los diseños en investigación clínica más comúnmente utilizados.
Asimismo hemos analizado los sesgos más frecuentemente observados. En los
siguientes documentos ofreceremos una introducción al significado y utilización de
las pruebas de confrontación de hipótesis.
1. Generalidades de las pruebas de confrontación de
hipótesis.
La principal ventaja de las pruebas de confrontación de hipótesis, respecto de la
técnica del cálculo de los intervalos de confianza es que nos permite simplificar la
evaluación de la presencia de una asociación entre variables.
Ya nos hemos referido a las asociaciones entre variables. Dijimos que
considerábamos que dos variables se asociaban entre sí cuando se relacionaban
de alguna manera. Podemos precisar un poco más nuestra definición, diremos
que dos variables se asocian cuando al variar una la otra también. Existen dos
formas esenciales en las que podemos concebir dicha asociación.
Analicemos un ejemplo. Es sabido que la hipercolesterolemia se relaciona con la
presencia de ateroesclerosis, una de cuyas manifestaciones es la producción de
placas ateromatosas en las arterias carótidas, lo cual hace que disminuya el
1
calibre de la luz de dichas arterias. En otras palabras, sabemos que los niveles
elevados de colesterol plasmático se “asocian” con la reducción del calibre de las
arterias carótidas. Podemos afirmar, entonces, que existe una asociación entre las
variables “nivel plasmático de colesterol” y “calibre de las arterias carótidas”.

Existen principalmente dos formas experimentales complementarias en las
que podemos llegar a este resultado. Veámoslo con el siguiente ejemplo:
Un investigador seleccionó 2 grupos de sujetos que eran
similares en todo excepto en que uno tenía un nivel de
colesterol plasmático > 220 mg/dL, mientras que en el
Ejemplo 1
otro grupo el nivel era < 220. En el primer grupo el
promedio del calibre luminal de las arterias carótidas era
mucho menor que en el segundo grupo, como se
observa en la Figura 1, panel A.
Otro investigador midió el nivel plasmático de colesterol
y el calibre nominal en un grupo de sujetos. Cómo se
observa en la Figura 1, panel B, los sujetos con mayores
Ejemplo 2
niveles plasmáticos de colesterol, presentaban menor
calibre de la arteria carótida
2
B) Método de las
variaciones conjuntas
Calibre de la arteria C
Calibre de la arteria C
A) Método de la
concordancia y diferencia
Colesterol
<220
Colesterol
>220
Nivel de Colesterol en plasma
El incremento del colesterol plasmático se asocia con una
reducción del calibre de las arterias Carótidas (ateroesclerosis).
Si bien los enfoques en los paneles A y B son diferentes, la conclusión es la
misma: existe una asociación entre las variables “nivel plasmático de colesterol” y
“calibre de las arterias carótidas”.
Para evaluar esta asociación hemos utilizado, en el primer caso (panel A), el
“método de la concordancia y la diferencia”. En otras palabras, hemos buscado 2
grupos cuyos sujetos se parecían entre sí, dentro de cada grupo, y se
diferenciaban del otro grupo únicamente en el nivel de colesterol. En el segundo
caso, en cambio, el énfasis está en el análisis de la “variación conjunta” entre
estas dos variables.
Estos dos métodos son parte de los 5 métodos que el filósofo Stuart Mill ideó para
la búsqueda inductiva de asociaciones entre variables, en siglo XVIII. Este
desarrollo fue mucho anterior al de la estadística, tal como la conocemos hoy en
3
día, pero ha brindado el marco en el que tuvo lugar la investigación científica. La
estadística es un agregado tardío que ha resultado de extrema utilidad para el
progreso de la investigación, especialmente en los campos biomédico y social.
Veremos que las pruebas de confrontación de hipótesis, más conocidas como
“pruebas estadísticas” nos permiten analizar las asociaciones entre variables por
alguno de los dos métodos comentados. Así, algunas pruebas estadísticas se
encargaran de comparar diferencias entre grupos de sujetos experimentales
mientras que otros analizaran la variación conjunta entre un par de variables.
Esencialmente, ellas son “recetas de cocina” que nos permiten estimar, si
las seguimos al pie de la letra, la probabilidad de que los resultados
observados en un estudio cualquiera, NO muestren una asociación entre
variables.
A continuación analizaremos las características generales de todas las pruebas de
confrontación de hipótesis. En el Cuadro 1 se enumeran los pasos que deben ser
cumplidos para realizar cualquier prueba estadística:
Pasos para la realización de una prueba estadística.
Paso 1. Reformular la pregunta científica en forma de
hipótesis estadísticas.
Cuadro 1
Paso 2. Seleccionar la prueba estadística adecuada.
Paso 3. Seleccionar el nivel de significación para la prueba.
Paso 4. Seleccionar el valor crítico para dicho nivel de
significancia
4
Paso 5. Realizar los cálculos de la prueba estadística
seleccionada.
Paso 6. Obtener la conclusión de la prueba estadística.
Todas las pruebas estadísticas siguen estos pasos. Sólo el quinto paso requiere
cálculos matemáticos, los que no suelen ser necesarios dada la gran variedad y
calidad de los programas informáticos que los realizan por nosotros. Sin embargo,
los otros pasos no dependen de la “matemática” y por tanto quedan
completamente a cargo del investigador. De esta manera es crítico conocer todos
los aspectos que nos permitan elegir la prueba estadística indicada y poder
interpretar sus resultados. Si bien realizaremos una breve exposición de los
métodos matemáticos de cada prueba, la misma sólo busca facilitar la compresión
del funcionamiento de dicha prueba y no se supone que debamos conocer en
detalle los cálculos matemáticos.
Comencemos por un ejemplo.
Un investigador sospecha que uno de los excipientes de
una nueva vacuna podría causar hipotensión arterial. Para
demostrar el efecto hipotensor del excipiente X, se lo
Ejemplo
administró a un grupo de 30 ratas y un placebo a un grupo
control de otras 30 ratas. Durante el estudio evaluó la
presión arterial en la cola de ambos grupos de ratas en dos
ocasiones: antes y después de la administración del
tratamiento.
5
Podemos anticipar que el interés recaerá en conocer la diferencia entre la
variación de la presión luego de aplicar el excipiente X en relación a lo que ocurrió
en el grupo placebo.
Imaginemos que en el grupo tratado X la presión cayó 15 mmHg, mientras que en
el control sólo 5 mmHg. Veamos estos resultados en la figura,
0
-2
-4
mmHg
-6
-8
-10
-12
-14
-16
-18
Placebo
Placebo
Excipiente X
Beta-bloquenate
En la figura se muestra la media ± error estándar de la media del cambio de la
presión arterial en dos grupos de ratas, uno de los cuales recibió placebo y el otro
el excipiente X.
Volvamos un instante a las hipótesis científicas…
Todos los estudios científicos parten de una hipótesis, a la cual buscan confirmar o
refutar. Debe plantearse la salvedad de los estudios descriptivos, como por
ejemplo un censo o una encuesta de opinión, que no buscan refutar o confirmar la
hipótesis inicial, por lo que decimos que estos estudios son “descriptivos” y no
“analíticos”.
6
Con la información suministrada en el ejemplo, podríamos calcular los intervalos
de confianza de cada grupo, y más aún, el intervalo de confianza de la diferencia.
Entonces, ¿para qué emplear otro método?
Las pruebas estadísticas nos ofrecen una manera alternativa de evaluar la
presencia de una asociación entre dos variables, en este caso entre las variables
“modificación de la presión arterial” y “administración de excipiente X”.
Comenzaremos ahora con el estudio de las pruebas estadísticas, valiéndonos del
ejemplo anterior para facilitar su compresión.
Las hipótesis estadísticas.
Toda prueba estadística comienza, indefectiblemente por la elaboración de las
“hipótesis estadísticas”. Las mismas guiarán todo el resto del procedimiento y son
de vital importancia para la interpretación de las conclusiones. Ellas siempre
vienen de a pares:
7
Una de ellas, conocida como la hipótesis nula (H0), postula lo contrario a
lo que se quiere demostrar. En este caso la H0 sería no existe una
asociación entre las variables “caída de la presión arterial” y
“administración del excipiente X”. También podemos plantearlas en
términos matemáticos y decir la diferencia entre las medias de presión en
el grupo tratado con X y placebo es igual a 0 (lo que puede escribirse de
manera más sencilla, como “ΔX-placebo=0).
La otra, conocida como la Hipótesis alternativa (H1), es lo contrario a la
hipótesis nula y por tanto, lo que interesa demostrar. En este caso H1
sería existe una asociación entre las variables “modificación de la presión
arterial” y “administración de X”. El planteamiento en la forma matemática
sería ΔX-placebo≠0.
Antes de continuar, analicemos otros ejemplos:
Un investigador desea demostrar que los sujetos tratados
con una nueva vacuna para la influenza presentaban menor
riesgo de desarrollar neumonía por este virus que los
Ejemplo 1
sujetos no vacunados.
H0: el riesgo en los sujetos no vacunados es = al riesgo de
los sujetos vacunados
H1: el riesgo en los sujetos no vacunados es ≠ al riesgo de
los sujetos vacunados
8
Otro investigador desea demostrar que la exposición una
nueva vacuna contra el Virus del Papiloma Humano
incrementa el riesgo de sufrir un síncope.
Ejemplo 2
H0: el riesgo de síncope en los sujetos no expuestos es = al
riesgo de los sujetos expuestos.
H1: el riesgo de síncope en los sujetos no expuestos es ≠ al
riesgo de los sujetos expuestos.
El objetivo de todo estudio de investigación científica es recolectar
información suficiente para rechazar H0. Al rechazar H0, se puede aceptar H1.
Volviendo al ejemplo, la media del cambio en la presión arterial en el grupo tratado
con excipiente X fue de -15 mmHg, y de -5 en el grupo placebo.
De esta manera, ΔX-placebo= -10. Podríamos entonces concluir que, dado que ΔXplacebo≠0,
H0 no es cierta y que por tanto podemos aceptar 1. Pero, ¿es suficiente
esta información para concluir que H0 no es cierta?
Si recordamos la discusión sobre la “variabilidad” de los datos trabajada en el
módulo 2, podremos comprender fácilmente que no. Si la variabilidad de los datos
es alta, entonces la diferencia podría deberse al azar y no a un efecto real del
excipiente X. Así, de por sí una diferencia entre los tratamientos no es suficiente
para rechazar H0, sino que es necesario que dicha diferencia exceda la
variabilidad de los datos, lo cual nos permitirá afirmar que la diferencia no se debe
a la variabilidad de los datos y sí al efecto del tratamiento.
Hemos dicho que nuestro interés principal es recolectar suficiente evidencia en
contra de H0 y, por tanto, a favor de H1. Esto equivale a poder demostrar que la
diferencia entre los grupos supera la diferencia máxima esperable en función de la
variabilidad original de los datos. En este caso, estamos comparando la media de
9
la modificación de la presión arterial en dos grupos de animales, por lo cual
deberemos determinar si la diferencia observada (-10 mmHg) supera a la
diferencia esperada tomando en cuenta la variabilidad de los datos. Nos
ocuparemos de esto más adelante.
Volveremos a este tema más adelante. Discutamos ahora una suposición que
hemos mantenida encubierta hasta el momento. ¿Qué ocurre si no hay suficiente
evidencia para rechazar H0? Podría pensarse que cuando esto ocurre estamos en
condiciones de afirmar que H0 es cierta, concluyéndose que no existe una
asociación entre las variables de interés. Pero tal aseveración no es posible,
porque, en realidad, siempre puede diseñarse un experimento de mejor calidad,
que podría, en su momento, refutar H0.
En otras palabras, la falta de evidencia suficiente para refutar H0, no nos habilita a
concluir que H1 es falsa y H0 verdadera, cómo podría esperarse, sino que
debemos dar a H1 “el beneficio de la duda”, argumentando que otro estudio en el
futuro podría proveer la evidencia suficiente para rechazar H0.
Será de utilidad que saltemos, por un instante, al resultado de las prueba de
hipótesis. Seguramente todos los participantes de este Curso de la OPS/OMS
habrán escuchado hablar del valor p (o “p-value” en inglés). Dicho valor es una
probabilidad: la probabilidad de que H0 sea verdadera, a juzgar por los datos
recolectados en el estudio. Así, el resultado puede mostrar que p=0.5 (o 50%),
que implica que tenemos un 50% de probabilidad que H0 sea verdadera a juzgar
por los datos recolectados en el estudio. O por ejemplo, p<0.05 (o <5%) que nos
indica que la probabilidad de que H0 sea verdadera es inferior al 5%, en base a
los datos recolectados. Por convención, cuando p<0.05, decimos que la
probabilidad de que H0 sea verdadera es despreciable, por lo cual podemos
10
concluir con confianza que H0 puede ser refutada y H1 aceptada como verdadera.
En este caso decimos que el resultado es estadísticamente significativo.
El poder estadístico de una prueba estadística es la capacidad de dicha prueba de
rechazar H0 cuando H1 es cierta. Su principal determinante, como veremos más
adelante, es el tamaño muestral y el tipo de técnica estadística utilizada.
Ahora volvamos a las hipótesis planteadas al inicio, en relación al ejemplo
analizado,
H0: ΔX-placebo=0
H1 : ΔX-placebo≠0
Si la sospecha inicial consistió en que el excipiente era responsable del descenso
de la presión arterial ¿porqué no hemos planteado sencillamente que H1: ΔXplacebo<0?
Observe que mientras que en el primer caso planteábamos
que la diferencia de presión al administrar X y placebo era
diferente de 0, en el segundo caso sólo estamos interesados
en demostrar que dicha diferencia era menor que 0. El
primer caso corresponde a una hipótesis denominada “de
dos colas”, mientras que el segundo un caso de hipótesis
“de una cola”. Ambas son correctas, pero la primera, la de
dos colas, nos da mayor libertad en el análisis y
conclusiones, porque nos permitirá evaluar diferencias a
favor o en contra del tratamiento. A cambio de esta libertad,
necesitaremos una diferencia mayor entre medias para
demostrar una diferencia estadísticamente significativa.
11
Debemos ser muy cuidadosos en la decisión de si emplear una hipótesis de 1 o 2
colas. Por lo general, se recomienda utilizar siempre hipótesis de 2 colas, excepto
que, por alguna razón, sólo estemos interesados en una de las colas. Cuando
hagamos esta elección, debemos tener en cuenta que estamos obligados a
estudiar el resultado en la dirección seleccionada. Así, si el resultado va en contra
de lo esperado (es decir, si por ejemplo, esperábamos una diferencia negativa y la
misma fue positiva), lo cual puede ser de por sí interesante desde el punto de vista
científico, sencillamente no podremos evaluarlo.
12
Selección de la prueba estadística indicada.
Hemos estudiado en el módulo 2 que la forma en que debíamos describir una
variable depende de las características de la variable, es decir, si era categórica,
ordinal o numérica. De la misma manera, la selección de la prueba estadística
indicada depende del tipo de variables a analizar y de otros factores, que
resumimos en el Cuadro 2.
Factores a tener en cuenta para la selección de la prueba
estadística indicada en cada caso
1. Tipo de variable a analizar.
Cuadro 2
2. Tamaño de los grupos en comparación (si corresponde)
3. Distribución de la población de origen de las variables
analizadas.
Antes de analizar por separado cada una de las pruebas estadísticas más
sencillas y utilizadas, haremos una diferenciación entre dos grandes grupos de
técnicas estadísticas: las paramétricas y las no paramétricas.
La principal ventaja de las pruebas paramétricas es que tienen mayor poder
estadístico (es decir, mayor probabilidad de rechazar H0 cuando en realidad H1 es
verdadera). Sin embargo, para poder utilizarlas debemos cumplir con 2
requerimientos esenciales: la distribución de origen de la variable en estudio debe
ser gaussiana (o normal) y las varianzas entre los grupos comparados debe ser
similar.
Cuando estos requisitos no se cumplen, lo mismo que cuando estamos
interesados en la comparación de variables categóricas y ordinales, debemos
13
emplear estadística no paramétrica. La gran limitación de este grupo de pruebas
estadísticas es que, para lograr el mismo nivel de potencia estadística que las
pruebas paramétricas, debemos emplear un mayor número de sujetos. Dentro del
grupo de las pruebas paramétricas se encuentran: la prueba t, el ANOVA y el
análisis de correlación (Pearson) y regresión.
Hemos analizado, hasta el momento, los dos primeros pasos de nuestra “hoja de
ruta” (Cuadro 1) para la realización de pruebas estadísticas. Los pasos restantes
son específicos para cada prueba. Comenzaremos por analizar las diferentes
modalidades de las pruebas T. Como hemos dicho, forman parte de las pruebas
paramétricas y nos permiten analizar diferencias de variables numéricas en 1
grupo (prueba t para una muestra) o en 2 grupos, los cuales pueden ser
independientes (prueba t para grupos independientes) o no (prueba t para grupos
apareados).
Selección del nivel de significancia de la prueba.
Ya nos hemos referido a la significación estadística de una prueba. Hablamos del
valor p y dijimos que era la probabilidad de que H0 fuera verdadera, a juzgar por
los datos recolectados en el estudio. También dijimos que por convención,
considerábamos que rechazábamos H0 y aceptábamos H1 cuando p<0.05. Este
constituye el nivel de significancia de nuestra prueba. Podríamos seleccionar
otros. Por ejemplo, podríamos plantear que el nivel de significación deseado es
0.01 (o 1%), luego, para rechazar H0 y aceptar H1, sería necesario obtener un
valor p<0.01.
Observe que en ninguno de los dos casos podemos afirmar con 100% de certeza
que H0 no es verdadera y que por tanto lo es H1, sino que decimos que, partiendo
de los datos observados, la probabilidad de que H0 sea verdadera es menor a 5%
14
o 1%, respectivamente. Evidentemente, si logramos rechazar H0 con un nivel de
significancia del 1%, tendremos menos probabilidad de equivocaremos, es decir,
estaremos mucho más seguros sobre la “veracidad” de esta conclusión. Así, el
nivel de significación elegido determina la “confianza” que podremos tener en el
resultado obtenido.
Conclusiones de las pruebas estadísticas y errores posibles.
Cómo hemos visto, las conclusiones posibles de una prueba de hipótesis son:
-
Existe suficiente evidencia para rechazar H0, por lo que se acepta H1 como
verdadera o;
-
No existe suficiente evidencia para rechazar H0, por lo que H1 no puede ser
aceptada como verdadera.
Sin embargo, cómo hemos dicho, estas conclusiones se basan sobre un juicio de
probabilidades, pudiendo, por tanto existir errores en ellas. Analicemos estos
errores…
Conclusión
Es cierta
H0
H1
H0
Acierto
Error por falso
negativo (error β)
H1
Error por falso
positivo (error α)
Acierto
15
Cuando, al utilizar una prueba de confrontación de hipótesis concluimos que H1 es
cierta, cuando en realidad no lo es, estamos cometiendo un error de tipo α. El
error α está determinado por el nivel de significancia seleccionado. Así,
cuanto menor sea el nivel de significación deseado, tanto menor será la
probabilidad de cometer un error α.
Ahora estamos en posición de poder definir el concepto de confianza = 1 – error
α, donde debe interpretarse que el error α está determinado por el nivel de
confianza seleccionado.
Por el contrario, si la prueba nos lleva a concluir que H0 no puede ser refutada, a
juzgar por los datos observados, cuando en realidad H1 es cierta, cometeremos
un error β o de falso negativo. Dijimos antes que cuando más potente es una
prueba, tanto mayor es la probabilidad de concluir que H1 es verdadera cuando en
realidad lo es. Puede advertirse por tanto que potencia = 1 – error β. La potencia
del
estudio
se
relaciona
principalmente
con
el
tamaño
muestral.
Frecuentemente ocurre que se observan resultados negativos los cuales pueden
deberse a un tamaño muestra insuficiente. Así, puede comprenderse por qué
nunca podremos concluir que H0 es falsa, viéndonos obligados por tanto a tener
que contentarnos con no poder refutarla. Siempre un estudio llevado a cabo en el
futuro, con un tamaño muestral más grande, podría demostrar la falsedad de H0 y
conducir a la aceptación de H1.
16
Los errores α y β se excluyen mutuamente y cuando uno se incrementa el
otro disminuye y viceversa. Es decir, supongamos que deseamos más
confianza en nuestro resultado, lo cual puede ser logrado mediante la
reducción del nivel de significancia (es decir, del error α). Sin embargo
esto conducirá a un incremento no deseado pero inevitable del error β. En
otras palabras, cuantos más exigentes nos ponemos con nuestros
resultados, mayor es la posibilidad de obtener un resultado falso negativo.
Por otro lado, si quisiéramos tener mucha potencia, para asegurarnos así
de poder rechazar H0 cuando H1 sea cierta, tendríamos que pagar el
precio: una mayor posibilidad de error alfa, que es la posibilidad de
rechazar H0 cuando en realidad H0 es cierta.
En los próximos documentos nos adentraremos en las
características de las diferentes pruebas de confrontación
de hipótesis…Pues a descansar un rato, que el tema y
Conclusión
vuestro gran esfuerzo así lo ameritan!
Hasta pronto!!!
17