Download Guia Modulo3 Parte 3
Document related concepts
no text concepts found
Transcript
Parte 3. Generalidades de las pruebas de confrontación de hipótesis Autor: Santiago Perez Lloret En los documentos anteriores hemos analizado las características, ventajas y desventajas de los diseños en investigación clínica más comúnmente utilizados. Asimismo hemos analizado los sesgos más frecuentemente observados. En los siguientes documentos ofreceremos una introducción al significado y utilización de las pruebas de confrontación de hipótesis. 1. Generalidades de las pruebas de confrontación de hipótesis. La principal ventaja de las pruebas de confrontación de hipótesis, respecto de la técnica del cálculo de los intervalos de confianza es que nos permite simplificar la evaluación de la presencia de una asociación entre variables. Ya nos hemos referido a las asociaciones entre variables. Dijimos que considerábamos que dos variables se asociaban entre sí cuando se relacionaban de alguna manera. Podemos precisar un poco más nuestra definición, diremos que dos variables se asocian cuando al variar una la otra también. Existen dos formas esenciales en las que podemos concebir dicha asociación. Analicemos un ejemplo. Es sabido que la hipercolesterolemia se relaciona con la presencia de ateroesclerosis, una de cuyas manifestaciones es la producción de placas ateromatosas en las arterias carótidas, lo cual hace que disminuya el 1 calibre de la luz de dichas arterias. En otras palabras, sabemos que los niveles elevados de colesterol plasmático se “asocian” con la reducción del calibre de las arterias carótidas. Podemos afirmar, entonces, que existe una asociación entre las variables “nivel plasmático de colesterol” y “calibre de las arterias carótidas”. Existen principalmente dos formas experimentales complementarias en las que podemos llegar a este resultado. Veámoslo con el siguiente ejemplo: Un investigador seleccionó 2 grupos de sujetos que eran similares en todo excepto en que uno tenía un nivel de colesterol plasmático > 220 mg/dL, mientras que en el Ejemplo 1 otro grupo el nivel era < 220. En el primer grupo el promedio del calibre luminal de las arterias carótidas era mucho menor que en el segundo grupo, como se observa en la Figura 1, panel A. Otro investigador midió el nivel plasmático de colesterol y el calibre nominal en un grupo de sujetos. Cómo se observa en la Figura 1, panel B, los sujetos con mayores Ejemplo 2 niveles plasmáticos de colesterol, presentaban menor calibre de la arteria carótida 2 B) Método de las variaciones conjuntas Calibre de la arteria C Calibre de la arteria C A) Método de la concordancia y diferencia Colesterol <220 Colesterol >220 Nivel de Colesterol en plasma El incremento del colesterol plasmático se asocia con una reducción del calibre de las arterias Carótidas (ateroesclerosis). Si bien los enfoques en los paneles A y B son diferentes, la conclusión es la misma: existe una asociación entre las variables “nivel plasmático de colesterol” y “calibre de las arterias carótidas”. Para evaluar esta asociación hemos utilizado, en el primer caso (panel A), el “método de la concordancia y la diferencia”. En otras palabras, hemos buscado 2 grupos cuyos sujetos se parecían entre sí, dentro de cada grupo, y se diferenciaban del otro grupo únicamente en el nivel de colesterol. En el segundo caso, en cambio, el énfasis está en el análisis de la “variación conjunta” entre estas dos variables. Estos dos métodos son parte de los 5 métodos que el filósofo Stuart Mill ideó para la búsqueda inductiva de asociaciones entre variables, en siglo XVIII. Este desarrollo fue mucho anterior al de la estadística, tal como la conocemos hoy en 3 día, pero ha brindado el marco en el que tuvo lugar la investigación científica. La estadística es un agregado tardío que ha resultado de extrema utilidad para el progreso de la investigación, especialmente en los campos biomédico y social. Veremos que las pruebas de confrontación de hipótesis, más conocidas como “pruebas estadísticas” nos permiten analizar las asociaciones entre variables por alguno de los dos métodos comentados. Así, algunas pruebas estadísticas se encargaran de comparar diferencias entre grupos de sujetos experimentales mientras que otros analizaran la variación conjunta entre un par de variables. Esencialmente, ellas son “recetas de cocina” que nos permiten estimar, si las seguimos al pie de la letra, la probabilidad de que los resultados observados en un estudio cualquiera, NO muestren una asociación entre variables. A continuación analizaremos las características generales de todas las pruebas de confrontación de hipótesis. En el Cuadro 1 se enumeran los pasos que deben ser cumplidos para realizar cualquier prueba estadística: Pasos para la realización de una prueba estadística. Paso 1. Reformular la pregunta científica en forma de hipótesis estadísticas. Cuadro 1 Paso 2. Seleccionar la prueba estadística adecuada. Paso 3. Seleccionar el nivel de significación para la prueba. Paso 4. Seleccionar el valor crítico para dicho nivel de significancia 4 Paso 5. Realizar los cálculos de la prueba estadística seleccionada. Paso 6. Obtener la conclusión de la prueba estadística. Todas las pruebas estadísticas siguen estos pasos. Sólo el quinto paso requiere cálculos matemáticos, los que no suelen ser necesarios dada la gran variedad y calidad de los programas informáticos que los realizan por nosotros. Sin embargo, los otros pasos no dependen de la “matemática” y por tanto quedan completamente a cargo del investigador. De esta manera es crítico conocer todos los aspectos que nos permitan elegir la prueba estadística indicada y poder interpretar sus resultados. Si bien realizaremos una breve exposición de los métodos matemáticos de cada prueba, la misma sólo busca facilitar la compresión del funcionamiento de dicha prueba y no se supone que debamos conocer en detalle los cálculos matemáticos. Comencemos por un ejemplo. Un investigador sospecha que uno de los excipientes de una nueva vacuna podría causar hipotensión arterial. Para demostrar el efecto hipotensor del excipiente X, se lo Ejemplo administró a un grupo de 30 ratas y un placebo a un grupo control de otras 30 ratas. Durante el estudio evaluó la presión arterial en la cola de ambos grupos de ratas en dos ocasiones: antes y después de la administración del tratamiento. 5 Podemos anticipar que el interés recaerá en conocer la diferencia entre la variación de la presión luego de aplicar el excipiente X en relación a lo que ocurrió en el grupo placebo. Imaginemos que en el grupo tratado X la presión cayó 15 mmHg, mientras que en el control sólo 5 mmHg. Veamos estos resultados en la figura, 0 -2 -4 mmHg -6 -8 -10 -12 -14 -16 -18 Placebo Placebo Excipiente X Beta-bloquenate En la figura se muestra la media ± error estándar de la media del cambio de la presión arterial en dos grupos de ratas, uno de los cuales recibió placebo y el otro el excipiente X. Volvamos un instante a las hipótesis científicas… Todos los estudios científicos parten de una hipótesis, a la cual buscan confirmar o refutar. Debe plantearse la salvedad de los estudios descriptivos, como por ejemplo un censo o una encuesta de opinión, que no buscan refutar o confirmar la hipótesis inicial, por lo que decimos que estos estudios son “descriptivos” y no “analíticos”. 6 Con la información suministrada en el ejemplo, podríamos calcular los intervalos de confianza de cada grupo, y más aún, el intervalo de confianza de la diferencia. Entonces, ¿para qué emplear otro método? Las pruebas estadísticas nos ofrecen una manera alternativa de evaluar la presencia de una asociación entre dos variables, en este caso entre las variables “modificación de la presión arterial” y “administración de excipiente X”. Comenzaremos ahora con el estudio de las pruebas estadísticas, valiéndonos del ejemplo anterior para facilitar su compresión. Las hipótesis estadísticas. Toda prueba estadística comienza, indefectiblemente por la elaboración de las “hipótesis estadísticas”. Las mismas guiarán todo el resto del procedimiento y son de vital importancia para la interpretación de las conclusiones. Ellas siempre vienen de a pares: 7 Una de ellas, conocida como la hipótesis nula (H0), postula lo contrario a lo que se quiere demostrar. En este caso la H0 sería no existe una asociación entre las variables “caída de la presión arterial” y “administración del excipiente X”. También podemos plantearlas en términos matemáticos y decir la diferencia entre las medias de presión en el grupo tratado con X y placebo es igual a 0 (lo que puede escribirse de manera más sencilla, como “ΔX-placebo=0). La otra, conocida como la Hipótesis alternativa (H1), es lo contrario a la hipótesis nula y por tanto, lo que interesa demostrar. En este caso H1 sería existe una asociación entre las variables “modificación de la presión arterial” y “administración de X”. El planteamiento en la forma matemática sería ΔX-placebo≠0. Antes de continuar, analicemos otros ejemplos: Un investigador desea demostrar que los sujetos tratados con una nueva vacuna para la influenza presentaban menor riesgo de desarrollar neumonía por este virus que los Ejemplo 1 sujetos no vacunados. H0: el riesgo en los sujetos no vacunados es = al riesgo de los sujetos vacunados H1: el riesgo en los sujetos no vacunados es ≠ al riesgo de los sujetos vacunados 8 Otro investigador desea demostrar que la exposición una nueva vacuna contra el Virus del Papiloma Humano incrementa el riesgo de sufrir un síncope. Ejemplo 2 H0: el riesgo de síncope en los sujetos no expuestos es = al riesgo de los sujetos expuestos. H1: el riesgo de síncope en los sujetos no expuestos es ≠ al riesgo de los sujetos expuestos. El objetivo de todo estudio de investigación científica es recolectar información suficiente para rechazar H0. Al rechazar H0, se puede aceptar H1. Volviendo al ejemplo, la media del cambio en la presión arterial en el grupo tratado con excipiente X fue de -15 mmHg, y de -5 en el grupo placebo. De esta manera, ΔX-placebo= -10. Podríamos entonces concluir que, dado que ΔXplacebo≠0, H0 no es cierta y que por tanto podemos aceptar 1. Pero, ¿es suficiente esta información para concluir que H0 no es cierta? Si recordamos la discusión sobre la “variabilidad” de los datos trabajada en el módulo 2, podremos comprender fácilmente que no. Si la variabilidad de los datos es alta, entonces la diferencia podría deberse al azar y no a un efecto real del excipiente X. Así, de por sí una diferencia entre los tratamientos no es suficiente para rechazar H0, sino que es necesario que dicha diferencia exceda la variabilidad de los datos, lo cual nos permitirá afirmar que la diferencia no se debe a la variabilidad de los datos y sí al efecto del tratamiento. Hemos dicho que nuestro interés principal es recolectar suficiente evidencia en contra de H0 y, por tanto, a favor de H1. Esto equivale a poder demostrar que la diferencia entre los grupos supera la diferencia máxima esperable en función de la variabilidad original de los datos. En este caso, estamos comparando la media de 9 la modificación de la presión arterial en dos grupos de animales, por lo cual deberemos determinar si la diferencia observada (-10 mmHg) supera a la diferencia esperada tomando en cuenta la variabilidad de los datos. Nos ocuparemos de esto más adelante. Volveremos a este tema más adelante. Discutamos ahora una suposición que hemos mantenida encubierta hasta el momento. ¿Qué ocurre si no hay suficiente evidencia para rechazar H0? Podría pensarse que cuando esto ocurre estamos en condiciones de afirmar que H0 es cierta, concluyéndose que no existe una asociación entre las variables de interés. Pero tal aseveración no es posible, porque, en realidad, siempre puede diseñarse un experimento de mejor calidad, que podría, en su momento, refutar H0. En otras palabras, la falta de evidencia suficiente para refutar H0, no nos habilita a concluir que H1 es falsa y H0 verdadera, cómo podría esperarse, sino que debemos dar a H1 “el beneficio de la duda”, argumentando que otro estudio en el futuro podría proveer la evidencia suficiente para rechazar H0. Será de utilidad que saltemos, por un instante, al resultado de las prueba de hipótesis. Seguramente todos los participantes de este Curso de la OPS/OMS habrán escuchado hablar del valor p (o “p-value” en inglés). Dicho valor es una probabilidad: la probabilidad de que H0 sea verdadera, a juzgar por los datos recolectados en el estudio. Así, el resultado puede mostrar que p=0.5 (o 50%), que implica que tenemos un 50% de probabilidad que H0 sea verdadera a juzgar por los datos recolectados en el estudio. O por ejemplo, p<0.05 (o <5%) que nos indica que la probabilidad de que H0 sea verdadera es inferior al 5%, en base a los datos recolectados. Por convención, cuando p<0.05, decimos que la probabilidad de que H0 sea verdadera es despreciable, por lo cual podemos 10 concluir con confianza que H0 puede ser refutada y H1 aceptada como verdadera. En este caso decimos que el resultado es estadísticamente significativo. El poder estadístico de una prueba estadística es la capacidad de dicha prueba de rechazar H0 cuando H1 es cierta. Su principal determinante, como veremos más adelante, es el tamaño muestral y el tipo de técnica estadística utilizada. Ahora volvamos a las hipótesis planteadas al inicio, en relación al ejemplo analizado, H0: ΔX-placebo=0 H1 : ΔX-placebo≠0 Si la sospecha inicial consistió en que el excipiente era responsable del descenso de la presión arterial ¿porqué no hemos planteado sencillamente que H1: ΔXplacebo<0? Observe que mientras que en el primer caso planteábamos que la diferencia de presión al administrar X y placebo era diferente de 0, en el segundo caso sólo estamos interesados en demostrar que dicha diferencia era menor que 0. El primer caso corresponde a una hipótesis denominada “de dos colas”, mientras que el segundo un caso de hipótesis “de una cola”. Ambas son correctas, pero la primera, la de dos colas, nos da mayor libertad en el análisis y conclusiones, porque nos permitirá evaluar diferencias a favor o en contra del tratamiento. A cambio de esta libertad, necesitaremos una diferencia mayor entre medias para demostrar una diferencia estadísticamente significativa. 11 Debemos ser muy cuidadosos en la decisión de si emplear una hipótesis de 1 o 2 colas. Por lo general, se recomienda utilizar siempre hipótesis de 2 colas, excepto que, por alguna razón, sólo estemos interesados en una de las colas. Cuando hagamos esta elección, debemos tener en cuenta que estamos obligados a estudiar el resultado en la dirección seleccionada. Así, si el resultado va en contra de lo esperado (es decir, si por ejemplo, esperábamos una diferencia negativa y la misma fue positiva), lo cual puede ser de por sí interesante desde el punto de vista científico, sencillamente no podremos evaluarlo. 12 Selección de la prueba estadística indicada. Hemos estudiado en el módulo 2 que la forma en que debíamos describir una variable depende de las características de la variable, es decir, si era categórica, ordinal o numérica. De la misma manera, la selección de la prueba estadística indicada depende del tipo de variables a analizar y de otros factores, que resumimos en el Cuadro 2. Factores a tener en cuenta para la selección de la prueba estadística indicada en cada caso 1. Tipo de variable a analizar. Cuadro 2 2. Tamaño de los grupos en comparación (si corresponde) 3. Distribución de la población de origen de las variables analizadas. Antes de analizar por separado cada una de las pruebas estadísticas más sencillas y utilizadas, haremos una diferenciación entre dos grandes grupos de técnicas estadísticas: las paramétricas y las no paramétricas. La principal ventaja de las pruebas paramétricas es que tienen mayor poder estadístico (es decir, mayor probabilidad de rechazar H0 cuando en realidad H1 es verdadera). Sin embargo, para poder utilizarlas debemos cumplir con 2 requerimientos esenciales: la distribución de origen de la variable en estudio debe ser gaussiana (o normal) y las varianzas entre los grupos comparados debe ser similar. Cuando estos requisitos no se cumplen, lo mismo que cuando estamos interesados en la comparación de variables categóricas y ordinales, debemos 13 emplear estadística no paramétrica. La gran limitación de este grupo de pruebas estadísticas es que, para lograr el mismo nivel de potencia estadística que las pruebas paramétricas, debemos emplear un mayor número de sujetos. Dentro del grupo de las pruebas paramétricas se encuentran: la prueba t, el ANOVA y el análisis de correlación (Pearson) y regresión. Hemos analizado, hasta el momento, los dos primeros pasos de nuestra “hoja de ruta” (Cuadro 1) para la realización de pruebas estadísticas. Los pasos restantes son específicos para cada prueba. Comenzaremos por analizar las diferentes modalidades de las pruebas T. Como hemos dicho, forman parte de las pruebas paramétricas y nos permiten analizar diferencias de variables numéricas en 1 grupo (prueba t para una muestra) o en 2 grupos, los cuales pueden ser independientes (prueba t para grupos independientes) o no (prueba t para grupos apareados). Selección del nivel de significancia de la prueba. Ya nos hemos referido a la significación estadística de una prueba. Hablamos del valor p y dijimos que era la probabilidad de que H0 fuera verdadera, a juzgar por los datos recolectados en el estudio. También dijimos que por convención, considerábamos que rechazábamos H0 y aceptábamos H1 cuando p<0.05. Este constituye el nivel de significancia de nuestra prueba. Podríamos seleccionar otros. Por ejemplo, podríamos plantear que el nivel de significación deseado es 0.01 (o 1%), luego, para rechazar H0 y aceptar H1, sería necesario obtener un valor p<0.01. Observe que en ninguno de los dos casos podemos afirmar con 100% de certeza que H0 no es verdadera y que por tanto lo es H1, sino que decimos que, partiendo de los datos observados, la probabilidad de que H0 sea verdadera es menor a 5% 14 o 1%, respectivamente. Evidentemente, si logramos rechazar H0 con un nivel de significancia del 1%, tendremos menos probabilidad de equivocaremos, es decir, estaremos mucho más seguros sobre la “veracidad” de esta conclusión. Así, el nivel de significación elegido determina la “confianza” que podremos tener en el resultado obtenido. Conclusiones de las pruebas estadísticas y errores posibles. Cómo hemos visto, las conclusiones posibles de una prueba de hipótesis son: - Existe suficiente evidencia para rechazar H0, por lo que se acepta H1 como verdadera o; - No existe suficiente evidencia para rechazar H0, por lo que H1 no puede ser aceptada como verdadera. Sin embargo, cómo hemos dicho, estas conclusiones se basan sobre un juicio de probabilidades, pudiendo, por tanto existir errores en ellas. Analicemos estos errores… Conclusión Es cierta H0 H1 H0 Acierto Error por falso negativo (error β) H1 Error por falso positivo (error α) Acierto 15 Cuando, al utilizar una prueba de confrontación de hipótesis concluimos que H1 es cierta, cuando en realidad no lo es, estamos cometiendo un error de tipo α. El error α está determinado por el nivel de significancia seleccionado. Así, cuanto menor sea el nivel de significación deseado, tanto menor será la probabilidad de cometer un error α. Ahora estamos en posición de poder definir el concepto de confianza = 1 – error α, donde debe interpretarse que el error α está determinado por el nivel de confianza seleccionado. Por el contrario, si la prueba nos lleva a concluir que H0 no puede ser refutada, a juzgar por los datos observados, cuando en realidad H1 es cierta, cometeremos un error β o de falso negativo. Dijimos antes que cuando más potente es una prueba, tanto mayor es la probabilidad de concluir que H1 es verdadera cuando en realidad lo es. Puede advertirse por tanto que potencia = 1 – error β. La potencia del estudio se relaciona principalmente con el tamaño muestral. Frecuentemente ocurre que se observan resultados negativos los cuales pueden deberse a un tamaño muestra insuficiente. Así, puede comprenderse por qué nunca podremos concluir que H0 es falsa, viéndonos obligados por tanto a tener que contentarnos con no poder refutarla. Siempre un estudio llevado a cabo en el futuro, con un tamaño muestral más grande, podría demostrar la falsedad de H0 y conducir a la aceptación de H1. 16 Los errores α y β se excluyen mutuamente y cuando uno se incrementa el otro disminuye y viceversa. Es decir, supongamos que deseamos más confianza en nuestro resultado, lo cual puede ser logrado mediante la reducción del nivel de significancia (es decir, del error α). Sin embargo esto conducirá a un incremento no deseado pero inevitable del error β. En otras palabras, cuantos más exigentes nos ponemos con nuestros resultados, mayor es la posibilidad de obtener un resultado falso negativo. Por otro lado, si quisiéramos tener mucha potencia, para asegurarnos así de poder rechazar H0 cuando H1 sea cierta, tendríamos que pagar el precio: una mayor posibilidad de error alfa, que es la posibilidad de rechazar H0 cuando en realidad H0 es cierta. En los próximos documentos nos adentraremos en las características de las diferentes pruebas de confrontación de hipótesis…Pues a descansar un rato, que el tema y Conclusión vuestro gran esfuerzo así lo ameritan! Hasta pronto!!! 17