Download Teniendo la n grande, ¿quién necesita una p pequeña?,El consuelo

Document related concepts
no text concepts found
Transcript
Los
tres
sabiduría
pilares
de
la
Seguro que todos, con una frecuencia mayor de la que desearíamos,
habremos encontrado alguna lagunilla en nuestro conocimiento que nos hacía
dudar de los pasos a seguir en el diagnóstico o tratamiento de alguno de
nuestros pacientes. Siguiendo la costumbre habitual, e intentando ahorrar
esfuerzos, seguro que habremos preguntado a los colegas más cercanos, con
la esperanza de que nos resolviesen el problema sin tener que acudir al
temido PubMed (¡¿Quién ha dicho Google?!). Como último recurso hasta
habremos consultado algún libro de medicina en un intento desesperado de
obtener respuestas, pero ni los libros más gordos nos libran de tener que
buscar en una base de datos de vez en cuando.
Y para hacerlo bien, convendrá que sigamos la sistemática de los cinco
pasos que nos marca la Medicina Basada en la Evidencia: formular nuestra
pregunta de forma estructurada (primer paso), hacer nuestra búsqueda
bibliográfica (segundo paso) y leer críticamente los artículos que
encontremos y que consideremos relevantes para el tema (tercer paso), para
terminar con los dos últimos pasos que consistirán en combinar lo que hemos
encontrado con nuestra experiencia y los valores del paciente (cuarto paso)
y evaluar cómo influye en nuestro desempeño (quinto paso).
Así que nos arremangamos, elaboramos nuestra pregunta clínica
estructurada y entramos en PubMed, Embase o TRIP, o la base de datos que
nos interese para buscar respuestas. Tras no pocos sudores fríos
conseguimos bajar el número inicial de resultados de 15234 y obtenemos el
trabajo deseado que esperamos ilumine nuestra ignorancia. Pero, aunque la
búsqueda haya sido impecable, ¿estamos seguros de que hemos encontrado lo
que necesitamos? Comienza aquí la ardua tarea de realizar una lectura
crítica del trabajo para valorar su capacidad real para solucionar nuestro
problema.
Este paso, el tercero de los cinco que hemos visto y quizás el más
temido de todos, es indispensable dentro del flujo metodológico de la
Medicina Basada en la Evidencia. Y esto es así porque no es oro todo lo que
reluce: incluso artículos publicados en revistas de prestigio por autores
conocidos pueden tener una calidad deficiente, contener errores
metodológicos, no tener nada que ver con nuestro problema o tener errores
en la forma de analizar o presentar los resultados, muchas veces de manera
sospechosamente interesada. Y no es porque lo diga yo, incluso hay quien
piensa que el lugar más idóneo para guardar el 90% de lo que se publica es
la papelera, sin importar si la revista es de alto impacto o si los autores
son más famosos que Julio Iglesias (o su hijo Enrique, para el caso).
Nuestra pobre excusa para justificar nuestro poco conocimiento sobre cómo
elaborar y publicar trabajos científicos es que somos clínicos y no
investigadores y, claro, lo mismo le ocurre muchas veces a los revisores de
las revistas, que se tragan todos los gazapos que metemos los clínicos.
Así, pues, se entiende que la lectura crítica sea un paso fundamental
para sacar el máximo provecho de la literatura científica, en especial en
una era en la que abunda la información pero escasea el tiempo disponible
para evaluarla.
Antes de entrar en la sistemática de la lectura, echaremos un vistazo
por encima al documento y su resumen para tratar de ver si el artículo en
cuestión puede cumplir nuestras expectativas. El primer paso que debemos
realizar siempre es valorar si el trabajo contesta a nuestra pregunta. Esto
suele ser así si hemos elaborado correctamente la pregunta clínica
estructurada y hemos hecho una buena búsqueda de la evidencia disponible,
pero de todos modos conviene siempre comprobar que el tipo de población,
estudio, intervención, etc se ajustan a lo que buscamos.
Una vez que estamos convencidos de que es el trabajo que necesitamos,
realizaremos la lectura crítica. Aunque los detalles dependerán del tipo de
diseño del estudio, siempre nos apoyaremos en tres pilares básicos:
validez, importancia y aplicabilidad.
La validez consiste en comprobar el rigor científico del trabajo para
saber cuánto se aproxima a la verdad. Hay una serie de criterios comunes a
todos los estudios, como son un diseño correcto, una población adecuada, la
existencia de grupos de intervención y control homogéneos al comienzo del
estudio, un seguimiento correcto, etc. A alguien se le ocurrió que esta
validez debía llamarse mejor validez interna, así que podemos encontrarla
también con este nombre.
El segundo pilar es la importancia, que mide la magnitud del efecto
encontrado. Imaginemos el hipotensor de turno que con una p cargada de
ceros es mejor que el de uso habitual, pero que disminuye la presión
arterial una media de 5 mmHg. Por muchos ceros que tenga la p (que es
estadísticamente significativa, eso no se lo quita nadie) no me negaréis
que el impacto del efecto es más bien ridículo.
El último pilar es el de la aplicabilidad, que consiste en valorar si la
situación, pacientes e intervención del estudio son lo suficientemente
parecidos a nuestro ambiente como para generalizar los resultados. La
aplicabilidad se conoce también como validez externa.
No todos los trabajos científicos pueden ser calificados de forma
favorable en estos tres aspectos. Puede ocurrir que un trabajo muy válido
(validez interna) que encuentre un efecto muy importante no sea aplicable
en absoluto a nuestros pacientes. Además, no debemos olvidar que estamos
hablando de una herramienta de trabajo. Aún con los trabajos más idóneos
hay que tener siempre en cuenta los beneficios, daños y costes, así como
las preferencias del paciente, aspecto este último del que nos olvidamos
con más frecuencia de la que sería deseable.
Para facilitar la sistemática en el acto de la lectura crítica, existen
diversas herramientas disponibles en Internet. Una de las más utilizadas
son las plantillas o parrillas del grupo CASPe, más que recomendables para
utilizar como guía al realizar una lectura crítica sin olvidar ningún
aspecto importante. También en nuestro medio están disponibles las fichas
de lectura crítica (FLC) de Osteba, que permiten almacenar los trabajos
analizados. Y, para aquellos que les guste el inglés, pueden usar las
herramientas escocesas de SIGN.
Lógicamente, las medidas específicas de impacto y asociación y los
requisitos para cumplir los criterios de validez interna dependerán
específicamente del tipo de diseño del estudio que tengamos entre manos.
Pero esa es otra historia…
Teniendo la n grande, ¿quién
necesita una p pequeña?
El culto a la p es una de las religiones más extendidas en Medicina. Sus
creyentes buscan siempre los valores de p cuando leen un trabajo científico
y sienten una devoción enorme cuando ven que la p es muy pequeña, cargada
de ceros.
Pero a este culto le ha surgido en los últimos tiempos un serio
competidor: los adoradores de la n que, como todos sabemos, representa el
tamaño de la muestra. Y es que con las herramientas de manejo de
información de que se dispone en la actualidad es relativamente fácil hacer
estudios con tamaños muestrales enormes. Muy bien, pensaréis, podemos
combinar las dos creencias en una y venerar aquellos trabajos que, con
tamaños de muestra enormes, consiguen valores de p minúsculos. El problema
es que esto nos desvía de la que debería ser nuestra verdadera religión,
que no debe ser otra que la valoración del tamaño del efecto observado y de
su importancia clínica.
Cuando observamos una diferencia de efecto entre las dos ramas de un
ensayo debemos preguntarnos si esa diferencia es real o es simplemente
debida al azar. Lo que hacemos es establecer una hipótesis nula que dice
que la diferencia se debe al azar y calculamos un estadístico que nos da el
valor de probabilidad de que la diferencia sea debida, en efecto, al azar.
Este es el valor de significación estadística, nuestra p. El valor de p
solo indica eso: la probabilidad de que la diferencia se deba al azar.
Habitualmente se toma por convenio el límite de 0,05, de forma que si p
vale menos de ese valor se considera razonablemente improbable que la
diferencia se deba al azar y consideramos que el efecto realmente existe.
El valor de p que podemos obtener depende de varios factores, como la
dispersión de la variable que estemos midiendo, el tamaño del efecto y el
tamaño muestral. Las muestras pequeñas son más imprecisas, por lo que los
valores de p, manteniendo el resto de factores sin modificar, son más
pequeños cuanto mayor sea el tamaño muestral.
Imaginemos que comparamos presión arterial media con dos fármacos en un
ensayo clínico y tenemos una diferencia de medias entre los dos grupos de
5mmHg. Si el ensayo incluye 20 pacientes el valor de p puede no ser
significativo (ser mayor de 0,05), pero es muy probable que esta misma
diferencia sea significativa si en el ensayo participan 10000 pacientes. En
efecto, en muchas ocasiones el alcanzar significación estadística puede ser
solo cuestión de aumentar el tamaño de la muestra. Esto hace que con
muestras muy grandes tengamos significación para tamaños de efecto muy
pequeños. En nuestro ejemplo, un intervalo de confianza de diferencias de
medias de 1 a 6 mmHg es estadísticamente significativo (no incluye el cero,
valor nulo para las diferencias de medias), aunque probablemente el efecto
es insignificante desde el punto de vista clínico. La diferencia es real,
aunque su importancia clínica puede ser inexistente.
En resumen, cualquier efecto, por insignificante que sea, puede llegar a
ser estadísticamente significativo si la muestra es lo suficientemente
grande. Veamos un ejemplo con el coeficiente de correlación de Pearson, R.
El mínimo coeficiente de correlación que alcanzará una significación
estadística (p<0,05) para un tamaño de muestra determinado valdrá,
aproximadamente, dos dividido por la raíz cuadrada del tamaño muestral (no
voy a demostrarlo matemáticamente, pero podéis calcularlo a partir de las
fórmulas de cálculo del intervalo de confianza del 95% de R).
Esto quiere decir que si n=10, cualquier valor de R > 0,63 será
estadísticamente significativo. Bien, diréis, 0,63 es un valor aceptable
para establecer la correlación entre las dos variables, es posible que
tenga alguna traducción clínica interesante. Si calculamos R2 tiene un valor
de 0,4, lo que quiere decir que el 40% de la variabilidad de la variable
dependiente se explica por los cambios en la independiente. Pero pensad un
momento que pasaría si n=100000. Cualquier valor de R>0,006 será
significativo, incluso con una p con muchos ceros. ¿Y qué me decís de una R
de 0,006?. Pues eso, que probablemente no tenga ninguna transcendencia por
muy significativa que sea, ya que será despreciable la cantidad de
variabilidad de una de las variables que se pueda explicar por los cambios
en la otra.
El problema que se plantea en la práctica es que es mucho más difícil
definir los límites de la significación clínica que los de la estadística.
Como regla general, un efecto es estadísticamente significativo cuando su
intervalo de confianza no cruza el valor nulo. Por otra parte, será
clínicamente relevante cuando algunos de los valores de dentro del
intervalo sean considerados importantes por el investigador.
Y hasta aquí hemos llegado por hoy. Una pequeña aclaración antes de
terminar. He simplificado un poco el razonamiento de la relación entre la n
y la p, exagerando un poco para demostrar que las muestras grandes pueden
ser tan discriminativas que el valor de p pierde un poco su razón de ser.
Sin embargo, hay ocasiones en que esto no es así. La p depende mucho del
tamaño del menor grupo analizado, así que cuando el efecto estudiado sea
muy raro o alguno de los grupos sea muy pequeño, nuestra p toma de nuevo
protagonismo y sus ceros vuelven a ser de utilidad. Pero esa es otra
historia…
El consuelo de no ser peor
Vivimos en un mundo frenético y altamente competitivo. Continuamente nos
vemos inundados por mensajes sobre lo bueno que es ser el mejor en esto y
en aquello. En lo que sea, en realidad. Pero la mayoría de nosotros nos
damos cuenta pronto de que es imposible ser el mejor en todo lo que
hacemos. Poco a poco, incluso, nos damos cuenta de que es muy difícil ser
el mejor en algo, no ya en todo en general. Al final, más tarde o más
temprano, el común de los mortales se conforma con, al menos, no ser de los
peores en lo que hace.
Pero esto no es malo. No siempre se puede ser el mejor, ni falta que
hace. Pensemos, por ejemplo, que tenemos un tratamiento estupendo para una
enfermedad muy mala. Este tratamiento es eficaz, barato, fácil de usar y
bien tolerado. ¿Tendremos interés en cambiarlo por otro?. Probablemente no.
Pero pensemos ahora, por ejemplo, que produce una aplasia medular
irreversible en el 3% de los que lo toman. En este caso sí que querríamos
buscar otro tratamiento mejor.
¿Mejor?. Bueno, no realmente mejor. Con que fuese igual en todo pero no
produjese aplasia, ya cambiaríamos al nuevo fármaco.
El planteamiento más habitual de los ensayos clínicos es el de demostrar
la superioridad de una intervención frente al placebo o el tratamiento
habitual. Pero, cada vez más, se realizan ensayos cuyo único objetivo es
demostrar que el nuevo tratamiento es equivalente al actual. La
planificación de estos ensayos de equivalencia debe ser cuidadosa y prestar
atención a una serie de aspectos.
En primer lugar, no existe la equivalencia desde el punto de vista
absoluto, por lo que hay que extremar las precauciones para mantener la
igualdad de condiciones en las dos ramas de intervención del ensayo.
Además, hay que establecer previamente el nivel de sensibilidad que vamos a
necesitar en el estudio. Para ello, primero definimos el margen de
equivalencia, que será la máxima diferencia entre las dos intervenciones
que se considerará aceptable desde el punto de vista clínico. Segundo,
calcularemos el tamaño muestral necesario para poder discriminar esta
diferencia desde el punto de vista de significación estadístico.
Es importante comprender que el margen de equivalencia lo marca el
investigador basándose en la importancia clínica de lo que se esté
valorando. Cuánto más estrecho sea este margen, mayor deberá ser el tamaño
de la muestra para poder alcanzar significación estadística y rechazar la
hipótesis nula de que las diferencias que observemos se deban al azar. En
contra de lo que pueda parecer a primera vista, los estudios de
equivalencia suelen necesitar muestras más grandes que los estudios de
superioridad.
Una vez obtenidos los resultados, analizaremos los intervalos de
confianza de las diferencias de efecto entre las dos intervenciones. Solo
aquellos intervalos que no crucen la línea de efecto nulo (uno para riesgos
relativos y odds ratio y cero para diferencias de medias) serán
estadísticamente significativos. Si, además, caen completamente dentro del
margen de equivalencia previamente definido, se considerarán equivalentes
con la probabilidad de error elegida para el intervalo de confianza,
habitualmente el 5%. Si el intervalo queda fuera del margen de
equivalencia, las intervenciones se considerarán no equivalentes. En el
caso de que cruce alguno de los límites del margen de equivalencia, el
estudio no será concluyente en cuanto a demostrar o rechazar la
equivalencia de las dos intervenciones, aunque habrá que valorar la
amplitud y distribución del intervalo respecto al margen de equivalencia
para valorar su posible importancia desde el punto de vista clínico. En
ocasiones, resultados sin significación estadística o que caen fuera de los
límites del margen de equivalencia pueden también proporcionar información
clínica útil.
Veamos el ejemplo de la figura
para entender mejor lo que hemos
dicho hasta ahora. Tenemos los
intervalos de nueve estudios
representados con su posición
respecto a la línea de efecto
nulo y los límites del margen de
equivalencia. Solo los estudios
A, B, D, G y H muestran una
diferencia
estadísticamente
significativa, porque son los que
no cruzan la línea de efecto
nulo. La intervención del estudio
A es superior, mientras que la
del estudio H se demuestra
inferior. Sin embargo, solo en el
caso del estudio D puede
concluirse la equivalencia de las
dos intervenciones, mientras que
son inconcluyentes, en lo que respecta a equivalencia, los estudios B y G.
En el caso del estudio E puede concluirse también la equivalencia de las
dos intervenciones. Fijaos que, aunque la diferencia obtenida en el D es
estadísticamente significativa, sigue sin superar los límites del margen de
equivalencia: es superior al estudio E desde el punto de vista estadístico,
pero parece que esta diferencia no tiene relevancia clínica.
Además de en los estudios B y G ya comentados, en los estudios C, F e
I, no puede concluirse si son o no equivalentes. Sin embargo, el C
probablemente no sea inferior y el F podría sea inferior. Podría, incluso,
estimarse la probabilidad de estas suposiciones según el área que ocupan
los intervalos de confianza respecto a los márgenes de equivalencia.
Un aspecto importante de los estudios de equivalencia es el método de
análisis de resultados empleado. Sabemos que el análisis por intención de
tratar es siempre preferible al de análisis por protocolo, ya que mantiene
las ventajas de la aleatorización respecto a otras variables conocidas o
desconocidas que puedan influir en los resultados. El problema es que el
análisis por intención de tratar va a favor de la hipótesis nula,
minimizando las diferencias, si existen. Esto es una ventaja en los
estudios de superioridad: si encontramos diferencia, refuerza el hallazgo.
Sin embargo, en los estudios de equivalencia no nos interesa tanto este
aspecto. Por su parte, el análisis por protocolo tendería a aumentar
cualquier diferencia, pero esto no siempre es así y puede variar según la
causa de las violaciones de protocolo o, dicho más sencillo, las causas que
hayan motivado las pérdidas o equivocaciones de asignación de tratamiento
en las dos ramas de intervención. Lo que se suele aconsejar es realizar el
análisis de las dos formas y pedir que, en ambas, las intervenciones se
muestren equivalentes. Habrá, además, que tener muy en cuenta las pérdidas
durante el estudio y analizar la información de los casos en los que no se
cumpla el protocolo.
Un caso particular de este tipo de ensayos
este caso, los investigadores se conforman
intervención no es peor que la de comparación.
para los de equivalencia, pero considerando
margen de equivalencia.
es el de no inferioridad. En
con demostrar que la nueva
Vale todo lo que hemos dicho
solo el límite inferior del
Una última cosa. Los estudios de superioridad son para demostrar
superioridad y los de equivalencia son para demostrar equivalencia. El
diseño de un objetivo no suele servir para demostrar el otro. Además, el
que un estudio de superioridad fracase en demostrarla no quiere decir
exactamente que las dos intervenciones sean equivalentes.
Hemos llegado al final sin haber hablado nada de otros estudios de
equivalencia característicos: los estudios de bioequivalencia. Estos son
ensayos de fase I realizados por las casas farmacéuticas para comprobar la
equivalencia de diferentes presentaciones de un mismo fármaco y tienen
algunas peculiaridades de diseño. Pero esa es otra historia…