Download Torciendo paralelas,Que no se te crucen los cables,Las otras caras

Document related concepts
no text concepts found
Transcript
Torciendo paralelas
Dicen los matemáticos que dos líneas paralelas son aquellas que, por más
que se prolongan, nunca se juntan. ¿Nunca? A mí me parece que nunca es
mucha distancia. No creo que nadie haya prolongado dos paralelas lo
suficiente como para estar seguro de esta afirmación. Claro que, por otro
lado, si llegan a juntarse es que no eran paralelas, ¿verdad?
Las que sí pueden juntarse, e incluso cruzarse, son las dos ramas de un
ensayo en paralelo, dando lugar a un nuevo diseño que llamamos ensayo
clínico cruzado.
En un ensayo clínico en paralelo clásico cada participante se asigna
aleatoriamente a una, y solo una, de las ramas del ensayo, la de
intervención en estudio o la de control. Sin embargo, podemos cruzar las
paralelas y conseguir un diseño que permite que cada paciente reciba tanto
la intervención en estudio como la de control siempre, eso sí,
estableciendo un orden determinado y durante un periodo de tiempo
establecido.
Así,
cada sujeto actúa como su propio control, experimentando ambas
intervenciones en una secuencia de periodos establecida de modo aleatorio y
separado ambos periodos por uno de estabilización o periodo de lavado.
Podéis ver un esquema de este diseño en la figura que os adjunto.
Existen algunas variaciones sobre el tema de los ensayos cruzados, según
todos los participantes sean sometidos a las dos intervenciones (ensayo
completo) o algunos solo a una de ellas (ensayo incompleto). Además, es
posible extender este tipo de diseño y probar más de dos intervenciones,
dando lugar a distintos órdenes de secuencia que reciben nombres como
diseño doble, de Balaam, cuadrado latino, etc, en los que no vamos a
profundizar en esta entrada.
La
ventaja
principal
de
los
estudios
cruzados
radica
en
una
característica que ya hemos comentado: cada sujeto actúa como su propio
control. Esto, que puede parecer una chorrada sin importancia, no es tal.
Si lo pensamos un poco, lo que hacemos es valorar el efecto de la
intervención activa y de la de control en el mismo sujeto, con lo cual
obtendremos menor variabilidad que si comparamos los efectos en
participantes diferentes, como se hace en el ensayo en paralelo, en el que
cada participante se expone solo a una de las dos intervenciones.
Al ser menor la variabilidad, la precisión de las observaciones será
mayor, con lo que el tamaño muestral necesario para detectar una
determinada diferencia de efecto del tratamiento será menor. Y no un poco
menor, sino que la muestra necesaria puede verse reducida de forma
importante en comparación con la que haría falta en el ensayo paralelo
correspondiente.
Esta reducción del tamaño de la muestra depende de la correlación entre
las distintas medidas de resultado del estudio. En el peor de los casos,
con una correlación cero, la muestra se ve dividida por la mitad. Si la
correlación es de 0,5, la muestra necesaria será de la cuarta parte. Pero
es que esta reducción es cada vez mayor según el valor de la correlación se
vaya aproximando a uno.
Por si fuera poco, además de una estimación más precisa, ésta es menos
sesgada, ya que se asume una respuesta constante de cada sujeto a las dos
intervenciones probadas, mientras que en el ensayo en paralelo esta
respuesta es más variable por medirse en sujetos diferentes.
Pero no todo va a ser ventajas a favor de los diseños cruzados. También
plantean algunos inconvenientes. La mayor limitación es el coñazo que se
les da a los participantes con tanta intervención y tanto periodo. Y esto
es importante no solo por la consideración que podamos sentir hacia los
participantes, sino porque aumenta el riesgo de pérdidas durante el
estudio. Y resulta que los estudios cruzados son más sensibles a las
pérdidas durante el seguimiento que los paralelos, sobre todo si el número
de participantes que completan cada secuencia es diferente.
Otra limitación es que es importante que los sujetos sean similares al
comienzo de cada periodo, por lo que estos estudios solo sirven si se trata
de enfermos crónicos con síntomas estables. Tampoco sirven si la variable
de resultado produce un efecto permanente. Pensemos en la más permanente de
todas, la mortalidad. Si el participante se muere en el primer periodo,
será más que difícil valorar su respuesta en el periodo siguiente.
Además, alguna de sus ventajas, como el reducido tamaño muestral, se
torna en inconveniente en algunas ocasiones. Esto ocurre, por ejemplo, en
estudios de fase III, en los que queramos valorar seguridad, tolerancia,
eficacia, detección de efectos adversos impredecibles, etc. En estos casos,
la muestra pequeña no solo no es imprescindible, sino que puede resultar
inadecuada.
Por último, referirnos a tres debilidades desde el punto de vista de
diseño, los llamados efecto residual, efecto secuencia y efecto periodo.
El efecto residual se produce cuando en un periodo persiste el efecto de
la intervención del periodo anterior. Pensemos que hemos dado un fármaco y
quedan aún restos en sangre. Evidentemente, esto se soluciona prolongando
el periodo de lavado, pero hay ocasiones en que esto no es tan fácil.
Pensemos en un tratamiento hipotensor en el que la respuesta en el segundo
periodo sea más favorable por el simple hecho de estar incluido en el
estudio (efecto placebo).
El efecto secuencia se produce cuando el orden de las intervenciones
afecta el resultado final, con lo que solo podríamos valorar adecuadamente
los resultados de la primera intervención.
Por último, puede ocurrir que las características del paciente cambien a
lo largo del estudio, modificando su respuesta a las diferentes
intervenciones. Nos encontramos ante un efecto periodo.
Los ensayo clínicos cruzados son, en resumen, más eficientes en cuanto a
tamaño muestral que los ensayos paralelos, siempre que se cumplan las
condiciones óptimas para su empleo. Son muy útiles para estudios de fase I
y fase II en los que queremos conocer la farmacocinética y farmacodinámica,
la seguridad, la titulación de dosis, etc. En fases posteriores del
desarrollo de nuevos fármacos son menos útiles, sobre todo si, como ya
hemos comentado, no se trata de enfermedades crónicas con sintomatología
estable.
Y aquí dejamos los ensayos cruzados. No hemos hablado nada del análisis
estadístico de los resultados. En el caso del ensayo en paralelo los
resultados de las dos ramas pueden compararse directamente, pero esto no es
así con los ensayos cruzados, en los que deberemos asegurarnos de que no se
haya producido efectos residual, efecto secuencia o efecto periodo. Pero
esa es otra historia…
Que no se te crucen los cables
El ahorro es un condicionante importante a la hora de realizar cualquier
estudio, especialmente si se trata de un ensayo clínico, habitualmente
costoso en tiempo y dinero. Por eso tratan de diseñarse nuevas formas de
hacer los estudios que nos permitan ahorrar, la mayor parte en lo que se
refiere al número de participantes necesarios, uno de los principales
condicionantes del coste final del estudio.
Uno
de
estos
diseños es el ensayo
clínico cruzado, del
que ya hablamos en una
entrada anterior. En
este tipo de ensayos
cada
sujeto
es
aleatorizado
a
un
grupo, se realiza la
intervención, se deja pasar un periodo de lavado o blanqueo y se realiza la
otra intervención, tal como veis esquematizado en el gráfico que os
adjunto. Al actuar cada sujeto como su propio control se limita el efecto
de las variables confusoras que puedan existir, además de ser menor la
variabilidad que pueda deberse al azar respecto a los estudios en que los
sujetos de intervención y los controles son diferentes. Esto hace que el
tamaño muestral pueda ser menor que el del ensayo clínico en paralelo
convencional.
Para poder hacer un ensayo cruzado, el efecto debe ser de producción
rápida y de corta duración, a la vez que mantenerse estable a lo largo de
los periodos del estudio. En caso contrario podemos encontrarnos con las
dos debilidades metodológicas del ensayo cruzado: el efecto secuencia y el
efecto periodo.
Por eso, además de analizar los efectos finales de las dos
intervenciones en estudio, debemos ampliar el análisis estadístico de los
datos para que no se nos cruce ningún cable y demos por buena una
diferencia en tamaño de efecto que, en realidad, pueda deberse a un defecto
metodológico de este tipo de ensayos.
Este análisis estadístico es un poco laborioso, así que lo vamos a ver
con un ejemplo totalmente ficticio.
Supongamos que queremos probar dos
hipotensores que vamos a llamar A y B
para no rompernos mucho la cabeza. El
ejemplo lo vamos a hacer con 10
pacientes en aras de la simplicidad,
pero imaginaos que son muchos más. En la
primera tabla vemos representados los
resultados principales del ensayo. Hemos
recogido la presión arterial sistólica
(TA) antes de empezar el estudio, al
final de cada periodo y durante el
periodo de lavado del ensayo. Como es lógico, recogemos también qué fármaco
ha recibido cada participante durante cada periodo.
Lo primero que se nos ocurre es comparar las diferencias de TA entre los
dos fármacos. Para eso necesitamos extraer los datos y reordenarlos. Con
ellos hemos construido la segunda tabla. Si os molestáis en calcular, la
media (m) de TA después de recibir A es de 118,5 mmHg, con una desviación
estándar (s) de 16 mmHg. Los valores que
corresponden para B son una m=144,5 y
una s=7,24. Para saber si estas
diferencias son significativas debemos
hacer un contraste de hipótesis,
estableciendo la hipótesis nula (H0) de
igualdad de efectos. Vamos a suponer que
la variable sigue una distribución
normal, que las varianzas son iguales y
que la muestra fuese mucho más grande
para poder emplear el test de la t de Student para datos pareados. Si
calculáis el valor de t para 9 grados de libertad vale -5,18, lo que se
corresponde con una p = 0,0005. Al ser p<0,05 rechazamos la hipótesis nula
y concluimos que el fármaco A produce una mayor reducción de la TA que el
fármaco B.
Y aquí terminaría el análisis si se tratase de un ensayo en paralelo,
pero en nuestro caso debemos hacer alguna comprobación más para estar
seguros de que no se nos cruza ningún cable por culpa de las debilidades
del ensayo cruzado.
En primer lugar, comprobaremos que el efecto de las intervenciones es de
corta duración y no existe un efecto residual de la primera intervención
cuando comienza la segunda. Si no existe efecto residual, la TA al final
del periodo de lavado debería ser similar a la TA basal, antes de cualquier
intervención. La TA basal tiene una m=162,9 mmHg, con una s=14,81. Por su
parte, los valores al final del periodo de lavado son de 156,6 y 23,14
mmHg, respectivamente. Si hacemos el contraste correspondiente
encontraremos un valor de t=0,81, con una p=0,43. No podemos rechazar la H0
de igualdad, así que concluimos que las TA son similares antes de la
primera intervención y al final del periodo de lavado, luego no hay efecto
residual.
En segundo lugar, comprobaremos que no existe un efecto periodo. Si este
se produjese, el efecto al final del segundo periodo sería mayor (o menor)
que al final del primero. Al final del primer periodo encontramos una TA
m=131,4 mmHg con una s=14,44 mmHg. Al final del segundo los valores son de
131,6 y 21,77 mmHg, respectivamente. Al hacer el contraste encontramos un
valor de t=-0,02, con una p=0,98. Conclusión: no rechazamos la H0 de
igualdad y concluimos que no existen pruebas de un efecto periodo en el
ensayo.
Por último, vamos a investigar si pudo haber un efecto secuencia. Si
esto se hubiese producido (hubiese interacción entre los dos fármacos de
intervención), el efecto de cada una de las intervenciones sería diferente
según el orden en que las hubiésemos llevado a cabo en cada paciente. Para
ello calcularemos la media de descenso de TA en todos los pacientes al
emplear la secuencia AB y la compararemos con la hallada al utilizar la
secuencia BA. Los datos para la secuencia AB son m=-26,2 mmHg y s=11 mmHg.
Para la secuencia BA son de -25,8 y 21,22 mmHg, respectivamente. El valor
de la t de Student que encontramos si hacemos el test es de -0,04, al cual
le corresponde un valor de p=0,96. Una vez más, no podemos rechazar la H0
de igualdad y concluimos que no existió efecto secuencia.
Y con esto vamos a dar por finalizado el análisis. La conclusión final
es que existe una diferencia estadísticamente significativa en la potencia
hipotensora de los dos fármacos a favor de A, no encontrándose signos que
sugieran efectos residuales de una intervención sobre otra, efecto periodo
ni efecto secuencia.
Recordad que los datos son ficticios y que hemos asumido normalidad e
igualdad de varianzas con fines didácticos. Además, como ya comentamos al
principio, no sería del todo correcto emplear la t de Student con una
muestra tan pequeña, aunque me he tomado esta pequeña licencia para poder
explicar el ejemplo con más sencillez. De todas formas, teniendo un
programa informático cuesta lo mismo hacer una t de Student que un test de
Wilcoxon.
Y esto es todo. Como veis, el análisis estadístico de los resultados de
un ensayo cruzado es bastante más laborioso que el del ensayo en paralelo.
De todas formas, aquí hemos visto el ejemplo más sencillo, cuando no hay
interacción entre las dos intervenciones. Y es que cuando existe
interacción el análisis no termina aquí y son necesarias todavía más
comprobaciones. Pero esa es otra historia…
Las otras caras del rey
Ya hemos hablado otras veces del rey de los diseños experimentales, el
ensayo clínico aleatorizado, en el que una población se divide al azar en
dos grupos para someter a uno de ellos a la intervención en estudio y el
otro sirve de grupo control. Esta es la cara más habitual del rey, el
ensayo clínico en paralelo, que es ideal para la mayor parte de los
estudios sobre tratamiento, para muchos de los de pronóstico o estrategias
de prevención y, con sus peculiaridades, para los estudios para valoración
de pruebas diagnósticas. Pero el rey es muy versátil y tiene otras muchas
caras para adaptarse a diferentes situaciones.
Si lo pensamos un momento, el diseño ideal sería aquel que nos
permitiese experimentar en el mismo individuo el efecto de la intervención
de estudio y de la de control (el placebo o el tratamiento estándar), ya
que el ensayo en paralelo es una aproximación que supone que los dos grupos
responden igual a las dos intervenciones, lo que siempre supone un riesgo
de sesgo que tratamos de minimizar con la aleatorización. Si tuviésemos una
máquina del tiempo podríamos probar la intervención en todos, anotar lo que
pasa, dar marcha atrás en el tiempo y volver a repetir el experimento con
la intervención de control. Así podríamos comparar los dos efectos. El
problema, los más atentos ya lo habréis imaginado, es que la máquina del
tiempo no se ha inventado todavía.
Pero lo que sí se ha inventado es el ensayo clínico cruzado (el crossover, para los que sepan inglés), en el que cada sujeto es su propio
control. En este tipo de ensayo, cada
sujeto es aleatorizado a un grupo, se
realiza la intervención, se deja pasar
un periodo de lavado o blanqueo y se
realiza la otra intervención. Aunque
esta solución no es tan elegante como la
de la máquina del tiempo, los defensores de los ensayos cruzados se basan
en que la variabilidad dentro de cada individuo es menor que la
interindividual, con lo cual la estimación puede ser más precisa que la del
ensayo en paralelo y, en general, se necesitan tamaños muestrales menores.
Eso sí, antes de utilizar este diseño hay que hacer una serie de
consideraciones. Lógicamente, el efecto de la primera intervención no debe
producir cambios irreversibles ni ser muy prolongado, porque afectaría el
efecto de la segunda. Además, el periodo de lavado tiene que ser lo
suficientemente largo para evitar que quede ningún efecto residual de la
primera intervención.
También hay que considerar si el orden de las intervenciones puede
afectar el resultado final (efecto secuencia), con lo que solo serían
válidos los resultados de la primera intervención. Otro problema es que, al
tener mayor duración, las características del paciente pueden cambiar a lo
largo del estudio y ser diferentes en los dos periodos (efecto periodo). Y,
por último, ojo con las pérdidas durante el estudio, más frecuentes en
estudios más largos y que tienen en los ensayos cruzados mayor repercusión
sobre los resultados finales que en los ensayos en paralelo.
Imaginemos ahora que queremos probar dos intervenciones (A y B) en la
misma población. ¿Podemos hacerlo con un mismo ensayo y ahorrar costes de
todo tipo?. Pues sí, sí que podemos, solo tenemos que diseñar un ensayo
clínico factorial. En este tipo de ensayo, cada participante es sometido a
dos aleatorizaciones consecutivas: primero se le asigna a la intervención A
o al placebo (P) y, segundo, a la intervención B o al placebo, con lo que
tendremos cuatro grupos de estudio: AB, AP, BP y PP. Como es lógico, las
dos intervenciones deben actuar por mecanismos independientes para poder
valorar los resultados de los dos efectos de forma independiente.
Habitualmente se estudian una intervención relacionada con una hipótesis
más plausible y madura y otra con una hipótesis menos contrastada,
asegurando que la evaluación de la segunda no influye sobre los criterios
de inclusión y exclusión de la primera. Además, no es conveniente que
ninguna de las dos opciones tenga muchos efectos molestos o sea mal
tolerada, porque la falta de cumplimiento de un tratamiento suele
condicionar el mal cumplimiento del otro. En casos en que las dos
intervenciones no se muestren independientes, podrían estudiarse los
efectos por separado (AP frente a PP y BP frente a PP), pero se pierden las
ventajas del diseño y aumenta el tamaño de muestra necesario.
En otras ocasiones puede ocurrir que tengamos prisa por acabar el
estudio cuanto antes. Imaginemos una enfermedad muy mala que mata la gente
a montones y nosotros estamos probando un nuevo tratamiento. Querremos
tenerlo disponible cuanto antes (si funciona, claro), así que cada cierto
número de participantes nos pararemos y analizaremos y, en el caso de que
podamos demostrar ya la utilidad del tratamiento, daremos el estudio por
concluido. Este es el diseño que caracteriza al ensayo clínico secuencial.
Recordad que en el ensayo en paralelo lo correcto es calcular previamente
el tamaño de la muestra. En este diseño, de mentalidad más bayesiana, se
establece un estadístico cuyo valor condiciona una regla de finalización
explícita, con lo que el tamaño de la muestra depende de las observaciones
previas. Cuando el estadístico alcanza el valor prefijado nos vemos con la
suficiente confianza como para rechazar la hipótesis nula y finalizamos el
estudio. El problema es que cada parón y análisis aumenta el error de
rechazarla siendo cierta (error de tipo 1), por lo que no se recomienda
hacer muchos análisis intermedios. Además, el análisis final de los
resultados es complejo porque los métodos habituales no sirven, sino que
hay utilizar otros que tengan en cuenta los análisis intermedios. Este tipo
de ensayos es muy útil con intervenciones de efecto muy rápido, por lo que
es frecuente verlos en estudios de titulación de dosis de opiáceos,
hipnóticos y venenos semejantes.
Hay otras ocasiones en las que la aleatorización individual no tiene
sentido. Pensemos que hemos enseñado a los médicos de un centro de salud
una nueva técnica para informar mejor a sus pacientes y queremos compararla
con la antigua. No podemos decir al mismo médico que informe a unos
pacientes de una forma y a otros de otra, ya que habría muchas
posibilidades de que las dos intervenciones se contaminaran una a otra.
Sería más lógico enseñar a los médicos de un grupo de centros y no enseñar
a los de otro grupo y comparar los resultados. Aquí lo que aleatorizaríamos
son los centros de salud para formar o no a sus médicos. Este es el diseño
de ensayo con asignación por grupos. El problema de este diseño es que no
tenemos muchas garantías de que los participantes de los diferentes grupos
se comporten de forma independiente, por lo que el tamaño de la muestra
necesaria puede aumentar mucho si existe gran variabilidad entre los grupos
y poca dentro de cada grupo. Además, hay que hacer un análisis agregado de
los resultados, ya que si se hace individual los intervalos de confianza se
estrechan de forma artefactada y podemos encontrar significaciones
estadísticas falsas. Lo habitual es calcular un estadístico sintético
ponderado para cada grupo y hacer las comparaciones finales con él.
El último de la serie que vamos a tratar es el ensayo comunitario, en el
cual la intervención se aplica a grupos de población. Al realizarse en
condiciones reales sobre poblaciones tienen gran validez externa y permiten
muchas veces recomendar medidas coste-eficientes basadas en sus resultados.
El problema es que muchas veces es complicado establecer grupos de control,
puede ser más difícil determinar el tamaño muestral necesario y es más
complejo realizar inferencia causal a partir de sus resultados. Es el
diseño típico para evaluar medidas de salud pública como la fluoración del
agua, las vacunaciones, etc.
Como veis, el rey tiene muchas caras. Pero, además, tiene parientes de
menor alcurnia, aunque no por ello menos dignos. Y es que tiene toda una
familia de estudios cuasiexperimentales formada por ensayos que no son
aleatorizados, o controlados, o ninguna de las dos cosas. Pero esa es otra
historia…