Download Descargar PDF

Document related concepts
no text concepts found
Transcript
Document downloaded from http://www.elsevier.es, day 04/06/2017. This copy is for personal use. Any transmission of this document by any media or format is strictly prohibited.
EDITORIAL
Una oportunidad para Bayes
48.462
María Jesús Bayarria y Erik Cobob
a
Departamento de Estadística e Investigación Operativa. Universitat de València. Valencia. España.
Universitat Politècnica de Catalunya. Barcelona. España.
b
Si preguntamos a lectores de revistas biomédicas qué indica el nivel de significación o p-value, posiblemente aparecerán tres grandes grupos. Uno de ellos dirá que el nivel de
significación es la probabilidad de que la conclusión alcanzada sea errónea. Otro, que es la probabilidad de que la hipótesis nula sea cierta. El tercer grupo, en cambio, dirá que
sabe que el nivel de significación no es nada de esto, pero
que ni se atreve a decir lo que es ni acaba de entender
por qué se utiliza una herramienta cuya interpretación es
tan compleja. Estos investigadores se preguntan por qué los
estadísticos no proponen una medida más simple.
A mediados del pasado siglo XX R.A. Fisher propuso y consiguió estandarizar el uso de la prueba de significación, lo
que supuso un salto de gigante en la formalización de la inferencia científica. Esta estandarización condujo a una repentina popularidad que fue a la vez buena y mala para la
práctica estadística. Buena porque los investigadores aplicados comenzaron a utilizar la estadística (valores de p) de
forma habitual; mala porque el valor de p empezó a malinterpretarse con casi igual universalidad con que se usaba,
exagerándose la evidencia en contra de la hipótesis nula y
produciéndose una plétora de resultados «significativos» en
revistas de investigación que luego, en la práctica, se han
quedado en nada. El uso habitual de los valores de p para
cuantificar la evidencia en contra de la hipótesis nula (y, por
tanto, como base para encontrar «efectos» terapéuticos) ha
sido muy criticado tanto en foros médicos1-4 como estadísticos5. Multitud de referencias acerca de este debate, así
como enlaces a páginas web aplicadas, y una aplicación informática muy instructiva pueden encontrarse en http://
www.stat.duke.edu/~berger/p-values.html. Queremos defender a continuación el uso de dos procedimientos alternativos a la prueba de significación que permiten un nuevo
paso en la formalización del conocimiento científico.
El primero consiste en utilizar el intervalo de confianza en
lugar del nivel de significación. Sin lugar a dudas el intervalo
de confianza, que proporciona los valores del parámetro
compatibles con la información muestral, es una herramienta de inferencia más positiva que el nivel de significación,
que intenta cuantificar hasta qué punto la información
muestral es incompatible con un único valor del parámetro
especificado en la hipótesis nula. Entre otras ventajas, la
amplitud del intervalo de confianza y los valores de sus extremos informan de la cantidad de información disponible,
de si es conveniente recurrir a una nueva recogida de información o de si ya estamos en condiciones de tomar una decisión práctica. Estas ventajas han sido ampliamente defen-
Correspondencia: Prof. M.J. Bayarri.
Departamento de Estadística e Investigación Operativa.
Universitat de València.
Avda. Dr. Moliner, 50. 46100 Burjassot. Valencia.
Correo electrónico: [email protected]
Recibido el 23-5-2002; aceptado para su publicación el 29-5-2002.
252
Med Clin (Barc) 2002;119(7):252-3
didas6-8, hasta el punto de que ya han sido recogidas por los
redactores de las recomendaciones para los autores de revistas biomédicas, que anteponen el uso de intervalos de
confianza al de pruebas de significación o de contrastes
de hipótesis9: «Aunque los valores de p se pueden añadir a
los intervalos de confianza, los resultados no deben expresarse solamente como valores de p». El siguiente y necesario paso es que los autores y los editores de revistas biomédicas avancen definitivamente en esta línea.
La segunda alternativa al uso del nivel de significación que
deseamos fomentar consiste en recurrir al teorema de Bayes para poder calcular, a partir de los resultados muestrales, la probabilidad de que cierta hipótesis sea cierta lo que
muchos erróneamente creen que están proporcionando el
nivel de significación (valor de p) o el intervalo de confianza.
Para conseguirlo, es preciso recurrir a una formalización del
conocimiento científico previo: antes de los datos que actualmente estamos analizando, ¿qué se sabía sobre este
tema?, ¿qué se sabía sobre el valor de este parámetro? Si se
acepta representar el nivel de incertidumbre previa en forma de probabilidades sobre los diferentes valores del parámetro, ya se tienen todos los elementos necesarios para actualizar la información científica mediante el teorema de
Bayes.
De manera modesta, a las probabilidades asignadas a priori
al conocimiento previo disponible se las denomina subjetivas, pero no porque se asignen sin criterio, sino para recordar que el conocimiento científico en un momento determinado no puede disponer de todas las teorías alternativas
que compiten para repartirse esta probabilidad a priori. Sin
embargo, el hecho de que la inferencia bayesiana haga explícita la gran debilidad de todo proceso inferencial –depender de los conocimientos previos que motivan el estudio y
su diseño– no puede nunca ir en su contra, ya que esta debilidad es común a toda investigación científica. En cualquier caso, ésta es la gran discusión que subyace en el uso
de la inferencia bayesiana: si hacer patente la subjetividad
del conocimiento previo es un precio muy alto para poder
asignar probabilidades a las teorías.
Por otra parte, es muy importante resaltar de forma rotunda
y clara que, aunque la utilización de información a priori
«subjetiva», es decir que refleja el conocimiento del experto,
es el aspecto más llamativo de la metodología bayesiana,
porque es la única metodología que puede incorporarla, en
realidad esta característica no es ni definitoria ni esencial
en muchos análisis estadísticos bayesianos. En efecto, para
problemas de estimación (puntual o por intervalo) se puede,
si así se desea, usar la «aproximación bayesiana objetiva»,
que no utiliza ninguna información externa al experimento y
es, por tanto, tan objetiva como cualquier método tradicional y mucho más fácil de interpretar y de calcular. En problemas de contraste de hipótesis, durante mucho tiempo se
ha creído que la incorporación explícita de información a
priori (externa al experimento) no podía obviarse. Sin embargo, últimamente se está desarrollando toda una serie de
Document downloaded from http://www.elsevier.es, day 04/06/2017. This copy is for personal use. Any transmission of this document by any media or format is strictly prohibited.
BAYARRI MJ, ET AL. UNA OPORTUNIDAD PARA BAYES
técnicas que permiten incluso el contraste de hipótesis, la
selección de variables y modelos desde una perspectiva bayesiana objetiva. Un resumen muy lúcido y escueto del desarrollo bayesiano, así como multitud de referencias, puede
encontrarse en el trabajo de Berger10.
Citemos a continuación algunas de sus ventajas. La primera es precisamente poder combinar el conocimiento previo
con la información empírica aportada por los datos. La crítica más feroz de un revisor es: «demasiado bonito para ser
cierto». Nótese que esta afirmación resalta la discrepancia
entre unas expectativas basadas en unas creencias previas
y unos resultados muestrales. El planteamiento bayesiano
permite abordar frontalmente este problema y mezclar este
escepticismo previo con los resultados observados. En realidad, la «actualización» que supone la información muestral
será mayor cuanto más escéptica sea la posición previa.
Este punto lo recoge de forma natural el planteamiento bayesiano que muestra la convergencia de opiniones a la que
conduce una misma información muestral, independientemente del grado de escepticismo del punto de partida. Además, esta capacidad «integradora» de diversas fuentes de
información no sólo se aplica a integrar información previa
e información experimental, sino que puede aplicarse en
cualquier situación en la que se quiere aunar la información
proveniente de fuentes diversas. Por ejemplo, los métodos
bayesianos han demostrado ser herramientas muy potentes
en los metaanálisis de varios experimentos.
La segunda ventaja del planteamiento bayesiano es que la
adición de nueva información se incorpora con absoluta naturalidad, sin todos los problemas de multiplicidad que suponen desde el planteamiento de la prueba de significación.
No es necesario resaltar que algo no funciona en el planteamiento metodológico si el hecho de disponer de nueva información se convierte en un problema. Esta ventaja es extraordinariamente valiosa en planteamientos secuenciales,
en los que un bayesiano puede «pararse» cuando quiera,
mirar los datos cuanto desee, y tomar una decisión óptima
cuando considere que cuentan con suficiente información
(no es preciso seguir con el tratamiento inferior si mucho
antes de lo previsto ya hay una evidencia apabullante de
que el otro tratamiento es mejor).
La tercera ventaja del planteamiento bayesiano es que, también de forma natural, conduce desde la inferencia científica hasta la toma práctica de decisiones. Permite, pues,
combinar la toma cotidiana de decisiones de un profesional
con la adquisición científica de conocimiento. En otras palabras, hace transparente el paso de la investigación epidemiológica a las decisiones de salud pública o de la investigación farmacológica a las decisiones de las agencias de
tecnología sanitaria.
Quizá la ventaja «técnica» más espectacular de la inferencia
bayesiana es su capacidad para evaluar correctamente la
incertidumbre (errores de estimación, intervalos sobre los
parámetros, etc.) en modelos complejos. En estos modelos,
la estadística tradicional suele sustituir los parámetros (marginales) desconocidos por estimaciones, como si fuesen los
verdaderos valores. La inferencia bayesiana permite promediar sobre los posibles valores de estos parámetros, ponderando dichos valores según su credibilidad, incorporando
así, de forma natural, la incertidumbre existente sobre di-
chos parámetros. El mismo argumento se aplica a los problemas de predicción, en que los métodos bayesianos son
claramente superiores a los tradicionales en modelos no estándar, sobre todo debido a su gran simplicidad metodológica. Esta capacidad de predicción se convierte en una herramienta muy valiosa en problemas de diseño11.
A estas ventajas filosóficas y potenciales cabe añadir que la
inferencia bayesiana es metodológicamente muy sencilla,
con pocos principios y muy fáciles de entender, no importa
cuán complejo sea el modelo. Hasta hace pocos años, sin
embargo, la aplicación práctica estaba limitada por las dificultades de cálculo numérico de las integrales involucradas.
Hoy día, el análisis bayesiano no plantea especiales dificultades: disponemos de las herramientas matemáticas e informáticas necesarias. La «solución» ha venido gracias al
desarrollo de métodos avanzados de simulación (métodos
Monte Carlo o MC, y Markov Chain Monte Carlo o MCMC)12,13.
Más importante aún, en nuestro entorno disponemos de
grandes expertos, procedentes especialmente de las Universidades Carlos III, Granada, Málaga, Madrid, Rey Juan
Carlos, Valencia, Politécnicas de Valencia y Cataluña, y muchas otras .
Por todo ello, invitamos al lector a leer los artículos especiales sobre el tema publicados en MEDICINA CLÍNICA14,15.
Digamos, para acabar, que las recomendaciones internacionales para el desarrollo de fármacos claramente especifican16: «Puede considerarse el empleo de enfoques bayesianos y de otros enfoques cuando las razones para su uso
sean claras y cuando las conclusiones resultantes sean lo
suficientemente sólidas».
REFERENCIAS BIBLIOGRÁFICAS
1. Sterne J, Smith GD. Sifting the evidence –what’s wrong with significance
tests? BMJ 2001;322:226-31.
2. Spiegelhalter D, Myles J, Jones D, Abrans K. An introduction to Bayesian
methods in Health Technology assessment. BMJ 1999;319:508-12.
3. Goodman SN. Toward evidence-based medical statistics. 1: the P value
fallacy. Ann Intern Med 1999;130:995-1004.
4. Goodman SN. Toward evidence-based medical statistics. 2: the Bayes
factor. Ann Intern Med 1999;130:1005-13.
5. Sellke T, Bayarri MJ, Berger JO. Calibration of p-values for testing precise null hypotheses. Am Stat 2001;55:62-71.
6. Braitman LE. Confidence intervals assess both clinical significance and
statistical significance. Ann Intern Med 1991;114:515-7.
7. Libreo J, Peiró S. Comparaciones abstrusas en los resúmenes de ensayos clínicos en revistas médicas españolas. Med Clin (Barc) 2001;117:
732-3.
8. Argimón JM. El intervalo de confianza: algo más que un valor de significación estadística. Med Clin (Barc) 2002;118;382-4.
9. Altman DG, Schulz KF, Moher D, Egger M, Davidoff F, Elbourne D, et al,
Lang T for the CONSORT group. The revised CONSORT statement for
reporting randomised trials: explanation and elaboration. Ann Intern Med
2001;134:663-94.
10. Berger J. Bayesian analysis: a look at today and thoughts of tomorrow. J.
Am Stat Assoc 2000;95:1269-76.
11. Berry DA, Stangl DK. Bayesian biostatistics. Marcel Dekker, 1996.
12. Casella G, George EI. Explaining the Gibbs sampling. Am Stat 1992;46:
167-74.
13. Gilks WR, Richardson S, Speigelhalter D. Practical Markov Chain Monte
Carlo. Chapman and Hall, 1995.
14. Álamo Santana F, Vázquez Polo FJ, Rodríguez Pérez JC. Herramientas
para la investigación biomédica: la perspectiva bayesiana (I). Med Clin
(Barc) 2002;119:265-8.
15. Álamo Santana F, Vázquez Polo FJ, Rodríguez Pérez JC. Herramientas
para la investigación biomédica: la perspectiva bayesiana (II). Med Clin
(Barc) 2002;119:269-72.
16. ICH Topic E9. Statistical principles for clinical trials (CPMP/ICH/363/96).
Med Clin (Barc) 2002;119(7):252-3
253