Download Métodos Estadísticos para Diagnósticos Médicos

Document related concepts
no text concepts found
Transcript
Métodos Estadísticos para
Diagnósticos Médicos
Barcelona, uno de marzo de 2008
Pablo Martínez-Camblor
Subdirección de Salud de Guipuzcoa, Donosti.
MODULO: Diseño de proyectos y análisis estadístico (Curso 2008)
COOR: Joan B. Soriano. Fundació Caubet-CIMERA Illes Balears.
1
1. INTRODUCCIÓN
Uno de los problemas que más frecuentemente
aparece en la investigación médica es el de saber que
variables o, que niveles de una variable, determinan si
un determinado individuo pertenece o no a un
determinado grupo.
Ejemplo 1:
Se sabe que altos niveles de procalcitonina (PCT) y de
proteina C-reactiva (PCR) están muy ligados a la
presencia de SEPSIS. ¿Cúal de las dos variables nos
resulta más útil para determinar si un paciente es o no
séptico? ¿A partir de qué niveles?
2
Ejemplo 2:
La EPOC (Enfermedad Pulmonar Obstructiva Crónica)
viene determinada por una reducción en la función
pulmonar de los pacientes que degenera en un
deterioro general. Sin embargo, se sabe que la
gravedad de la enfermedad no queda determinada
únicamente por valores bajos en el %FEV1. Se quiere
determinar que otras variables (6MWT, Disnea, IMC,
Exacerbaciones, etc...) tienen relación en la gravedad
de estos pacientes (medida esta, por ejemplo, en
muerte a 3 años).
3
2. OBJETIVOS
El objetivo principal de esta sesión es
afianzar algunos de los conceptos
presentes en toda toma de decisiones así
como la revisión de algunas técnicas
estadísticas muy presentes en la literatura
médica
(regresión
logística)
y
la
presentación de otras “más novedosas”
(árboles de decisión).
4
2. OBJETIVOS
Revisión de conceptos estadísticos básicos.
“Estudio” del proceso de toma de decisiones.
Curvas ROC.
Regresión Logística.
Árboles de Decisión.
5
3. TEMAS ANTERIORES
Estadística I (Curso 2007-2008).
(20 horas lectivas)
TEMARIO:
1)Introducción a la Estadística.
2)Conceptos Básicos. Estadística Descriptiva
Univariante.
3)Estadística Descriptiva Bivariante.
4)Introducción a la Inferencia y Modelo
Probabilístico.
6
TEMARIO:
5)Población y Muestra. Estimación de
Parámetros e Intervalos de Confianza.
6)Introducción a las Pruebas de Hipótesis y
toma de Decisiones.
7)Introducción al Modelo de Regresión Lineal
Simple.
7
4. PAQUETES ESTADÍSTICOS
8
5. ALGUNOS CONCEPTOS BÁSICOS
Todo proceso de decisión lleva implícito dos fuentes de
error (contraste de hipótesis):
El que se comete cuando a un individuo enfermo se
le clasifica como sano.
A la capacidad de un test para acertar con los
individuos enfermos se le llama SENSIBILIDAD
El que se comete cuando a un individuo sano se le
clasifica como enfermo.
A la capacidad de un test para acertar con los
individuos sanos se le llama ESPECIFICIDAD.
9
Dada una medida (6MWT) a partir de la cuál se quiere
diagnosticar/predecir algún suceso (muerte antes del
quinto año), lo primero que se debe hacer es elegir un
punto de corte. A partir de este punto de corte se
puede calcular la sensibilidad y la especificidad del
“método”.
Tabla. Estadísticos descriptivos para el test de la marcha
10
A la vista de los datos vamos a tomar como punto de
corte 400. Esto es, los individuos que caminen menos
de 400 metros serán clasificados como “exitus a los 5
años”.
Tabla. Resultados de la clasificación
11
Surge el problema:
¿Cómo debo fijar el punto de corte?.
Dado que cada problema es diferente y el coste de las
equivocaciones es distinto. Debe ser el “investigador”
el que decida los pesos a darle a la sensibilidad y a la
especificidad.
Una posible solución es utilizar el punto de corte que
optimice el índice de Youden.
Y = S + E -1
12
Otra posibilidad (no excluyente) es calcular todas
las posibilidades. Esto es, todas las posibles
sensibilidades y especificidades para los
distintos puntos de corte.
Esta opción se representa de forma gráfica y se
conoce como curva ROC (Receiver Operating
Characteristics).
13
Desde la curva ROC se deriva otro de los
indicadores usualmente empleados como
medida global de capacidad diagnóstica.
El área bajo la curva ROC (AUC)
14
Ejemplo: curvas ROC
AUC = 0.692 (0.623-0.762)
Younden = 0.327
Punto de Corte: 462.5 m.
Sensibilidad: 73.2%
Especificidad: 59.6%
15
6. REGRESIÓN LOGÍSTICA
La principal peculiaridad de la regresión
logística frente a la regresión usual es
que la variable dependiente toma dos
únicos valores (0 ó 1) que suelen coincidir
con la presencia/ausencia de una
determinada característica.
16
Las interpretaciones y los usos de la
regresión logística son múltiples lo que
hacen que su uso este muy extendido en
la literatura científica.
El objetivo es modelar P(X=1), esto es, la
probabilidad de tener la característica en
estudio.
17
Para ello emplea la función logística (otros
modelos son el tobit, probit...)
Aparece el concepto de Odd Ratio
18
Dentro del “problema” que nos ocupa, vamos a tratar
de predecir la muerte antes del quinto año de un
paciente con COPD utilizando para ello distintas
medias: 6MWT, Disnea, FEV1 y BMI (índice de masa
corporal).
Tabla. Regresión Logística. Mortalidad antes de cinco años.
19
OTRA INTERPRETACIÓN:
Influencia de una variable “corregida” por otra.
Comprobar la influencia del FEV1 corregido por la
EDAD (eliminando o, al menos, reducir, los efectos de
la edad)
Tabla. Regresión Logística. Mortalidad antes de cinco años.
20
NOTA:
Otro método similar a la Regresión Logística pero
menos popular es el ANÁLISIS DISCRIMINANTE.
Ambos métodos tienen mucha relación, si bien, el AD
tiene una generalización mucho más fácil y directa al
caso en el que se tengan más de dos grupos. Su
objetivo es menos ambicioso ya que no pretende
“modelar”, únicamente entender los procesos de la
clasificación.
21
7. ÁRBOLES DE DECISIÓN
Objetivo: Se pretende predecir el
comportamiento de los individuos
(pacientes, población general) ante una
determinada característica (enfermedad)
que ocupará el lugar de la variable
dependiente
a
través
de
su
comportamiento en otras variables,
medidas fisiológicas, etc.. (variables
independientes).
22
Aplicación Directa en Investigación Médica.
Qué características me permiten diagnosticar
una determinada patología. Asignar riesgos de
padecerla o no.
La variable DEPENDIENTE puede ser continua
o discreta sin embargo, las variables
INDEPENDIENTES deben ser discretas,
debiendo “categorizarse” las variables
independientes continuas
23
Los árboles de decisión se construyen
mediante procesos iterativos basados en
seleccionar
entre
las
variables
predictoras (independientes) la que más
convenga a nuestros intereses y aplicar
reiteradamente el mismo criterio sobre
los subgrupos que se van formando.
24
Los algoritmos más usados son:
1. CHAID. (Chi-square Automatic Interaction Detector,
detector automático de interacciones mediante ji-2).
2. C & RT. (Classification and Regression Trees,
árboles de Regresión y Clasificación).
3. QUEST. (Quick, Unbiased, Efficient Statistical Tree,
árbol estadístico eficiente insesgado y rápido).
25
ALGORITMO CHAID.
(Chi-square Automatic Interaction Detector, detector
automático de interacciones mediante ji-2).
Este algoritmo se basa en seleccionar la variable
que más separa los grupos en estudio usando
para ello el criterio de la ji-2 o, de la razón de
verosimilitud.
26
CRITERIO CHI-2. (Repaso)
TABLAS DE CONTINGENCIA
Una tabla de contingencia es una tabla con dos
entradas. Usualmente se utiliza para “describir” dos
variables categóricas.
27
Hay una infinidad de medidas de asociación entre
variables categóricas. Unas se adaptan mejor a unas
situaciones que otras.
28
Obviamente, hay muchos software que
desarrollan estos algoritmos aunque, cuando el
número de variables no es muy elevado se
puede realizar manualmente.
El mas popular es, probablemente, el Answer
Tree (de la casa SPSS) aunque dentro de este
paquete existe un modulo que realiza este tipo
de algoritmos.
29
Ejemplo:
Con las variable: %FEV, 6MWT, Dispnea y BMI
categorizadas, tratamos de predecir si el
paciente de EPOC va a sobrevivir más de cinco
años. Asimismo, también se quiere saber cuales
de estas variables y de qué forma intervienen las
mismas en esta predicción.
30
31
32
33
34
Se obtienen perfiles de pacientes en
base al riesgo de morir durante los
próximos 5 años.
Con los datos del ejemplo, los
pacientes con más riesgo son los que
tienen dispnea cuatro (70% fallece
antes del quinto año).
Los pacientes con menor riesgo son
los que tienen dispnea cero (87% vive
más de cinco años).
35
8. RESUMEN
Fuentes de error en todo diagnóstico
Conceptos básicos en el proceso de toma de
decisiones: sensibilidad, especificidad, punto
de corte
Calidad de un método diagnóstico: índice
Youden, AUC…
Método más modernos/originales: Árboles
de decisión.
36
8. BIBLIOGRAFÍA
http://www.fisterra.com/mbe/investiga/index.asp
http://www.hrc.es/bioest/roc_1.html
Xiao-Hua Zhou, Nancy A. Obuchowski, Donna K. McClish. Statistical
Methods in Diagnostic Medicine, Wiley, New York, 2002.
37
Muchas Gracias
38