Download La cuantificación de la variabilidad en las observaciones clínicas
Document related concepts
no text concepts found
Transcript
f. EPIDEAfIOLOGIA PARA CLINICOS La cuantifica~:ión de la variabilidad en las observc3ciones clínicas l. Hernández Aguado", M. Porta Serra**'***, M. Miralles** F. García Benavides*'.** y F. Bolúmar*'**** .Instituto Valenciano de E.studios en Salud Pública. Valencia. *. Instituto MuniCipal de Investigación Médica. élarcelona. ..*Facultad de Medicina. Universidad Autónoma. Barcelona. *..* Departaml!nto de Salud Comunitaria. Universidad de Alicante En el transcurso de la práctica clínica tiene lugar una serie de operaciones que concluye habitualmente en una toma de decisiones. En ocasiones, los resultados e información producidos por alguna o algunas de las actividades clínicas se emplean en investigación. El éxito de ambos procesos, la asistencia y la investigación clínicas, depende de la veracidad de la información proporcionada en cada una de las etapas u operaciones desarrolladas. La calidad de los datos es un requisito básico de cualquier actividad científica. En el transcurso de! proceso de asistencia clínica, desde la anamnesis hasta la evaluación del tratamiento, realizamos un conjunto de actividades que, básicamente, son mediciones. Mediciones que van desde procedimientos tales como el interrogatorio (c:uando medimos variables como los antecedentes patológiccls del enfermo o el grado de bienestar producido por un tratamiento), a la exploración (cuando medimos signos clínicos como el tamaño del hígado o la coloración de la orina), o también la práctica de pruebas diagnósticas (cuando, por ejemplo, determinamos si en una radiografía hay presencia o no de una fractura). Hay un cierto grado de error intrínseco en cualquier procedimiento de medición, particularmente cuando el componente principal del proceso es la apreciación subjetiva de un observador. Estos errores de medición, en la práctica clínica constituyen potenc:ialmente un grave problema, que puede llegar a invalidar todo el proceso de atención clínica a un paciente. Los errores raramente pueden ser eliminados totalmente, pero el conocimiento de sus causas y su evaluación cuantitativa pueden contribuir decisivamente a mejorar la calidad de la pr;~ctica e investigación clínicas. El grado de error que conlleva cualquier observación clínica puede ser evaluado de1:erminando su exactitud (tabla 1). Este tipo de evaluación, ya expuesta en dos artículos anteriores de esta misma serie1.2, consiste en comparar la medición realizada mediarlte el procedimiento a evaluar, con otro considerado de referencia o patrón. Por ejemplo, podemos comparar el dia~:nóstico clínico de faringitis estreptocócica con el resultad!o del cultivo y determinar la sensibilidad y la especificidad que tiene la observación clínica en el diagnóstico de esta enfermedad3. Pero además de la exac:titud, los procedimientos de medición deben poseer otro atributo básico para que la información que produzcan tenga suficiente calidad. Este atriCorrespondencia:Dr. l. HernándezAguado. Instituto Valenciano de Estudios en Salud Pública. Juan de Garay,21. 46017 Valencia Manuscrito recibido el 19-2-1 '~90 Med G/in (BarcJ 1990; 95: 424-429 ,1"!.. buto es la consistencia o fiabilidad (es decir. la capacidad de un procedimiento para producir el mismo resultado cuando el proceso se repite por el mismo método u observador o por otro observador en las mismas condiciones) (tabla l).La consistencia implica la ausencia de variabilidad o desacuerdo en repetidas observaciones o mediciones. Los procedimientos de medición como los mencionados anteriormente deben tener como característica un grado de consistencia aceptable. además de una buena exactitud. De hecho. cuando un procedimiento de observación clínica muestra una alta variabilidad, no es ni siguiera procedente evaluar su exactitud. Volviendo al ejemplo clínico de la faringitis estreptocócica (es decir, si hay un frecuente desacuerdo entre diferentes observadores o de un observador consigo mismo sobre los distintos signos diagnósticos o sobre el diagnóstico final). no vale la pena evaluar al exactitud de este procedimiento diagnóstico. TABLA 1 Definición de algunos términos introducidos en este artículo EXACTITUD (accuracy, exactitudeJ', Grado en el que una medición representa el verdadero valor del atributo que está siendo medido, es decIr, grado en el que se ajusta a un valor estándar o verdadero. CONSISTENCIA (consistencyJ. Propiedad que define el nivel de acuerdo o conformidad de un conjunto de mediciones consigo mismas. En castellano el término consistencia se refiere normalmente a estrecha uniformidad en los hallazgos. Se habla entonces de conSIStencia de una asociación cuando en una investigación ésta se observa en distintos grupos de individuos, o de consistencia de estudios, cuando se observa un mismo resultado en diferentes estudios FIABiliDAD (reliability, fiabilltéJ. Grado de estabilidad conseguido en los resultados cuando se repite una medición en condiciones Idénticas. Informa sobre la reproducibilidad de resultados obtenidos por un procedimiento de medición. Aunque reproducibilidad y repetibilidad se usan como SinÓnimOS, no se refieren a una cualidad de la medición, sino sólo a la acción de realizar algo más de una vez. En léxico epidemiológico se pueden considerar fiabilidadad y consistencia como sinónimos. cuando son empleados para describir un procedimiento de medición. aunque su significado en lengua usual es distinto; fiabilidad Implica confianza y consistencia implica estabilidad o solidez. No son. por tanto. términos sinónimos y su significado dista, como se ve. del que les atribuimos en nuestra definición. VARIABiliDAD INTEROBSERVADOR (interobserver variability. variabilité interobservateurJ. Diferencias existentes entre los resultados aportados por distintos observadores. VARIABiliDAD INTRAOBSERVADOR (intraobserver variability, variabillté intraobservateurJ. Diferencias existentes entre los resultados que obtiene el mismo observador cuando informa más de una vez sobre un mismo hecho. INDICE KAPPA. Proporción del acuerdo potencial por encima del azar que obtienen distintas mediciones de un mismo hecho "El prImer termIno es la equivalenCia Inglesa y el segundo la francesa Por otro lado, hemos de dejar claro desde el principio que una buena consistencia no significa que la medición sea exacta: con frecuencia la exactitud de una observación no puede ser evaluada ante la ausencia de un patrón de referencia. Un lunático que repite continuamente que él es Cobi, la mascota olímpica, es muy consistente, pero probablemente lo que afirma 110es verdad. Exactitud y consistencia son dos dimensiones distintas, pero a la vez complementarias, de un mismo problema: el problema de la medición. En este artículo vamos a tratar de la frecuencia del desacuerdo o variabilidad en las observaciones clínicas y sus repercusiones, de las formas de evaluarlo cuantitativamente y de sus causas. Variabilidad en la observal:ión clínica La ausencia de consistencia, es decir, la variabilidad se puede producir entre las valoraciones hechas por dos o más observadores (variabilidad interobservadorJ, o por un mismo observador en ocasiones separadas ent~e sí por un lapso de tiempo (variabilidad intraobservadorJ. Esta puede aparecer en cualquiera de las etapas del proceso asistencial. Así, se pueden poner en evidencia desacuerdos sobre: a) los antecedentes o la slntomatología que tiene determinado paciente; b) la existencia o no de determinados hallazgos exploratorios;' c) la interpretación de pruebas diagnósticas; d) la decisión terapéutica, y por último, e) los efectos que la intervención ha tenido sobre el paciente. La mayoria de los clínicos son conscientes de la existencia del desacuerdo o variabilidad en sus valoraciones, entre otros motivos porque la práctica diaria se lo recuerda constantemente al discrepar de sus colegas respecto a las mismas obsenlaciones clínicas. En el período de formación se manifiesta con más facilidad la existencia de desacuerdo en las observaciones, pues los médicos en formación suelen pedir a su ,tutor la corroboración de los distintos actos clínicos reali~ados. comprobando por ejemplo, y no sin cierta decepción, que la esplenomegalia observada no era tal, que esas supuestas ondas q no son lo que parecen o que no se ha detectado un soplo cardiaco; incluso pueden llegar a escuchar con estupor cómo el paciente dice lo que no dijo o lo desmiente delante del adjunto o jefe clínico. A este tipo de desacuerdo no se le da excesiva importancia, ya que se considera al tutor como el patrón de referencia con quien se compara el médico en formación. Sin embargo, lo que ya es más preocupante es que tampoco se le dé demasiada importancia fuera de este período de formación. Algunos clínicos se sienten incóm,odos cuando su práctica clínica es valorada por otros profesionales; otros, por el contrario, menos susceptibles, solicitan a menudo la colaboración de sus colegas en la confirmacIón o no de una observacIón dudosa y comprueban lo frecuente que en ocasiones llega a ser la variabilidad. Sin embargo, no siempre se diseñan estrate- TABLA 2 Frecuencias obtenidas por los observadores A y B al clasificar el mismo grupo de 110 pacientes en dos categorías de su enfermedad (grados I y 11): frecuencias reales u observadas Observador A ObservadorB Gr,1do I 35 gias para reducirla, ni siquiera en aquellas formas de medición más sujetas a inconsistencia. El grado de inconsistencia en algunas observaciones ha sido puesto en evidencia por medio de investigaciones diseñadas al efecto; el lector interesado puede consultar una guía publicada sobre estudios de variabilidad4. Entre los diversos ejemplos, se pueden citar los estudios sobre el desacuerdo observado en el examen de fotografías de fondo de ojo, en la interpretación de estudios radiográficos o en la realización de encuestas sobre antecedentes o exposiciones a tóXICOSde diverso tipoS-7. Formasde evaluar la variabilidad De los diferentes métodos que han surgido para valorar el grado de acuerdo o desacuerdo entre los clínicos, los que han demostrado ser más ventajosos (dependiendo del tipo de datos que comparemos) son los siguientes: 1) índice kappa. para categorías nominales o binarias; 2) índice kappa ponderado, para categorías ordinales (tres o más categorías ordenadas), y 3) coeficiente de correlación intraclases, para categorías cuantitativas. Indice kappa Ya hemos apuntado que el índice kappa se utiliza cuando hay únicamente dos categorías de valoración, o cuando hay más de dos sin un orden jerárquico entre ellas (nominales policotómicas), como por ejemplo los grupos sanguíneos o el estado civil. Veamos cómo se calcula el índice kappa en el supuesto de dos observadores ante una variable dicotómica (por ejemplo enfermo, no enfermo). La tabla 2 resume los datos obtenidos por dos observadores (A y B) al clasificar a 110 pacientes según dos posibles grados de evolución de una supuesta patología (grados I y 11). En la tabla 2 se han as~do las letras a, b, c y d a cada una de las cuatro casillas; a y d son las casillas donde se representan las frecuencias del acuerdo o concordancia entre los dos observadores; con b y c se representa la frecuencia de desacuerdo. .EI índice de acuerdo observado (lo) se calcula dividiendo la suma de las casillas en que los observadores han coincidido (a y d) por el total de observaciones: lo = (a + d) / n = (37 + 52) / 110 = 0,81 (81 %) Este sería el índice que Fleiss denomina de concordancia simple y nos mide la proporción (o el tanto por ciento) de acuerdo respecto al total de observaciones8. Sin embargo, no es una medida suficiente de la concordancia, ya que si uno de los observadores hubiera hecho sus diagnósticos tirando una moneda al aire (cara = grado I y cruz = grado 11), posiblemente hallaríamos también una cierta coincidencia, debida exclusivamente al azar, entre los resultados de ambos. Debemos, pues, tener en cuenta esta posible influencia del azar y cuantificarla. Para averiguar en qué proporción coinciden realmente nuestros dos observadores, tendríamos que preguntarnos primero cuál sería la frecuencia en cada casilla si la única relación entre las conclusiones de los observadores A y B fuese el azar. La tabla 3 ilustra las frecuencias que obtendríamos si las observaciones de A y B no tuviesen otra relación que el azar, o lo que es lo mismo, si fuesen independientes. Con estas frecuencias teóricas, calculamos el índice de acuerdo debido al azar (lA) análogamente a como habíamos calculado lo: lA = (a' + d') / n = (20,51 + 35,51) /110 = 0,51 (51 %) 425 ~ TABLA 3 Frecuencias que habriéln obtenido los mismos observadores A y 8 (tabla 2), si hubies.~n clasificado a los 110 pacientes de un modo totalmente arbitrario y diferente para cada uno de ellos (esto es, no hubiese relación alguna entre sus criterios de valoración de los distintos pacientes): frl~cuencias teóricas o esperadas Acueroo_o 781% , 1\ , Grado I 48 x 47 = 20.51 a 62 x 47 -, 62 x 63 = 27.49 48 x y l. son Independientes. probabilidad (x " II = P(x)" P(l) un tactor de COincidencia distinto 4B (grado l. " grado 18) = probabilidad (grado 18) = -x - 47 del alar ~ S, entre los 100% probabilidad , 110 110 Para convertIr la probabilidad a las mismas unidades en Que tenemos expresados los valores de la tabla. debemos multlpllcarla por n (1101. con lo cual slmplltlcamos un 110 en el denominador SuponIendo la Independencia de las observaciones. entonces la trecuencla a de la casIlla 4B x 47 (grado I .8) sera Igual a -; y analagamente en todas las casIllas 49% Fig. 1. Representaclongraf¡ca del cálculo dellndlce Kappa TABLA 4 I Definida 6 3 21 3 Probable 10 1 2 3 Posible 11 1 4 Improbable 16 en negrita representan 1 3 13 10 el peso o factor de ponderaclon 40 I (n) Esto quiere decir que el 51 % de las veces que los observadores coinciden puede explicarlo el azar. Por lo tanto, sólo el 30 % (81 % -=)1 %) se debe únicamente a que están usando los mismos criterios de diagnóstico. A este 30 % (0,30) le llamaremos acuerdo observado no debido al azar y será el numerador del índice kappa. Para el denominador calcularemos la cantidad de acuerdo observado. no debida al azar, que hallaríamos si el acuerdo observado (lo) fuese pE!rfecto (1 o 100 %): 1 --0,51 = 0,49. De este modo, el índice kappa es: índice kappa = acuerdo observado no debido al azar / máximo acuerdo posible no debido al azar = ! (lo -lA) / (1 -lA). i En nuestro ejemplo: ín~ice kappa = (0,81 -0,51) I (1 -0,51) 27 .. -= 49 ':. 0.55 indice kappa ponderado ObservadOIA Definida no debido al azar Adaotado de Sackett9 Frecuencias obtenidas por los observadores A y B al clasificar el mismo ~:rupo de 40 pacientes en cuatro categorías de su enferrnedad (definida, probable, posible e improbable): frecuencias reales u ob~;ervadas = 0,61 (61 %) Esto es.161 de cada 1.00 (61 %) observaciones son coincidentes entre los dos observadores, una vez eliminada la parte que puede ser e~:plicada por el azar (fig. 1). 426 Acuerdo real no debido al azar --= Acuerdo potencial ~B v Acuerdo polenClal no debido al azar Kaooa = i Acuerdo real no debido al azar 27% 110 62 A y B no hubiera Los números "--r Acuerdo esperado [XX azar 51 % 63 = 35.51 v 110 110 S, doS sucesos. = 26.49 110 1~ 110 Grado observadores 47 " El índice kappa ponderado se utiliza cuando hay más de dos categorias de valoración con un orden jerárquico entre ellas, ya que no es lo mismo discrepar de I a II que de I a 111;por ejemplo, no es lo mismo de leve a moderado que de leve a grave. Se calcula de forma análoga al indice kappa simple, pero multiplicando el valor de cada casilla por un valor (peso o w) que pondere la magnitud del desacuerdo con sus casillas vecinas. Veámoslo de nuevo mediante un ejemplo (tablas 4 y 5). La tabla 4 contiene las frecuencias reales halladas al calificar dos observadores distintos si las manifestaciones que presentaban 40 pacientes de un estudio clínico eran debidas al fármaco con que se trataban, según cuatro categorías: definida, probable, posible e improbable. En la tabla 5 hemos incluido las frecuencias que hubiésemos hallado si los investigadores hubiesen asignado los pacientes a cada categoría de forma aleatoria, es decir, si hubiesen actuado de forma independiente. El índice kappa ponderado se define igual que el índice kappa, pero se calcula a partir de la proporción de desacuerdos, asignando a cada frecuencia un peso o factor de ponderación (W, números en negrita en las tablas 4 y 5) en función de la magnitud de desacuerdo que representa. Así, en el ejemplo de la tabla asignamos: W = 1, cuando la magnitud del desacuerdo es de una sola categoría (por ejemplo, observador A definida, observador B probable); W = 2, si hay desacuerdo de magnitud entre dos categorías (por ejemplo, observador A definida, observador B posible), y así sucesivamente. Una vez asignados los pesos y calculadas las frecuencias debidas al azar o teóricas (tabla 5), el cálculo del índice kappa ponderado se realiza del modo siguiente (tabla 6): índice kappa ponderado = 1 -proporción de desacuerdos real (00) / proporción de desacuerdos que hallaríamos por azar (OA); 00 = sumatorio w x frecuencias observadas / sumatorio de frecuencias (N); 36 I l. HERNANDEZAGUADOET AL.- LA CUANTIFICACIONDE LA VARIABILIDAD EN LAS OBSERVACIONES CLlNICAS TABLA 5 Frecuencias que habrían obtenido los mismos observadores si hubiesen clasificado a los 40 pacientes de un modo totalmente arbitrario y diferente para cada uno de ellos (esto es, no hubiese relación alguna entre sus criterios de valoración de los distintos pacientes): frecuencias teóricas o esperadas por azar ~A ObS«Y.-B Probable Definida Definida ~ Probable 40 16 x 6 = 1.05 ~= = 2.4 40 1,75 40 Posible 7 x 6 = 1,05 40 7 x 10 ~=4 40 Im~ 10 x 6 = 1,5 6 40 = 1,75 10 x 10 40 40 = 2.5 10 1 7 xII Posible 40 16 xlI = 1.95 40 7 xii =44 = 1.93 40 10 xlI = 2.75 11 40 1 Improbable 7 x 13 40 16 x 13 = 2.27 = 5.2 40 en negrita representan el ,'"so O factor de ponderacIón = 2.27 40 16 7 Los numeros 7 x 13 10 x 13 40 7 = 3.25 10 13 40 (n). QA = sumatorio w x frec:uencias teóricas I sumatorio de frecuencias (N). En la tabla 6 podemos ver la aplicación de estas fórmulas al ejemplo presentado anteriormente en las tablas 4 y 5; por tanto el índice kappa ponderado sería igual a 0,05, esto es, 5 de cada 100 ó el 5 % de las observaciones coincidentes no pueden ser atrit)uidas al azar. Coeficiente de correlación intraclases El coeficiente de correlación intraclases se utiliza para valorar la coincidencia cuando las variables medidas son cuantitativas. Combina una prueba de correlación con una prueba de diferencia de medias, de forma que corrige el error sistemático (el coefi<:iente disminuye cuando una variable es constantemente mayor o menor que la otra). Se calcula de forma parecida a un análisis de la varianza. No nos extendemos más, pues, pensamos que es un tipo de análisis a realizar por personas iniciadas en la materia. El lector interesado puede consultar la bibliografías. Es incorrecto utilizar el cc,eficiente de correlación de Pearson u otros índices de tendencia para describir coincidencia, porque dos variables pueden estar relacionadas en alto grado (esto es, tener un alto coeficiente de correlación) y sin embargo no coIncidir; por ejemplo, c.uando una de ellas es el mismo número de vl~ces superior o inferior a la otra: una perfecta correlación inversa equivaldría a un total desacuerdo1O. Consideraciones sobre kappa (simple o ponderado) Los valores de kappa pueden oscilar entre -1 y +1, de forma que kappa igual a () denota que el acuerdo obtenido se puede explicar exclusivamente por el azar, si kappa tiene valor negativo indica un acuerdo menor que el que hallaríamos meramente por azar y kappa igual a 1 indica un acuerdo perfecto. Nos podemos preguntar a partir de qué valor de kappa puede considerarse que hay una concordancia aceptable. Hay algunas propuestas para contestar a esta pregunta, la más utilizada es la de Fleiss8, que establece que un valor de kappa inferior a 0,40 indica concordancia deficiente, de 0,40 a 0,75 acuerdo aceptable a bueno y más de 0,75 indica acuerdo excelente. Sin embargo, puede ser incorrecto comparar valores de kappa obtenidos en poblaciones diferentes, por los motivos que pasamos a comentar. Kappa tiene algunas influencias que limitan su utilidad. La principal es que varía su valor según la prevalencia de la anomalía o enfermedad que se estudie, a pesar de que los observadores mantengan su misma calidad en la observaciónll. En particular, en los valores extremos de prevalencia, tanto si es muy baja como muy alta, kappa tiende a disminuir. Por ello, no sería comparable, por ejemplo, un valor de kappa obtenido en un estudio de concordancia en el diagnóstico de linfadenopatía generalizada en un grupo de pacientes en los que la mitad tienen la anomalía (prevalencia = 50 %), con el valor de kappa obtenido por otros o los mismos observadores al estudiar pacientes en los que la anomalía se presenta sólo en el 5 % de los mismos. Cuando se calcula kappa para datos con más de dos categorías, debemos tener en cuenta que a medida que aumenta el número de categorías disminuye el valor de kappa. dependiendo su magnitud más de cómo fueron definidas las categorías que del grado de reproducibilidad de los métodos usados. Cuando hay más de dos categorías puede ser mejor comparar cada una de ellas con la suma de todas las demás8. TABLA 6 Cálculo del índice kappa ponderado (Kp) basándonos en ~ 00 = prOpOrclonde desacuerdoreal: a. -proporclon 37 frecuencias de las tablas 4 y 5 de desacuerdo que nallarLamospor azar 427 MEDICINA CLíNICAVOL. 95. NUM. 11. 1990 Causas de la variabilidad en la observación Cuando evaluamos la corlsistencia, el objetivo principal no debe ser la constatación de que hay variabilidad. El objetivo de un estudio de variabilidad debe ser la investigación de los factores que la originan. e intentar determinar qué tipo de variabilidad actúa en el procedimiento de medición estudiado y cuáles son los factores que la producen. Al preparar una investigación de este tipo debemos diseñar los mecanismos para poder alcanzar estos objetivos. Vamos a discutir ahora, con algunos ejemplos, a fin de orientar el diseño de estos estudios" las distintas causas de la variabilidad. Se pueden distinguir tres fuentes de variabilidad12; 1) la variabilidad atribuible al procedimiento, 2) la variabilidad debida a las discrepancials entre los observadores o usuarios del procedimiento de ot)servación y 3) la variabilidad del ente o individuo observado. Entre los errores debidos al procedimiento de medición, no sólo hay que tener en cuenta los debidos al incorrecto funcionamiento o manejo de los instrumentos físicos empleados, y que obviamente ~,ueden dar lugar a desacuerdos en las observaciones, sino que también hay que considerar los factores que alteran la realización de estas mediciones. Deben tenerse en cuenta, por ejemplo, la influencia de factores ambientales, como frío, calor, luz, ruido y otros, en la exploración física, o la relación médico-paciente en la anamnesis. El usuario u observador es siempre una fuente importante de variabilidad. Pensemos en primer lugar en la variación biológica de los sentidos. Recordemos que exploraciones como la palpación o la ,auscultación se inician a través de los sentidos para posteriormente, en una segunda fase, ser interpretadas y reducidas a categorías semiológicas. Hay una variabilidad bien conocida, fruto de las distintas sensibilidades o agudezas de los sentidos, entre diferentes observadores; otra menos conocida, pero bien probada, es la variación de los sentido:s de los observadores en diferentes situaciones (hora del díél, niveles de tensión y cansancio..). La inconsistencia en la observación también puede ser debida (entre otras causas), a la diferente formación de los observadores o a la inslJficiente formación de alguno o alguno de ellos, que los lleva a utilizar distintos criterios en la interpretación de los datos o, lo que sería más grave desde el punto de vista de la reducción de la discordancia, a recoger datos o hacer observaciones diferentes. Otras formas de variabil idad que tienen su origen en el observador no son exclusi~'amente achacables a éste. Hayocasiones en que los sistemas de clasificación tienen límites arbitrarios (casi todos lo son) entre distintas categorías diagnósticas. lo que produc:e discrepancias, como por ejemplo ocurre cuando hay acuerdo en lo que se observa, pero no sobre a qué categoría ~feestablecida corresponde. También hay que señalar que el observador puede estar influenciado más por lo que espera encontrar que por la realidad de lo observado, 1:endiendo a recoger los datos que le ayuden a confirmar su hipótesis diagnóstica preestablecida. La última fuente de variabilidad es la debida al ente observado. Cuando ésto!; son pacientes debemos tener en cuenta, fundamentalm,ente, la variación biológica al explorar determinados signos. Un ejemplo bien conocido es la variación que observamos en varias tomas sucesivas de la tensión arteria/, razón por la que se recomienda utilizar el valor medio de las diferentes tomas. Por otro lado, también pueden producirse desacuerdos en las anamnesis debido a que los pacientes intE~rrogados sobre determinados antecedentes o exposicion,es pueden recordar en una segunda entrevista datos no recogidos anteriormente, debido a la re- 428 TABLA 7 Algunos ejemplos sobre las distintas fuentes de variabilidad l. Un medlco del servicio especial de urgencias conocido de los autores, Ingreso en una ocasión a un niño en el hospital con el diagnostiCO de neumonia. Al consultar el caso telefónica mente con el medlco de puertas. constató con satisfacción que ambos comcldlan en el diagnostiCO y que el Ingreso era correcto: sin embargo. se quedo estupefacto a medida que este le comentaba lo impresionado que estaDa por la gravedad del sarampión que padecla el niño y que se habla complicado con la neumonia. Un factor ambiental. la ausenCia de luz adecuada en la vIvIenda del pacIente. habia interferido en su observación, Impidiendo que apreCiara un evidente sarampión. Tal vez. la misma ausencia de luz le agudízó el oído y no erró en otra observación mas decIsiva. En cualquier caso. es precIso realizar la exploración clinica en las melores condicIones ambientales posibles. 2 Para verificar la calidad de algunos de los datos en una Investigación sobre síndrome de inmunodeficienc~a adquirIda (SI DA) y complelo relacionado con el SIDA. Coates et all, valoraron el grado de acuerdo clinico entre diferentes medicos sobre la presencia o ausenCia de linfadenopatla generalizada. Los resultados oDtenidos IndIcan que la formacIón y experiencia del clínico son determinantes de la fiabilidad de este tIPO de exploración y que se puede cuestionar la !nformaclon sobre Ilnfadenopatla generalizada. SI no procede de personas experimentadas que han estandarizado cuidadosamente el examen clinlco. En esta misma Investlgaclon se puso en evidenCia un alto grado de dlscreoancla entre cllnlcos al valorar el tamaño y numero de adenopatlas. Los autores concluyen que los ensayos clínicos que monitoricen cambiOs en tamaño y numero de los gangllOS linfaticos como respuesta al tratamIento. deben ser Inter- pretados con precaución. 3 Si a dos radiólogos les pedimos que nos clasifiquen radiografías de tórax según la presencia o ausencia de embolla pulmonar. parte de la varIabilidad que podríamos observar entre ellos puede ser consecuencia de no incluir la categoría dudosa. es decir. una categoría con la que los observadores puedan expresar la incertidumDre y no verse oblIgados a separar entre anormalidad r normalidad. dado Que el abanico de POSIbilidades siempre es mayor 4 4. En una Investigación reciente. se analizo la variabilidad Inter e intraobservador en la interpretación de una prueba de inmunofluorescencia para la detección de Chlamydia trachomafis en exudado genital. En una primera fase se encontró una pobre concordancia Interobservador (kappa = 0,41) e intraoDservador (kappa = 0.78 y 0.61). consecuencia de la subJetividad en la aplIcación de los criterios diagnósticos. En una segunda fase se pudo comprobar como mediante una comunicación y estandarlzacion adecuadas meJoraba sensiblemente la consistencia en el diagnóstico15. 5 Un excelente eJemplo de cómo el observador puede ~st~r influenciado por sus propias previsiones. fue el trabalo de Day et all" sobre auscultación de la frecuencia cardlaca fetal. Al comparar la frecuencia recogida por auscultación y la registrada en la monitorlzación fetal. se observó que cuando la frecuencia cardiaca fetal registrada en el monitor estaDa entre 130 y 150 mm. es decir dentro de los limites normales. había una buena concordancia con los clínicos. En cambio, cuando la frecuencia cardlaca era mayor de 150 mmHg los clínicos tendlan a recoger valores mas balos y cuando era menor de 130 mmHg los recogían mas altos. En ambos casos los clínicos daban una frecuencia mas acorde con la normalidad deseada. flexión realizada en el período entre ambas entrevistas. En la tabla 7 se resumen algunos ejemplos sobre las distintas fuentes de variabilidad. Conclusión Se pueden demostrar inconsistencias en cada uno de los datos recogidos en la clínica; sin embargo, no tiene por qué haber preocupación acerca de valoraciones que tienen poco o ningún impacto en decisiones cruciales. La importancia de la variabilidad es decisiva cuando dichas valoraciones conducen a intervenciones quirúrgicas, cambios en el estilo de vida del paciente, terapéuticas prolongadas, arriesgadas y costosas, o cuando afectan a los principales resultados de un proyecto de investigación. Los clínicos interesados en detectar y cuantificar la variabilidad en aspectos claves de sus actividades clínicas, no deben dejarse impresionar por la relativa complejidad matemática de los numerosos índices usados en la literatura 38 l. HERNANDEZAGUADOET Al.- LA CUANTIFICACIÓNDE LA VARIABiliDAD EN LAS OBSERVACIONES cliNICAS científica para valorar la concordancia entre mediciones. A esto se añaden los probllemas de interpretación y uso que rodean algunos de los más conocidos, como es el caso del índice kappa17. El conocimiento de estos índices puede ser decisivo para interpretar investigaciones sobre el tema. pero en muchas ocasiones el íl'ldice de concordancia simple o la mera descripción pormenorizada de los acuerdos y desacuerdos observados es suficiente. y más aún si tenemos en cuenta que el estudio de la variabilidad no tiene como meta únicamente la cuantificación. sino la detección de sus fuentes y $U prevención. La extensión de este tipo de investigaciones. que evalúen el nivel de variabilidad en distintas actividades clínicas. detecten su origen y establezcan los métodos para reducirl¡~, puede contribuir a la mejora de la calidad de la atención médica: Agradecimiento A Manuel Arranz Lázaro, responsable de la Biblioteca del Instituto Valenciano de E:studios en Salud Pública, por hacer más comprensible el texto, y a Virginia Barrachina por mejorar su forma final. BIBLIOGRAFíA l. Pozo Rodríguez F. La eficacia de las pruebas diagnósticas (1). Med Clin (Barc) 1988: 90: 779-785. 2. Pozo Rod~íguez F. La eficaci¡! de las pruebas diagnósticas (11). Med Clin (Barc) 1988: 91: 177-183. 39 3. Hidalgo MA, Lobos JM, Seguido P, García-Perea P, Urdiola P, Conthe P Farlngltis aguda: valor predictivo de los datos clínicos en el diagnóstico de etiología estreptocócica. Med Clin (Barc) 1988: 90: 156-159. 4 Feínstein AR. A bibliography 01 publications on observer variabllity. J Chronic Dis 1985; 38: 619-632. 5 Sperduto RD, Hiller R. Podgor MJ et al. Comparability 01 ophtalmic diagnoses by clinical and reading center examiners ín the visual acuity impairment survey pilot study. Am J Epidemiol 1986; 124: 994-1.003. 6. Kjaersgaard-Andersen P. Christensen F. Schmidt SA, Pedersen NW. A new method 01 stimation 01 interobserver varlation and its application to the radiological assessment 01 osteoarthrosis in hip joints. Stat Med 1988; 7: 639-647. 7. Pron GE, Burch JD, Howe GR, Miller AB. The reliability 01 passive smoking histories reported In a case-control study 01 lung cancer. Am J Epidemiol 1988; 127: 267-273. 8. Fleíss JL. Statistical methods lor rates and proportions. Nueva York: John Wiley and Sons, 1981; 212-225. 9. Sackett DI, Haynes RB, Tugwell P Epidemiología Clínica. Una ciencia básica. Madrid: Diaz de Santos SA, 1989; 37. 10. Bland JM, Altman DG. Statistical methods lor assessing agreement between two methods 01 clinical measurement. Lancet 1988; 1: 307-310. 11. Thompson WD, Walter SD. A reappraisal 01 the kappa coefficient. J Clin Epidemiol 1988; 41: 949-958. 12. Feinstein AR. Clinimetrics. New Haven: Yale University Press, 1987; 167-189. 13. Coates RA, Fanning MM, Johnson JK, Calzavara L. Assessment 01 generalized Iymphadenopathy in aids research: the degree 01 climcal agreemento J Clin Epidemiol 1988; 41: 267-273. 14. Feinstein AR. Clinical Epidemiology. The architecture 01 clinical research. Filadellia: WB Saunders Company, 1985: 635. 15. Hern,ández Aguado 1, Ruiz Atienza L, Fernández Garcla 1, Fernández García E, Alvarez-Dardet C. Evaluación de la variabilidad del diagnóstico rápido de infección por Chlamydia trachomatis mediante inmunolluorescencia directa. Med Clin (Barc) 1990; 94: 9-11. 16. Day E, Maddern L, Wood C. Auscultation 01 loetal heart rate: an assessment 01 its error and signilicance. Br Med J 1968; 4: 422-424. 17. Maclure M, Willett WC. Misinterpretation and misuse 01 the Kappa statistic. Am J Epidemiol 1987: 126: 161-169. 429