Download La cuantificación de la variabilidad en las observaciones clínicas

Document related concepts
no text concepts found
Transcript
f.
EPIDEAfIOLOGIA
PARA CLINICOS
La cuantifica~:ión de la variabilidad
en las observc3ciones clínicas
l. Hernández Aguado", M. Porta Serra**'***, M. Miralles**
F. García Benavides*'.** y F. Bolúmar*'****
.Instituto
Valenciano de E.studios en Salud Pública. Valencia. *. Instituto MuniCipal
de Investigación Médica. élarcelona. ..*Facultad de Medicina. Universidad Autónoma.
Barcelona. *..* Departaml!nto de Salud Comunitaria. Universidad de Alicante
En el transcurso de la práctica clínica tiene lugar una serie
de operaciones que concluye habitualmente en una toma
de decisiones. En ocasiones, los resultados e información
producidos por alguna o algunas de las actividades clínicas
se emplean en investigación. El éxito de ambos procesos,
la asistencia y la investigación clínicas, depende de la veracidad de la información proporcionada en cada una de las
etapas u operaciones desarrolladas. La calidad de los datos
es un requisito básico de cualquier actividad científica.
En el transcurso de! proceso de asistencia clínica, desde la
anamnesis hasta la evaluación del tratamiento, realizamos
un conjunto de actividades que, básicamente, son mediciones. Mediciones que van desde procedimientos tales
como el interrogatorio (c:uando medimos variables como los
antecedentes patológiccls del enfermo o el grado de bienestar producido por un tratamiento), a la exploración (cuando
medimos signos clínicos como el tamaño del hígado o la
coloración de la orina), o también la práctica de pruebas
diagnósticas (cuando, por ejemplo, determinamos si en una
radiografía hay presencia o no de una fractura).
Hay un cierto grado de error intrínseco en cualquier procedimiento de medición, particularmente cuando el componente principal del proceso es la apreciación subjetiva de
un observador. Estos errores de medición, en la práctica clínica constituyen potenc:ialmente un grave problema, que
puede llegar a invalidar todo el proceso de atención clínica
a un paciente. Los errores raramente pueden ser eliminados
totalmente, pero el conocimiento de sus causas y su evaluación cuantitativa pueden contribuir decisivamente a mejorar la calidad de la pr;~ctica e investigación clínicas.
El grado de error que conlleva cualquier observación clínica
puede ser evaluado de1:erminando su exactitud (tabla 1).
Este tipo de evaluación, ya expuesta en dos artículos anteriores de esta misma serie1.2, consiste en comparar la medición realizada mediarlte el procedimiento a evaluar, con
otro considerado de referencia o patrón. Por ejemplo, podemos comparar el dia~:nóstico clínico de faringitis estreptocócica con el resultad!o del cultivo y determinar la sensibilidad y la especificidad que tiene la observación clínica
en el diagnóstico de esta enfermedad3.
Pero además de la exac:titud, los procedimientos de medición deben poseer otro atributo básico para que la información que produzcan tenga suficiente calidad. Este atriCorrespondencia:Dr. l. HernándezAguado. Instituto Valenciano de
Estudios en Salud Pública. Juan de Garay,21. 46017 Valencia
Manuscrito recibido el 19-2-1 '~90
Med G/in (BarcJ 1990; 95: 424-429
,1"!..
buto es la consistencia o fiabilidad (es decir. la capacidad
de un procedimiento para producir el mismo resultado
cuando el proceso se repite por el mismo método u observador o por otro observador en las mismas condiciones) (tabla l).La consistencia implica la ausencia de variabilidad
o desacuerdo en repetidas observaciones o mediciones. Los
procedimientos de medición como los mencionados anteriormente deben tener como característica un grado de consistencia aceptable. además de una buena exactitud. De
hecho. cuando un procedimiento de observación clínica
muestra una alta variabilidad, no es ni siguiera procedente
evaluar su exactitud. Volviendo al ejemplo clínico de la faringitis estreptocócica (es decir, si hay un frecuente desacuerdo entre diferentes observadores o de un observador
consigo mismo sobre los distintos signos diagnósticos o sobre el diagnóstico final). no vale la pena evaluar al exactitud
de este procedimiento diagnóstico.
TABLA 1
Definición de algunos términos introducidos
en este artículo
EXACTITUD (accuracy, exactitudeJ', Grado en el que una medición
representa el verdadero valor del atributo que está siendo medido, es
decIr, grado en el que se ajusta a un valor estándar o verdadero.
CONSISTENCIA (consistencyJ. Propiedad que define el nivel de
acuerdo o conformidad de un conjunto de mediciones consigo mismas. En castellano el término consistencia se refiere normalmente a
estrecha uniformidad en los hallazgos. Se habla entonces de conSIStencia de una asociación cuando en una investigación ésta se observa
en distintos grupos de individuos, o de consistencia de estudios,
cuando se observa un mismo resultado en diferentes estudios
FIABiliDAD (reliability, fiabilltéJ. Grado de estabilidad conseguido
en los resultados cuando se repite una medición en condiciones Idénticas. Informa sobre la reproducibilidad
de resultados obtenidos por
un procedimiento de medición. Aunque reproducibilidad
y repetibilidad se usan como SinÓnimOS, no se refieren a una cualidad de la
medición, sino sólo a la acción de realizar algo más de una vez. En
léxico epidemiológico se pueden considerar fiabilidadad y consistencia como sinónimos. cuando son empleados para describir un procedimiento de medición. aunque su significado en lengua usual es
distinto; fiabilidad Implica confianza y consistencia implica estabilidad o solidez. No son. por tanto. términos sinónimos y su significado dista, como se ve. del que les atribuimos en nuestra definición.
VARIABiliDAD INTEROBSERVADOR (interobserver variability. variabilité interobservateurJ. Diferencias existentes entre los resultados
aportados por distintos observadores.
VARIABiliDAD INTRAOBSERVADOR (intraobserver variability, variabillté intraobservateurJ. Diferencias existentes entre los resultados
que obtiene el mismo observador cuando informa más de una vez
sobre un mismo hecho.
INDICE KAPPA. Proporción del acuerdo potencial por encima del
azar que obtienen distintas mediciones de un mismo hecho
"El prImer termIno es la equivalenCia Inglesa y el segundo la francesa
Por otro lado, hemos de dejar claro desde el principio que
una buena consistencia no significa que la medición sea
exacta: con frecuencia la exactitud de una observación no
puede ser evaluada ante la ausencia de un patrón de referencia. Un lunático que repite continuamente que él es
Cobi, la mascota olímpica, es muy consistente, pero probablemente lo que afirma 110es verdad. Exactitud y consistencia son dos dimensiones distintas, pero a la vez complementarias, de un mismo problema: el problema de la
medición.
En este artículo vamos a tratar de la frecuencia del desacuerdo o variabilidad en las observaciones clínicas y sus repercusiones, de las formas de evaluarlo cuantitativamente
y de sus causas.
Variabilidad en la observal:ión clínica
La ausencia de consistencia, es decir, la variabilidad se
puede producir entre las valoraciones hechas por dos o más
observadores (variabilidad interobservadorJ, o por un mismo
observador en ocasiones separadas ent~e sí por un lapso de
tiempo (variabilidad intraobservadorJ. Esta puede aparecer
en cualquiera de las etapas del proceso asistencial. Así, se
pueden poner en evidencia desacuerdos sobre: a) los antecedentes o la slntomatología que tiene determinado paciente; b) la existencia o no de determinados hallazgos exploratorios;' c) la interpretación de pruebas diagnósticas;
d) la decisión terapéutica, y por último, e) los efectos que
la intervención ha tenido sobre el paciente.
La mayoria de los clínicos son conscientes de la existencia
del desacuerdo o variabilidad en sus valoraciones, entre
otros motivos porque la práctica diaria se lo recuerda constantemente al discrepar de sus colegas respecto a las mismas obsenlaciones clínicas. En el período de formación se
manifiesta con más facilidad la existencia de desacuerdo
en las observaciones, pues los médicos en formación suelen
pedir a su ,tutor la corroboración de los distintos actos clínicos reali~ados. comprobando por ejemplo, y no sin cierta
decepción, que la esplenomegalia observada no era tal, que
esas supuestas ondas q no son lo que parecen o que no se
ha detectado un soplo cardiaco; incluso pueden llegar a escuchar con estupor cómo el paciente dice lo que no dijo o
lo desmiente delante del adjunto o jefe clínico. A este tipo
de desacuerdo no se le da excesiva importancia, ya que se
considera al tutor como el patrón de referencia con quien
se compara el médico en formación. Sin embargo, lo que
ya es más preocupante es que tampoco se le dé demasiada
importancia fuera de este período de formación. Algunos
clínicos se sienten incóm,odos cuando su práctica clínica es
valorada por otros profesionales; otros, por el contrario, menos susceptibles, solicitan a menudo la colaboración de sus
colegas en la confirmacIón o no de una observacIón dudosa
y comprueban lo frecuente que en ocasiones llega a ser la
variabilidad. Sin embargo, no siempre se diseñan estrate-
TABLA 2
Frecuencias obtenidas por los observadores A y B
al clasificar el mismo grupo de 110 pacientes
en dos categorías de su enfermedad (grados I y 11):
frecuencias reales u observadas
Observador A
ObservadorB
Gr,1do I
35
gias para reducirla, ni siquiera en aquellas formas de medición más sujetas a inconsistencia.
El grado de inconsistencia en algunas observaciones ha sido
puesto en evidencia por medio de investigaciones diseñadas
al efecto; el lector interesado puede consultar una guía publicada sobre estudios de variabilidad4. Entre los diversos
ejemplos, se pueden citar los estudios sobre el desacuerdo
observado en el examen de fotografías de fondo de ojo, en
la interpretación de estudios radiográficos o en la realización de encuestas sobre antecedentes o exposiciones a tóXICOSde diverso tipoS-7.
Formasde evaluar la variabilidad
De los diferentes métodos que han surgido para valorar el
grado de acuerdo o desacuerdo entre los clínicos, los que
han demostrado ser más ventajosos (dependiendo del tipo
de datos que comparemos) son los siguientes: 1) índice
kappa. para categorías nominales o binarias; 2) índice kappa ponderado, para categorías ordinales (tres o más categorías ordenadas), y 3) coeficiente de correlación intraclases, para categorías cuantitativas.
Indice kappa
Ya hemos apuntado que el índice kappa se utiliza cuando
hay únicamente dos categorías de valoración, o cuando hay
más de dos sin un orden jerárquico entre ellas (nominales
policotómicas), como por ejemplo los grupos sanguíneos o
el estado civil. Veamos cómo se calcula el índice kappa en
el supuesto de dos observadores ante una variable dicotómica (por ejemplo enfermo, no enfermo).
La tabla 2 resume los datos obtenidos por dos observadores
(A y B) al clasificar a 110 pacientes según dos posibles grados de evolución de una supuesta patología (grados I y 11).
En la tabla 2 se han as~do
las letras a, b, c y d a cada
una de las cuatro casillas; a y d son las casillas donde se
representan las frecuencias del acuerdo o concordancia entre los dos observadores; con b y c se representa la frecuencia de desacuerdo.
.EI índice de acuerdo observado (lo) se calcula dividiendo la
suma de las casillas en que los observadores han coincidido
(a y d) por el total de observaciones:
lo = (a + d) / n = (37 + 52) / 110 = 0,81 (81 %)
Este sería el índice que Fleiss denomina de concordancia
simple y nos mide la proporción (o el tanto por ciento) de
acuerdo respecto al total de observaciones8. Sin embargo,
no es una medida suficiente de la concordancia, ya que si
uno de los observadores hubiera hecho sus diagnósticos
tirando una moneda al aire (cara = grado I y cruz = grado 11), posiblemente hallaríamos también una cierta coincidencia, debida exclusivamente al azar, entre los resultados de ambos. Debemos, pues, tener en cuenta esta posible
influencia del azar y cuantificarla.
Para averiguar en qué
proporción coinciden realmente nuestros dos observadores,
tendríamos que preguntarnos primero cuál sería la frecuencia en cada casilla si la única relación entre las conclusiones de los observadores A y B fuese el azar. La tabla 3 ilustra las frecuencias que obtendríamos si las observaciones
de A y B no tuviesen otra relación que el azar, o lo que es
lo mismo, si fuesen independientes.
Con estas frecuencias teóricas, calculamos el índice de
acuerdo debido al azar (lA) análogamente a como habíamos
calculado lo:
lA = (a' + d') / n = (20,51 + 35,51) /110 =
0,51 (51 %)
425
~
TABLA 3
Frecuencias que habriéln obtenido los mismos
observadores A y 8 (tabla 2), si hubies.~n clasificado
a los 110 pacientes de un modo totalmente arbitrario
y diferente para cada uno de ellos (esto es, no hubiese
relación alguna entre sus criterios de valoración de los
distintos pacientes): frl~cuencias teóricas o esperadas
Acueroo_o
781%
,
1\
,
Grado I
48
x 47
= 20.51 a
62 x 47
-,
62 x 63
= 27.49
48
x y l. son Independientes.
probabilidad
(x " II = P(x)" P(l)
un tactor de COincidencia distinto
4B
(grado l. " grado 18) = probabilidad (grado 18) = -x
- 47
del alar
~
S, entre los
100%
probabilidad
,
110
110
Para convertIr la probabilidad a las mismas unidades en Que tenemos expresados los valores de la tabla. debemos multlpllcarla
por n (1101. con lo cual slmplltlcamos
un 110
en el denominador
SuponIendo la Independencia de las observaciones. entonces la trecuencla a de la casIlla
4B x 47
(grado I .8) sera Igual a -;
y analagamente en todas las casIllas
49%
Fig. 1. Representaclongraf¡ca del cálculo dellndlce Kappa
TABLA 4
I Definida
6
3
21
3
Probable
10
1
2
3
Posible
11
1
4
Improbable
16
en negrita representan
1
3
13
10
el peso o factor de ponderaclon
40
I
(n)
Esto quiere decir que el 51 % de las veces que los observadores coinciden puede explicarlo el azar. Por lo tanto,
sólo el 30 % (81 % -=)1 %) se debe únicamente a que están usando los mismos criterios de diagnóstico. A este
30 % (0,30) le llamaremos acuerdo observado no debido
al azar y será el numerador del índice kappa.
Para el denominador calcularemos la cantidad de acuerdo
observado. no debida al azar, que hallaríamos si el acuerdo
observado (lo) fuese pE!rfecto (1 o 100 %):
1 --0,51
= 0,49.
De este modo, el índice kappa es:
índice kappa = acuerdo observado no debido al azar /
máximo acuerdo posible no debido al azar =
!
(lo -lA) / (1 -lA).
i
En nuestro ejemplo:
ín~ice kappa = (0,81
-0,51)
I (1 -0,51)
27 ..
-=
49 ':.
0.55
indice kappa ponderado
ObservadOIA
Definida
no debido al azar
Adaotado de Sackett9
Frecuencias obtenidas por los observadores A y B
al clasificar el mismo ~:rupo de 40 pacientes en cuatro
categorías de su enferrnedad (definida, probable, posible
e improbable): frecuencias reales u ob~;ervadas
=
0,61 (61 %)
Esto es.161 de cada 1.00 (61 %) observaciones son coincidentes entre los dos observadores, una vez eliminada la
parte que puede ser e~:plicada por el azar (fig. 1).
426
Acuerdo real no debido al azar
--=
Acuerdo potencial
~B
v
Acuerdo polenClal
no debido al azar
Kaooa =
i
Acuerdo real
no debido al azar
27%
110
62
A y B no hubiera
Los números
"--r
Acuerdo esperado [XX azar
51 %
63
= 35.51
v
110
110
S, doS sucesos.
= 26.49
110
1~ 110
Grado
observadores
47
"
El índice kappa ponderado se utiliza cuando hay más de dos
categorias de valoración con un orden jerárquico entre ellas,
ya que no es lo mismo discrepar de I a II que de I a 111;por
ejemplo, no es lo mismo de leve a moderado que de leve a
grave. Se calcula de forma análoga al indice kappa simple,
pero multiplicando el valor de cada casilla por un valor
(peso o w) que pondere la magnitud del desacuerdo con sus
casillas vecinas. Veámoslo de nuevo mediante un ejemplo
(tablas 4 y 5).
La tabla 4 contiene las frecuencias reales halladas al calificar dos observadores distintos si las manifestaciones que
presentaban 40 pacientes de un estudio clínico eran debidas al fármaco con que se trataban, según cuatro categorías: definida, probable, posible e improbable. En la tabla 5 hemos incluido las frecuencias que hubiésemos hallado si los investigadores hubiesen asignado los pacientes
a cada categoría de forma aleatoria, es decir, si hubiesen
actuado de forma independiente.
El índice kappa ponderado se define igual que el índice kappa, pero se calcula a partir de la proporción de desacuerdos,
asignando a cada frecuencia un peso o factor de ponderación (W, números en negrita en las tablas 4 y 5) en función
de la magnitud de desacuerdo que representa.
Así, en el ejemplo de la tabla asignamos:
W = 1, cuando la magnitud del desacuerdo es de una sola
categoría (por ejemplo, observador A definida, observador
B probable);
W = 2, si hay desacuerdo de magnitud entre dos categorías
(por ejemplo, observador A definida, observador B posible),
y así sucesivamente.
Una vez asignados los pesos y calculadas las frecuencias
debidas al azar o teóricas (tabla 5), el cálculo del índice
kappa ponderado se realiza del modo siguiente (tabla 6):
índice kappa ponderado = 1 -proporción
de desacuerdos
real (00) / proporción de desacuerdos que hallaríamos por
azar (OA);
00 = sumatorio w x frecuencias observadas / sumatorio de
frecuencias (N);
36
I
l. HERNANDEZAGUADOET AL.- LA CUANTIFICACIONDE LA VARIABILIDAD EN LAS OBSERVACIONES
CLlNICAS
TABLA 5
Frecuencias que habrían obtenido los mismos observadores si hubiesen clasificado a los 40 pacientes de un modo
totalmente arbitrario y diferente para cada uno de ellos (esto es, no hubiese relación alguna entre sus criterios
de valoración de los distintos pacientes): frecuencias teóricas o esperadas por azar
~A
ObS«Y.-B
Probable
Definida
Definida
~
Probable
40
16 x 6
= 1.05
~=
= 2.4
40
1,75
40
Posible
7 x 6
= 1,05
40
7 x 10
~=4
40
Im~
10 x 6
= 1,5
6
40
= 1,75
10 x 10
40
40
= 2.5
10
1
7 xII
Posible
40
16 xlI
= 1.95
40
7 xii
=44
= 1.93
40
10 xlI
= 2.75
11
40
1
Improbable
7 x 13
40
16 x 13
= 2.27
= 5.2
40
en negrita representan
el ,'"so O factor de ponderacIón
= 2.27
40
16
7
Los numeros
7 x 13
10 x 13
40
7
= 3.25
10
13
40
(n).
QA = sumatorio w x frec:uencias teóricas I sumatorio de
frecuencias (N).
En la tabla 6 podemos ver la aplicación de estas fórmulas
al ejemplo presentado anteriormente en las tablas 4 y 5;
por tanto el índice kappa ponderado sería igual a 0,05, esto
es, 5 de cada 100 ó el 5 % de las observaciones coincidentes no pueden ser atrit)uidas al azar.
Coeficiente de correlación intraclases
El coeficiente de correlación intraclases se utiliza para valorar la coincidencia cuando las variables medidas son
cuantitativas. Combina una prueba de correlación con una
prueba de diferencia de medias, de forma que corrige el
error sistemático (el coefi<:iente disminuye cuando una variable es constantemente mayor o menor que la otra). Se
calcula de forma parecida a un análisis de la varianza. No
nos extendemos más, pues, pensamos que es un tipo de análisis a realizar por personas iniciadas en la materia. El lector
interesado puede consultar la bibliografías.
Es incorrecto utilizar el cc,eficiente de correlación de Pearson u otros índices de tendencia para describir coincidencia, porque dos variables pueden estar relacionadas en alto
grado (esto es, tener un alto coeficiente de correlación) y
sin embargo no coIncidir; por ejemplo, c.uando una de ellas
es el mismo número de vl~ces superior o inferior a la otra:
una perfecta correlación inversa equivaldría a un total
desacuerdo1O.
Consideraciones sobre kappa (simple o ponderado)
Los valores de kappa pueden oscilar entre -1
y +1, de
forma que kappa igual a () denota que el acuerdo obtenido
se puede explicar exclusivamente por el azar, si kappa tiene
valor negativo indica un acuerdo menor que el que hallaríamos meramente por azar y kappa igual a 1 indica un acuerdo perfecto.
Nos podemos preguntar a partir de qué valor de kappa puede considerarse que hay una concordancia aceptable. Hay
algunas propuestas para contestar a esta pregunta, la más
utilizada es la de Fleiss8, que establece que un valor de
kappa inferior a 0,40 indica concordancia deficiente, de
0,40 a 0,75 acuerdo aceptable a bueno y más de 0,75 indica acuerdo excelente. Sin embargo, puede ser incorrecto
comparar valores de kappa obtenidos en poblaciones diferentes, por los motivos que pasamos a comentar.
Kappa tiene algunas influencias que limitan su utilidad. La
principal es que varía su valor según la prevalencia de la
anomalía o enfermedad que se estudie, a pesar de que los
observadores mantengan su misma calidad en la observaciónll. En particular, en los valores extremos de prevalencia, tanto si es muy baja como muy alta, kappa tiende a
disminuir. Por ello, no sería comparable, por ejemplo, un
valor de kappa obtenido en un estudio de concordancia en
el diagnóstico de linfadenopatía generalizada en un grupo
de pacientes en los que la mitad tienen la anomalía (prevalencia = 50 %), con el valor de kappa obtenido por otros
o los mismos observadores al estudiar pacientes en los que
la anomalía se presenta sólo en el 5 % de los mismos.
Cuando se calcula kappa para datos con más de dos categorías, debemos tener en cuenta que a medida que aumenta el número de categorías disminuye el valor de kappa. dependiendo su magnitud más de cómo fueron definidas las
categorías que del grado de reproducibilidad de los métodos
usados. Cuando hay más de dos categorías puede ser mejor
comparar cada una de ellas con la suma de todas las
demás8.
TABLA 6
Cálculo del índice kappa ponderado (Kp) basándonos en ~
00 = prOpOrclonde desacuerdoreal: a. -proporclon
37
frecuencias de las tablas 4 y 5
de desacuerdo que nallarLamospor azar
427
MEDICINA CLíNICAVOL. 95. NUM. 11. 1990
Causas de la variabilidad
en la observación
Cuando evaluamos la corlsistencia, el objetivo principal no
debe ser la constatación de que hay variabilidad. El objetivo
de un estudio de variabilidad debe ser la investigación de
los factores que la originan. e intentar determinar qué tipo
de variabilidad actúa en el procedimiento de medición estudiado y cuáles son los factores que la producen. Al preparar una investigación de este tipo debemos diseñar los
mecanismos para poder alcanzar estos objetivos. Vamos a
discutir ahora, con algunos ejemplos, a fin de orientar el
diseño de estos estudios" las distintas causas de la variabilidad.
Se pueden distinguir tres fuentes de variabilidad12; 1) la
variabilidad atribuible al procedimiento,
2) la variabilidad
debida a las discrepancials entre los observadores o usuarios
del procedimiento de ot)servación y 3) la variabilidad del
ente o individuo observado.
Entre los errores debidos al procedimiento de medición, no
sólo hay que tener en cuenta los debidos al incorrecto funcionamiento o manejo de los instrumentos físicos empleados, y que obviamente ~,ueden dar lugar a desacuerdos en
las observaciones, sino que también hay que considerar los
factores que alteran la realización de estas mediciones. Deben tenerse en cuenta, por ejemplo, la influencia de factores ambientales, como frío, calor, luz, ruido y otros, en
la exploración física, o la relación médico-paciente en la
anamnesis.
El usuario u observador es siempre una fuente importante
de variabilidad. Pensemos en primer lugar en la variación
biológica de los sentidos. Recordemos que exploraciones
como la palpación o la ,auscultación se inician a través de
los sentidos para posteriormente, en una segunda fase, ser
interpretadas y reducidas a categorías semiológicas. Hay
una variabilidad bien conocida, fruto de las distintas sensibilidades o agudezas de los sentidos, entre diferentes observadores; otra menos conocida, pero bien probada, es la
variación de los sentido:s de los observadores en diferentes
situaciones (hora del díél, niveles de tensión y cansancio..).
La inconsistencia en la observación también puede ser debida (entre otras causas), a la diferente formación de los
observadores o a la inslJficiente formación de alguno o alguno de ellos, que los lleva a utilizar distintos criterios en
la interpretación de los datos o, lo que sería más grave desde el punto de vista de la reducción de la discordancia, a
recoger datos o hacer observaciones diferentes.
Otras formas de variabil idad que tienen su origen en el observador no son exclusi~'amente achacables a éste. Hayocasiones en que los sistemas de clasificación tienen límites
arbitrarios (casi todos lo son) entre distintas categorías diagnósticas. lo que produc:e discrepancias, como por ejemplo
ocurre cuando hay acuerdo en lo que se observa, pero no
sobre a qué categoría ~feestablecida corresponde.
También hay que señalar que el observador puede estar influenciado más por lo que espera encontrar que por la realidad de lo observado, 1:endiendo a recoger los datos que le
ayuden a confirmar su hipótesis diagnóstica preestablecida.
La última fuente de variabilidad es la debida al ente observado. Cuando ésto!; son pacientes debemos tener en
cuenta, fundamentalm,ente, la variación biológica al explorar determinados signos. Un ejemplo bien conocido es la
variación que observamos en varias tomas sucesivas de la
tensión arteria/, razón por la que se recomienda utilizar el
valor medio de las diferentes tomas. Por otro lado, también
pueden producirse desacuerdos en las anamnesis debido a
que los pacientes intE~rrogados sobre determinados antecedentes o exposicion,es pueden recordar en una segunda
entrevista datos no recogidos anteriormente, debido a la re-
428
TABLA 7
Algunos ejemplos sobre las distintas fuentes
de variabilidad
l. Un medlco del servicio especial de urgencias conocido de los autores,
Ingreso en una ocasión a un niño en el hospital con el diagnostiCO de
neumonia. Al consultar el caso telefónica mente con el medlco de puertas. constató con satisfacción que ambos comcldlan en el diagnostiCO y
que el Ingreso era correcto: sin embargo. se quedo estupefacto a medida
que este le comentaba lo impresionado que estaDa por la gravedad del
sarampión que padecla el niño y que se habla complicado con la neumonia. Un factor ambiental. la ausenCia de luz adecuada en la vIvIenda
del pacIente. habia interferido en su observación, Impidiendo que apreCiara un evidente sarampión. Tal vez. la misma ausencia de luz le agudízó
el oído y no erró en otra observación mas decIsiva. En cualquier caso. es
precIso realizar la exploración clinica en las melores condicIones ambientales posibles.
2 Para verificar la calidad de algunos de los datos en una Investigación
sobre síndrome de inmunodeficienc~a adquirIda (SI DA) y complelo relacionado con el SIDA. Coates et all, valoraron el grado de acuerdo clinico entre diferentes medicos sobre la presencia o ausenCia de linfadenopatla generalizada. Los resultados oDtenidos IndIcan que la formacIón
y experiencia del clínico son determinantes de la fiabilidad de este tIPO
de exploración y que se puede cuestionar la !nformaclon sobre Ilnfadenopatla generalizada. SI no procede de personas experimentadas que han
estandarizado cuidadosamente el examen clinlco. En esta misma Investlgaclon se puso en evidenCia un alto grado de dlscreoancla entre cllnlcos
al valorar el tamaño y numero de adenopatlas. Los autores concluyen que
los ensayos clínicos que monitoricen cambiOs en tamaño y numero de
los gangllOS linfaticos como respuesta al tratamIento. deben ser Inter-
pretados con precaución.
3 Si a dos radiólogos les pedimos que nos clasifiquen radiografías de
tórax según la presencia o ausencia de embolla pulmonar. parte de la
varIabilidad que podríamos observar entre ellos puede ser consecuencia
de no incluir la categoría dudosa. es decir. una categoría con la que los
observadores puedan expresar la incertidumDre y no verse oblIgados a
separar entre anormalidad r normalidad. dado Que el abanico de POSIbilidades siempre es mayor 4
4. En una Investigación reciente. se analizo la variabilidad Inter e intraobservador en la interpretación de una prueba de inmunofluorescencia
para la detección de Chlamydia trachomafis en exudado genital. En una
primera fase se encontró una pobre concordancia Interobservador (kappa
= 0,41) e intraoDservador (kappa = 0.78 y 0.61). consecuencia de la
subJetividad en la aplIcación de los criterios diagnósticos.
En una segunda fase se pudo comprobar como mediante una comunicación y estandarlzacion adecuadas meJoraba sensiblemente la consistencia en el
diagnóstico15.
5 Un excelente eJemplo de cómo el observador puede ~st~r influenciado
por sus propias previsiones. fue el trabalo de Day et all" sobre auscultación de la frecuencia cardlaca fetal. Al comparar la frecuencia recogida
por auscultación y la registrada en la monitorlzación fetal. se observó que
cuando la frecuencia cardiaca fetal registrada en el monitor estaDa entre
130 y 150 mm. es decir dentro de los limites normales. había una buena
concordancia con los clínicos. En cambio, cuando la frecuencia cardlaca
era mayor de 150 mmHg los clínicos tendlan a recoger valores mas balos
y cuando era menor de 130 mmHg los recogían mas altos. En ambos
casos los clínicos daban una frecuencia mas acorde con la normalidad
deseada.
flexión realizada en el período entre ambas entrevistas. En
la tabla 7 se resumen algunos ejemplos sobre las distintas
fuentes de variabilidad.
Conclusión
Se pueden demostrar inconsistencias en cada uno de los
datos recogidos en la clínica; sin embargo, no tiene por qué
haber preocupación acerca de valoraciones que tienen poco
o ningún impacto en decisiones cruciales. La importancia
de la variabilidad es decisiva cuando dichas valoraciones
conducen a intervenciones quirúrgicas, cambios en el estilo
de vida del paciente, terapéuticas prolongadas, arriesgadas
y costosas, o cuando afectan a los principales resultados de
un proyecto de investigación.
Los clínicos interesados en detectar y cuantificar la variabilidad en aspectos claves de sus actividades clínicas, no
deben dejarse impresionar por la relativa complejidad matemática de los numerosos índices usados en la literatura
38
l. HERNANDEZAGUADOET Al.-
LA CUANTIFICACIÓNDE LA VARIABiliDAD EN LAS OBSERVACIONES
cliNICAS
científica para valorar la concordancia entre mediciones. A
esto se añaden los probllemas de interpretación y uso que
rodean algunos de los más conocidos, como es el caso del
índice kappa17. El conocimiento de estos índices puede ser
decisivo para interpretar investigaciones sobre el tema. pero
en muchas ocasiones el íl'ldice de concordancia simple o la
mera descripción pormenorizada de los acuerdos y desacuerdos observados es suficiente. y más aún si tenemos en
cuenta que el estudio de la variabilidad no tiene como meta
únicamente la cuantificación.
sino la detección de sus
fuentes y $U prevención. La extensión de este tipo de investigaciones. que evalúen el nivel de variabilidad en distintas actividades clínicas. detecten su origen y establezcan
los métodos para reducirl¡~, puede contribuir a la mejora de
la calidad de la atención médica:
Agradecimiento
A Manuel Arranz Lázaro, responsable de la Biblioteca del
Instituto Valenciano de E:studios en Salud Pública, por hacer más comprensible el texto, y a Virginia Barrachina por
mejorar su forma final.
BIBLIOGRAFíA
l.
Pozo Rodríguez F. La eficacia de las pruebas diagnósticas (1). Med Clin
(Barc) 1988: 90: 779-785.
2.
Pozo Rod~íguez F. La eficaci¡! de las pruebas diagnósticas (11). Med Clin
(Barc) 1988: 91: 177-183.
39
3.
Hidalgo MA, Lobos JM, Seguido P, García-Perea P, Urdiola P, Conthe
P Farlngltis aguda: valor predictivo de los datos clínicos en el diagnóstico
de etiología estreptocócica. Med Clin (Barc) 1988: 90: 156-159.
4
Feínstein AR. A bibliography 01 publications on observer variabllity.
J
Chronic Dis 1985; 38: 619-632.
5
Sperduto RD, Hiller R. Podgor MJ et al. Comparability 01 ophtalmic diagnoses by clinical and reading center examiners ín the visual acuity impairment survey pilot study. Am J Epidemiol 1986; 124: 994-1.003.
6.
Kjaersgaard-Andersen P. Christensen F. Schmidt SA, Pedersen NW. A
new method 01 stimation 01 interobserver varlation and its application to the
radiological assessment 01 osteoarthrosis in hip joints. Stat Med 1988; 7:
639-647.
7.
Pron GE, Burch JD, Howe GR, Miller AB. The reliability 01 passive smoking histories reported In a case-control study 01 lung cancer. Am J Epidemiol
1988; 127: 267-273.
8.
Fleíss JL. Statistical methods lor rates and proportions. Nueva York:
John Wiley and Sons, 1981; 212-225.
9.
Sackett DI, Haynes RB, Tugwell P Epidemiología Clínica. Una ciencia
básica. Madrid: Diaz de Santos SA, 1989; 37.
10.
Bland JM, Altman DG. Statistical methods lor assessing agreement
between two methods 01 clinical measurement.
Lancet 1988; 1: 307-310.
11.
Thompson WD, Walter SD. A reappraisal 01 the kappa coefficient.
J
Clin Epidemiol 1988; 41: 949-958.
12.
Feinstein AR. Clinimetrics.
New Haven: Yale University Press, 1987;
167-189.
13.
Coates RA, Fanning MM, Johnson JK, Calzavara L. Assessment 01 generalized Iymphadenopathy in aids research: the degree 01 climcal agreemento J Clin Epidemiol 1988; 41: 267-273.
14.
Feinstein AR. Clinical Epidemiology. The architecture 01 clinical research. Filadellia: WB Saunders Company, 1985: 635.
15.
Hern,ández Aguado 1, Ruiz Atienza L, Fernández Garcla 1, Fernández
García E, Alvarez-Dardet C. Evaluación de la variabilidad del diagnóstico rápido de infección por Chlamydia trachomatis mediante inmunolluorescencia
directa. Med Clin (Barc) 1990; 94: 9-11.
16.
Day E, Maddern L, Wood C. Auscultation 01 loetal heart rate: an assessment 01 its error and signilicance.
Br Med J 1968; 4: 422-424.
17.
Maclure M, Willett WC. Misinterpretation and misuse 01 the Kappa statistic. Am J Epidemiol 1987: 126: 161-169.
429