Download Uso del Razonamiento Basado en Casos combinado

Document related concepts

Hipertensión arterial wikipedia , lookup

Hipertensión secundaria wikipedia , lookup

Crisis hipertensiva wikipedia , lookup

Curva ROC wikipedia , lookup

Hipertensión gestacional wikipedia , lookup

Transcript
Autores: MSc. Santiago Cuadrados Rodríguez, Dra. Haydee Curbelo Hernández, Dr. CT.
Emilio F. González Rodríguez, Dra. Yaquelín Luna Carvajal.
Institución: Universidad Central Marta Abreu.
País: Cuba
Título: Uso del Razonamiento Basado en Casos combinado con técnicas estadísticas
para el diagnóstico de la Hipertensión Arterial.
Resumen
En el presente trabajo se combinan técnicas de Inteligencia Artificial con técnicas
estadísticas para realizar una investigación a individuos supuestamente sanos de
Hipertensión Arterial pertenecientes a cinco policlínicos de la ciudad de Santa Clara,
Cuba. Como resultado se desarrolla un sistema de razonamiento automatizado, que
permite el diagnóstico de personas hipertensas, minimizando al máximo el estudio de los
factores que intervienen en el diagnóstico. El sistema tiene como base un estudio
preliminar realizado por un grupo multidisciplinario de especialistas.
Introducción
La Hipertensión Arterial (HTA) es una de las principales enfermedades crónicas
degenerativas, que afecta aproximadamente al 20% de la población mundial. La
asociación a otros factores incrementa ostensiblemente el riesgo cardiovascular. Para
realizar el diagnóstico de esta patología, se utilizan los criterios de la OMS, sin embargo,
debido a que es una enfermedad en su mayoría asintomática, su detección y control es un
problema aun no resuelto, que obliga a buscar nuevas y más potentes herramientas.
[And91], [Arm02] [Herm]. En nuestro país, desde hace varios años, se aplica un Programa
Nacional de HTA, que marca las estrategias y promueve las investigaciones en esta
temática. Nuestro colectivo se propuso desarrollar un programa computacional para el
médico de la familia, que integre la experiencia colectiva y que garantice un diagnóstico
más certero, logrando un mejor control y tratamiento individualizado de la enfermedad.
Material y Método: La muestra del estudio estuvo constituida por un total de 849
individuos, de ellos 455 hombres y 394 mujeres, supuestamente normotensos entre 18 a
78 años de edad y pertenecientes a 5 policlínicos de la ciudad de Santa Clara.
La Historia Clínica contiene las siguientes variables: edad, sexo, raza, índice de masa
corporal, hábitos tóxicos, antecedentes patológicos personales y familiares de HTA,
tensión arterial sistólica y diastólica basal, al primer y segundo minuto de realizar la
prueba del peso sostenido, presión arterial media, glucemia, triglicéridos, colesterol total,
hdl y ldl y estrés psicológico. A partir del análisis de esta Historia, se obtuvieron los
diagnósticos de los pacientes, clasificándolos en normotensos, hiperreactivos e
hipertensos. [Alin06]. La aplicación combinada de las técnicas estadísticas con las
técnicas de inteligencia artificial ofrece resultados útiles para realizar sistemas
automatizados que faciliten el diagnóstico de la Hipertensión Arterial y que permitan su
uso masivo en el nivel primario de salud.
Análisis Estadístico de la Muestra
El análisis estadístico se realizó con el procesador de datos SPSS versión 13 en español
y se utilizaron las pruebas de análisis general univariado de la varianza y además técnicas
como el análisis discriminante, la regresión logística y el CHAID para clasificar a los
individuos [Cua06]. Los resultados de la clasificación con el uso de estas técnicas fueron
los que aparecen en la figura 1
Porciento de casos bien clasificados
100
80
60
40
20
0
CHAID
ADiscriminante
Regresión
Hipertensos
Hiperrreactivos Normotensos
Fig.1 Casos bien clasificados con técnicas estadísticas
Estos resultados fueron aceptables, pero no lo suficiente como para hacer uso de estas
técnicas para clasificar nuevos casos, por lo cual se decidió emplear técnicas de
inteligencia artificial. Por las características del problema y por tener una base real de 849
casos diagnosticados por los expertos y que es además representativa del dominio, se
decidió aplicar un razonamiento basado en casos.
Uso de un Sistema Basado en Casos para el diagnóstico de la HTA
Los Sistemas Basados en Casos [Kol93], [Wat94], [Bre95], [Aha96], [Gut02] constituyen
una de las tecnologías actuales para construir Sistemas Basados en el Conocimiento para
la toma de decisiones. Estos sistemas utilizan el razonamiento basado en casos como
método de solución de problemas para resolver nuevas situaciones.
Las componentes fundamentales de un CBS son la base de conocimiento o base de
casos, el módulo de recuperación de casos y el módulo de adaptación de las soluciones.
Base de Casos
La base de casos contiene las experiencias, ejemplos o casos a partir de los cuales el
sistema realiza sus inferencias. Puede ser representada a través de una tabla cuyas
columnas son etiquetadas por variables o atributos que representan los rasgos
predictores y objetivos, mientras que sus filas representan los casos.
Resultados discusión:La Tabla 1 representa una base de casos relativa al problema. El
universo U está formado por los casos O1 , O2 ,..., Om , el conjunto de atributos x1 ,..., x n 
son los rasgos predictores, mientras el atributo y1 representa el rasgo objetivo.
Tabla 1. Tabla que representa una base de casos
En
este
problema
Rasgos Predictores
Rasgo Objetivo
Caso
x1
…
xn
y1
O1
x1 O1 
…
x n O1 
y1 O1 
…
…
…
…
Om
x1 Om 
…
x n Om 
predictores son las
y1 Om 
los
rasgos
variables que
se estudiaron en la Historia Clínica, mientras que el rasgo objetivo es el diagnóstico.
Módulo de Recuperación: Dado un nuevo problema, la tarea del proceso de
recuperación consiste en determinar los casos más semejantes que se encuentran en la
base. Para escoger una medida de semejanza entre dos casos se han desarrollado varias
técnicas. La más sencilla consiste en contar el número de rasgos predictores similares
entre ambos, aunque la importancia de estos, varía de un contexto a otro. Otra técnica
consiste en utilizar un conjunto de heurísticas que permitan determinar cuáles variables
tienen mayor importancia en la determinación del rasgo objetivo y formular una función de
semejanza o distancia que considere la semejanza o diferencia entre cada uno de los
rasgos predictores teniendo en cuenta su relevancia. La mayoría de los enfoques que
usan Razonamiento Basado en Casos [Dub97], [Sne73], [Tve78], [Che92], [Var93],
[Che95], [Wet95] siguen el procedimiento general que se describe a continuación en el
Algoritmo 1: Algoritmo 1. Recuperación
Entrada: O0 , Ot (nuevo problema y caso de la base)
Salida:  O0 , Ot  (Medida de semejanza o distancia entre Oo y
Ot )
1. Para cada rasgo predictor xi :
i) Buscar los valores xi O0  y x i Ot  (valores del rasgo x i en los casos Oo y
Ot )
ii) Calcular una medida de semejanza o distancia  i  xi O0 , xi Ot  entre dichos
valores.
2. Tomar en consideración el peso wi del rasgo predictor x i y  i xi O0 , xi Ot  a través de
una función f de la forma de la expresión 1:


f wi ,  i xi O0 , xi Ot i 1   O0 , Ot  (1)
n
Para determinar el peso de los rasgos predictores, se utilizó el Método del Triángulo de
Füller [Tab88], que permite obtener su importancia en la determinación del rasgo objetivo
y los resultados aparecen en la Tabla 2.
Tabla 2. Tabla de Rasgos Predictores
Variable
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11
x12
x13
x14
x15
x16
x17
x18
x19
x20
x21
x22
Rasgo
Sexo
Raza
Indice de masa
Bebe
corporal
Fuma
Diabetes
Dislipidemia
mellitus
No. De padres
No. De abuelos
con HTA
TA Sistólica
con HTA
TA Diastólica
basal
TA Sistólica (al
basal
TA Diastólica (al
1er minuto)
TA Sistólica (al
1er minuto)
TA Diastólica (al
2do minuto)
Presión arterial
2do minuto)
Glicemia
media (PAM)
Triglicéridos
Colesterol Total
Colesterol HDL
Colesterol LDL
Perfil Psíquico
Peso
0,2
0,2
4
0,5
4
0,2
3
0,2
9
0,5
1
0,5
3
0,5
0
0,5
3
0,6
3
0,6
3
0,6
3
0,5
1
0,6
8
0,6
3
0,6
3
0,3
9
0,3
4
0,4
4
0,4
5
0,4
0
0,3
2
Para aplicar el Algoritmo 1 se decidió
2 organizar la base de casos en una estructura
jerárquica, que permitió reducir el número de comparaciones a realizar, al aplicar la
técnica de segmentación CHAID de la figura 2 y cuyos resultados de clasificación se
muestran en la Tabla 3.
Fig 2. Estructura jerárquica mediante la técnica de segmentación CHAID
Tabla 3. Clasificación de la Muestra
Observed
Predicted
Perce
Hipertenso
Hiperreactivo
vascular
Normotenso
Overall
Percentage
Hiperreacti
nt
Hiperten
vo
Corre
so
vascular
Normotenso
ct
203
17
2 91,4%
17
149
27 77,2%
0
2
432 99,5%
25,9%
19,8%
54,3% 92,3%
Growing Method: CHAID
Dependent Variable: Diagnóstico de expertos
El razonamiento basado en casos mejora estos resultados de clasificación al ubicar un
nuevo caso en el nodo terminal correspondiente de la estructura jerárquica. Si queda
ubicado en el nodo 7 es normotenso, en el nodo 10 es hiperreactivo y en el nodo 14 es
hipertenso. Cuando quede ubicado en otro nodo, se utiliza el Algoritmo 1, comparando el
nuevo caso, sólo con los que se encuentran en el nodo donde está ubicado. Por ejemplo
si queda ubicado en el nodo 8, habría que compararlo con los 38 que se encuentran en
ese nodo. Para realizar dicha comparación se utiliza la función de semejanza de la
expresión (2). La obtención se las funciones de comparación por rasgos, contenidas en la
función de semejanza, se realiza mediante varios criterios: Cuando la variable sea
discreta como el sexo, la función de comparación tiene sólo 2 valores como en la
expresión (3):
n
 wi  i xi O0 , xi Ot 
(2)
 wi , i xi O0 , xi Ot   i1
n
 wi
i1

1 si x1 O0   x1 Ot 
(3)
 1 x1 O0 , x1 Ot   
0 eoc
Cuando la variable sea continua, se utilizan los resultados del análisis de varianza
(ANOVA) que indica la cantidad de grupos homogéneos que se pueden formar por
cada una y luego se emplea ese número, para formar clusters mediante el método
TwoStep Cluster Analysis. Por ejemplo, para la variable TA Diastólica al 1er
minuto, un análisis de varianza sugiere la formación de los 3 grupos homogéneos
que se muestran en la Tabla 4:
Tabla 4 TA Diastólica (al 1er minuto)
Diagnóstico de expertos
Subset for alpha = .05
N
1
Scheff
Normotenso
e(a,b)
Hiperreactivo
vascular
Hipertenso
434
2
79,11
193
90,58
222
Sig.
3
100,64
1,000
1,000
1,000
Means for groups in homogeneous subsets are displayed.
a Uses Harmonic Mean Sample Size = 250,209.
b The group sizes are unequal. The harmonic mean of the group sizes is used.
Type I error levels are not guaranteed.
Al aplicar el método TwoStep Cluster Analysis se sugieren los 3 clusters que
aparecen en la Tabla 5.
Tabla 5 Centroides
TA Diastólica (al 1er
minuto)
Std.
Mean
Cluster
Deviation
1
84,91
4,749
2
68,41
4,724
3
102,22
6,443
87,35
11,900
Combined
Cuando se deseen comparar dos casos de acuerdo a esta variable, se ubican en el
cluster correspondiente, determinando la menor distancia a los centroides y luego se
utiliza las funciones de comparación:
Módulo de Adaptación
Después de la determinación de los casos más semejantes, se efectuó el proceso de
adaptación y existen diversas maneras de realizarlo. En el trabajo se utiliza el algoritmo
de los k- vecinos más cercanos, que aparece en [Wil96] considerando un solo rasgo
objetivo y1 , de la siguiente forma: Los módulos descritos fueron desarrollados en un
sistema computacional y los resultados de clasificación obtenidos aparecen en la Figura
3. Al emplear la muestra de aprendizaje como muestra de control, los resultados fueron
significativamente mejores cuando se usa el Razonamiento Basado en Casos combinado
con técnicas estadísticas, que cuando se aplica un Análisis Discriminante, una Regresión
Logística o la técnica de CHAID. Estos resultados se pueden extender a cualquier dominio
donde sea factible el uso de un sistema experto.
Porciento de casos bien clasificados
100
80
Hipertensos
Hiperrreactivos
Normotensos
60
40
20
0
CHAID
ADiscriminante
Regresión
RBC
Figura 3. Análisis comparativo de las técnicas
Conclusiones
El presente trabajo muestra los resultados de aplicar técnicas estadísticas combinadas
con las técnicas de inteligencia artificial para el mejor diagnóstico de la Hipertensión
Arterial. Se dispone de un sistema que automatiza la clasificación y que además permite
mostrar las interacciones que existen entre las variables y justificar de forma estadística el
proceso de razonamiento.
Referencias Bibliográficas
[Aha96]
Aha, D.W, Chang, L,W. Cooperative bayesianan case-based reasoning for
solving multiagent planning tasks. Technical report, Navy Center for Applied
Research in AI, Naval Research Laboratiry, Washington, DC, USA, 1996.
[And91]
Anderson KM, Odell PM, Wilson PWF, Kannel WB. Cardiovascular disease
risk profiles. Am Heart J. 1991;121:293–298.
[Arm02]
Armario P, Hernández del Rey R, Martin M. Estrés, enfermedad
cardiovascular e hipertensión arterial. Med Clin(Barc) 2002;119(1):23-9.
[Ben01]
Benet M, Yanes N. AJ, González L. J, Apolinaire P. JJ, García del Pozo J.
Criterios diagnósticos de la prueba del peso sostenido en la detección de pacientes
con hipertensión arterial. Med Clin (Barc) 2001:116:645-649.
[Ben03]
Benet Rodríguez M, Apolinaire Pennini, Torres J, Peraza S. Cardiovascular
Risk Factors among Individuals under Age 40 with Normal Blood Pressure. Rev Esp
Salud Pública 2003;77:143-150.
[Bre95]
Breese, J. S., Heckerman, D. Decision-theoretic case-based reasoning.
Proceedings of the Fifth International Workshop on Artificial Intelligence and
Statistics pp. 56—63, 1995.
[Che92]
Chen-92, S-J., Hwang C-L., Fuzzy Multiple Attribute Decision Making,
Methods and Applications, Springer Verlag, 1992.
[Che95]
Chen, S–M., Measures of Similarity between Vague Sets, in Fuzzy Sets and
Systems, vol. 74, 2, pp. 217-223, 1995.
[Cua06]
Cuadrado S, Casas G. Tensoft: sistema informativo para el diagnóstico de la
HTA sobre bases estadísticas. Tesis presentada en opción al título de Master of
Science. Universidad Central de Las Villas, Santa Clara. 2006.
[Dub97]
Dubitzky, W. Knowledge Integration in Case-Based Reasoning: A Concept-
Centred Approach. Thesis submitted in application for the degree of Doctor of
Philosophy. Faculty of Informatics, University of Ulster, The United Kingdom, 1997.
[Gut02]
Gutiérrez I., R. Bello “A Decision Case-Based System, that reasons in
Uncertainty Conditions”. In Lecture Notes in Artificial Intelligence (LNAI 2504) ISBN
3-540-00011-9, Springer Verlag, 2002.
[Herm07]
HermidaR.C. Influencia de la duración y la frecuencia de muestreo en la
medición
ambulatoria
de
la
hipertensión
arterial.
Revista
española
de
cardiología60(2) 131-8, 2007
[Kol93]
Kolodner, J.L., Case–Based Reasoning, Morgan Kaufmann Publishers, Inc.,
San Mateo, CA, 1993.
[Sne73]
Sneath, P., Sokal, R. Numerical Taxonomy, W.H. Freeman & Company, San
Francisco, 1973.
[Alin06]
Pérez Alina; Guirado Otmara; Curbelo Haydee; González E., Luna Y.,
Cuadrado S.: “Nuevos métodos para el pesquisaje y el Diagnóstico Precoz de la
Hipertensión Arterial Esencial”. III Simposio de Hipertensión Arterial y I Taller de Riesgo
Vascular, Cuba, Mayo 06. ISBN: 959-250-271-4 Editorial Feijoo.
[Tab88]
Tabucanon, Mario.
Multiple criteria decision making in industry. Elsevier
Amsterdam - Oxford - New York.- Tokio, 1988.
[Tve78]
Tversky, A.,Gati, I. Studies of Similarity. In Cognition and categorization,
pp79-98, E.Rosch, B.B. Lloyd (editors), Hillsdale, Erlbaum, NJ, 1978.
[Var93]
Vargas, J.E., Bourne, J.R. “Scale-Guided Object Matching for Case-Based
Reasoning”, in Intelligent and Robotic Systems, vol. 7: pp15-29, Kluver Academic
Publishers, 1993.
[Wat94]
Watson, I., Marir, F. Case-Based Reasoning: A Review. The Knowledge
Engineering Review, vol. 9, no 4, 1994.
[Wet95]
Wettschereck, D., Aha, D.W. Weighting Features. In Proc. 1 st International
Conference on Case-Based Reasoning. Lisboa, Portugal. Springer-Verlag 1995.
[Wil96] Wilke W., Bergmann, R. Considering Decisión Cost During Learning of Features
Weights, 1996.