Download Resumen

Document related concepts
no text concepts found
Transcript
EXTRACCIÓN DE INFORMACIÓN, ANÁLISIS SINTÁCTICO
Y MINERÍA DE TEXTO PARA CLASIFICACIÓN ECOG EN
ENSAYOS CLÍNICOS DE CÁNCER DE MAMA
PABLO ELISEO REYNOSO AGUIRRE
Universitat Politècnica de Catalunya, España
Palabras claves: Procesamiento de Lenguaje Natural, Aprendizaje Automático,
Clasificación ECOG, Cáncer de Mama
El Procesamiento del Lenguaje Natural (PLN) es una de las áreas más
importantes de la Inteligencia Artificial (IA) hoy en día, debido a que tiene
aplicaciones interesantes en la vida real como Summarization, Machine
Translation y Sentiment Analysis. Además PLN ha sido empleada para solucionar
tareas generales como Language Generation, Information Retrieval, Information
Extraction y Text Mining. Adicionalmente, en un nivel bajo de PLN existen tareas
concretas como Parsing y Named Entity Recognition. Sorprendentemente, todas
estas aplicaciones tienen un impacto relevante en diferentes problemas de la
vida real en el área de la política, medicina, finanzas, seguridad gubernamental,
comercio y psicología.
El proyecto propuesto para esta conferencia es una aplicación de PNL en la
Medicina, donde se tienen 7934 Ensayos Clínicos (CTAs) relacionados con
diferentes tratamientos de Cáncer de Mama considerando el grado de Cáncer
del paciente. La mayoría de los CTAs ya tienen una clasificación de que
participantes pueden ser admitidos de acuerdo a las diferentes escalas de cáncer
como Karnofsky, Lansky, y Eastern Oncology Group (ECOG). Sin embargo, la
escala más utilizada es ECOG, por tanto, este proyecto considera equivalencias
de otras escalas con ECOG. Además, hay varios CTAs que no tienen una
clasificación explícita. La tarea consiste en analizar los CTAs que presentan una
clasificación explícita teniendo en cuenta las equivalencias con ECOG y, a partir
de los ejemplos ya clasificados, entrenar un Algoritmo de Clasificación de
Aprendizaje Automático para encontrar una buena aproximación de clase de los
CTAs no clasificados. En esencia, la motivación de este proyecto es crear un
sistema médico de apoyo como herramienta de software complementaria para
instituciones médicas y así establecer perfiles exactos de los participantes para
cada tratamiento de cáncer de mama considerando grandes cantidades de CTAs.
INFORMATION EXTRACTION, SYNTHETIC ANALYSIS
AND TEXT MINING FOR CLASSIFICATION ECOG IN
CLINICAL TESTS OF BREAST CANCER
PABLO ELISEO REYNOSO AGUIRRE
Universitat Politècnica de Catalunya, Spain
Keywords: Natural Language Processing, Machine Learning, ECOG Classification,
Breast Cancer
Natural Language Processing (NLP) is one of the most important areas of
Artificial Intelligence (A.I.) nowadays; due to it has interesting applications in real
life such as Automatic Summarization, Machine Translation and Sentiment
Analysis. Besides, NLP has been implemented to solve general tasks as Natural
Language Generation, Information Retrieval, Information Extraction and Text
Mining. Additionally, in a low level implementation NLP there concrete tasks as
Parsing and Named Entity Recognition. Remarkably, all this implementations
have a relevant impact in different real life problems in fields such as Politics,
Medicine, Finances, Governmental Security, Commerce, and Psychology.
The proposed project for this conference is an NLP application of the medical
domain in which we have 7934 Clinical Trials (CTAs) related to different Breast
Cancer treatments considering the stage of patients condition. The majority of
the CTAs already have a classification of which participants can fulfill the
requirements based on different breast cancer stage scales such as Karnofsky,
Lansky, and Eastern Oncology Group (ECOG). Even though, the most used scale
is ECOG and thus this project will consider finding equivalences between
previous mentioned scales with ECOG. In addition, there are various CTAs that
have no explicit classification for participants. The task is to parse the
classification for the CTAs that present an explicit ECOG classification
considering breast cancer scales equivalences, and based on the already
classified examples train a Machine Learning classification algorithm in order to
find a good approximation of the non-classified CTAs.
In essence, the motivation of this project is to create a support medical system
that can be a complementary software tool for medical institutions and experts
in the area at establishing accurate participant profiles for each breast cancer
treatment considering big amounts of CTAs.