Download Presentación de prueba

Document related concepts

C4.5 wikipedia , lookup

Aprendizaje basado en árboles de decisión wikipedia , lookup

Árbol de decisión alternativo wikipedia , lookup

Random forest wikipedia , lookup

Algoritmo ID3 wikipedia , lookup

Transcript
UNIVERSIDAD MICHOACANA DE SAN NICOLÁS DE HIDALGO
FACULTAD DE INGENIERÍA ELÉCTRICA
DIVISIÓN DE ESTUDIOS DE POSGRADO
HERRAMIENTA DE MINERÍA DE DATOS BASADA EN C4.5
Y SU APLICACION AL INVENTARIO MULTIFASICO DE LA
PERSONALIDAD MINNESOTA 2
TESIS
Que para obtener el grado de
MAESTRIA EN INGENIERIA ELECTRICA
presenta
Joel Loaeza Valerio
Dr. Juan José Flores Romero
Director de Tesis
Contenido
 Justificación
 Objetivos Generales
 Alcances y limitaciones
 Agentes Inteligentes
 Aprendizaje Humano y Aprendizaje Computacional
 Árboles de Decisión
 Minería de Datos
 Inventario Multifásico de la Personalidad Minnesota 2
 Ambiente de Descubrimiento con C4.5Web
 Conclusiones
MMPI-2
El MMPI-2 está compuesto por un conjunto de 567 reactivos,
con este material se forman los indicadores de validez, las
escalas clínicas, de contenido y suplementarias, dichos reactivos
deben ser respondidos como verdadero o falso en la aplicación
de la prueba para poder evaluar, interpretar y emitir un reporte
que permita detectar si el paciente padece alguna
psicopatología y para conocer algunas características de la
personalidad del individuo en cuestión.
MMPI-2
MMPI-2
MMPI-2
MMPI-2
Árboles de Decisión
Árboles de Decisión
Para que el algoritmo de aprendizaje genere adecuadamente un
Árbol de Decisión, se recomienda adoptar la siguiente
metodología:
1. Reunir una gran cantidad de ejemplos.
2. Dividirla aleatoriamente en dos conjuntos: el conjunto de
entrenamiento y el conjunto de prueba.
3. Emplear el algoritmo de aprendizaje con el conjunto de
entrenamiento como ejemplo base para producir un Árbol de
Decisión (Modelo o Representación de la regularidad existente
en los datos).
Árboles de Decisión
4. Medir el porcentaje de ejemplos del conjunto de prueba
clasificados correctamente con el Árbol de Decisión.
5. Repetir los pasos 2 a 4 en conjuntos de entrenamiento de
diverso tamaño.
6. Si no se logra un entrenamiento satisfactorio del algoritmo se
recomienda revisar los datos o aumentar el volumen de éstos.
Árboles de Decisión
Primero se calcula la información I obtenida con cada elemento
del dominio de cada atributo y enseguida se calcula la entropía
E correspondiente al atributo.
Para el atributo L se tiene:
Árboles de Decisión
Árboles de Decisión
Árboles de Decisión
Por lo tanto, el algoritmo de aprendizaje del árbol de decisión
escogerá al atributo con mayor ganancia que en este caso es F,
como nodo raíz y procederá a realizar el mismo proceso con los
ejemplos de cada rama.
Árboles de Decisión
Construcción de un Árbol de Decisión con C4.5
La explicación continúa con un ejemplo simple ValidaciónTest
extraído del ambiente del MMPI-2.
Se trata de clasificar como válida o no válida la aplicación del
test a un paciente.
Los ejemplos se describen mediante los valores de los atributos
y el valor del predicado meta o clase.
Árboles de Decisión
Se dispone de la siguiente lista de atributos y sus dominios:
1. L : escala de la mentira, tendencia del paciente a mentir al
contestar el test (Bajo, Medio, Moderado, Alto).
2. F: escala de la infrecuencia, tendencia del paciente al
contestar el test en forma inconsistente (Bajo, Medio,
Moderado, Alto).
3. K: escala de negación de problemas, tendencia del paciente a
negar sus problemas al contestar el test (Bajo, Medio,
Moderado).
Minería de Datos
Minería de Datos
Cada reactivo posee un contenido (una afirmación).
Ambiente de Descubrimiento con
C4.5Web
Conjunto de datos de entrenamiento
Ambiente de Descubrimiento con
C4.5Web
 Primero, se genera la cabecera
Ambiente de Descubrimiento con
C4.5Web
 Segundo, se genera una o más traducciones ASCII de un
Árbol de Decisión
Ambiente de Descubrimiento con
C4.5Web
Tercero, el Árbol de Decisión sin podar y el Árbol de Decisión
podado son evaluados con los datos de entrenamiento para
verificar la eficiencia de cada uno.
Ambiente de Descubrimiento con
C4.5Web
Cuarto, evaluación del modelo generado con una matriz de
confusión.
Ambiente de Descubrimiento con
C4.5Web
Y en forma gráfica:
Conclusiones
 Agente Inteligente Descubreconocimiento
 Técnica de Minería de Datos
 Algoritmo de referencia de minería
 Conocimiento obtenido
 Aportaciones
 Resultados
 Trabajos futuros