Download Árboles de decisión
Document related concepts
Transcript
Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 11 - Juan Alfonso Lara Torralbo 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. 1 Índice de contenidos • Actividad. Resolución manual de clasificación bayesiana • Árboles de decisión • Actividad. Árboles de decisión con Weka 2 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Actividad. Resolución manual de clasificación bayesiana Predecir a mano la clase para un ejemplo de día: lluvioso, temperatura alta, humedad normal y viento. Puesta en común del resultado. 3 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Árboles de decisión (I) • Árbol: grafo para el que se cumple que, dos vértices cualesquiera, están conectados por exactamente un camino • Los árboles de decisión son estructuras en forma de árbol que se utilizan como modelos de predicción en muy diferentes áreas • En minería de datos, los árboles de decisión se usan, principalmente, como herramientas de clasificación 4 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Árboles de decisión (II) • Para ello, se utiliza el valor de los atributos conocidos del objeto para ir descendiendo por el árbol hasta llegar a un nodo hoja • Cada nodo del árbol tiene una condición sobre dichos atributos conocidos, que determina la rama por la que descender • El nodo hoja indica la clase dentro de la cual ha sido clasificado el objeto 5 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Árboles de decisión (III) • Los nodos representan la verificación de una condición sobre un atributo • Las ramas representan el valor de la condición comprobada en el nodo del cual derivan • Los nodos hoja representan las etiquetas de clase 6 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Árboles de decisión (IV) 7 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Árboles de decisión (V) • Hay muchos algoritmos, pero casi todos comparten una misma estrategia: 1. Se asignan todos los elementos del conjunto de entrenamiento a la raíz del árbol. 2. Se realizan divisiones del árbol de clasificación, atendiendo a una determinada heurística. 3. Se repite el paso 2 hasta llegar a los nodos hoja. 4. Por último, se puede realizar una poda del árbol para eliminar ramas que representan ruido. 8 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Árboles de decisión (VI) • Para dividir el árbol (paso 2) hay que elegir un atributo por el que partir. Dicho atributo se elige atendiendo a diferentes heurísticas • La más extendida: el que mayor ganancia de información posee • Ganancia de información: concepto de teoría de la información • Simplificando: se divide por aquel atributo que mejor distingue la clase en función de sus valores 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. 9 Árboles de decisión (VII) • Todo árbol de decisión tiene un conjunto de reglas de decisión asociado, equivalente Compra = SI Edad = Baja Y Estudia = sí Sí SI Edad = Media Compra = Sí SI Edad = Alta Y Ratio de crédito = aceptable Compra = Sí EN OTRO CASO Compra = No 10 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Árboles de decisión (VIII) • Los árboles de decisión ¿son técnicas impacientes o perezosas? • Claramente impacientes • El árbol se construye con el conjunto de entrenamiento antes de nada y luego se utiliza para clasificar nuevos elementos que llegan 11 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. Actividad. Árboles de decisión con Weka Construir un árbol de decisión con Weka (Id3) para predecir si un cliente comprará o no el producto. Obtener reglas asociadas y aplicarlas a un cliente nuevo con edad alta y que no estudia. Puesta en común del resultado. 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados. 12