Download Aprendizaje Automático para el Análisis de Datos - OCW
Document related concepts
Transcript
Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA Ricardo Aler Mur PRESENTACIÓN APRENDIZAJE AUTOMÁTICO GRADO EN ESTADÍSTICA Y EMPRESA RICARDO ALER MUR SKYCAT: CLASIFICACIÓN DE OBJETOS DEL FIRMAMENTO TEMARIO 1. Introduccion al aprendizaje automático 2. Tipología de tareas y algoritmos en aprendizaje automático. Metodología 3. Conceptos básicos en clasificación. Clasificación lineal y no lineal 4. Clasificación: reglas y árboles 5. Selección de atributos 6. Clasificadores basados en prototipos 7. Clasificadores basados en prototipos. Aprendizaje de distancias 9. Conjuntos de clasificadores: boosting, bagging, random forests, stacking, mixtures of experts • 10. Computación evolutiva en aprendizaje automático: algoritmos genéticos / programación genética • 11. Computación evolutiva en aprendizaje automático: PIPE (Probabilistic Induction Program Evolution) • 12. Clasificación con coste. Curvas ROC • • • • • • • • Tipología de tareas y algoritmos en aprendizaje automático • ¿Qué se puede hacer? Clasificación Clustering Regresión Aprendizaje por refuerzo Tipología de tareas y algoritmos en aprendizaje automático • ¿Qué modelos se pueden aprender? Lineales No lineales Tipología de tareas y algoritmos en aprendizaje automático • ¿Qué modelos se pueden aprender? Funciones: y= 3*x3+2 Reglas Árboles decisión Redes bayesianas Clasificación: reglas y árboles Selección de atributos • Necesidad de la selección de atributos • Atributos irrelevantes (dni) o redundantes … • Los atributos irrelevantes despistan a los algoritmos de aprendizaje: • 1 solo atributo aleatorio puede bajar la capacidad predictiva 5 o 10% • Filters, Wrappers, Principal Component Analysis (PCA), random projections, … Clasificadores basados en prototipos. Aprendizaje de distancias Altura Niño Adulto Mayor Peso Altura Peso Conjuntos de clasificadores: boosting, bagging, random forests, stacking, mixtures of experts Computación evolutiva en aprendizaje automático: algoritmos genéticos / programación genética Crear estructuras mediante la teoría de la evolución PIPE (Probabilistic Incremental Program Evolution) Clasificación con coste. Curvas ROC. Curvas de coste. • ¿Qué es mejor, decirle a una persona con cáncer que no lo tiene (falso negativo) o lo contrario (falso positivo)? Bibliografía principal • Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems) PUNTUACIÓN • 50% EXAMEN • 50% PRÁCTICAS (varias). • Herramienta principal: Weka • http://www.cs.waikato.ac.nz/ml/weka/ • Otras: MLDEMOS, Sharky Neural Networks, Eureqa