Download Sistema de Soporte a Decisiones
Document related concepts
Transcript
Instituto Superior Privado “Robustiano Macedo Martinez” Analista en Sistemas de Información – Plan 2008 Sistemas de Soporte a decisión Sistema de Soporte a Decisiones Bóveda, Julio Ferreira, Gabriel Gaviola, Nicolas Investigar las herramientas disponibles para realizar Minería de Datos, dando: 1. Características, disponibilidad, ventajas, desventajas, etc. 2. Compararlas con WEKA. 3. Dar ejemplo de aplicación de por lo menos 2 herramientas. 1. Herramientas de la Minería de Datos Instituto Superior Privado “Robustiano Macedo Martinez” Analista en Sistemas de Información – Plan 2008 Sistemas de Soporte a decisión Redes Neuronales: Son colecciones de nodos conectados, con entradas, salidas y procesamiento en cada nodo. Entre las entradas y salidas de la red existen un número de capas ocultas de procesamiento. La red neuronal debe ser ingresada a través de un conjunto de patrones de entrenamiento (aprendizaje supervisado). Una vez ingresada es utilizada para hacer predicciones. Las redes neuronales se utilizan para clasificación y reconocimiento de patrones. Características: Existen cuatro aspectos a tener en cuenta. .Topología de las Redes Neuronales: La arquitectura de las redes neuronales consiste en la organización y disposición de las neuronas formando capas más o menos alejadas de la entrada y salida de la red. En este sentido, los parámetros fundamentales de la red son: el número de capas, el número de neuronas por capa, el grado de conectividad y el tipo de conexiones entre neuronas. .Redes Monocapa: Se establecen conexiones laterales, cruzadas o recurrentes entre las neuronas que pertenecen a la única capa que constituye la red. Se utilizan en tareas relacionadas con lo que se conoce como auto-asociación. .Redes Multicapa: Son aquellas que disponen de conjuntos de neuronas agrupadas en varios niveles o capas. Una forma de distinguir la capa a la que pertenece la neurona, consiste en fijarse en el origen de las señales que recibe a la entrada y el destino de la señal de salida. Según el tipo de conexión, se distinguen las redes feedforward, y las redes feedforward/feedback. .Mecanismo de Aprendizaje: El mecanismo de aprendizaje es el proceso por el cual una red neuronal modifica sus pesos en respuesta a una información de entrada. Los cambios que se producen durante el proceso de aprendizaje se reducen a la destrucción, modificación y creación de conexiones entre las neuronas, la creación de una nueva conexión implica que el peso de la misma pasa a tener un valor distinto de cero, una conexión se destruye cuando su peso pasa a ser cero. Se puede afirmar que el proceso de aprendizaje ha finalizado (la red ha aprendido) cuando los valores de los pesos permanecen estables. Un criterio para diferenciar las reglas de aprendizaje se basa en considerar las Redes Neuronales con aprendizaje supervisado y Redes Neuronales con aprendizaje no supervisado. La diferencia fundamental entre ambos tipos se encuentra en la existencia o no de un agente externo (supervisor) que controle el aprendizaje de la red. Redes con Aprendizaje Supervisado: El proceso de aprendizaje es controlado por un agente externo (supervisor) que determina la respuesta que debería generar la red a partir de una entrada determinada. El supervisor comprueba la salida de la red y en el caso de que ésta no coincida con la deseada, se procederá a modificar los pesos de las conexiones, con el fin de conseguir la salida que se aproxime a la deseada Redes con Aprendizaje No Supervisado: Estas redes no requieren influencia para ajustar los pesos de las conexiones entre neuronas. La red no recibe ninguna información por parte del entorno que le indique si la salida generada es o no correcta. Así que existen varias posibilidades en cuanto a la interpretación de la salida de estas redes. En algunos casos, la salida representa el grado de similitud entre la información entrante y las informaciones que se le han mostrado en el pasado. En otro caso podría realizar una codificación de los datos de entrada, generando a la salida una versión codificada de la entrada, con menos bits, pero manteniendo la información relevante de los datos, o algunas redes con aprendizaje no supervisado lo que realizan es un mapeo de características, obteniéndose en las neuronas de salida una disposición geométrica que representa un ,mapa topográfico de las características de los datos de entrada, de tal forma que si se presentan a la red informaciones similares, siempre sean afectadas las neuronas de salidas próximas entre sí, en la misma zona del mapa. Ventajas: La capacidad de aprendizaje adaptativo es una de las características más atractivas de redes neuronales. Esto es, aprenden a llevar a cabo ciertas tareas mediante un entrenamiento con ejemplos ilustrativos. Como las redes neuronales pueden aprender a diferenciar patrones mediante ejemplos y entrenamientos, no es necesario elaborar modelos, ni de especificar funciones de distribución de probabilidad. Las redes neuronales son sistemas dinámicos auto-adaptativos. Son adaptables debido a la capacidad de auto-ajuste de los elementos procesales (neuronas) que componen el sistema. Son dinámicos, pues son capaces de estar constantemente cambiando para adaptarse a las nuevas condiciones. En el proceso de aprendizaje, los enlaces ponderados de las neuronas se ajustan de manera que se obtengan ciertos resultados específicos. Una red neuronal no necesita un algoritmo para resolver un problema, ya que ella puede generar su propia distribución de pesos en los Instituto Superior Privado “Robustiano Macedo Martinez” Analista en Sistemas de Información – Plan 2008 Sistemas de Soporte a decisión enlaces mediante el aprendizaje. También existen redes que continúan aprendiendo a lo largo de su vida, después de completado su período de entrenamiento. Comparados con los sistemas computacionales tradicionales, los cuales pierden su funcionalidad en cuanto sufren un pequeño error de memoria, en las redes neuronales, si se produce un fallo en un pequeño número de neuronas, aunque el comportamiento del sistema se ve influenciado, sin embargo no sufre una caída repentina. Hay dos aspectos distintos respecto a la tolerancia a fallos: primero, las redes pueden aprender a reconocer patrones con ruido, distorsionados, o incompleta. Segundo pueden seguir realizando su función (con cierta degradación) aunque se destruya parte de la red. La razón por la que las redes neuronales son tolerantes a fallos es que tienen su información distribuida en las conexiones entre neuronas, existiendo cierto grado de redundancia en ese tipo de almacenamiento, a diferencia de la mayoría de los ordenadores algorítmicos y sistemas de recuperación de datos que almacenan cada pieza de información en un estado único, localizado y direccionable. Desventajas: A pesar del incremento en la velocidad y de la escala de integración en los semiconductores, la mejor contribución de las redes neuronales, todavia tendrá que esperar por computadoras más rápidas, masivas y paralelas. Árbol de Decisiones: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ventajas: Se ha demostrado que los árboles de decisión son eficaces cuando es necesario describir problemas con más de una dimensión o condición. También son útiles para identificar los requerimientos de datos críticos que rodean al proceso de decisión, es decir, los árboles indican los conjuntos de datos que la gerencia requiere para formular decisiones o tomar acciones. Desventajas: Los árboles de decisión no siempre son la mejor herramienta para el análisis de decisiones. El árbol de decisiones de un sistema complejo con muchas secuencias de pasos y combinaciones de condiciones puede tener un tamaño considerable. El gran número de ramas que pertenecen a varias trayectorias constituye más un problema que una ayuda para el análisis. En estos casos los analistas corren el riesgo de no determinar qué políticas o estrategias de la empresa son la guía para la toma de decisiones específicas. Cuando aparecen estos problemas, entonces es momento de considerar las tablas de decisión. Modelos Estadísticos: Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta. Agrupamiento: Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. 2. Weka: es un software programado en Java que está orientado a la extracción de conocimientos desde bases de datos con grandes cantidades de información. Existen otras herramientas similares como Oracle Data Miner o Clementine. Weka es desarrollado bajo licencia GPL. Características: Weka se denomina a si mismo un conjunto de librerías para tareas de minería de datos. El paquete Weka contiene una colección de herramientas de visualización y algoritmos para análisis de datos y modelado predictivo, unidos a una interfaz gráfica de usuario para acceder fácilmente a sus funcionalidades. La versión original de Weka fue un front-end en TCL/TK para modelar algoritmos implementados en otros lenguajes de programación, más unas utilidades para el pre-procesamiento de datos desarrolladas en C para hacer experimentos de aprendizaje automático. Esta versión original se diseñó inicialmente como herramienta para analizar datos procedentes del dominio de la agricultura , pero la versión más reciente basada en Java (WEKA 3), que empezó a desarrollarse en 1997, se utiliza en muchas y muy diferentes áreas, en particular con finalidades docentes y de investigación. Todas las técnicas de Weka se fundamentan en la asunción de que los datos están disponibles en un fichero plano (flat file) o una relación, en la que cada registro de datos está descrito por un número fijo de atributos (normalmente numéricos o nominales, aunque también se soportan otros tipos). Weka también proporciona acceso a bases de datos vía SQL gracias a la conexión JDBC (Java Database Connectivity) y puede procesar el resultado devuelto por una consulta hecha a la base de datos. Instituto Superior Privado “Robustiano Macedo Martinez” Analista en Sistemas de Información – Plan 2008 Sistemas de Soporte a decisión Ventajas: Está disponible libremente bajo la licencia pública general de GNU. Es muy portable porque está completamente implementado en Java y puede correr en casi cualquier plataforma. Contiene una extensa colección de técnicas para pre procesamiento de datos y modelado. Es fácil de utilizar por un principiante gracias a su interfaz gráfica de usuario. Weka soporta varias tareas estándar de minería de datos, especialmente, pre-procesamiento de datos, clustering, clasificación, regresión, visualización, y selección. Desventajas: No puede realizar minería de datos multi-relacional, pero existen aplicaciones que pueden convertir una colección de tablas relacionadas de una base de datos en una única tabla que ya puede ser procesada con Weka. 3. Aplicaciones: Redes Neuronales: Las Redes Neuronales poseen fundamentalmente dos orientaciones, la militar y la médica. En medicina los primeros en beneficiarse son los minusválidos con deficiencias o carencias motrices, quienes además aportan al desarrollo de estas tecnologías, por ser sujetos de prueba. Tanto las tecnologías que usan EMG, como EOG han logrado ampliar las expectativas de estos pacientes, por ej. Con EMG se observó que los impulsos eléctricos procedentes de fibras musculares activas, pueden manejar equipos electrónicos, con las señales generadas por los músculos. Con EOG una niña con una grave lesión espinal probó que podía mover el cursor de la pantalla de computadora a partir de impulsos generados por sus ojos. En el área militar están experimentando en pilotos de avión con señales EP, siendo una herramienta útil en el momento de tener manos y pies ocupados.