Download Algunas herramientas utilizadas en la minería de datos (Data Mining)
Document related concepts
Transcript
Instituto Superior Privado “Robustiano M: Martínez” Sistemas de Soporte de Decisiones Carrera: A. S. I Tema: Herramientas para la Minería de Datos Alumnos: Guardia, Ricardo. Gómez, Zuny B. Morel. Chaparro, Gustavo. Albornoz, Martín. Profesor: Fleitas, Fabián. Año: 2009 Instituto Superior Privado “Robustiano M: Martínez” Sistemas de Soporte de Decisiones Carrera: A. S. I La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos. Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos. Entre las herramientas utilizadas en la minería de datos (Data Mining) podamos mencionar las siguientes: · Clementine / SPSS: Herramienta de data mining que permite desarrollar modelos predictivos y desplegarlos para mejorar la toma de decisiones. Está diseñada teniendo en cuenta a los usuarios empresariales, de manera que no es preciso ser un experto en data mining. Es la solución líder en minería datos que le ayuda a las organizaciones a comprender el comportamiento de las personas y a predecir qué es lo que harán. Al utilizar Clementine, los analistas y usuarios de negocios podrán acceder datos de varias fuentes para producir, evaluar, y desplegar modelos analíticos rápida y fácilmente. La arquitectura abierta y escalable del producto le permite obtener el máximo provecho de la infraestructura actual, haciendo de la minería de datos un proceso efectivo en toda su empresa. Ventajas: Accesible y Relevante Incremente la productividad de los analistas, las características de Clementine los guiarán a través de todo el proceso analítico. Análisis Predictivo Obtenga rápidamente una ventaja competitiva con los mejores modelos de comportamientos futuros. Adaptable Aproveche la infraestructura existente con minería de datos reduciendo costos y maximizando la tecnología. Dlife / Apara : Plataforma bioinformática para la toma de decisiones clínicas. Proporciona un soporte computacional a la toma de decisiones médicas en los procesos de diagnóstico, tratamiento y seguimiento de la evolución de los pacientes que permite a los profesionales clínicos incrementar su precisión y la eficiencia de la prestación sanitaria en una media del 20%. dVelox 2.5/ Apara: Plataforma analítica para la toma de decisiones en tiempo real que predice los escenarios futuros más probables para optimizar los procesos críticos de cualquier empresa, Está orientada a los sectores de banca, finanzas y márketing. Redes Neuronales (Neural Networks): Grupo de unidades no-lineales interconectadas y organizadas por capas. Estas pueden ser funciones matemáticas y números almacenados en computadoras digitales, pero pueden ser elaboradas también mediante dispositivos analógicos como los transistores a efecto de campo (FET). Instituto Superior Privado “Robustiano M: Martínez” Sistemas de Soporte de Decisiones Carrera: A. S. I A pesar del incremento en velocidad y de la escala de integración en los semiconductores, la mejor contribución de las redes neuronales tendrá que esperar por computadoras más rápidas, masivas y paralelas. Características de las Redes Neuronales Existen cuatro aspectos que caracterizan una red neuronal: su topología, el mecanismo de aprendizaje, tipo de asociación realizada entre la información de entrada y salida, y la forma de representación de estas informaciones. 1. Topología de las Redes Neuronales. La arquitectura de las redes neuronales consiste en la organización y disposición de las neuronas formando capas más o menos alejadas de la entrada y salida de la red. En este sentido, los parámetros fundamentales de la red son: el número de capas, el número de neuronas por capa, el grado de conectividad y el tipo de conexiones entre neuronas. Redes Monocapa: Se establecen conexiones laterales, cruzadas o auto recurrentes entre las neuronas que pertenecen a la única capa que constituye la red. Se utilizan en tareas relacionadas con lo que se conoce como auto asociación; por ejemplo, para generar informaciones de entrada que se presentan a la red incompletas o distorsionadas. Redes Multicapa: Son aquellas que disponen de conjuntos de neuronas agrupadas en varios niveles o capas. Una forma de distinguir la capa a la que pertenece la neurona, consiste en fijarse en el origen de las señales que recibe a la entrada y el destino de la señal de salida. Según el tipo de conexión, como se vio previamente, se distinguen las redes feedforward, y las redes feedforward/feedback. 2. Mecanismo de Aprendizaje. El aprendizaje es el proceso por el cual una red neuronal modifica sus pesos en respuesta a una información de entrada. Los cambios que se producen durante el proceso de aprendizaje se reducen a la destrucción, modificación y creación de conexiones entre las neuronas, la creación de una nueva conexión implica que el peso de la misma pasa a tener un valor distinto de cero, una conexión se destruye cuando su peso pasa a ser cero. Se puede afirmar que el proceso de aprendizaje ha finalizado (la red ha aprendido) cuando los valores de los pesos permanecen estables (dwij / dt = 0). Un criterio para diferenciar las reglas de aprendizaje se basa en considerar si la red puede aprender durante su funcionamiento habitual, o si el aprendizaje supone la desconexión de la red. Otro criterio suele considerar dos tipos de reglas de aprendizaje: las de aprendizaje supervisado y las correspondientes a un aprendizaje no supervisado, estas reglas dan pie a una de las clasificaciones que se realizan de las RNA: Redes neuronales con aprendizaje supervisado y redes neuronales con aprendizaje no supervisado. La diferencia fundamental entre ambos tipos estriba en la existencia o no de un agente externo (supervisor) que controle el aprendizaje de la red. Redes con Aprendizaje Supervisado. El proceso de aprendizaje se realiza mediante un entrenamiento controlado por un agente externo (supervisor, maestro) que determina la respuesta que debería generar la red a partir de una entrada determinada. El supervisor comprueba la salida de la red y en el caso de que ésta no coincida con la deseada, se procederá a modificar los pesos de las conexiones, con el fin de conseguir que la salida se aproxime a la deseada. Se consideran tres formas de llevar a cabo este tipo de aprendizaje: Aprendizaje por corrección de error: Consiste en ajustar los pesos en función de la diferencia entre los valores deseados y los obtenidos en la salida de la red; es decir, en función del error. Instituto Superior Privado “Robustiano M: Martínez” Sistemas de Soporte de Decisiones Carrera: A. S. I Aprendizaje por refuerzo: Se basa en la idea de no indicar durante el entrenamiento exactamente la salida que se desea que proporcione la red ante una determinada entrada. La función del supervisor se reduce a indicar mediante una señal de refuerzo si la salida obtenida en la red se ajusta a la deseada (éxito=+1 o fracaso=-1), y en función de ello se ajustan los pesos basándose en un mecanismo de probabilidades. Aprendizaje estocástico: Este tipo de aprendizaje consiste básicamente en realizar cambios aleatorios en los valores de los pesos de las conexiones de la red y evaluar su efecto a partir del objetivo deseado y de distribuciones de probabilidad. Redes con Aprendizaje No Supervisado. Estas redes no requieren influencia externa para ajustar los pesos de las conexiones entre neuronas. La red no recibe ninguna información por parte del entorno que le indique si la salida generada es o no correcta, así que existen varias posibilidades en cuanto a la interpretación de la salida de estas redes. En algunos casos, la salida representa el grado de familiaridad o similitud entre la información que se le está presentando en la entrada y las informaciones que se le han mostrado en el pasado. En otro caso podría realizar una codificación de los datos de entrada, generando a la salida una versión codificada de la entrada, con menos bits, pero manteniendo la información relevante de los datos, o algunas redes con aprendizaje no supervisado lo que realizan es un mapeo de características, obteniéndose en las neuronas de salida una disposición geométrica que representa un mapa topográfico de las características de los datos de entrada, de tal forma que si se presentan a la red informaciones similares, siempre sean afectadas neuronas de salidas próximas entre sí, en la misma zona del mapa.. En general en este tipo de aprendizaje se suelen considerar dos tipos: Aprendizaje Hebbiano: Consiste básicamente en el ajuste de los pesos de las conexiones de acuerdo con la correlación, así si las dos unidades son activas (positivas), se produce un forzamiento de la conexión. Por el contrario cuando un es activa y la otra pasiva (negativa), se produce un debilitamiento de la conexión. Aprendizaje competitivo y cooperativo: Las neuronas compiten (y cooperan) unas con otras con el fin de llevar a cabo una tarea dada. Con este tipo de aprendizaje se pretende que cuando se presente a la red cierta información de entrada, solo una de las neuronas de salida se active (alcance su valor de respuesta máximo). Por tanto las neuronas compiten por activarse , quedando finalmente una, o una por grupo, como neurona vencedora 3. Tipo de Asociación entre las Informaciones de Entrada y Salida. Las RNA son sistemas que almacenan cierta información aprendida; está información se registra de forma distribuida en los pesos asociados a las conexiones entre neuronas de entrada y salida. Existen dos formas primarias de realizar esa asociación de entrada/salida. Una primera sería la denominada heteroasociación, que se refiere al caso en el que la red aprende parejas de datos [(A1, B1), (A2, B2)… (An, Bn)], de tal forma que cuando se presente cierta información de entrada Ai, deberá responder generándola correspondiente salida Bi. La segunda se conoce como auto asociación, donde la red aprende ciertas informaciones A1, A2…An, de tal forma que cuando se le presenta una información de entrada realizará una auto correlación, respondiendo con uno de los datos almacenados, el más parecido al de la entrada. Estos dos mecanismos de asociación de asociación dan lugar a dos tipos de redes neuronales: las redes heteroasosciativas y las auto asociativas. Una red heteroasociativa podría considerarse aquella que computa cierta función, que en la mayoría de los casos no podrá expresarse analíticamente, entre un conjunto de entradas y un conjunto de salidas, correspondiendo a cada posible entrada una determinada salida. Existen redes heteroasociativas con Instituto Superior Privado “Robustiano M: Martínez” Sistemas de Soporte de Decisiones Carrera: A. S. I conexiones feedforward, feedforward/feedback y redes con conexiones laterales. También existen redes heteroasociativas multidimensionales y su aprendizaje puede ser supervisado o no supervisado. Por otra parte, una red auto asociativa es una red cuya principal misión es reconstruir una determinada información de entrada que se presenta incompleta o distorsionada (le asocia el dato almacenado más parecido). Pueden implementarse con una sola capa, existen conexiones laterales o también autor recurrentes, habitualmente son de aprendizaje no supervisado. 4. Representación de la Información de Entrada y Salida. Las redes neuronales pueden también clasificarse en función de la forma en que se representan las informaciones de entrada y las respuestas o datos de salida. Así un gran número de redes, tanto los datos de entrada como de salida son de naturaleza analógica, cuando esto ocurre, las funciones de activación de las neuronas serán también continuas, del tipo lineal o sigmoidal. Otras redes sólo admiten valores discretos o binarios a su entrada, generando también unas respuestas en la salida de tipo binario. En este caso, las funciones de activación de las neuronas son de tipo escalón. Existe también un tipo de redes híbridas en las que las informaciones de entrada pueden ser valores continuos, aunque las salidas de la red son discretas. Ventajas de las Redes Neuronales Debido a su constitución y a sus fundamentos, las RNA presentan un gran número de características semejantes a las del cerebro. Por ejemplo, son capaces de aprender de la experiencia, de generalizar de casos anteriores a nuevos casos, de abstraer características esenciales a partir de entradas que representan información irrelevante, etc. Esto hace que ofrezcan numerosas ventajas y que este tipo de tecnología se esté aplicando en múltiples áreas. Estas ventajas incluyen: 1. Aprendizaje Adaptativo: Es una de las características más atractivas de las redes neuronales, es la capacidad de aprender a realizar tareas basadas en un entrenamiento o una experiencia inicial. En el proceso de aprendizaje, los enlaces ponderados de las neuronas se ajustan de manera que se obtengan unos resultados específicos. Una RNA no necesita un algoritmo para resolver un problema, ya que ella puede generar su propia distribución de los pesos de los enlaces mediante el aprendizaje. También existen redes que continúan aprendiendo a lo largo de su vida, después de completado e periodo inicial de entrenamiento. La función del diseñador es únicamente la obtención de la arquitectura apropiada. No es problema del diseñador el cómo la red aprenderá a discriminar; sin embargo, si es necesario que desarrolle un buen algoritmo de aprendizaje que proporcione la capacidad de discriminar de la red mediante un entrenamiento con patrones. 2. Autoorganización: Las redes neuronales usan su capacidad de aprendizaje adaptativo para organizar la información que reciben durante el aprendizaje y/o la operación. Una RNA puede crear su propia organización o representación de la información que recibe mediante una etapa de aprendizaje. Esta autoorganización provoca la facultad de las redes neuronales de responder apropiadamente cuando se les presentan datos o situaciones a los que no habían sido expuestas anteriormente. 3. Tolerancia a Fallos: Comparados con los sistemas computacionales tradicionales, los cuales pierden su funcionalidad en cuanto sufren un pequeño error de memoria, en las redes neuronales, si se produce un fallo en un pequeño número de neuronas, aunque el comportamiento del sistema se ve influenciado, sin embargo no sufre una caída repentina. Hay dos aspectos distintos respecto a la tolerancia a fallos: primero, las redes pueden aprender a reconocer patrones con ruido, distorsionados, o incompleta. Segundo pueden seguir realizando su función (con cierta degradación) aunque se destruya parte de la red. Instituto Superior Privado “Robustiano M: Martínez” Sistemas de Soporte de Decisiones Carrera: A. S. I La razón por la que las redes neuronales son tolerantes a fallos es que tienen su información distribuida en las conexiones entre neuronas, existiendo cierto grado de redundancia en ese tipo de almacenamiento, a diferencia de la mayoría de los ordenadores algorítmicos y sistemas de recuperación de datos que almacenan cada pieza de información en un estado único, localizado y direccionable. 4. Operación en Tiempo Real: Los computadores neuronales pueden ser realizados en paralelo, y se diseñan y fabrican máquinas con hardware especial para obtener esta capacidad. 5. Fácil inserción dentro de la tecnología existente. Debido a que una red puede ser rápidamente entrenada, comprobada, verificada y trasladada a una implementación hardware de bajo costo, es fácil insertar RNA para aplicaciones específicas dentro de sistemas existentes (chips, por ejemplo). De esta manera, las redes neuronales se pueden utilizar para mejorar sistemas de forma incremental, y cada paso puede ser evaluado antes de acometer un desarrollo más amplio. Aplicaciones. Como con toda investigación científica, posee en primer lugar dos orientaciones, la militar y la médica. En medicina los primeros en beneficiarse son los minusválidos con deficiencias o carencias motrices, quienes además aportan al desarrollo de estas tecnologías, por ser sujetos de prueba. Tanto las tecnologías que usan EMG, como EOG han logrado ampliar las expectativas de estos pacientes, por ej. Con EMG se observó que los impulsos eléctricos procedentes de fibras musculares activas, pueden manejar equipos electrónicos, con las señales generadas por los músculos. Con EOG una niña con una grave lesión espinal probó que podía mover el cursor de la pantalla de computadora a partir de impulsos generados por sus ojos. En otro sentido con el EOG permite que un cirujano cambie, moviendo los ojos, el campo visual de una cámara de fibra óptica, y así poder tener las manos ocupadas con instrumentos quirúrgicos. En el campo de las ondas cerebrales han experimentado con esta tecnología conectándola con un sintetizador musical. Erich E. Sutter desarrolló un sistema que permite a los discapacitados seleccionar palabras o frases de un menú formado por cuadros que destellan en la pantalla de un ordenador. Sosteniendo durante uno o dos segundos la mirada fija en el cuadro apropiado, una persona conectada por electrodos craneales puede transmitir su elección por ordenador, constituyendo un claro ej. del potencial evocado del cerebro (EP). En el área militar están experimentando en pilotos de avión con señales EP, siendo una herramienta útil en el momento de tener manos y pies ocupados. Microsoft SQL Server 2005 / Microsoft: Solución que ofrece un entorno integrado para crear modelos de minería de datos (Data Mining) y trabajar con ellos. La solución SQL Server Data Mining permite el acceso a la información necesaria para tomar decisiones inteligentes sobre problemas empresariales complejos. Data Mining es la tecnología de BI que ayuda a construir modelos analíticos complejos e integrar esos modelos con sus operaciones comerciales. Ventajas Complejidad de la administración de los datos reducida. Toma de decisiones rápidas y basadas en datos. Seguridad, escalabilidad y disponibilidad más eficaces. Mapas característicos de Kohonen (Self-organizing Maps): Es una red neuronal del tipo de entrenamiento no-supervisado. Los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes. Una vez entrenada es capaz de identificar tales patrones en nuevos datos. Instituto Superior Privado “Robustiano M: Martínez” Sistemas de Soporte de Decisiones Carrera: A. S. I Características Pertenece a la categoría de las redes competitivas o mapas de autoorganización, es decir, aprendizaje no supervisado. Poseen una arquitectura de dos capas (entrada-salida) (una sola capa de conexiones), funciones de activación lineales y flujo de información unidireccional (son redes en cascada). Las unidades de entrada reciben datos continuos normalizados, se normalizan así mismo los pesos de las conexiones con la capa de salida. Tras el aprendizaje de la red, cada patrón de entrada activará una única unidad de salida. El objetivo de este tipo de redes es clasificar los patrones de entrada en grupos de características similares, de manera que cada grupo activará siempre la(s) misma(s) salida(s). Cada grupo de entradas queda representado en los pesos de las conexiones de la unidad de salida triunfante. La unidad de salida ganadora para cada grupo de entradas no se conoce previamente, es necesario averiguarlo después de entrenar a la red. Algoritmo Genético (Genetic Algorithm): Imitando la evolución de las especies mediante la mutación, reproducción y selección, estos algoritmos proporcionan programas y optimizaciones que pueden ser utilizados en la construcción y entrenamiento de otras estructuras como las redes neuronales. ¿Cuáles son las ventajas de los AGs? El primer y más importante punto es que los algoritmos genéticos son intrínsecamente paralelos. La mayoría de los otros algoritmos son en serie y sólo pueden explorar el espacio de soluciones hacia una solución en una dirección al mismo tiempo, y si la solución que descubren resulta subóptima, no se puede hacer otra cosa que abandonar todo el trabajo hecho y empezar de nuevo. Sin embargo, ya que los AGs tienen descendencia múltiple, pueden explorar el espacio de soluciones en múltiples direcciones a la vez. Si un camino resulta ser un callejón sin salida, pueden eliminarlo fácilmente y continuar el trabajo en avenidas más prometedoras, dándoles una mayor probabilidad en cada ejecución de encontrar la solución. Debido al paralelismo que les permite evaluar implícitamente muchos esquemas a la vez, los algoritmos genéticos funcionan particularmente bien resolviendo problemas cuyo espacio de soluciones potenciales es realmente grande -demasiado vasto para hacer una búsqueda exhaustiva en un tiempo razonable. La mayoría de los problemas que caen en esta categoría se conocen como ``no lineales''. En un problema lineal, la aptitud de cada componente es independiente, por lo que cualquier mejora en alguna parte dará como resultado una mejora en el sistema completo. No es necesario decir que hay pocos problemas como éste en la vida real. La no linealidad es la norma, donde cambiar un componente puede tener efectos en cadena en todo el sistema, y donde cambios múltiples que, individualmente, son perjudiciales, en combinación pueden conducir hacia mejoras en la aptitud muchos mayores. La no linealidad produce una explosión combinatoria: el espacio de cadenas binarias de 1.000 dígitos puede examinarse exhaustivamente evaluando sólo 2.000 posibilidades si el problema es lineal, mientras que si no es lineal, una búsqueda exhaustiva requiere evaluar 21.000 posibilidades -un número que, escrito, ocuparía más de 300 dígitos. Otra ventaja notable de los algoritmos genéticos es que se desenvuelven bien en problemas con un paisaje adaptativo complejo -aquéllos en los que la función de aptitud es discontinua, ruidosa, cambia con el tiempo, o tiene muchos óptimos locales. La mayoría de los problemas prácticos tienen un espacio de soluciones enorme, imposible de explorar exhaustivamente; el reto se convierte entonces en cómo evitar los óptimos locales -soluciones que son mejores que todas las que son similares a ella, pero que no son mejores que otras soluciones distintas situadas en algún otro lugar del Instituto Superior Privado “Robustiano M: Martínez” Sistemas de Soporte de Decisiones Carrera: A. S. I espacio de soluciones. Muchos algoritmos de búsqueda pueden quedar atrapados en los óptimos locales: si llegan a lo alto de una colina del paisaje adaptativo, descubrirán que no existen soluciones mejores en las cercanías y concluirán que han alcanzado la mejor de todas, aunque existan picos más altos en algún otro lugar del mapa. Algunas aplicaciones de los Algoritmos genéticos Aunque, como se ha comentado, el Algoritmo que se utilizó en el apartado anterior es muy simple, ha servido para que los estudios realizados en torno a él, se hayan aplicado a diversos problemas y modelos en ingeniaría, y en la ciencia en general. Cabe destacar entre ellos: Optimización: Se trata de un campo especialmente abonado para el uso de los Algoritmos Genéticos, por las características intrínsecas de estos problemas. No en vano fueron la fuente de inspiración para los creadores estos algoritmos. Se han utilizado en numerosas tareas de optimización, incluyendo la optimización numérica, y los problemas de optimización combinatoria. Programación automática: Los Algoritmos Genéticos se han empleado para desarrollar programas para tareas específicas, y para diseñar otras estructuras computacionales tales como el autómata celular, y las redes de clasificación. Aprendizaje máquina: Los algoritmos genéticos se han utilizado también en Muchas de estas aplicaciones, tales como la predicción del tiempo o la estructura de una proteína. Han servido asimismo para desarrollar determinados aspectos de Sistemas particulares de aprendizaje, como pueda ser el de los pesos en una red. · SAS Enterprise Miner / SAS: Solución de minería de datos que proporciona gran cantidad de modelos y de alternativas. Permite determinar pautas y tendencias, explica resultados conocidos e identifica factores que permiten asegurar efectos deseados. Además, compara los resultados de las distintas técnicas de modelización, tanto en términos estadísticos como de negocio, dentro de un marco sencillo y fácil de interpretar. Una de la principales características de SAS Enterprise Miner es que está diseñada pensando en su utilización por parte de los responsables de negocio -a través de un interface de usuario sumamente intuitivo- a la vez que cumple las expectativas de los responsables de Sistemas de Información y de los analistas: "el trabajo en equipo de estos tres colectivos de profesionales permite a .las empresas la reducción de costes en el desarrollo de soluciones data mining", explicó Drozdowskyj. La solución Enterprise Miner se basa en la metodología SEMMA (Sample, Explore, Modify, Model, Assess) desarrollada por SAS Institute y puede trabajar con cualquier base de datos y cualquier data warehouse del mercado. Weka Weka se denomina a si mismo un conjunto de librerías para tareas de minería de datos. El paquete Weka contiene una colección de herramientas de visualización y algoritmos para análisis de datos y modelado predictivo, unidos a una interfaz gráfica de usuario para acceder fácilmente a sus funcionalidades. La versión original de Weka fue un front-end en TCL/TK para modelar algoritmos implementados en otros lenguajes de programación, más unas utilidades para el pre-procesamiento de datos desarrolladas en C para hacer experimentos de aprendizaje automático. Esta versión original se diseñó inicialmente como herramienta para analizar datos procedentes del dominio de la agricultura , pero la versión más reciente basada en Java (WEKA 3), que empezó a desarrollarse en 1997, se utiliza en muchas y muy diferentes áreas, en particular con finalidades docentes y de investigación. Instituto Superior Privado “Robustiano M: Martínez” Sistemas de Soporte de Decisiones Carrera: A. S. I Los puntos fuertes de Weka son: Está disponible libremente bajo la licencia pública general de GNU. Es muy portable porque está completamente implementado en Java y puede correr en casi cualquier plataforma. Contiene una extensa colección de técnicas para pre procesamiento de datos y modelado. Es fácil de utilizar por un principiante gracias a su interfaz gráfica de usuario. Weka soporta varias tareas estándar de minería de datos, especialmente, pre procesamiento de datos, clustering, clasificación, regresión, visualización, y selección. Todas las técnicas de Weka se fundamentan en la asunción de que los datos están disponibles en un fichero plano (flat file) o una relación, en la que cada registro de datos está descrito por un número fijo de atributos (normalmente numéricos o nominales, aunque también se soportan otros tipos). Weka también proporciona acceso a bases de datos vía SQL gracias a la conexión JDBC (Java Database Connectivity) y puede procesar el resultado devuelto por una consulta hecha a la base de datos. No puede realizar minería de datos multi-relacional, pero existen aplicaciones que pueden convertir una colección de tablas relacionadas de una base de datos en una única tabla que ya puede ser procesada con Weka. Carencias de Weka Un área importante que actualmente no cubren los algoritmos incluidos en Weka es el modelado de secuencias. Contiene herramientas para diferentes tareas básicas: Preprocess: Multitud de herramientas para el pre procesamiento de los datos (como por ejemplo discretización de variables). Classify: Algoritmos de clasificación, distribuidos por paquetes, como por ejemplo ID3 o C4.5 Cluster: Diferentes algoritmos de segmentación como el simple k-means. Associate: Algoritmos para encontrar relaciones de asociación entre variables (Apriori entre otros). Select atributtes: Aquí, una vez cargados los datos, Weka es capaz de buscar por nosotros las mejores variables del modelo. Visualize: Herramienta de visualización de datos en los ejes cartesianos, con muchas posibilidades. Instituto Superior Privado “Robustiano M: Martínez” Sistemas de Soporte de Decisiones Carrera: A. S. I Cuadro que simplifica las ventajas de las Herramientas para realizar Minería de Datos. Herramientas Clementine / SPSS Descripción Permite desarrollar modelos predictivos y desplegarlos para mejorar la toma de decisiones. Plataforma bioinformática para la toma de decisiones clínicas. Ventajas Incremente la productividad de los analistas. Obtención de los mejores modelos de comportamientos futuros. Dlife / Apara : Permite a los profesionales clínicos incrementar su precisión y la eficiencia de la prestación sanitaria en una media del 20%. dVelox 2.5/ Apara: Plataforma analítica para la Optimizar los procesos toma de decisiones en tiempo críticos de cualquier empresa. real que predice los escenarios futuros más probables. Redes neuronales Grupo de unidades noSon capaces de aprender de lineales interconectadas y la experiencia, de generalizar organizadas por capas. Estas de casos anteriores a nuevos pueden ser funciones casos, de abstraer matemáticas y números características esenciales a almacenados en partir de entradas que computadoras digitales, pero representan información pueden ser elaboradas irrelevante. también mediante dispositivos analógicos como los transistores a efecto de campo. Microsoft SQL Solución que ofrece un Complejidad de la Server 2005 / entorno integrado para crear administración de los datos Microsoft modelos de minería de datos reducida. y trabajar con ellos. Toma de decisiones rápidas y basadas en datos. Mapas Es una red neuronal del tipo Poseen una arquitectura de característicos de de entrenamiento nodos capas (entrada-salida) Kohonen supervisado. Los datos son (una sola capa de mostrados a la estructura y conexiones), funciones de esta se sensibiliza a los activación lineales y flujo de patrones presentes. información unidireccional (son redes en cascada). Algoritmo Genético Proporcionan programas y Son intrínsecamente optimizaciones que pueden paralelos. Los algoritmos ser utilizados en la genéticos funcionan construcción y entrenamiento particularmente bien de otras estructuras como las resolviendo problemas cuyo redes neuronales. espacio de soluciones potenciales es realmente grande -demasiado vasto para hacer una búsqueda exhaustiva en un tiempo razonable. Weka Un conjunto de librerías para Es muy portable porque está tareas de minería de datos. completamente El paquete Weka contiene implementado en Java y una colección de puede correr en casi herramientas de visualización cualquier plataforma. y algoritmos para análisis de Contiene una extensa datos y modelado predictivo, colección de técnicas para unidos a una interfaz gráfica pre procesamiento de datos y de usuario para acceder modelado. Instituto Superior Privado “Robustiano M: Martínez” Sistemas de Soporte de Decisiones Carrera: A. S. I fácilmente a sus funcionalidades.