Download Algunas herramientas utilizadas en la minería de datos (Data Mining)

Document related concepts

Red neuronal artificial wikipedia , lookup

Propagación hacia atrás wikipedia , lookup

Red neuronal prealimentada wikipedia , lookup

Perceptrón wikipedia , lookup

Aprendizaje automático wikipedia , lookup

Transcript
Instituto Superior Privado
“Robustiano M: Martínez”
Sistemas de Soporte de Decisiones
Carrera: A. S. I
Tema: Herramientas para la Minería de Datos
Alumnos:
Guardia, Ricardo.
Gómez, Zuny B. Morel.
Chaparro, Gustavo.
Albornoz, Martín.
Profesor: Fleitas, Fabián.
Año: 2009
Instituto Superior Privado
“Robustiano M: Martínez”
Sistemas de Soporte de Decisiones
Carrera: A. S. I
La minería de datos (DM, Data Mining) consiste en la extracción no trivial de
información que reside de manera implícita en los datos. Dicha información era
previamente desconocida y podrá resultar útil para algún proceso. En otras
palabras, la minería de datos prepara, sondea y explora los datos para sacar la
información oculta en ellos.
Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas
encaminadas a la extracción de conocimiento procesable, implícito en las bases
de datos. Está fuertemente ligado con la supervisión de procesos industriales ya
que resulta muy útil para aprovechar los datos almacenados en las bases de
datos.
Entre las herramientas utilizadas en la minería de datos (Data Mining)
podamos mencionar las siguientes:
· Clementine / SPSS: Herramienta de data mining que permite desarrollar
modelos predictivos y desplegarlos para mejorar la toma de decisiones. Está
diseñada teniendo en cuenta a los usuarios empresariales, de manera que no es
preciso ser un experto en data mining.
Es la solución líder en minería datos que le ayuda a las organizaciones a
comprender el comportamiento de las personas y a predecir qué es lo que harán.
Al utilizar Clementine, los analistas y usuarios de negocios podrán acceder datos
de varias fuentes para producir, evaluar, y desplegar modelos analíticos rápida y
fácilmente. La arquitectura abierta y escalable del producto le permite obtener el
máximo provecho de la infraestructura actual, haciendo de la minería de datos un
proceso efectivo en toda su empresa.
Ventajas:
Accesible y Relevante
Incremente la productividad de los analistas, las características de Clementine los
guiarán a través de todo el proceso analítico.
Análisis Predictivo
Obtenga rápidamente una ventaja competitiva con los mejores modelos de
comportamientos futuros.
Adaptable
Aproveche la infraestructura existente con minería de datos reduciendo costos y
maximizando la tecnología.
Dlife / Apara : Plataforma bioinformática para la toma de decisiones clínicas.
Proporciona un soporte computacional a la toma de decisiones médicas en los
procesos de diagnóstico, tratamiento y seguimiento de la evolución de los
pacientes que permite a los profesionales clínicos incrementar su precisión y la
eficiencia de la prestación sanitaria en una media del 20%.
dVelox 2.5/ Apara: Plataforma analítica para la toma de decisiones en tiempo real
que predice los escenarios futuros más probables para optimizar los procesos
críticos de cualquier empresa, Está orientada a los sectores de banca, finanzas y
márketing.
Redes Neuronales (Neural Networks): Grupo de unidades no-lineales
interconectadas y organizadas por capas. Estas pueden ser funciones
matemáticas y números almacenados en computadoras digitales, pero pueden ser
elaboradas también mediante dispositivos analógicos como los transistores a
efecto de campo (FET).
Instituto Superior Privado
“Robustiano M: Martínez”
Sistemas de Soporte de Decisiones
Carrera: A. S. I
A pesar del incremento en velocidad y de la escala de integración en los
semiconductores, la mejor contribución de las redes neuronales tendrá que
esperar por computadoras más rápidas, masivas y paralelas.
Características de las Redes Neuronales
Existen cuatro aspectos que caracterizan una red neuronal: su topología, el
mecanismo de aprendizaje, tipo de asociación realizada entre la información de
entrada y salida, y la forma de representación de estas informaciones.
1.
Topología de las Redes Neuronales. La arquitectura de las redes
neuronales consiste en la organización y disposición de las neuronas
formando capas más o menos alejadas de la entrada y salida de la red. En
este sentido, los parámetros fundamentales de la red son: el número de
capas, el número de neuronas por capa, el grado de conectividad y el tipo de
conexiones entre neuronas.
Redes Monocapa: Se establecen conexiones laterales, cruzadas o auto
recurrentes entre las neuronas que pertenecen a la única capa que constituye
la red. Se utilizan en tareas relacionadas con lo que se conoce como auto
asociación; por ejemplo, para generar informaciones de entrada que se
presentan a la red incompletas o distorsionadas.
Redes Multicapa: Son aquellas que disponen de conjuntos de neuronas
agrupadas en varios niveles o capas. Una forma de distinguir la capa a la que
pertenece la neurona, consiste en fijarse en el origen de las señales que
recibe a la entrada y el destino de la señal de salida. Según el tipo de
conexión, como se vio previamente, se distinguen las redes feedforward, y las
redes feedforward/feedback.
2.
Mecanismo de Aprendizaje. El aprendizaje es el proceso por el cual una
red neuronal modifica sus pesos en respuesta a una información de entrada.
Los cambios que se producen durante el proceso de aprendizaje se reducen
a la destrucción, modificación y creación de conexiones entre las neuronas, la
creación de una nueva conexión implica que el peso de la misma pasa a
tener un valor distinto de cero, una conexión se destruye cuando su peso
pasa a ser cero. Se puede afirmar que el proceso de aprendizaje ha
finalizado (la red ha aprendido) cuando los valores de los pesos permanecen
estables (dwij / dt = 0).
Un criterio para diferenciar las reglas de aprendizaje se basa en considerar
si la red puede aprender durante su funcionamiento habitual, o si el
aprendizaje supone la desconexión de la red.
Otro criterio suele considerar dos tipos de reglas de aprendizaje: las de
aprendizaje supervisado y las correspondientes a un aprendizaje no
supervisado, estas reglas dan pie a una de las clasificaciones que se
realizan de las RNA: Redes neuronales con aprendizaje supervisado y
redes neuronales con aprendizaje no supervisado. La diferencia
fundamental entre ambos tipos estriba en la existencia o no de un agente
externo (supervisor) que controle el aprendizaje de la red.
Redes con Aprendizaje Supervisado. El proceso de aprendizaje se realiza
mediante un entrenamiento controlado por un agente externo (supervisor,
maestro) que determina la respuesta que debería generar la red a partir de
una entrada determinada. El supervisor comprueba la salida de la red y en
el caso de que ésta no coincida con la deseada, se procederá a modificar
los pesos de las conexiones, con el fin de conseguir que la salida se
aproxime a la deseada.
Se consideran tres formas de llevar a cabo este tipo de aprendizaje:

Aprendizaje por corrección de error: Consiste en ajustar los pesos en
función de la diferencia entre los valores deseados y los obtenidos en la salida
de la red; es decir, en función del error.
Instituto Superior Privado
“Robustiano M: Martínez”


Sistemas de Soporte de Decisiones
Carrera: A. S. I
Aprendizaje por refuerzo: Se basa en la idea de no indicar durante el
entrenamiento exactamente la salida que se desea que proporcione la red ante
una determinada entrada. La función del supervisor se reduce a indicar
mediante una señal de refuerzo si la salida obtenida en la red se ajusta a la
deseada (éxito=+1 o fracaso=-1), y en función de ello se ajustan los pesos
basándose en un mecanismo de probabilidades.
Aprendizaje estocástico: Este tipo de aprendizaje consiste básicamente en
realizar cambios aleatorios en los valores de los pesos de las conexiones de la
red y evaluar su efecto a partir del objetivo deseado y de distribuciones de
probabilidad.
Redes con Aprendizaje No Supervisado. Estas redes no requieren
influencia externa para ajustar los pesos de las conexiones entre neuronas.
La red no recibe ninguna información por parte del entorno que le indique si
la salida generada es o no correcta, así que existen varias posibilidades en
cuanto a la interpretación de la salida de estas redes.
En algunos casos, la salida representa el grado de familiaridad o similitud
entre la información que se le está presentando en la entrada y las
informaciones que se le han mostrado en el pasado. En otro caso podría
realizar una codificación de los datos de entrada, generando a la salida una
versión codificada de la entrada, con menos bits, pero manteniendo la
información relevante de los datos, o algunas redes con aprendizaje no
supervisado lo que realizan es un mapeo de características, obteniéndose
en las neuronas de salida una disposición geométrica que representa un
mapa topográfico de las características de los datos de entrada, de tal
forma que si se presentan a la red informaciones similares, siempre sean
afectadas neuronas de salidas próximas entre sí, en la misma zona del
mapa..
En general en este tipo de aprendizaje se suelen considerar dos tipos:


Aprendizaje Hebbiano: Consiste básicamente en el ajuste de los pesos de
las conexiones de acuerdo con la correlación, así si las dos unidades son
activas (positivas), se produce un forzamiento de la conexión. Por el contrario
cuando un es activa y la otra pasiva (negativa), se produce un debilitamiento de
la conexión.
Aprendizaje competitivo y cooperativo: Las neuronas compiten (y cooperan)
unas con otras con el fin de llevar a cabo una tarea dada. Con este tipo de
aprendizaje se pretende que cuando se presente a la red cierta información de
entrada, solo una de las neuronas de salida se active (alcance su valor de
respuesta máximo). Por tanto las neuronas compiten por activarse , quedando
finalmente una, o una por grupo, como neurona vencedora
3. Tipo de Asociación entre las Informaciones de Entrada y Salida.
Las RNA son sistemas que almacenan cierta información aprendida; está
información se registra de forma distribuida en los pesos asociados a las
conexiones entre neuronas de entrada y salida. Existen dos formas primarias de
realizar esa asociación de entrada/salida. Una primera sería la denominada
heteroasociación, que se refiere al caso en el que la red aprende parejas de datos
[(A1, B1), (A2, B2)… (An, Bn)], de tal forma que cuando se presente cierta
información de entrada Ai, deberá responder generándola correspondiente salida
Bi. La segunda se conoce como auto asociación, donde la red aprende ciertas
informaciones A1, A2…An, de tal forma que cuando se le presenta una información
de entrada realizará una auto correlación, respondiendo con uno de los datos
almacenados, el más parecido al de la entrada.
Estos dos mecanismos de asociación de asociación dan lugar a dos tipos de
redes neuronales: las redes heteroasosciativas y las auto asociativas. Una
red heteroasociativa podría considerarse aquella que computa cierta función,
que en la mayoría de los casos no podrá expresarse analíticamente, entre un
conjunto de entradas y un conjunto de salidas, correspondiendo a cada
posible entrada una determinada salida. Existen redes heteroasociativas con
Instituto Superior Privado
“Robustiano M: Martínez”
Sistemas de Soporte de Decisiones
Carrera: A. S. I
conexiones feedforward, feedforward/feedback y redes con conexiones
laterales. También existen redes heteroasociativas multidimensionales y su
aprendizaje puede ser supervisado o no supervisado.
Por otra parte, una red auto asociativa es una red cuya principal misión es
reconstruir una determinada información de entrada que se presenta
incompleta o distorsionada (le asocia el dato almacenado más parecido).
Pueden implementarse con una sola capa, existen conexiones laterales o
también autor recurrentes, habitualmente son de aprendizaje no supervisado.
4. Representación de la Información de Entrada y Salida.
Las redes neuronales pueden también clasificarse en función de la forma en que
se representan las informaciones de entrada y las respuestas o datos de salida.
Así un gran número de redes, tanto los datos de entrada como de salida son de
naturaleza analógica, cuando esto ocurre, las funciones de activación de las
neuronas serán también continuas, del tipo lineal o sigmoidal. Otras redes sólo
admiten valores discretos o binarios a su entrada, generando también unas
respuestas en la salida de tipo binario. En este caso, las funciones de activación
de las neuronas son de tipo escalón. Existe también un tipo de redes híbridas en
las que las informaciones de entrada pueden ser valores continuos, aunque las
salidas de la red son discretas.
Ventajas de las Redes Neuronales
Debido a su constitución y a sus fundamentos, las RNA presentan un gran número
de características semejantes a las del cerebro. Por ejemplo, son capaces de
aprender de la experiencia, de generalizar de casos anteriores a nuevos casos, de
abstraer características esenciales a partir de entradas que representan
información irrelevante, etc. Esto hace que ofrezcan numerosas ventajas y que
este tipo de tecnología se esté aplicando en múltiples áreas. Estas ventajas
incluyen:
1.
Aprendizaje Adaptativo: Es una de las características más atractivas de las
redes neuronales, es la capacidad de aprender a realizar tareas basadas en
un entrenamiento o una experiencia inicial.
En el proceso de aprendizaje, los enlaces ponderados de las neuronas se
ajustan de manera que se obtengan unos resultados específicos. Una RNA
no necesita un algoritmo para resolver un problema, ya que ella puede
generar su propia distribución de los pesos de los enlaces mediante el
aprendizaje. También existen redes que continúan aprendiendo a lo largo de
su vida, después de completado e periodo inicial de entrenamiento.
La función del diseñador es únicamente la obtención de la arquitectura
apropiada. No es problema del diseñador el cómo la red aprenderá a
discriminar; sin embargo, si es necesario que desarrolle un buen algoritmo de
aprendizaje que proporcione la capacidad de discriminar de la red mediante
un entrenamiento con patrones.
2.
Autoorganización: Las redes neuronales usan su capacidad de aprendizaje
adaptativo para organizar la información que reciben durante el aprendizaje
y/o la operación. Una RNA puede crear su propia organización o
representación de la información que recibe mediante una etapa de
aprendizaje. Esta autoorganización provoca la facultad de las redes
neuronales de responder apropiadamente cuando se les presentan datos o
situaciones a los que no habían sido expuestas anteriormente.
3. Tolerancia a Fallos: Comparados con los sistemas computacionales
tradicionales, los cuales pierden su funcionalidad en cuanto sufren un
pequeño error de memoria, en las redes neuronales, si se produce un fallo en
un pequeño número de neuronas, aunque el comportamiento del sistema se
ve influenciado, sin embargo no sufre una caída repentina.
Hay dos aspectos distintos respecto a la tolerancia a fallos: primero, las redes
pueden aprender a reconocer patrones con ruido, distorsionados, o
incompleta. Segundo pueden seguir realizando su función (con cierta
degradación) aunque se destruya parte de la red.
Instituto Superior Privado
“Robustiano M: Martínez”
Sistemas de Soporte de Decisiones
Carrera: A. S. I
La razón por la que las redes neuronales son tolerantes a fallos es que tienen
su información distribuida en las conexiones entre neuronas, existiendo cierto
grado de redundancia en ese tipo de almacenamiento, a diferencia de la
mayoría de los ordenadores algorítmicos y sistemas de recuperación de
datos que almacenan cada pieza de información en un estado único,
localizado y direccionable.
4.
Operación en Tiempo Real: Los computadores neuronales pueden ser
realizados en paralelo, y se diseñan y fabrican máquinas con hardware
especial para obtener esta capacidad.
5. Fácil inserción dentro de la tecnología existente. Debido a que una red
puede ser rápidamente entrenada, comprobada, verificada y trasladada a una
implementación hardware de bajo costo, es fácil insertar RNA para
aplicaciones específicas dentro de sistemas existentes (chips, por ejemplo).
De esta manera, las redes neuronales se pueden utilizar para mejorar
sistemas de forma incremental, y cada paso puede ser evaluado antes de
acometer un desarrollo más amplio.
Aplicaciones.
Como con toda investigación científica, posee en primer lugar dos orientaciones, la
militar y la médica.
En medicina los primeros en beneficiarse son los minusválidos con deficiencias o
carencias motrices, quienes además aportan al desarrollo de estas tecnologías,
por ser sujetos de prueba. Tanto las tecnologías que usan EMG, como EOG han
logrado ampliar las expectativas de estos pacientes, por ej. Con EMG se observó
que los impulsos eléctricos procedentes de fibras musculares activas, pueden
manejar equipos electrónicos, con las señales generadas por los músculos. Con
EOG una niña con una grave lesión espinal probó que podía mover el cursor de la
pantalla de computadora a partir de impulsos generados por sus ojos.
En otro sentido con el EOG permite que un cirujano cambie, moviendo los ojos, el
campo visual de una cámara de fibra óptica, y así poder tener las manos
ocupadas con instrumentos quirúrgicos.
En el campo de las ondas cerebrales han experimentado con esta tecnología
conectándola con un sintetizador musical.
Erich E. Sutter desarrolló un sistema que permite a los discapacitados seleccionar
palabras o frases de un menú formado por cuadros que destellan en la pantalla de
un ordenador. Sosteniendo durante uno o dos segundos la mirada fija en el cuadro
apropiado, una persona conectada por electrodos craneales puede transmitir su
elección por ordenador, constituyendo un claro ej. del potencial evocado del
cerebro (EP).
En el área militar están experimentando en pilotos de avión con señales EP,
siendo una herramienta útil en el momento de tener manos y pies ocupados.
Microsoft SQL Server 2005 / Microsoft: Solución que ofrece un entorno
integrado para crear modelos de minería de datos (Data Mining) y trabajar con
ellos. La solución SQL Server Data Mining permite el acceso a la información
necesaria para tomar decisiones inteligentes sobre problemas empresariales
complejos. Data Mining es la tecnología de BI que ayuda a construir modelos
analíticos complejos e integrar esos modelos con sus operaciones comerciales.
Ventajas
Complejidad de la administración de los datos reducida.
Toma de decisiones rápidas y basadas en datos.
Seguridad, escalabilidad y disponibilidad más eficaces.
Mapas característicos de Kohonen (Self-organizing Maps): Es una red neuronal
del tipo de entrenamiento no-supervisado. Los datos son mostrados a la estructura
y esta se sensibiliza a los patrones presentes. Una vez entrenada es capaz de
identificar tales patrones en nuevos datos.
Instituto Superior Privado
“Robustiano M: Martínez”
Sistemas de Soporte de Decisiones
Carrera: A. S. I
Características
Pertenece a la categoría de las redes competitivas o mapas de autoorganización,
es decir, aprendizaje no supervisado. Poseen una arquitectura de dos capas
(entrada-salida) (una sola capa de conexiones), funciones de activación lineales y
flujo de información unidireccional (son redes en cascada).
Las unidades de entrada reciben datos continuos normalizados, se normalizan así
mismo los pesos de las conexiones con la capa de salida. Tras el aprendizaje de
la red, cada patrón de entrada activará una única unidad de salida.
El objetivo de este tipo de redes es clasificar los patrones de entrada en grupos de
características similares, de manera que cada grupo activará siempre la(s)
misma(s) salida(s). Cada grupo de entradas queda representado en los pesos de
las conexiones de la unidad de salida triunfante. La unidad de salida ganadora
para cada grupo de entradas no se conoce previamente, es necesario averiguarlo
después de entrenar a la red.
Algoritmo Genético (Genetic Algorithm): Imitando la evolución de las especies
mediante la mutación, reproducción y selección, estos algoritmos proporcionan
programas y optimizaciones que pueden ser utilizados en la construcción y
entrenamiento de otras estructuras como las redes neuronales.
¿Cuáles son las ventajas de los AGs?



El primer y más importante punto es que los algoritmos genéticos son
intrínsecamente paralelos. La mayoría de los otros algoritmos son en serie
y sólo pueden explorar el espacio de soluciones hacia una solución en una
dirección al mismo tiempo, y si la solución que descubren resulta
subóptima, no se puede hacer otra cosa que abandonar todo el trabajo
hecho y empezar de nuevo. Sin embargo, ya que los AGs tienen
descendencia múltiple, pueden explorar el espacio de soluciones en
múltiples direcciones a la vez. Si un camino resulta ser un callejón sin
salida, pueden eliminarlo fácilmente y continuar el trabajo en avenidas más
prometedoras, dándoles una mayor probabilidad en cada ejecución de
encontrar la solución.
Debido al paralelismo que les permite evaluar implícitamente muchos
esquemas a la vez, los algoritmos genéticos funcionan particularmente bien
resolviendo problemas cuyo espacio de soluciones potenciales es
realmente grande -demasiado vasto para hacer una búsqueda exhaustiva
en un tiempo razonable. La mayoría de los problemas que caen en esta
categoría se conocen como ``no lineales''. En un problema lineal, la aptitud
de cada componente es independiente, por lo que cualquier mejora en
alguna parte dará como resultado una mejora en el sistema completo. No
es necesario decir que hay pocos problemas como éste en la vida real. La
no linealidad es la norma, donde cambiar un componente puede tener
efectos en cadena en todo el sistema, y donde cambios múltiples que,
individualmente, son perjudiciales, en combinación pueden conducir hacia
mejoras en la aptitud muchos mayores. La no linealidad produce una
explosión combinatoria: el espacio de cadenas binarias de 1.000 dígitos
puede examinarse exhaustivamente evaluando sólo 2.000 posibilidades si
el problema es lineal, mientras que si no es lineal, una búsqueda exhaustiva
requiere evaluar 21.000 posibilidades -un número que, escrito, ocuparía
más de 300 dígitos.
Otra ventaja notable de los algoritmos genéticos es que se desenvuelven
bien en problemas con un paisaje adaptativo complejo -aquéllos en los que
la función de aptitud es discontinua, ruidosa, cambia con el tiempo, o tiene
muchos óptimos locales. La mayoría de los problemas prácticos tienen un
espacio de soluciones enorme, imposible de explorar exhaustivamente; el
reto se convierte entonces en cómo evitar los óptimos locales -soluciones
que son mejores que todas las que son similares a ella, pero que no son
mejores que otras soluciones distintas situadas en algún otro lugar del
Instituto Superior Privado
“Robustiano M: Martínez”
Sistemas de Soporte de Decisiones
Carrera: A. S. I
espacio de soluciones. Muchos algoritmos de búsqueda pueden quedar
atrapados en los óptimos locales: si llegan a lo alto de una colina del
paisaje adaptativo, descubrirán que no existen soluciones mejores en las
cercanías y concluirán que han alcanzado la mejor de todas, aunque
existan picos más altos en algún otro lugar del mapa.
Algunas aplicaciones de los Algoritmos genéticos
Aunque, como se ha comentado, el Algoritmo que se utilizó en el apartado anterior
es muy simple, ha servido para que los estudios realizados en torno a él, se hayan
aplicado a diversos problemas y modelos en ingeniaría, y en la ciencia en general.
Cabe destacar entre ellos:
Optimización: Se trata de un campo especialmente abonado para el uso de los
Algoritmos Genéticos, por las características intrínsecas de estos problemas. No
en vano fueron la fuente de inspiración para los creadores estos algoritmos. Se
han utilizado en numerosas tareas de optimización, incluyendo la optimización
numérica, y los problemas de optimización combinatoria.
Programación automática: Los Algoritmos Genéticos se han empleado para
desarrollar programas para tareas específicas, y para diseñar otras estructuras
computacionales tales como el autómata celular, y las redes de clasificación.
Aprendizaje máquina: Los algoritmos genéticos se han utilizado también en
Muchas de estas aplicaciones, tales como la predicción del tiempo o la estructura
de una proteína. Han servido asimismo para desarrollar determinados aspectos de
Sistemas particulares de aprendizaje, como pueda ser el de los pesos en una red.
· SAS Enterprise Miner / SAS: Solución de minería de datos que proporciona gran
cantidad de modelos y de alternativas. Permite determinar pautas y tendencias,
explica resultados conocidos e identifica factores que permiten asegurar efectos
deseados. Además, compara los resultados de las distintas técnicas de
modelización, tanto en términos estadísticos como de negocio, dentro de un marco
sencillo y fácil de interpretar.
Una de la principales características de SAS Enterprise Miner es que está
diseñada pensando en su utilización por parte de los responsables de negocio -a
través de un interface de usuario sumamente intuitivo- a la vez que cumple las
expectativas de los responsables de Sistemas de Información y de los analistas:
"el trabajo en equipo de estos tres colectivos de profesionales permite a .las
empresas la reducción de costes en el desarrollo de soluciones data mining",
explicó Drozdowskyj.
La solución Enterprise Miner se basa en la metodología SEMMA (Sample,
Explore, Modify, Model, Assess) desarrollada por SAS Institute y puede trabajar
con cualquier base de datos y cualquier data warehouse del mercado.
Weka
Weka se denomina a si mismo un conjunto de librerías para tareas de minería de
datos. El paquete Weka contiene una colección de herramientas de visualización
y algoritmos para análisis de datos y modelado predictivo, unidos a una interfaz
gráfica de usuario para acceder fácilmente a sus funcionalidades. La versión
original de Weka fue un front-end en TCL/TK para modelar algoritmos
implementados en otros lenguajes de programación, más unas utilidades para el
pre-procesamiento de datos desarrolladas en C para hacer experimentos de
aprendizaje automático. Esta versión original se diseñó inicialmente como
herramienta para analizar datos procedentes del dominio de la agricultura , pero la
versión más reciente basada en Java (WEKA 3), que empezó a desarrollarse en
1997, se utiliza en muchas y muy diferentes áreas, en particular con finalidades
docentes y de investigación.
Instituto Superior Privado
“Robustiano M: Martínez”
Sistemas de Soporte de Decisiones
Carrera: A. S. I
Los puntos fuertes de Weka son:




Está disponible libremente bajo la licencia pública general de GNU.
Es muy portable porque está completamente implementado en Java y
puede correr en casi cualquier plataforma.
Contiene una extensa colección de técnicas para pre procesamiento de
datos y modelado.
Es fácil de utilizar por un principiante gracias a su interfaz gráfica de
usuario.
Weka soporta varias tareas estándar de minería de datos, especialmente, pre
procesamiento de datos, clustering, clasificación, regresión, visualización, y
selección.
Todas las técnicas de Weka se fundamentan en la asunción de que los datos
están disponibles en un fichero plano (flat file) o una relación, en la que cada
registro de datos está descrito por un número fijo de atributos (normalmente
numéricos o nominales, aunque también se soportan otros tipos). Weka también
proporciona acceso a bases de datos vía SQL gracias a la conexión JDBC (Java
Database Connectivity) y puede procesar el resultado devuelto por una consulta
hecha a la base de datos. No puede realizar minería de datos multi-relacional,
pero existen aplicaciones que pueden convertir una colección de tablas
relacionadas de una base de datos en una única tabla que ya puede ser
procesada con Weka.
Carencias de Weka
Un área importante que actualmente no cubren los algoritmos incluidos en Weka
es el modelado de secuencias.
Contiene herramientas para diferentes tareas básicas:

Preprocess: Multitud de herramientas para el pre procesamiento de los
datos (como por ejemplo discretización de variables).

Classify: Algoritmos de clasificación, distribuidos por paquetes, como por
ejemplo ID3 o C4.5

Cluster: Diferentes algoritmos de segmentación como el simple k-means.

Associate: Algoritmos para encontrar relaciones de asociación entre
variables (Apriori entre otros).

Select atributtes: Aquí, una vez cargados los datos, Weka es capaz de
buscar por nosotros las mejores variables del modelo.

Visualize: Herramienta de visualización de datos en los ejes cartesianos,
con muchas posibilidades.
Instituto Superior Privado
“Robustiano M: Martínez”
Sistemas de Soporte de Decisiones
Carrera: A. S. I
Cuadro que simplifica las ventajas de las Herramientas para realizar Minería de
Datos.
Herramientas
Clementine /
SPSS
Descripción
Permite desarrollar modelos
predictivos y desplegarlos
para mejorar la toma de
decisiones.
Plataforma bioinformática
para la toma de decisiones
clínicas.
Ventajas
Incremente la productividad
de los analistas. Obtención
de los mejores modelos de
comportamientos futuros.
Dlife / Apara :
Permite a los profesionales
clínicos incrementar su
precisión y la eficiencia de la
prestación sanitaria en una
media del 20%.
dVelox 2.5/ Apara: Plataforma analítica para la
Optimizar los procesos
toma de decisiones en tiempo críticos de cualquier empresa.
real que predice los
escenarios futuros más
probables.
Redes neuronales Grupo de unidades noSon capaces de aprender de
lineales interconectadas y
la experiencia, de generalizar
organizadas por capas. Estas de casos anteriores a nuevos
pueden ser funciones
casos, de abstraer
matemáticas y números
características esenciales a
almacenados en
partir de entradas que
computadoras digitales, pero representan información
pueden ser elaboradas
irrelevante.
también mediante
dispositivos analógicos como
los transistores a efecto de
campo.
Microsoft SQL
Solución que ofrece un
Complejidad de la
Server 2005 /
entorno integrado para crear
administración de los datos
Microsoft
modelos de minería de datos reducida.
y trabajar con ellos.
Toma de decisiones rápidas y
basadas en datos.
Mapas
Es una red neuronal del tipo
Poseen una arquitectura de
característicos de
de entrenamiento nodos capas (entrada-salida)
Kohonen
supervisado. Los datos son
(una sola capa de
mostrados a la estructura y
conexiones), funciones de
esta se sensibiliza a los
activación lineales y flujo de
patrones presentes.
información unidireccional
(son redes en cascada).
Algoritmo Genético Proporcionan programas y
Son intrínsecamente
optimizaciones que pueden
paralelos. Los algoritmos
ser utilizados en la
genéticos funcionan
construcción y entrenamiento particularmente bien
de otras estructuras como las resolviendo problemas cuyo
redes neuronales.
espacio de soluciones
potenciales es realmente
grande -demasiado vasto
para hacer una búsqueda
exhaustiva en un tiempo
razonable.
Weka
Un conjunto de librerías para Es muy portable porque está
tareas de minería de datos.
completamente
El paquete Weka contiene
implementado en Java y
una colección de
puede correr en casi
herramientas de visualización cualquier plataforma.
y algoritmos para análisis de
Contiene una extensa
datos y modelado predictivo,
colección de técnicas para
unidos a una interfaz gráfica
pre procesamiento de datos y
de usuario para acceder
modelado.
Instituto Superior Privado
“Robustiano M: Martínez”
Sistemas de Soporte de Decisiones
Carrera: A. S. I
fácilmente a sus
funcionalidades.