Download estado del arte en la utilización de tecnicas avanzadas para la

Document related concepts
no text concepts found
Transcript
ESTADO DEL ARTE EN LA UTILIZACIÓN DE TECNICAS AVANZADAS PARA
LA BUSQUEDA DE INFORMACIÓN NO TRIVIAL A PARTIR DE DATOS EN LOS
SISTEMAS DE ABASTECIMIENTO DE AGUA POTABLE
José Luis Díaz Arévalo1; Rafael Pérez García1
Resumen – La aplicabilidad de técnicas heurísticas combinadas con lo que genéricamente se ha
denominado minería de datos, es un tema de investigación que puede proporcionar una gran utilidad
en la búsqueda de patrones no triviales a partir de los datos disponibles en el planeamiento,
operación y gestión de las redes de abastecimiento de agua. Es importante tener en cuenta que en
gran porcentaje el éxito en la aplicabilidad de estas técnicas radica en la información base de la que
se disponga, es decir los datos (inputs) de entrada. El tema, pese al gran potencial del que dispone,
no ha sido aún muy desarrollado para aplicaciones de abastecimiento de agua potable, aunque en
campos de finanzas, comunicaciones, negocios y páginas web se está aplicando desde hace algunos
años.
Abstract – The applicability of combined heuristic techniques with which generically data mining
has been denominated, is an investigation subject that can provide a great utility in the search of
patterns non-trivial from the data available in the planning, operation and management of the
networks of water supply. It is important to consider that in great percentage the success in the
applicability of these techniques is in the information bases which it is had, is to say the data
(inputs) of entrance. The subject, in spite of the great potential which it has, has not been still very
developed for applications of potable water supply, although in fields of finances, communications,
businesses, pages Web it has been applied for some years.
Palabras – clave: Minería de datos, extracción de patrones, aplicaciones, sistemas de
abastecimiento de agua.
1
Universidad Politécnica de Valencia – Departamento de Ingeniería Hidráulica y Medio Ambiente – Grupo Mecánica
de Fluidos – Camino de Vera S/N – CP 46022 – Valencia (España) – Tel: 34 96 3877611 – Fax: 34 96 3877619 E-mail:
[email protected] ; [email protected]
INTRODUCCIÓN
La velocidad con la que se almacenan los datos es muy superior a la velocidad con la que estos son analizados. En las
últimas décadas se ha presentado una gran explosión de cantidad de datos digitales, mientras que el número de
científicos, ingenieros y analistas disponibles para analizar estos datos ha permanecido estático. Para obviar este
problema se necesitan soluciones de investigación tendientes a minar grandes y masivas bases de datos, desarrollar
algoritmos y sistemas para minar nuevos tipos de datos y mejorar la utilización de los sistemas de minería de datos.
El estudio y aplicación de técnicas avanzadas para el análisis de información almacenada en bases de datos es un tema
de investigación en el que ya se han involucrado mucha especialidades, pero que sus aplicaciones en ingeniería civil y
más específicamente en los sistemas de abastecimiento de agua potable aún no han sido lo suficientemente explotados,
y es una herramienta que nos puede servir o ser de gran ayuda para resolver problemas de planificación, gestión y
operación de sistemas de abastecimiento de agua potable. Existen muchas formas de almacenar datos, pero no se
archivan convenientemente o su entendimiento es nulo.
Con este texto, se pretende mostrar la importancia de realizar investigaciones tendientes a desarrollar algoritmos y
aplicaciones para la extracción automática de información de los datos almacenados durante las etapas de construcción
y operación de un sistema de conducción de agua potable. Se debe tener en cuenta que es un tema que ha sido muy poco
desarrollado para aplicaciones específicas de abastecimientos de agua potable, pero en el cual se nota un gran potencial
y una herramienta para la extracción o búsqueda de patrones no triviales a través de los datos disponibles.
Es muy importante tener claro que la base de estas investigaciones son los datos, lo cual es un tema que está bastante
descuidado en la gestión de los sistemas, aunque últimamente con la aparición de los sistemas de información
geográfica, se ha mejorado bastante en mantener una buena calidad y cantidad de datos almacenados, o por lo menos se
han iniciado tareas que conducen a la recopilación y almacenamiento de información para ser utilizada por los SIG.
Este artículo presenta el concepto de minería de datos e intenta dar una comprensión del proceso y las herramientas
utilizadas en general: como resulta el proceso, que se puede realizar con el, cuáles son las principales técnicas detrás de
el, cuáles son los aspectos operacionales. Se hace una introducción al estado del arte de la minería de datos en la
ingeniería civil y más específicamente a su aplicación en gestión y operación de sistemas de abastecimiento de agua.
Además se presenta en la bibliografía algunos artículos que ayudan en la profundización del tema.
MINERIA DE DATOS (DATA MINING)
DEFINICIONES
La minería de datos es un componente de la actividad llamada Descubrimiento de Conocimiento en Bases de Datos
(KDD, de sus siglas en inglés), es decir en la minería de datos se aplica un algoritmo para extraer patrones de los datos
y el KDD es el proceso completo (Pre-procesamiento, minería, post-procesamiento)
Minería de datos es el descubrimiento semi-automático de patrones, asociaciones, cambios, anomalías y estructuras
estadísticamente significantes y eventos en los datos, (Grossman, 1998). La minería de datos difiere de la estadística
tradicional en cuanto a que en la estadística una hipótesis está formulada y validad en los datos, mientras que en el
proceso de minería de datos los patrones se extraen automáticamente de los datos, dicho de otra forma la minería de
datos es un manejo de datos mientras que la estadística es un manejo más del hombre.
KDD es comúnmente definido como “el proceso no trivial de identificar patrones válidos, novedosos, potencialmente
útiles y entendibles en los datos”.(Ohrn, 1999)
KDD involucra investigación de áreas cómo: aprendizaje computacional, reconocimiento de patrones, bases de datos,
estadística, inteligencia artificial, adquisición de conocimiento y visualización de datos.
Por otro lado está relacionado con métodos de descubrimiento automático (por ejemplo de leyes físicas) y con sistemas
de manejo de información (Management Information Systems).
Las técnicas de Minería de Datos (Data Mining) pueden proveer una solución para adquirir conocimiento abstracto de
bases de datos de infraestructura civil. Las técnicas de minería de datos son solo una parte de un gran esquema.
“Descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases KDD) es el proceso no trivial
de identificar patrones válidos en datos, novedosos, potencialmente útiles y finalmente comprensibles” (Buchheit,
2000).
El descubrimiento de conocimiento (Knowledge discovery) ha sido definido como “la extracción no trivial de
información implícita, previamente desconocida y potencialmente útil de datos”. (Carbone, 1997).
Minería de datos es una denominación folklórica de una actividad compleja que apunta a extraer información
sintetizada y previamente desconocida de grandes bases de datos. (Olaru, 1999), dependiendo del puntos de vista la
minería de datos es considerada como un paso del proceso llamado Descubrir conocimiento en las bases de datos
(KDD), o en otras ocasiones cómo un sinónimo de este. Es un análisis exploratorio de datos, probado para descubrir
patrones útiles en los datos que no son obvios para el usuario.
Un minero de datos, es la persona, generalmente con conocimiento en computadores y estadística y en la especialidad
de interés, o una pareja de especialistas, uno con conocimiento en la minería de datos y otro en la especialidad de interés
capaces de ejecutar los pasos del proceso de minería.
ANTECEDENTES Y GENERALIDADES
El concepto de minería de datos apareció hace más de 10 años. El interés en este campo y su explotación en diferentes
especialidades (negocios, finanzas, ingeniería, banca, salud, sistemas de energía, meteorología....), se ha incrementado
recientemente debido a la combinación de diferentes factores, los cuales incluyen:
ƒ El surgimiento de gran cantidad de datos (terabytes – 1012 bytes – de datos) debido a la medición y/o
recopilación de datos automática, registros digitales, archivos centralizados de datos y simulaciones de software y
hardware.
ƒ El abaratamiento de los costos de los medios de almacenamiento.
ƒ El surgimiento y rápido crecimiento del manejo de sistemas de bases de datos.
ƒ Los avances en la tecnología computacional tal como los computadores rápidos y las arquitecturas paralelas.
ƒ Los desarrollos continuos en técnicas de aprendizaje automático.
ƒ La posible presencia de incertidumbre en los datos (ruido, outliers, información perdida).
El propósito general de la minería de datos es procesar la información de la gran cantidad de datos almacenados o que
se puedan generar, y desarrollar procedimientos para manejar los datos y tomar futuras decisiones.
Generalmente, una de las primeras tareas en el proceso de la minería de datos consiste en resumir la información
almacenada en la base de datos, con el fin de comprender bien su contenido. Esto se realiza por medio de análisis
estadísticos o técnicas de búsqueda y reporte. Las operaciones más complejas consisten en la identificación de modelos
para predecir información acerca de objetos futuros. El término aprendizaje supervisado “supervised learning”
(conocido como “aprendizaje con profesor”) está implicado en el minado de datos, en el cual para cada entrada (input)
de los objetos de aprendizaje, el objetivo de la salida (output) deseada es conocida e implicada en el aprendizaje. En los
métodos de aprendizaje sin supervisión “unsupervised learning” (“aprendiendo por observación”) el resultado no es
suministrado o considerado del todo, y el método aprende por si solo de los valores de los atributos de entrada.
Pasos o procesos de la minería de datos
El proceso de minería involucra ajustar modelos o determinar patrones a partir de datos. Este ajuste normalmente es de
tipo estadístico, en el sentido que se permite un cierto ruido o error dentro del modelo.
En general el proceso de la minería de datos itera a través de cinco pasos básicos, tal como se muestra en la Figura 1:
ƒ Selección de datos: consiste en buscar el objetivo y las herramientas del proceso de minería, identificando
los datos a ser extraídos, buscando los atributos apropiados de entrada y la información de salida para representar la
tarea. Las comprobaciones básicas deben incluir el tipo de consistencia, la validez de rangos, etc. Un sistema de
minería de datos puede ser utilizado para este propósito, se pueden buscar patrones generales y reglas en las bases de
datos que identifiquen valores irregulares que no cumplen las reglas establecidas.
ƒ Trasformación de datos: las operaciones de transformación incluyen organizar los datos en la forma
deseada, convirtiendo un tipo de datos en otro (por ejemplo de simbólico a numérico) definiendo nuevos atributos,
reduciendo la dimensionalidad de los datos, removiendo ruidos, “outliers”, normalizando, decidir estrategias para
manejar datos perdidos.
ƒ Minería de datos: los datos trasformados son minados, utilizando una o más técnicas para extraer patrones
de interés.
ƒ Interpretación de resultados y validación: para comprender el significado del conocimiento extraído y su
rango de validez, la aplicación de minería de datos prueba su robustez, utilizando métodos de validación establecidos y
probándolo con datos diferentes a los utilizados para crear el modelo. Lo que se hace generalmente es dividir los datos
en una serie para trabajo y otra para validación. Solo la serie de trabajo es utilizada para evaluar la habilidad del modelo
desarrollado. La información extraída es también valorada (más subjetivamente) comparándola con experiencias
anteriores.
ƒ Incorporación del conocimiento descubierto: presentación de los resultados del modelo para poder
comprobar o resolver conflictos con creencia o resultados anteriores y aplicar el nuevo modelo.
Datos
Selección
Datos
Seleccionados
Pre - procesamiento
Datos
Preprocesados
Trasformación
Datos
Trasformados
Minería de
datos
Modelos
Interpretación /
Evaluación
Conocimiento
Figura 1 – Pasos de la minería de datos.
Las herramientas de minería de datos buscan dirigirse a dos requerimientos básicos:
ƒ Descripción: descubriendo patrones, asociaciones y grupos de información. Puede incluir detección de
desviaciones, segmentación de bases de datos, agrupamientos, asociaciones, reglas, resúmenes, visualización y minado
de textos.
ƒ Predicción: utilizando aquellos patrones para predecir tendencias y comportamientos futuros. La predicción
incorpora tareas de clasificación, regresión y análisis de series temporales.
Clases de minería de datos
Dependiendo principalmente de la aplicación especifica y en el interés del minero, se pueden identificar algunos tipos
de tareas de minería de datos para las cuales se producen posibles respuestas. Algunas de las clases o categorías de
minería de datos utilizados para la descripción y/o predicción son las siguientes:
ƒ Presentación concisa de datos: apunta a producir descripciones compactas y características para un conjunto
dado de datos. Pueden tomar múltiples formas: numérica (medidas simples de descripción estadística cómo medias,
desviaciones estándar....), formas gráficas (histogramas, dispersiones), o en la forma de reglas “si-entonces”. Se pueden
realizar descripciones de la totalidad de los datos o seleccionando subconjuntos.
ƒ Clasificación: desarrollando perfiles de grupos u objetos en términos de sus atributos. Un problema de
clasificación es un aprendizaje supervisado, donde la información de salida es una clasificación discreta, es decir
teniendo un objeto y sus atributos de entrada, el resultado de la clasificación es una de los posibles recíprocas clases
exclusivas del problema. La tarea de clasificación tiende a descubrir alguna clase de relación entre los atributos de
entrada y las clases de salida, tal que el conocimiento descubierto puede ser utilizado para predecir la clase de un nuevo
objeto desconocido.
ƒ Regresión: estableciendo relaciones entre series de objetos con el propósito de predecir. Un problema de
regresión es un aprendizaje supervisado de construcción de un modelo más o menos trasparente, donde la información
de salida es un valor numérico continuo o un vector de tales valores en vez de una clasificación discreta. Entonces,
dando un objeto es posible predecir uno de sus atributos por medio de otros atributos, utilizando el modelo construido.
La predicción de valores numéricos se puede realizar por métodos estadísticos clásicos o más avanzados, y por métodos
simbólicos a menudo utilizados en las tareas de clasificación.
ƒ Problemas temporales: es una regresión utilizando adicionalmente la información del tiempo. En ciertas
aplicaciones es útil producir reglas que tengan en cuenta explícitamente el papel del tiempo. Las bases de datos que
contienen información temporal pueden ser explotadas buscando patrones similares o aprendiendo a anticipar alguna
situación anormal en los datos.
ƒ Agrupamiento: fraccionando clases o ítems que presentan comportamientos o características similares en
subconjuntos o grupos. El problema de agrupamiento, es un problema de aprendizaje sin supervisión, en el cual se
busca encontrar en los datos grupos de objetos similares compartiendo un número de propiedades importantes. Se puede
utilizar en la minería de datos para evaluar similitudes entre datos, construir un conjunto de prototipos representativos,
analizar correlaciones entre atributos, o representar automáticamente un conjunto de datos por pequeños números de
regiones, preservando las propiedades topológicas del espacio original de entrada.
ƒ Modelos de causalidad: es un problema de descubrir relaciones de causa y efecto entre atributos. Una regla
causal del tipo “si-entonces”, indica no solo que existe una correlación entre la regla antecedente y la consecuente, sino
que también la antecedente es causa de la consecuente.
ƒ Análisis de asociación: reconociendo que la presencia de un grupo de ítems implica la presencia de otro
grupo.
ƒ Descubrimiento de secuencias: reconociendo que un grupo de ítems es seguido por otro grupo.
ƒ Modelos de dependencia: consiste en descubrir un modelo que describe dependencias significantes entre
atributos. Estas dependencias son generalmente expresadas como reglas “si-entonces” en la forma “si el antecedente es
verdadero entonces la consecuencia es verdadera”, donde tanto el antecedente como la consecuencia de la regla pueden
ser una combinación de atributos.
ƒ Detección de desviaciones: esta tarea esta enfocada a descubrir cambios significantes o desviaciones en los
datos entre el contenido actual y el contenido esperado que puede ser previamente medido o de valores normalizados.
Esto incluye la búsqueda de desviaciones en el tiempo y la búsqueda de diferencias inesperadas entre dos subconjuntos
de datos.
La clasificación, regresión, y series temporales son utilizadas para predicción, mientras que el agrupamiento, la
asociación y el descubrimiento de secuencias entre otras son más apropiados para describir relaciones existentes en los
datos.
Técnicas de minería de datos
En general las técnicas de minería de datos se pueden dividir en aquellas que hacen uso de
ecuaciones tales cómo la estadística o las redes neuronales o las que se basan en la lógica cómo los
árboles de decisión y las reglas, aunque algunas pueden hacer uso tanto de ecuaciones o de la
lógica, o pueden ser una combinación de técnicas .
Técnicas de minería de datos
Basadas en ecuaciones
Estadísticas
Redes Neuronales Artíficiales
Basadas en lógica
Árboles de decisión
Reglas
Figura 2. Técnicas de minería de datos.
Las técnicas de minería de datos están basadas en un conjunto de herramientas importantes originadas en inteligencia
artificial, la estadística, la teoría de información, el aprendizaje de máquinas, el razonamiento con incertidumbre
(conjuntos borrosos), el reconocimiento de patrones o visualización. Así, un paquete de programa de minería de datos
esta basado en diferentes niveles por un conjunto de tecnologías, algunas de las técnicas de minería de datos más
utilizadas son las siguientes:
ƒ Árboles de decisión: un árbol de decisión es una estructura en forma de árbol que visualmente describe una
serie de reglas (condiciones) que causan que una decisión sea tomada.
ƒ Algoritmos genéticos: los algoritmos genéticos son técnicas de optimización que pueden ser utilizadas para
mejorar otros algoritmos de minería de datos obteniendo como resultado el mejor modelo para una serie de datos. El
modelo resultante es aplicado a los datos para descubrir patrones escondidos o para realizar predicciones.
ƒ Redes Neuronales Artificiales: Estos son modelos de predicción no lineales que aprenden como detectar un
patrón para emparejar un perfil particular a través de un proceso de entrenamiento que envuelve aprendizaje iterativo,
utilizando un conjunto de datos que describe lo que se quiere encontrar. Las redes neuronales son conocidas en la
estructura del aprendizaje automático cómo “aproximaciones universales” con un gran carácter paralelo de calculo y
buenas capacidades de generalización, pero también como cajas negras debido a la dificultad para penetrar dentro de las
relaciones aprendidas. Son utilizadas en el la minería de datos: para generar modelos de regresión que puedan predecir
comportamientos futuros, sobre la base de pares de datos de entrada – salida de información numérica histórica
continua (la red neuronal asocia salidas numéricas (outputs) con cualquier nuevo objeto de valores de atributos
conocidos), y automáticamente representa un conjunto de datos por un pequeño número de prototipos representativos,
preservando las propiedades topológicas del espacio original del atributo (aprendizaje sin supervisión).
ƒ Técnicas estadísticas: una variedad de técnicas pueden ser utilizadas para identificar patrones, los cuales
pueden ser entonces utilizados para predecir el futuro. Estas incluyen las regresiones lineales, los modelos aditivos
generalizados (GAM) y las regresiones adaptativas multivariadas por splines.
ƒ Árboles e Inducción de reglas: la inducción de reglas es el proceso de extraer reglas (si-entonces) de datos,
basadas en significados estadísticos. El aprendizaje de máquinas (ML, de sus siglas en inglés), es el centro del concepto
de la minería de datos, debido a su capacidad de ganar penetración física dentro del problema, y participar directamente
en la selección de datos y en los pasos de búsqueda del modelo. Para dirigir problemas de clasificación (árboles de
decisión claros y borrosos), regresión (árboles de regresión), predicción temporal (árboles temporales), el campo del
aprendizaje de máquinas, básicamente se centra en el diseño automático de reglas “si-entonces”, similares a aquellas
utilizadas por los expertos humanos. La inducción de árboles de decisión es capaz de manejar problemas de gran escala
debido a su eficiencia computacional, dar resultados interpretables y en particular identificar los atributos más
representativos para una tarea dada.
ƒ Reglas de asociación: la generación de reglas de asociación es una técnica potente de minería de datos
utilizada para buscar en un conjunto de datos, por reglas que revelan la naturaleza y frecuencia de las relaciones o
asociaciones entre las entidades de los datos. Las asociaciones resultantes pueden ser utilizadas para filtrar la
información por análisis humano y posiblemente definir un modelo de predicción basado en el comportamiento
observado.
ƒ Lógica Borrosa (Fuzzy Logic): la lógica borrosa maneja conceptos imprecisos (como pequeño, grande,
joven, viejo, alto, bajo) y es más flexible que otras técnicas. Proporciona la noción de un conjunto borroso más que una
clara demarcación de límites, por ejemplo en vez de 0 o 1 hay también 0.9, 0.85, 0.93, 0.21, 0.05 etc.
ƒ Métodos de agrupamiento: es utilizado en el paso de pre-procesamiento de los datos, debido a la
característica de aprender semejanzas sin supervisión entre objetos y reducir el espacio de búsqueda a un conjunto de
los atributos más importantes parta la aplicación o a un conjunto finito de objetos. El método más frecuentemente
utilizado para agrupar es el k-means el cual identifica un cierto número de grupos u objetos similares el cuál puede ser
utilizado conjuntamente con el método de la Vecindad más próxima (K-Nearest Neighbor k-NN), esta técnica coloca un
objeto de interés dentro de clases o grupos examinando sus atributos y agrupándolo con otros cuyos atributos son
cerrados a el. k-NN es una técnica clásica para descubrir asociaciones y secuencias cuando los atributos de los datos son
numéricos. Con atributos no numéricos o variables es difícil aplicar esta técnica por la dificultad de definir una medida
que pueda ser utilizada para cuantificar la distancia entre un par de valores no numéricos.
ƒ Técnicas de visualización: histogramas (estimando la distribución de probabilidad para ciertos atributos
numéricos dados en un conjunto de objetos), gráficas de dispersión (proporcionan información sobre la relación entre
dos atributos numéricos y unos discreto), gráficas tridimensionales, dendrogramas (análisis de correlación entre
atributos u objetos).....
ƒ Conjuntos Aproximados (Rough Sets): La teoría de conjuntos aproximados es adecuada para problemas que
pueden ser formulados cómo tareas de clasificación y ha ganado un significante interés científico como estructura de
minería de datos y KDD (Ohrn, 1999).
La base de la teoría de los conjuntos aproximados está en la suposición de que cada objeto del universo de discurso
tiene rasgos característicos, los cuales son presentados por información (conocimiento, datos) acerca del objeto.
(Pawlak, 2002). Los objetos que tienen las mismas características son indiscernibles. La teoría ofrece herramientas
matemáticas para descubrir patrones escondidos en los datos, identifica dependencias parciales o totales, es decir
relaciones causa – efecto, en bases de datos, elimina redundancia en los datos, da aproximaciones a valores nulos o
inválidos, datos perdidos, datos dinámicos etc.
Los pasos seguidos en la estructura de conjuntos aproximados son los siguientes:
Selección: el vehículo básico para la representación de datos en la estructura de la teoría de
conjuntos aproximados es plano, tablas de datos en dos dimensiones. Esto no implica que la tabla
sea una simple tabla física, una tabla puede ser una vista lógica entre algunas tablas adyacentes. Una
tabla adecuada es seleccionada para análisis subsecuentes. Las columnas de las tablas son llamadas
atributos, las filas objetos, y las entradas en la tabla son los valores de los atributos.
Pre-procesamiento: si la tabla seleccionada contiene “huecos” en forma de valores perdidos o entradas de celdas vacías,
la tabla puede ser preprocesada de varías formas para llenar o completar la tabla.
Transformación: los atributos numéricos pueden ser discretizados, es decir el uso de intervalos o rangos en vez de los
valores de los datos exactos.
Minería de datos: en la metodología de los conjuntos aproximados, se producen conjunciones de proposiciones
elementales o reglas si-entonces. Esto se realiza en un proceso de dos etapas, en el cual subconjuntos de mínimos
atributos son primero computados antes de que los patrones o reglas sean generados.
Interpretación y evaluación: Los patrones individuales o reglas pueden ser ordenados por alguna medida de “bondad” y
manualmente inspeccionados. Conjuntos de reglas pueden ser empleados para clasificar nuevos casos y registrar el
desempeño de clasificación.
La teoría de los conjuntos borrosos tiene enlaces con métodos de razonamiento buliano, estadística, redes neuronales,
morfología matemática, y puede ser utilizada en combinación con otras técnicas cómo conjuntos borrosos, algoritmos
genéticos, métodos estadísticos, redes neuronales, etc.
Además, algunos paquetes de minería de datos incluyen: descubrimiento de secuencias de patrones (objetos con igual
sucesión de valores de atributos sobre un periodo de tiempo), similitud en series temporales (detecta series temporales
similares en un periodo de tiempo), redes bayesianas (modelos gráficos que codifican relaciones probabilísticas entre
variables de interés, sistemas capaces de adquirir relaciones de causa), neurofuzzy systems (sistemas de inferencia
borrosa que incorporan el aprendizaje y las habilidades de generalización de las redes neuronales).
Las técnicas de minería de datos son diferentes unas a otras en términos de la representación del problema, parámetros
a optimizar, exactitud, complejidad, tiempo de ejecución, transparencia e interpretación.
El éxito del minado de datos está determinado por algunos factores, entre los cuales se tienen:
ƒ Las herramientas apropiadas: una característica que distingue un software de minería de datos es la calidad
de sus algoritmos, la efectividad de las técnicas y algunas veces su velocidad. Además, la eficiencia del hardware
utilizado, el sistema operativo, los recursos de la base da datos y el cálculo paralelo influencian el proceso. Por otra
parte, el conjunto particular de herramientas útiles para una aplicación depende altamente del problema práctico. Así, en
un paso prototipo, es útil tener disponible un conjunto de técnicas amplio para identificar aplicaciones de interés. Sin
embargo, en el producto final para la implementación es posible solo utilizar un pequeño subconjunto de las
herramientas. Personalizar las técnicas de minería de datos a la aplicación específica y utilizar métodos confiables
realzan el proceso de extraer información útil.
ƒ Los datos apropiados: los datos a ser minados deben contener información que valga la pena minar:
consistente, limpia, representativa para la aplicación. Es inútil aplicar minería de datos a bases de datos inválidas con
altos errores de medición o errores en la estimación de datos, o intentar realizar estimaciones a partir de datos con un
alto contenido de ruido.
Una parte importante de los errores resultantes en la minería de datos son debidos a la incertidumbres en la
modelación y generación de objetos en ciertas bases de datos en discordancia con las probabilidades reales de la
apariencia del fenómeno en el sistema. Es por esto que los errores en la minería de datos a menudo no tienen un
significado por ellos mismos, ellos justamente dan un significado práctico para comparar eficiencias de diferentes
criterios aplicados a la misma base de datos.
ƒ El minero apropiado: las operaciones de minería de datos no son aún una operación automática con muy
poca o sin intervención del hombre. El análisis del hombre juega un papel importante, principalmente en las áreas de la
selección e interpretación de datos / conocimiento. El minero debe tener una compresión de los datos bajo análisis y la
especialidad o industria a la cual pertenece.
ƒ La aplicación adecuada: es importante definir claramente los objetivos o metas que se pretenden para
tomar las decisiones convenientes a los procesos subyacentes.
ƒ Las preguntas adecuadas: para que la herramienta proporcione las respuestas que se persiguen.
ƒ El adecuado sentido de la incertidumbre: el minero de datos generalmente está más interesado en la
comprensibilidad que en la exactitud o capacidad de predicción del modelo. A menudo, aún con los mejores métodos de
búsqueda pueden quedar incertidumbres acerca del modelo o la predicción correctas.
Aplicaciones Comunes de minería de datos
Muchas actividades o especialidades se pueden beneficiar del uso de la minería de datos, ya sea para realizar extracción
de patrones o predecir comportamientos futuros, algunas de las aplicaciones más frecuentes están en análisis de
mercados para identificar afinidades entre productos y servicios adquiridos por el consumidor, segmentación de clientes
para identificar características y comportamientos de clientes o consumidores en general que puedan ser explotados por
el mercado, detección de fraudes en tarjetas de crédito, telecomunicaciones, sistemas de computo, detección de patrones
en textos, imágenes o en la web, diagnósticos médicos etc.
APLICACIONES DE MINERÍA DATOS EN INGENIERÍA CIVIL
En cuanto a las aplicaciones de la minería de datos en ingeniería civil y más específicamente a los sistemas de
abastecimientos de agua urbana, es muy escasa la información disponible al respecto, a pesar de la cantidad de datos
que se pueden almacenar durante las etapas de construcción, operación y gestión de una red de abastecimiento con las
consecuentes posibles aplicaciones como por ejemplo ampliación de redes, análisis del reemplazo de tuberías, detección
de fugas, cambio de diámetros (capacidades), fraudes, detección de contadores dañados, reposición del parque de
contadores, tipos de materiales en tuberías, análisis de calidad del agua etc.
En un sistema de abastecimiento que requiera de bombeos ya sea para alimentar embalses o directamente la red de
distribución, es muy importante optimizar el costo energético de la utilización de las bombas. Muchos operadores de las
estaciones de bombeo, pueden utilizar heurística o reglas para minimizare el costo de la energía utilizada por las
bombas, o realizar predicciones de demandas o ayudar a mantener el nivel de los embalses en rangos aceptables.
Una regla de tipo heurístico podría ser: si el clima en los últimos 7 días fue caluroso y seco, y en los próximos 7 días se
espera que sea caluroso y seco, y el periodo de tiempo antes de una demanda alta es menor o igual a 8 horas, entonces
utilice una bomba de gran capacidad durante un periodo corto de tiempo. Este tipo de reglas es necesario documentarlas
en sistemas expertos para reducir los costos de operación y distribución de los sistemas de abastecimiento de agua, ya
que el conocimiento adquirido manualmente es inadecuado para manejar todas las situaciones que pueden presentarse
en un problema complejo de ingeniería.
Un método alternativo de adquisición de conocimiento es el aprendizaje automatizado de los datos observados, que es
diseñar un algoritmo que pueda adquirir y afinar reglas de decisión de un conjunto de muestras o datos observados. Este
método es conocido como aprendizaje inductivo o adquirir conocimiento por ejemplos.
Una aplicación de aprendizaje inductivo, es el descubrir reglas de datos para realizar predicciones de demandas (An et
al.), cuya metodología está basada en la teoría de los conjuntos aproximados, cuya característica es hacer uso de la
información estadística inherente a los datos para manejar la información incompleta y ambigua. El objetivo es el
descubrimiento automatizado de reglas a partir de una muestra de datos para realizar predicciones de la demanda diaria
de agua. La base de datos contiene 306 muestras recogidas durante 10 meses que cubren la información de 14 factores
ambientales y sociológicos y su correspondiente distribución de volumen de flujo.
Los factores utilizados como posibles afectaciones del consumo diario de agua son: el día de la semana, y factores
climáticos agrupados en temperatura, humedad, precipitación, viento, y horas de brillo del sol. Los consumos diarios se
tomaron sumando las distribuciones diarias en cada estación de bombeo.
Utilizando una extensión de la teoría de los conjuntos borrosos (Pawlak, Z), se obtuvieron reglas a partir de los datos
seleccionados, del tipo “si-entonces” que describen importantes relaciones entre los factores condicionantes y el
consumo de agua, las cuales son fácilmente comprensibles.
Tanto la información básica como los resultados fueron agrupadas en rangos discretos tanto para su procesamiento
como para su interpretación. En total se generaron 149 reglas para los diferentes conceptos o rangos de predicción de
demanda de agua.
Algunos ejemplos del tipo de reglas generadas son los siguientes:
ƒ Para el rango D = [53 – 60],
(a0 = (D or L or MA) ∧ (a5 > 64) ∧ (a10<=10.84) ∧ (a3 <= -3.36) →1 (53 < D <=60),
Esta regla cubre el 66.7% de los objetos de entrada que incluyen el rango y establece que si el día de la semana es
domingo, lunes o martes y la humedad mínima es mayor que 64 y el promedio de velocidad del viento es menor o igual
a 10.84 y la temperatura media es menor o igual que –3.36, entonces la demanda de agua está entre 53 y 60 con una
probabilidad 1, es decir que la totalidad de los objetos seleccionados para el rango cumplen la regla.
ƒ Para el rango D = (89 – 90],
(a1 <= 23.18) ∧ (a12 <= 36.88) ∧ (a3 > 10.78) ∧ (50 <= a5 <= 64) →1 (80 < D <=90),
Esta regla cubre el 10.5% de los objetos de entrada que incluyen el rango. Establece que si la máxima temperatura es
menor o igual que 23.18 y la máxima velocidad del viento es menor o igual que 36.88 y la temperatura mínima es
mayor de 10.78 y la humedad mínima está entre 50 y 64 inclusive, entonces la demanda de agua está entre 60 y 90 con
una probabilidad de 1.
ƒ Para el rango D = (100 – 110],
(a2 > 10.78) ∧ (a12 > 27.03) ∧ (a5 <=31) ∧ (a13 >9.60) → 1 (100 < D <= 110),
Esta regla cubre el 33.3% de las muestras que incluyen el rango, y establece que si la temperatura mínima es mayor de
10.78 y la máxima velocidad del viento es mayor de 27.03 y la mínima humedad es menor o igual a 31 y el número de
horas de brillo del sol es mayor de 9.60, entonces la demanda de agua está entre 100 y 110 con una probabilidad de 1.
Otra aplicación desarrollada es la aproximación por minería de datos a la modelación de activos en sistemas de
suministro de agua (Babovic et al), la red de tubería de una ciudad y todos los componentes asociados con esta red
(válvulas, bombas, reservorios, etc) constituyen los activos de un suministro de agua, y como cualquier otro activo, es
importante invertir en su mantenimiento para que cumplan con su tarea.
La motivación de este trabajo se produjo debido a la política implementada en la ciudad de Copenhague (Dinamarca),
en los años 80 de reemplazar un 1% de longitud de la tubería de la red de abastecimiento de agua por año debido a
razones económicas, pérdidas de agua, capacidad, calidad del agua, reclamaciones y compensaciones, cooperación en
trabajos de construcción y visión a largo plazo.
El trabajo presenta dos técnicas de minería de datos para el análisis del riesgo de rotura de tubos en una red de
suministro. Las técnicas utilizadas son los modelos de punteo y las redes bayesianas.
El modelo de punteo une casos que presentan un comportamiento similar. Esto se lleva a cabo asignando un puntaje (un
valor entre 0 y 100) a cada caso y agrupando casos en clases de puntajes similares, los operadores utilizados son
binarios no lineales y la búsqueda del mejor modelo se realiza utilizando algoritmos genéticos.
Las redes bayesianas amplían el concepto de los modelos determinísticos tomando en cuenta las incertidumbres. Las
salidas y las entradas no son declaradas como variables fijas sino como distribuciones de probabilidad.
Una red bayesiana es una red con arcos directos y no ciclos. Los nodos (puntos de arco) representan variables random y
decisiones. Los puntos de arco en variables random indican dependencia probabilística, mientras que los puntos de arco
en decisiones especifican la información disponible en el periodo de decisión.
La red bayesiana es alimentada con parámetros acerca del tubo, del suelo y de la presión dentro del tubo como “inputs”.
Como “output”, el modelo produce un estimativo de la historia del tubo y el valor de las funciones de los tres estados
limite; esfuerzo circunferencial, esfuerzo de corte y el estado límite de fatiga.
La técnica empleada para finalizar el modelo del proceso de rotura son los árboles de clasificación.
La estrategia utilizada en el modelo de puntaje es primero construir un modelo que separe casos que tengan baja
probabilidad de rotura de aquellos que presentan incertidumbre de rotura y luego construir un modelo con el resultado
del modelo de incertidumbre.
Los resultados obtenidos con el modelo de puntaje presentan que aun cuando la edad esta entre las variables utilizadas
por le modelo, su poder de predicción es relativamente bajo. El mejor estimador de predicción para la primera partición
(casos con baja probabilidad de rotura), es la longitud del tubo, a mayor longitud mayor número de roturas. Otro
elemento de predicción utilizado fue el inicio o comienzo, es decir el número de la casa donde el tubo inicia, la cual no
parece ser una relación obvia pero el modelo es más sensible a esta variable que a la edad del tubo.
El análisis de sensibilidad del modelo refinado (modelo de incertidumbres), toma como elemento de predicción
principal el número de roturas en el modelo anterior, parece más probable que un tubo que se ha roto anteriormente se
vuelva a romper. El segundo elemento de predicción es el momento en que se toma la “instantánea”, el cual tiene que
ver con el instante en el tiempo (año, mes, día, hora), este elemento de predicción es un indicador de que en algunos
periodos existe más probabilidad de rotura que en otros.
Los modelos de puntaje proveen un método para ordenar los tubos de acuerdo a su riesgo de rotura, lo cual es necesario
para presentar un esquema de rehabilitación de la red. La calidad del modelo depende de la calidad de los datos
utilizados. La fuerza de los modelos de puntaje radica en encontrar relaciones entre variables que no son obvias para la
mente humana.
CONCLUSIONES
Se ha presentado una visión general acerca del estado del arte de la minería de datos y su aplicación a problemas
concernientes a los sistemas de abastecimiento de agua potable. Se pretende resaltar en este documento la importancia y
el gran potencial que tienen estas técnicas de descubrimiento de patrones no triviales o no obvios a simple vista, para la
aplicación en la planificación, operación y gestión de las redes de distribución de agua. El centro del proceso es la
minería de datos, el análisis automático de grandes o complejas bases de datos para descubrir patrones o enlaces
significantes que de otra forma no se conocerían.
El éxito en la aplicación de una técnica de minería de datos radica principalmente en contar con una información básica
o datos de entrada (inputs) suficiente y de buena calidad. Dentro de este documento se presentan las bases y técnicas de
la minería de datos así como un par de ejemplos acerca de su aplicabilidad en los sistemas de abastecimiento de agua
potable.
El estudio e investigación de estas técnicas aún no ha sido lo suficientemente desarrollado para su aplicabilidad en la
planificación, operación y gestión de redes de abastecimiento de agua potable, sin embargo es una tarea que aunque
difícil por la escasez o pobre calidad de la información con la que cuentan nuestros sistemas de abastecimiento, parece
tener bastante futuro para la resolución de problemas de nuestras redes.
Se han mostrados un par de ejemplos que muestran la efectividad que puede tener el proceso de la minería de datos
aplicado a problemas de abastecimientos de agua, pero se debe tener en cuenta que aún falta investigar lo suficiente
para desarrollar y aplicar técnicas adecuadas para cada tipo de problema que se nos puede presentar, o quizá buscar
información que no nos ha sido obvia o no está presente de antemano cuando nos planteamos que solución le podríamos
dar a problemas cotidianos dentro de la operación de un sistema de distribución de agua, como por ejemplo:
ƒ la detección de fugas,
ƒ el funcionamiento de los contadores,
ƒ el material utilizado para las tuberías,
ƒ problemas de ampliación de redes,
o cualquier interrogante que nos pueda surgir y pueda ser resuelto con una gran cantidad de información de la que se
dispone pero no está siendo utilizada.
REFERENCIAS BIBLIOGRÁFICAS
AN, A.; SHAN, N.; CHAN, C.; CERCONE, N.; ZIARKO, W. 1997, “Applying knowledge
discovery to predict water-supply consumption”, IEEE Intelligent Systems & Their
Applications, Volume 12, Number 4, pages 72-78.
BABOVIC, V.; DRÉCOURT, J.; KEIJZER, M.; HANSEN, P. 2001, “Modelling of Water Supply
Assets: A Data Mining Approach”, D2K Technical Report 1000-1, 2000, February 6, 2001.
BUCHHEIT, R.B.; GARRETT, J.H. JR; LEE, S.R.; BRAHME, R. 2000, “A Knowledge Discovery
Framework for City Civil Infrastructure: A Case Study of the Intelligent Workplace”,
Engineering with Computers, Number 16, Pages 264-274, 2000.
CARBONE, P.; 1997, “Data Mining or "Knowledge Discovery in Databases" An Overview”, Mitre
Corporation, 1997.
FERGUSON, M.; “Evaluating and selecting data mining tools”, InfoDB, Volume 11, Number 2.
GROSSMAN, R.; KASIF, S.; MOORE, R.; ROCKE, D.; ULLMAN, J.; 1998, “Data mining
research: opportunities and challenges”, A report of three NSF workshops on mining large,
massive, and distributed data, September 18, 1998.
OLARU, C.; WEHENKEL, L. 1999. “Data Mining”. IEEE Computer Applications in Power,
Volume 12, Number 3, July 1999, pages 19-25.
OHRN, A. 1999. “Discernibility and Rough Sets in Medicine: Tools and Applications”, Department
of Computer and Information Science, Norwegian University of Science and Technology, N7941 Trondheim, Norway.
PAWLAK, Z. 2001, “Rough sets and their applications”, Institute of theoretical and applied
sciences, February 28, 2002.
REICH, Y.; BARAI, S.V. 1999 “Evaluating Machine Learning Models for Engineering Problems”,
Artificial Intelligence in Engineering, Volume 13, Number 3, Pages 257 – 272, 1999.
REICH, Y. 1997, “Machine Learning Techniques for Civil Engineering Problems”,
Microcomputers in Civil Eng., Volume 12, Number 4, Pages 295 – 310, 1997.
SAVIC, D.A.; DAVIDSON, J.W.; DAVIS, R.B. 1999, “Data Mining and Knowledge discovery for
the water industry”, Water Industry Systems, modelling and optimisation applications”,
Volume 2, Edited by Dragan A. Savic and Godfrey A. Walters, Research Studies Press Ltd,
August, 1999.
SKIPWORTH, P.J.; SAUL, A.J.; MACHELL, J.; 1999, “Predicting water quality in distribution
systems using artificial neural networks”. Proceedings of the Institution of Civil EngineersWater Maritime & Energy, Volume 136, Number 1, Pages 1-8, July 1, 1999.