Download Una Arquitectura para el analisis

Document related concepts

Algoritmo apriori wikipedia , lookup

Aprendizaje automático wikipedia , lookup

Minería de secuencias wikipedia , lookup

Java Data Mining wikipedia , lookup

Minería de datos wikipedia , lookup

Transcript
Comunicaciones en Socioeconomía, Estadística e Informática.
2003. Vol. 7 Núm. 2. pp. 89-106
UNA ARQUITECTURA PARA EL ANÁLISIS AUTOMATIZADO DE
BASES DE DATOS1
Salvador Vázquez Martínez1, Antonio F. Martínez Alcántara 2
RESUMEN
En los últimos años se ha estimado que, a nivel mundial, la cantidad de datos
almacenados se duplica cada 20 meses, debido al abaratamiento de la tecnología para la
colección y almacenamiento; este crecimiento ha sobrepasado la capacidad humana
de analizar, resumir y extraer conocimientos a tales cantidades de datos. Actualmente
existen avances significativos en cuanto a algoritmos para el análisis automatizado de
bases de datos, pero no hay consenso en cuanto a la clasificación de éstos. A pesar de
que existen varios sistemas para aplicaciones muy específicas, sólo existen algunos
sistemas que integran todos esos algoritmo s de manera operacional y eficaz. El
presente trabajo consiste en una revisión bibliográfica sobre técnicas y algoritmos, y
posteriormente se propone la arquitectura de un software que permite analizar de
manera automatizada bases de datos. La arquitectura propuesta incluye el uso tanto de
algoritmos de técnicas estadísticas como de inteligencia artificial los cuales se
seleccionan de manera automatizada. Se propone también aprovechar las ventajas que
ofrecen los algoritmos de ambos grupos de técnicas para obtener mejores modelos, en
el caso del uso de técnicas estadísticas se incorporan módulos expertos que explican los
modelos generados. Se propone que el sistema contenga dos módulos expertos: uno
para interpretar los resultados del análisis, y el otro, para seleccionar automáticamente
las diferentes técnicas y para guiar la búsqueda en la base de datos, este sistema experto
permite a la arquitectura de propósito general llegar a dominios específicos.
1
El presente trabajo es derivado de su tesis de Maestría en Ciencias en el Colegio de Postgraduados y forma
parte del proyecto CONACYT 135939-B.
2
Profesor Investigador Adjunto del ISEI del Colegio de Postgraduados.
89
Salvador Vázquez Martínez y Antonio F. Martínez Alcántara.
Palabras clave: Minería de datos, descubrimiento de conocimiento en bases de datos,
aprendizaje automático, análisis automatizado de datos.
INTRODUCCIÓN
Actualmente se estima que el suministro de datos del mundo se duplica cada 20 meses
(Berndt y Clifford, 1996). Esto es un resultado del desarrollo y abaratamiento de la
tecnología para su colección y almacenamiento. Lo anterior implica un crecimiento
excesivo en el volumen de datos que se maneja tanto en la comunidad científica como
en los sectores productivos de la economía, que ha sobrepasado la capacidad humana
de analizar, resumir y extraer conocimientos a tales cantidades de datos.
Lo anterior, hace necesaria una nueva generación de herramientas capaces de
automatizar el análisis de los datos almacenados. El conjunto de estas herramientas lo
estudia un nuevo campo de investigación llamado minería de datos (Fayyad et al.,
1996), que surge recientemente y que está aún en proceso de desarrollo.
Existen una gran cantidad de algoritmos computacionales y técnicas estadísticas que
son utilizados en la minería de datos, sin embargo no existe un estudio integral de todos
estos algoritmos y no hay consenso en cuanto a la clasificación de ellos. A pesar de que
existen varios sistemas "hechos a la medida" para aplicaciones muy específicas, no
existen sistemas genéricos, que integren todos esos algoritmos de manera operacional y
eficaz.
Como contribución a este campo de investigación, en el presente trabajo se realizó una
revisión bibliográfica sobre herramientas de minería de datos y se propone la
arquitectura de un software para analizar de manera automatizada bases de datos. Tales
sistemas tienen relevancia en la toma de decisiones en las empresas o gobierno y como
auxiliares en investigaciones científicas.
90
Comunicaciones en Socioeconomía, Estadística e Informática.
2003. Vol. 7 Núm. 2. pp. 89-106
RESULTADOS Y DISCUSIÓN
Se presentan a continuación los resultados en dos partes, una que corresponde a la
investigación bibliográfica, y la otra, sobre la arquitectura del software propuesto.
Clasificación de técnicas y algoritmos
De acuerdo con la revisión bibliográfica realizada, se propone una clasificación de las
técnicas útiles en minería de datos encontradas en las diferentes fuentes consultadas
(que se mencionan en los Cuadros), la clasificación se basa en la tarea para la cual son
útiles cada una de las técnicas y algoritmos encontrados.
En el Cuadro 1 se muestran las cuatro tareas más importantes de minería de datos
encontradas en las diferentes fuentes consultadas (Bigus, 1996; Cabena, 1998; Fayyad
et. al., 1996; Fayyad, 1997; Michalski, 1998; Pyle, 1999; Thuraisinghan, 1999; Weiss y
Kulikowski, 1991), así como las técnicas estadísticas y algoritmos útiles para cada una
de las tareas.
Arquitectura propuesta
Para definir la arquitectura, en el presente trabajo se aplicaron técnicas de Ingeniería de
Software.
El paradigma de ingeniería del software seleccionado es el llamado modelo en espiral,
el cual combina la naturaleza interactiva de construcción de prototipos con los aspectos
controlados y sistemáticos del modelo lineal secuencial (Pressman, 1998). Éste es el
paradigma que mejor se adaptó a los objetivos de este trabajo, que es proponer un
sistema genérico a nivel de arquitectura, como un medio para la construcción de un
sistema funcional.
91
Salvador Vázquez Martínez y Antonio F. Martínez Alcántara.
Cuadro 1. Técnicas y algoritmos estadísticos de minería de datos.
Algoritmos
Fuente
-
Discriminante lineal
Función de clasificación
Regla de verosimilitud
Regla discriminante cuadrática
Vecino más cercano†
Regla de Bayes
Regresión logística
Dallas, 2000; Weiss y
Kulikowski, 1991.
Análisis por
agrupamiento
-
Vecino más cercano†
Vecino más lejano
Método del centroide
Método del promedio
Varianza mínima de Ward
Selección de simientes
Dallas, 2000; Weiss y
Kulikowski, 1991.
Análisis de
varianza
– Coeficiente de correlación lineal
Dallas, 2000; Infante,
1990
Análisis de
regresión
– Regresión lineal simple†
– Regresión lineal múltiple
Infante, 1990; Dallas,
2000; Draper y Smith,
1966
Suavización de
curvas
– Promedios móviles simples
– Suavización exponencial simple
– Suavización exponencial simple de
respuesta adaptativa
– Promedio móvil lineal
– Suavización exponencial de un
parámetro (método de Brown)
– Suavización exponencial de dos
parámetros (método de Holt)
– Suavización exponencial cuadrática
– Método de Winters
Box y Jenkins 1976;
Burés, 1989.
Ajuste de curvas
– Emparejamiento de expresiones
Guzmán, 1999.
Series de tiempo
Dependencia
Clasificación
Técnica
Análisis
discriminante
Agrupamiento
Tarea
†
Algoritmos utilizados en software de minería de datos.
En los Cuadros 2, 3, 4 y 5 se muestran las técnicas de inteligencia artificial (IA) útiles
para cada una de las tareas de minería de datos.
92
Comunicaciones en Socioeconomía, Estadística e Informática.
2003. Vol. 7 Núm. 2. pp. 89-106
Cuadro 2. Técnicas y algoritmos de IA para la tarea de clasificación.
Técnica
Redes neuronales
-
Árboles de decisión -
Algoritmos
ARTMAP
Backpropagation
Red de función de base radial
Red neuronal probabilístico
Cuantificación del vector
aprendizaje
Fuente
Bigus, 1996.
ID3
C4.5
CART
CHAID
CN2
Quinlan, 1986.
Quinlan, 1993.
Berson et al., 2000.
Berson et al., 2000.
Clark y Boswell, 1991.
Inducción de reglas
- AQ15
Michalski, 1998.
Programación
lógica inductiva
-
Muggleton y Buntine, 1998.
Sammut y Banerji, 1986.
Muggleton, 1995.
Muggleton y Feng, 1990.
Shapiro, 1983.
CIGOL
MARVIN
PROGOL
GOLEM
MIS
- MFOIL
- FOCL
- FOIL
Dzeroski y Bratko, 1992.
Pazzani y Kibler, 1992.
Quinlan, 1996.
- LINUS
- MOBAL
- CLAUDIEN
Lavrac et al., 1991.
Morik et al., 1993.
Dehaspe et al., 1994.
93
Salvador Vázquez Martínez y Antonio F. Martínez Alcántara.
Cuadro 3. Técnicas y algoritmos de IA para la tarea de agrupamiento.
Técnica
Redes neuronales
Algoritmos
- Mapeo de características Kohonen
- Teoría resonancia adaptativa
Fuente
Bigus, 1996.
Inducción de reglas
-
Stepp y Michalski, 1986.
Agrawal, 1998.
Ramkumar y Swami, 1998.
Cheeseman y Stutz, 1996.
Modelos gráficos
probabilísticos
Hipergráfico
CLUSTER/S
CLIQUE
PARAMETRIZED
AutoClass
- HMETIS
- Min-A priori
Han E. et.al., 1998
Cuadro 4. Técnicas y algoritmos de IA para la tarea de dependencia.
Técnica
Modelos gráficos
probabilísticos
Programación lógica
inductiva
Inducción de ecuación
Algoritmos
– Red bayesiana
Fuente
Buntine, 1996.
– CLAUDIEN
Dehaspe et al., 1994
– BACON
Rich y Knight, 1994.
Inducción de reglas
–
–
–
–
–
–
–
–
–
–
–
–
Srikant y Agrawal, 1995.
Basic
Cumulate
EstMerge
MultipleJoins
Reorder
Direct
Agrawal93
Mannila94
AprioriTid
AprioriHybrid
Bayardo99
AprioriUDF
94
Srikant et al., 1997.
Agrawal et al., 1993.
Mannila et al., 1994.
Agrawal y Srikant, 1994.
Bayardo et al., 1999.
Sarawagi et al., 1998.
Comunicaciones en Socioeconomía, Estadística e Informática.
2003. Vol. 7 Núm. 2. pp. 89-106
Cuadro 5. Técnicas y algoritmos de IA para la tarea de series de tiempo.
Subtarea
Pronóstico
Técnica
Redes
neuronales
Algoritmos
– Red de función de base radial
– Propagación hacia atrás
recurrente
– Aprendizaje de diferencia
temporal
Fuente
Bigus, 1996.
Búsqueda de
patrones
Redes
neuronales
Inducción de
reglas
– Propagación hacia atrás
Martínez, 1991.
– Alabeo de tiempo dinámico
– Evento estructura
Berndt y Clifford, 1996
Bettini C. et al., 1998.
– AprioriSome
– AprioriAll
– GSP
Agrawal y Srikant, 1995.
Descubrimient Inducción de
o de patrones reglas
secuenciales
Srikant y Agrawal, 1996.
Análisis
Se consideró el software como un sistema completo, es decir no es un componente o
módulo de un sistema más grande, al contrario, se sirve
de varios módulos
subordinados para llevar a cabo sus funciones. Lo anterior se muestra en la Figura 1.
Teclado
Base de datos
relacional
Ordenes del
usuario
Datos
Monitor
Sistema de
análisis
automatizado
de bases de
datos
Modelos y
patrones
generados por el
sistema
Impresora
Disco
Figura 1. Modelo funcional o de contexto del sistema (nivel 0)
A la fecha la mayoría de los datos que están almacenados en sistemas cómputo
corresponden al modelo relacional, que es el modelo que se consideró para este trabajo.
95
Salvador Vázquez Martínez y Antonio F. Martínez Alcántara.
Modelo funcional o de contexto
En esta fase es importante destacar las entradas y salidas del sistema global. La entrada
fundamental al sistema son los datos desde la base de datos. Las salidas dependen de la
tarea de minería de datos de la técnica que se haya seleccionado.
En los Cuadros 6, 7, 8 y 9 se mencionan las salidas generadas por el sistema de acuerdo
con las técnicas y tareas.
Cuadro 6. Salidas del sistema, tarea de clasificación.
Técnicas Estadísticas
Técnica
Salida
Análisis
Ecuación de
discriminante clasificación
Técnicas de Inteligencia Artificial
Técnica
Salida
Redes neuronales Un modelo de red entrenado
artificiales
Árboles de
Arbol de clasificación (Lógica
decisión
de atributos)
Programación
Lógica de predicados de primer
lógica inductiva orden
Inducción de
Reglas de clasificación.
reglas
(Lógica de atributos)
Lista de decisión Reglas de clasificación.
(Lógica de atributos)
Cuadro 7. Salidas del sistema, tarea de agrupamiento
Técnicas Estadísticas
Técnica
Salida
Análisis por
Registros
agrupamiento agrupados
Técnicas de Inteligencia Artificial
Técnica
Salida
Redes neuronales
Un modelo de red
artificiales
entrenado
Inducción de reglas
96
Reglas de agrupamiento
(Lógica de atributos)
Comunicaciones en Socioeconomía, Estadística e Informática.
2003. Vol. 7 Núm. 2. pp. 89-106
Cuadro 8. Salidas del sistema, para la tarea de dependencia
Técnicas Estadísticas
Técnicas de Inteligencia Artificial
Técnica
Salida
Técnica
Salida
Análisis de
Coeficiente de
Programación
Lógica de predicados de
varianza
correlación lineal lógica inductiva
primer orden
Análisis de
regresión
Ecuación de
regresión
Inducción de
reglas
Redes gráficas
Reglas de asociación
(Lógica de atributos)
Red con distribución de
probabilidad
Cuadro 9. Salidas del sistema, para la tarea de series de tiempo
Técnicas Estadísticas
Técnica
Salida
Suavización
Pronóstico
de curvas
Técnicas de Inteligencia Artificial
Técnica
Salida
Redes neuronales
Un modelo de red
artificiales
entrenado
Ajuste de curvas
Inducción de reglas
Localización de la curva
buscada
Reglas que describen los
patrones
Diagrama de flujo de datos
Klosgen (1996) menciona que normalmente un proceso de descubrimiento de
conocimiento no puede ser especificado de antemano o ser completamente
automa tizado, puesto que depende de las metas del analista, las cuales surgen
iterativamente. Los sistemas de KDD (Knowledge Discovery in Databases,
Descubrimiento de Conocimientos en Bases de Datos) se comparan evaluando su
autonomía y versatilidad; la autonomía mide hasta qué punto un sistema evalúa sus
decisiones y produce conocimiento automáticamente; la versatilidad mide la variedad
de dominios que soporta. Hay un trueque entre la autonomía y la versatilidad. Para
algunos dominios pueden desarrollarse sistemas altamente autónomos, sin embargo,
97
Salvador Vázquez Martínez y Antonio F. Martínez Alcántara.
para lograr un rango amplio de aplicabilidad, los sistemas deben ser asistidos por el
analista humano.
La arquitectura aquí desarrollada propone la incorporación de un módulo experto el
cual sugiere la selección de alguna(s) de las cuatro tareas que el sistema soporta, de
acuerdo con el dominio de la base de datos que se analiza y a los tipos de análisis que
es posible realizar sobre ellos.
Aunque los pasos generales que se siguen para llevar a cabo las diferentes tareas de
minería de datos son los mismos (Berson Alex et al., 2000; Bigus P., J. 1996; Cabena
P., H. 1998; Fayyad M., U., et al., 1996; Guzmán A., A. 1999a; Pyle, D. 1999;
Thuraisinghan B., M. 1999), cada paso tiene un proceso diferente para cada tarea y
para cada algoritmo, por lo que las tareas se consideran de manera separada como
módulos en la Figura 2.
En las técnicas de IA, la tarea de clasificación consiste en dos actividades
fundamentales que son el entrenamiento y la clasificación como tal (Weiss, 1991). En
el caso del entrenamiento (aprendizaje) se trata de crear un modelo entrenado de
acuerdo con los datos seleccionados de la base de datos; el tipo y la estructura de este
modelo depende del algoritmo particular que se haya empleado. La clasificación
consiste en aplicar un modelo entrenado para asignarle el nombre de una clase a la que
pertenece un determinado registro.(Rich y Knight, 1994). En el caso de las técnicas
estadísticas de clasificación es necesario un pre-procesamiento de datos de acuerdo con
la técnica a utilizar. En el módulo de clasificación de la Figura 2 se llevan a cabo las
dos actividades anteriores.
La tarea de agrupamiento es considerada como el proceso de colocar entidades
(registros de una base de datos) en clases inicialmente indefinidas, de modo que las
98
Comunicaciones en Socioeconomía, Estadística e Informática.
2003. Vol. 7 Núm. 2. pp. 89-106
entidades de una clase resultante sean, en algún sentido, similares (Ruiz, 1998). El
módulo de agrupamiento es el encargado de llevar a cabo lo anterior.
La tarea de dependencia consiste en encontrar relaciones entre campos y buscar alguna
estructura causal dentro de los datos (dependencias). Los modelos de causalidad
pueden ser estadísticos o determinísticos. (Fayyad, 1997). Estas actividades se realizan
en el módulo dependencia de la Figura 2.
Ordenes del
Teclado usuario
Interfase
del
usuario
Tarea y base
de datos
seleccionadas
Clasificación
Agrupamiento
Módulo
experto
Salida
generada
por los
módulos
Base de datos
relacional
Dependencia
Datos
extraídos
Series de
tiempo
Figura 2. Nivel 1 del Diagrama de Flujo de Datos (DFD)
99
Módulo
experto de
explicación
Monitor,
disco o
impresora
Salvador Vázquez Martínez y Antonio F. Martínez Alcántara.
La tarea de series de tiempo consiste en la búsqueda de patrones de comportamiento
(Guzmán, 1999), búsqueda de similitudes (Martínez, 1991) y búsqueda de patrones
secuenciales (Agrawal y Srikant, 1994); es importante aquí la ordenación de las
observaciones y que se considera sólo una variable a través del tiempo o una
numeración progresiva. Estas son las actividades que se llevan a cabo en el módulo
series de tiempo de la Figura 2.
Al momento de seleccionar una técnica o algoritmo particular en alguno de los
módulos, el sistema deberá hacer un pre-procesamiento de los datos, de acuerdo con la
forma en que son requeridos por la técnica específica.
Diseño arquitectónico
En la Figura 3 se muestra la arquitectura propues ta para un sistema de análisis
automatizado de bases de datos. El modelo de la arquitectura es el estructural el cual
representa el sistema como una colección organizada de componentes del programa.
CONCLUSIONES
Esta investigación se propuso recopilar y clasificar las técnicas y algoritmos de minería
de datos encontrados en las diferentes fuentes consultadas.
La propuesta es una arquitectura que incorpore y aproveche las ventajas que ofrecen los
algoritmos de ambos grupos de técnicas.
La arquitectura pro pone la utilización de dos módulos expertos.
El primero, a partir de las necesidades expresadas por el usuario en una interfase,
consultaría a una base de datos relacional dada para después auxiliar en la selección de
las metodologías de análisis más adecuadas.
100
Comunicaciones en Socioeconomía, Estadística e Informática.
2003. Vol. 7 Núm. 2. pp. 89-106
101
Salvador Vázquez Martínez y Antonio F. Martínez Alcántara.
Después del análisis, el segundo módulo experto auxiliaría en la interpretación de los
resultados. Esto es especialmente importante en el caso de análisis estadísticos
complejos.
Las técnicas consultadas en la bibliografía se clasificaron en cuatro grupos sin importar
si la técnica proviene de la estadística o de la inteligencia artificial. Los grupos son:
técnicas de clasificación, de agrupamiento, de análisis de dependencia y de análisis de
series de tiempo.
Una aportación de este trabajo es la revisión de una amplia bibliografía en minería de
datos en búsqueda de las técnicas y algoritmos utilizados, así como su área de
aplicación. De esta forma el lector interesado en alguna técnica particular de las aquí
citadas, puede encontrar en la bibliografía consultada una referencia rápida.
El trabajo presentado no es exhaustivo y es un paso hacia una propuesta que solucione
los problemas planteados en la introducción.
LITERATURA CITADA
Agrawal, R. 1998. Automatic subspace clustering of high dimensional data for data
mining applications. 1998. IBM Almaden Research Center. San Jose California
USA. 12p.
Agrawal, R. and R. Srikant 1995. Mining sequential patterns. IBM Almaden Research
Center. San Jose California USA. 12p.
Agrawal, R. and R. Srikant. 1994. Fast algorithms for mining association rules. In
Proceeding of the 20th VLDB Conference Santiago, Chile.
Agrawal, R., T. Imielinski, and A. Swami. 1993. Mining Association rules between
sets of items in large databases. In Proceedings of the 1993 ACM SIGMOD
Conference Washington DC, USA, May 1993.
Bayardo, J. R., R. Agrawal, and D. Gunopulos. 1999. Constraint - based rule mining in
large, dense databases. IBM Almaden research center. In Proceeding of the 15th
international conference on data engineering, 1999. 12p.
102
Comunicaciones en Socioeconomía, Estadística e Informática.
2003. Vol. 7 Núm. 2. pp. 89-106
Berndt, J. D. and J. Clifford. 1996. Finding patterns in time series: A dynamic
programming approach. In Advances in knowledge discovery and data mining.
Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy
Uthurusamy (eds.). Menlo Park, California U.S.A. 1996. AAAI Press / The MIT
Press. pp: 229-248.
Berson, A., S. Smith, and K. Thearling. 2000. Building Data Mining Applications for
CRM. McGraw-Hill. USA. 510p.
Bettini, C., S. Wang, and S. Jajodia. 1998. Mining temporal relationships with multiple
granularities in time sequences. George Mason University. Bulletin of the IEEE
computer society technical committee on data engineering.
Bigus, P. J. 1996. Data mining with neural networks, solving business problems from
applications development to decision support. McGraw-Hill. USA. 220 p.
Box, P. E. and M. G. Jenkins. 1976. Time series analysis forecasting and control.
Holden - Day, page 18. San Francisco California, USA.
Buntine, W. 1996. Graphical models for discovering Knowledge. In Advances in
knowledge discovery and data mining. Usama M. Fayyad, Gregory PiatetskyShapiro, Padhraic Smyth, and Ramasamy Uthurusamy (eds.). Menlo Park,
California U.S.A. 1996. AAAI Press / The MIT Press. pp: 59-82.
Burés, E. M. 1989. Métodos de pronósticos aplicados a la administración. Instituto
Tecnológico y de Estudios Superiores de Monterrey. México.
Cabena, P. H. 1998. Discovering data mining, from concept to implementation.
International technical support organization. IBM. U.S.A. 340p.
Clark, P. and R. Boswell. 1991. Rule Induction with CN2: some recent improvements.
In proceedings of the fifth European working session on learning. Berlin
Alemania. Pp: 151-163.
Cheeseman, P. and J. Stutz. 1996. Bayesian classification (AutoClass): Theory and
results. In Advances in knowledge discovery and data mining. Usama M.
Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy
Uthurusamy (eds.). Menlo Park, California U.S.A. 1996. AAAI Press / The MIT
Press. pp: 153-180.
Dallas E., J. 2000. Métodos multivariados aplicados al análisis de datos. International
Thomson Editors. México. 566p.
Dehaspe, L., V. M. Laer and D. Raedt. 1994. Applications of a logical discovery
engine. Department of computer science, Katholieke Universiteit Leuven,
Heverlee, Belgium.
Draper, R. N. and H. Smith. 1966. Applied Regression Analysis. John Wiley & Sons,
Inc., U.S.A.
Dzeroski, S. and I. Bratko. 1992. Handling noise in inductive logic programming. In
proceedings of the second international workshop on inductive logic
programming. Tokio Japón.
103
Salvador Vázquez Martínez y Antonio F. Martínez Alcántara.
Fayyad, U. M. 1997. Mining databases: Towards algorithms for knowledge discovery.
In Bulletin of the technical committee on Data Engineering (ed). IEEE computer
society U.S.A. March 1998 vol. 21 No. 1. pp. 39-45.
Fayyad, U. M., G. Piatetski-Shapiro, and S. Padhraic. 1996. From data mining to
knowledge discovery: An overview. In Advances in knowledge discovery and
data mining. Usama M. Fayyad, Gregory Piatetsky -Shapiro, Padhraic Smyth,
and Ramasamy Uthurusamy (eds.). Menlo Park, California U.S.A. 1996. AAAI
Press / The MIT Press. pp: 1-36.
Guzmán A., A. 1999. Minería de datos con Búsqueda de Patrones de Comportamiento.
Centro de Investigaciones en Cómputo del Instituto Politécnico Nacional.
Guzmán A., A. 1999a. Estado del arte y dela práctica en minería de datos, análisis y
crítica. Centro de Investigaciones en Cómputo del Instituto Politécnico
Nacional.
Han, E., G. Karypis, V. Kumar, and B. Mobastar. 1998. Hypergraph based clustering in
high-dimensional data sets: A summary of results. Department of computer
science and engineering/army HPC research center, University of Minnesota,
USA.
Infante G., S. 1990. Métodos estadísticos. 2ª. ed. Trillas, México. 643p.
Klosgen, W. 1996. Explora: A multipattern and multistrategy discovery assistant. In
Advances in knowledge discovery and data mining. Usama M. Fayyad, Gregory
Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy Uthurusamy (eds.). Menlo
Park, California U.S.A. 1996. AAAI Press / The MIT Press. pp: 249-272.
Lavrac, N. S. Dzeroski, and M. Grobelnik. 1991. Learning non-recursive definitions of
relations with LINUS. In proceedings of the fifth European working session on
learning. Berlin Alemania. Pp: 265-281.
Mannila, H., H. Toivonen, and A. I. Verkamo. 1994. Improved methods for finding
association rules. University of Helsinki, Department of Computer Science.
Series of Publications C, No. C-1993-65. Helsinki, Finland. 20p.
Martínez O., E. 1991. Simulación de una red neuronal utilizando un modelo no lineal
en ambiente de aprendizaje supervisado para reconocer patrones en bases de
datos. ESIME - IPN. México. 163 p.
Michalski, S. R. 1998. Machine learning and data mining, methods and applications.
John Wiley & Sons Ltd. USA. 456 p.
Morik, K., S. Wrobel, J. Kietz and W. Emde. 1993. Knowle dge acquisition and
machine learning: Theory, Methods and Applications. London: Academic Press.
Muggleton, S. 1995. Inverse entailment and Progol. New generation computing
(special issue on inductive logic programing). pp: 245 -286.
Muggleton, S. and C. Feng. 1990. Efficient induction of logic programs. In proceeding
of the first conference on algorithmic learning theory. Tokyo Japan. Pp: 368381.
104
Comunicaciones en Socioeconomía, Estadística e Informática.
2003. Vol. 7 Núm. 2. pp. 89-106
Muggleton, S. and W. Buntine. 1998. Machine Invention of first-order predicates by
inverting resolution. In proceedings of the fifth international conference on
Machine Learning. USA. Pp: 339-352.
Pazzani, M. and D. Kibler. 1992. The Utility of knowledge in inductive learning.
Machine learning, pp: 57-94.
Pressman S., R. 1998. Ingeniería de software, un enfoque práctico. 4ª. ed. McGrawHill, España. 581 p.
Pyle, D. 1999. Data preparation for data mining. Morgan Kaufmann Publishers, Inc.
USA. 540 p.
Quinlan, J. R. 1986. Induction of decision trees. Machine learning No. 1.
Quinlan, J. R. 1993. C4.5 Programs for machine learning. Morgan Kaufman.
Quinlan, S. R. 1996. Learning first-order definitions of functions. Journal of artificial
intelligence research No. 5. pp: 139-161.
Ramkumar, D., G. and A. Swami. 1998. Clustering data without distance functions.
Information technology Lab, Hitachi America y Neta Corporation. Bulletin of
the IEEE computer society technical committee on data engineering. 6p.
Rich, E. y K. Knight. 1994. Inteligencia artificial. 2ª. ed. McGraw-Hill, España. 703 p.
Ruiz G., N. 1998. Criterios de validación de estructuras y grupos en el análisis de
conglomerados. Tesis de maestría Colegio de Postgraduados. Montecillo, Edo.
México. 160 p.
Sammut, C. and R. Banerji. 1986. Learning concepts by asking questions. In Machine
learning, an artificial intelligence approach, volume II. Morgan Kaufmann
Publishers, Inc. USA. 738 p.
Sarawagi, S., T. Shiby, and R. Agrawal. 1998. Integrating association rule mining with
relational database systems. IBM Almaden research center 650 Harry Road,
San Jose, CA 95120. 12p.
Shapiro, E. 1983. Algorithmic program debugging. Cambridge, Mass. The MIT press.
Srikant R., V. Quoc and R. Agrawal. 1997. Mining association rules with item
constraints. IBM Almaden research center 650 Harry Road, San Jose, CA
95120. 7p.
Srikant, R. and R. Agrawal. 1995. Mining quantitative Association rules in large
relational tables. IBM Almaden research center. San Jose, CA 95120.
Srikant, R., and R. Agrawal. 1996. Mining sequential patterns: generalizations and
performance improvements. IBM Almaden Research Center. San Jose
California USA. 15p.
Stepp, E. R. and R. S. Michalski. 1986. Conceptual clustering: Inventing goal-oriented
classifications of structured objects. In Machine learning, an artificial
intelligence approach, volume II. Michalski S., R., J. Carbonell G. Y T. Mitchell
M. (eds.). Morgan Kaufmann Publishers, Inc. USA. 738 pp: 471-498.
Thuraisinghan, B. M. 1999. Data mining: technologies, techniques, tools, trends. CRC
Press. USA. 270 p.
105
Salvador Vázquez Martínez y Antonio F. Martínez Alcántara.
Weiss, M. S. And C. A. Kulikowski. 1991. Computer Systems that learn. Classification
and prediction methods from statistics, neural nets, machine learning, and expert
systems. Morgan kaufmann publishers Inc. USA. 220p
106