Download proyecto “edición de registros estadísticos mediante redes de

Document related concepts

Red neuronal artificial wikipedia , lookup

Red neuronal prealimentada wikipedia , lookup

Perceptrón wikipedia , lookup

Aprendizaje automático wikipedia , lookup

Método de agrupamiento para el manejo de datos wikipedia , lookup

Transcript
PROYECTO “EDICIÓN DE REGISTROS ESTADÍSTICOS MEDIANTE
REDES DE NEURONAS ARTIFICIALES”
La recogida de datos de cualquier encuesta o censo está sujeta a riesgos
serios de errores, que suelen manifestarse, entre otros, en problemas de falta de
respuesta o bien en la existencia de registros inconsistentes. Por tanto es
fundamental la edición de los registros resultantes del proceso de encuestación,
entendiendo como edición el proceso orientado a la depuración del conjunto de
registros, lo que conlleva en particular la imputación de valores perdidos y la
detección de inconsistencias, es decir, respuestas incorrectas (distintas a la real)
para una o más cuestiones. Si bien los modernos sistemas de recogida de
información reducen los errores resultantes respecto a períodos de tiempo
anteriores, la calidad de la información resultante no siempre es aceptable, a pesar
de los controles que suelen incorporar los sistemas de recogida con ayuda del
ordenador, ya sean mediante entrevistas personales (CAPI), telefónica (CATI) o
incluso a través de páginas Web (WAPI).
Existen diversos procedimientos de edición de registros, originados sobre
todo por el trabajo de formalización realizado por Fellegi y Holt, que aun
titulándose automáticos requieren la intervención de expertos en la materia, lo que
en el caso de tamaños muestrales elevados puede conllevar un alto coste de las
tareas de edición. En este trabajo se describe una aproximación a la tarea de
aumentar el grado de automatización de los procedimientos de edición, utilizando
modelos basados en Redes de Neuronas Artificiales (en adelante RNAS).
Las Redes de Neuronas Artificiales (en adelante RNAS) son un conjunto de
modelos matemáticos no lineales, utilizados de forma práctica en muchas áreas de
la ciencia moderna.
Su gran flexibilidad, caracterizada por diversas
propiedades teóricas y el vertiginoso aumento de las prestaciones de los equipos
informáticos, las convierten en una poderosa herramienta apropiada para obtener
predicciones multidimensionales a partir de entradas también multidimensionales.
Por ello la literatura recoge un creciente número de aplicaciones de las RNAS:
concesión de créditos, procesamiento del lenguaje natural, tratamiento de
imágenes, reconocimiento de patrones, predicción de series temporales, etc,
convirtiendo a las RNAS en una importante técnica dentro de la investigación
científica aplicada.
El proyecto desarrollado ha permitido comprobar un rendimiento en
general satisfactorio y prometedor para los modelos de edición de registros
estadísticos basados en Redes de Neuronas Artificiales y de las aplicaciones
realizadas se extraen las siguientes y principales conclusiones.
•
La imputación de una sola variable a partir del conocimiento del resto de
variables permite obtener predicciones muy precisas, con tasas de acierto
del 100%. En tales casos, sin excesivos costes computacionales, se puede
construir un modelo no lineal de predicción plenamente satisfactorio.
•
La imputación simultánea de todas las variables de un cuestionario
mediante el perceptrón multinivel requiere mayores tiempos de
entrenamiento de la red, pero produce resultados alentadores. Las
aplicaciones
realizadas
muestran
tasas
de
casos
correctamente
corregidos en torno a un 75 u 80%. Incluso en el caso de mezclar este
problema con la existencia de inconsistencias, es posible lograr también
tasas de acierto para cada variable del 100%.
•
La edición de inconsistencias en una sola variable, es decir, la detección y
corrección de respuestas incorrectas, es realizada muy acertadamente
por el perceptrón multinivel, con tasas de acierto de un 98% en el
conjunto test, por lo que el modelo es realmente útil y aprovechable.
•
Finalmente, la aplicación más ambiciosa ha arrojado resultados
alentadores para el problema general de edición de registros,
considerando tanto el problema de no respuesta como la detección y
corrección de inconsistencias. Tanto en ésta como en las otras
aplicaciones la mejora de la calidad del conjunto de datos es
significativa,
por lo que el método tiene una base sólida. Como
inconveniente, los tiempos de entrenamiento de la red son bastante
superiores a los de las aplicaciones anteriores, pero a cambio los modelos
desarrollados son automáticos.
Se requieren más estudios aplicados similares a los aquí desarrollados que
permitan ampliar el conjunto de resultados disponibles a fin de obtener una mayor
comprensión de las capacidades de las RNAS en la tarea de edición de registros
estadísticos, en particular para determinar las posibilidades en el problema
concreto del tratamiento de inconsistencias, donde creemos que será necesario
recurrir a sistemas computacionales más sofisticados, en particular a través de
grandes ordenadores apropiados para el cálculo científico intensivo.