Download proyecto “edición de registros estadísticos mediante redes de
Document related concepts
Transcript
PROYECTO “EDICIÓN DE REGISTROS ESTADÍSTICOS MEDIANTE REDES DE NEURONAS ARTIFICIALES” La recogida de datos de cualquier encuesta o censo está sujeta a riesgos serios de errores, que suelen manifestarse, entre otros, en problemas de falta de respuesta o bien en la existencia de registros inconsistentes. Por tanto es fundamental la edición de los registros resultantes del proceso de encuestación, entendiendo como edición el proceso orientado a la depuración del conjunto de registros, lo que conlleva en particular la imputación de valores perdidos y la detección de inconsistencias, es decir, respuestas incorrectas (distintas a la real) para una o más cuestiones. Si bien los modernos sistemas de recogida de información reducen los errores resultantes respecto a períodos de tiempo anteriores, la calidad de la información resultante no siempre es aceptable, a pesar de los controles que suelen incorporar los sistemas de recogida con ayuda del ordenador, ya sean mediante entrevistas personales (CAPI), telefónica (CATI) o incluso a través de páginas Web (WAPI). Existen diversos procedimientos de edición de registros, originados sobre todo por el trabajo de formalización realizado por Fellegi y Holt, que aun titulándose automáticos requieren la intervención de expertos en la materia, lo que en el caso de tamaños muestrales elevados puede conllevar un alto coste de las tareas de edición. En este trabajo se describe una aproximación a la tarea de aumentar el grado de automatización de los procedimientos de edición, utilizando modelos basados en Redes de Neuronas Artificiales (en adelante RNAS). Las Redes de Neuronas Artificiales (en adelante RNAS) son un conjunto de modelos matemáticos no lineales, utilizados de forma práctica en muchas áreas de la ciencia moderna. Su gran flexibilidad, caracterizada por diversas propiedades teóricas y el vertiginoso aumento de las prestaciones de los equipos informáticos, las convierten en una poderosa herramienta apropiada para obtener predicciones multidimensionales a partir de entradas también multidimensionales. Por ello la literatura recoge un creciente número de aplicaciones de las RNAS: concesión de créditos, procesamiento del lenguaje natural, tratamiento de imágenes, reconocimiento de patrones, predicción de series temporales, etc, convirtiendo a las RNAS en una importante técnica dentro de la investigación científica aplicada. El proyecto desarrollado ha permitido comprobar un rendimiento en general satisfactorio y prometedor para los modelos de edición de registros estadísticos basados en Redes de Neuronas Artificiales y de las aplicaciones realizadas se extraen las siguientes y principales conclusiones. • La imputación de una sola variable a partir del conocimiento del resto de variables permite obtener predicciones muy precisas, con tasas de acierto del 100%. En tales casos, sin excesivos costes computacionales, se puede construir un modelo no lineal de predicción plenamente satisfactorio. • La imputación simultánea de todas las variables de un cuestionario mediante el perceptrón multinivel requiere mayores tiempos de entrenamiento de la red, pero produce resultados alentadores. Las aplicaciones realizadas muestran tasas de casos correctamente corregidos en torno a un 75 u 80%. Incluso en el caso de mezclar este problema con la existencia de inconsistencias, es posible lograr también tasas de acierto para cada variable del 100%. • La edición de inconsistencias en una sola variable, es decir, la detección y corrección de respuestas incorrectas, es realizada muy acertadamente por el perceptrón multinivel, con tasas de acierto de un 98% en el conjunto test, por lo que el modelo es realmente útil y aprovechable. • Finalmente, la aplicación más ambiciosa ha arrojado resultados alentadores para el problema general de edición de registros, considerando tanto el problema de no respuesta como la detección y corrección de inconsistencias. Tanto en ésta como en las otras aplicaciones la mejora de la calidad del conjunto de datos es significativa, por lo que el método tiene una base sólida. Como inconveniente, los tiempos de entrenamiento de la red son bastante superiores a los de las aplicaciones anteriores, pero a cambio los modelos desarrollados son automáticos. Se requieren más estudios aplicados similares a los aquí desarrollados que permitan ampliar el conjunto de resultados disponibles a fin de obtener una mayor comprensión de las capacidades de las RNAS en la tarea de edición de registros estadísticos, en particular para determinar las posibilidades en el problema concreto del tratamiento de inconsistencias, donde creemos que será necesario recurrir a sistemas computacionales más sofisticados, en particular a través de grandes ordenadores apropiados para el cálculo científico intensivo.