Download Resumen - Tesis U. de Chile
Document related concepts
no text concepts found
Transcript
UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS DEPARTAMENTO DE INGENIERÍA ELÉCTRICA Detección de rostro mediante redes neuronales Min-Max difusas. Tesis para optar al grado de Magíster en Ciencias de la Ingeniería, Mención Ingeniería Eléctrica. Memoria para optar al título de Ingeniero Civil Electricista Por: Rodrigo José Flores Medina Profesor guía: Pablo Estévez Valencia Miembros de la Claudio Pérez Flores, Claudio Held Barrandeguy y Pablo Zegers Fernández Santiago de Chile - Marzo 2007 Tesis con embargo temporal según petición del autor (disponible en julio de 2009) Comisión: Resumen En el último tiempo han aparecido nuevas técnicas de interacción hombre-máquina basadas en el procesamiento digital de imágenes. En particular, las imágenes que contienen rostros juegan un rol fundamental en dicha interacción, en aplicaciones tales como reconocimiento <;le personas, seguimiento de rostro, reconocimiento de expresiones, seguimiento de iris, detección de parpadeo, etc. Determinar la posición de un rostro dentro de una imagen no es una tarea sencilla debido a distintos factores, como por ejemplo 1<:1' variabilidad de escala en que éste se encuentre dentro de la imagen, oclusión o si la iluminación no es adecuada. Los métodos de detección de rostro se separan en cuatro categorías según el tipo de características en que se basan: conocimiento, características invariantes, enmascaramiento y apariencia. En general, los métodos no son puros en su separación, es decir existen métodos que se basan en más de un tipo de características. En esta tesis se propone un nuevo método de detección de rostro, considerando un rostro frontal por imagen, en imágenes a color, basado en redes neuronales denominadas Min-Max Difusas (FMM: Fuzzy Min-Max neural networks). Este método es un proceso de expansión-contracción de hipercajas en las regiones a segmentar utilizando como patrones de entrada píxe1es denominados semilla. Dicho proceso se divide en 7 etapas: detección de piel (selección de píxe1es semillas), expansión de hipercajas, prueba de traslapo de hipercajas, contracción de hipercajas, ajuste fino de hipercajas, fusión de hipercajas y validación de candidatos a rostro. En las etapas de expansión, prueba de traslapo y contracción se generan y eliminan sucesivamente hipercajas tal de cubrir la mayor extensión posible del objeto a segmentar, en la etapa de ajuste fino se prolongan las hipercajas tal de que estas contengan el objeto a segmentar, la etapa de fusión permite unir las hipercajas que contienen un mismo objeto, y la etapa de validación de candidatos a rostro permite eliminar los objetos segmentados que no son rostro. Las 6 primeras etapas de FMM-FD contienen parámetros que deben ser adecuadamente seleccionados, para esto se utilizó un algoritmo de computación evolutiva llamada Particle Swarm Optimization (PSO) que permite obtener óptimos locales de una función. Para medir la tasa de acierto de FMM-FD se marcaron manualmente los rostros de las distintas bases de datos. Luego, se construyó una función que evalúa las siguientes características: el acierto de la detección, el ajuste de la segmentación entregada con respecto a una segmentación manual y el tiempo de ejecución. En la etapa de validación de candidatos a rostro se utiliza un clasificador basado en máquinas de soporte vectorial entrenada para separar rostros de no-rostros, lo que reduce considerablemente los falsos positivos generados por las etapas iniciales. El nuevo método de detección de rostro fue probado en 3 bases de datos, todas con rostros de una persona por imagen, pero de distinto nivel de dificultad: la base Purdue con fondo blanco, la base FERET con fondo de distintos colores y la base CALTECH con fondos de distintos lugares y no controlados. En la base Purdue se obtuvo un tasa de acierto del 97 %, FERET del 92 % y en CALTECH del 70%. Las tasa de falsos positivos obtenida en Purdue (6%) y FERET (12%) fueron bajas, no así en CALTECH donde se obtuvo una tasa del 20 %. En 10 que respecta al tiempo de ejecución se tiene un promedio por imagen de 0,3 segundos en Purdue y FERET, y de 0,5 segundos en CALTECH. Texto con restricción temporal Tesis con embargo temporal según petición del autor (disponible en julio de 2009)