Download Resumen - Tesis U. de Chile

Document related concepts
no text concepts found
Transcript
UNIVERSIDAD DE CHILE
FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS
DEPARTAMENTO DE INGENIERÍA ELÉCTRICA
Detección de rostro mediante redes neuronales Min-Max
difusas.
Tesis para optar al grado de Magíster en Ciencias de la Ingeniería, Mención Ingeniería
Eléctrica.
Memoria para optar al título de Ingeniero Civil Electricista
Por:
Rodrigo José Flores Medina
Profesor guía:
Pablo Estévez Valencia
Miembros
de
la
Claudio Pérez Flores, Claudio Held Barrandeguy y Pablo Zegers Fernández
Santiago de Chile - Marzo 2007
Tesis con embargo temporal según petición del autor (disponible en julio de 2009)
Comisión:
Resumen
En el último tiempo han aparecido nuevas técnicas de interacción hombre-máquina basadas en
el procesamiento digital de imágenes. En particular, las imágenes que contienen rostros juegan
un rol fundamental en dicha interacción, en aplicaciones tales como reconocimiento <;le
personas, seguimiento de rostro, reconocimiento de expresiones, seguimiento de iris, detección
de parpadeo, etc. Determinar la posición de un rostro dentro de una imagen no es una tarea
sencilla debido a distintos factores, como por ejemplo 1<:1' variabilidad de escala en que éste
se encuentre dentro de la imagen, oclusión o si la iluminación no es adecuada.
Los métodos de detección de rostro se separan en cuatro categorías según el tipo de
características en que se basan: conocimiento, características invariantes, enmascaramiento y
apariencia. En general, los métodos no son puros en su separación, es decir existen métodos
que se basan en más de un tipo de características.
En esta tesis se propone un nuevo método de detección de rostro, considerando un rostro frontal
por imagen, en imágenes a color, basado en redes neuronales denominadas Min-Max Difusas
(FMM: Fuzzy Min-Max neural networks). Este método es un proceso de expansión-contracción de
hipercajas en las regiones a segmentar utilizando como patrones de entrada píxe1es
denominados semilla. Dicho proceso se divide en 7 etapas: detección de piel (selección de
píxe1es semillas), expansión de hipercajas, prueba de traslapo de hipercajas, contracción de
hipercajas, ajuste fino de hipercajas, fusión de hipercajas y validación de candidatos a rostro. En
las etapas de expansión, prueba de traslapo y contracción se generan y eliminan sucesivamente
hipercajas tal de cubrir la mayor extensión posible del objeto a segmentar, en la etapa de ajuste
fino se prolongan las hipercajas tal de que estas contengan el objeto a segmentar, la etapa de
fusión permite unir las hipercajas que contienen un mismo objeto, y la etapa de validación de
candidatos a rostro permite eliminar los objetos segmentados que no son rostro. Las 6 primeras
etapas de FMM-FD contienen parámetros que deben ser adecuadamente seleccionados, para
esto se utilizó un algoritmo de computación evolutiva llamada Particle Swarm Optimization
(PSO) que permite obtener óptimos locales de una función. Para medir la tasa de acierto de
FMM-FD se marcaron manualmente los rostros de las distintas bases de datos. Luego, se
construyó una función que evalúa las siguientes características: el acierto de la detección, el
ajuste de la segmentación entregada con respecto a una segmentación manual y el tiempo de
ejecución. En la etapa de validación de candidatos a rostro se utiliza un clasificador basado en
máquinas de soporte vectorial entrenada para separar rostros de no-rostros, lo que reduce
considerablemente los falsos positivos generados por las etapas iniciales.
El nuevo método de detección de rostro fue probado en 3 bases de datos, todas con rostros de
una persona por imagen, pero de distinto nivel de dificultad: la base Purdue con fondo blanco, la
base FERET con fondo de distintos colores y la base CALTECH con fondos de distintos lugares y
no controlados. En la base Purdue se obtuvo un tasa de acierto del 97 %, FERET del 92 % y en
CALTECH del 70%. Las tasa de falsos positivos obtenida en Purdue (6%) y FERET (12%) fueron
bajas, no así en CALTECH donde se obtuvo una tasa del 20 %. En 10 que respecta al tiempo de
ejecución se tiene un promedio por imagen de 0,3 segundos en Purdue y FERET, y de 0,5
segundos en CALTECH.
Texto con restricción temporal
Tesis con embargo temporal según petición del autor (disponible en julio de 2009)