Download Un sistema de captura de video en alto rango dinamico

Document related concepts
no text concepts found
Transcript
Un sistema de captura de video en alto rango dinámico
Salvador García Bernal
The University of Nottingham, U.K.
Estudiante de doctorado en Ciencias de la Computación 1
1 - Introducción
El sentido de nuestra vista es el más elegante que los humanos poseen. Gracias a ello,
podemos percibir impresionantes escenas con alto contenido en formas y colores. A grandes rasgos
la partícula básica de la luz (fotón) son captados por los conos y bastones en la base de nuestro
globo ocular. Una vez obtenida ésta información, subjetivamente es interpretada por el cerebro. Una
particularidad con la que los humanos vemos el mundo, es cuando pasamos de un ambiente
extremadamente iluminado a uno con menor contenido lumínico. La pupila se adapta al entorno
regulando la cantidad de luz que es absorbida y posteriormente procesada. Este cambio de
contenido lumínico se le ha denominado alto rango dinámico ó HDR por sus siglas en inglés.
Este rango usualmente es mayor a 100,000:1, lo cual indica que cualquier sensor se sobresaturaria y no podría capturar claramente una escena con dichas condiciones. El ejemplo claro es el
mostrado en una típica fotografía en contra luz, dónde puede observarse que la iluminación captada
no es uniforme. Usualmente, la mayoría de los sensores quantizan una imagen en 8-bits ó 16-bits.
Con lo cual es generada una imagen representativa de bajo rango dinámico ó LDR por sus siglas en
inglés.
Para capturar una imagen de alto rango dinámico, una solución fue propuesta por el trabajo
pionero de Mann[1] , Debevec[2] y Nayar[3]. En esencia el principio consiste en capturar imágenes
múltiples con diferente exposición ( variante en el tiempo), de ésta manera, una exposición baja
cubre las zonas con mayor luminosidad y una exposición alta cubre las zonas menor iluminadas en
la escena. Esto funciona bien para imágenes con cinemática nula, pero al portar ésta misma técnica
a escenas con cinemática rígida, algunos problemas surgen. Además de esto la imagen obtenida
debe ser mapeada a una imagen LDR para poder ser visualizada en un rango discreto que los
monitores puedan interpretar.
2 - Series de imagenes variantes en el tiempo
El uso de imágenes HDR ha sido popularizado gracias a dispositivos como el iPhone[4], que
permiten tomar tres imágenes en un lapso de tiempo reducido. Anteriormente ésta técnica ha sido
explorada por muchos fotógrafos[5],[6]. Un problema interesante de capturar escenas con
cinemática rígida usando una cámara, es la introducción de artefactos que generan el tipico blur o
1
ghost (fantasmas) en el resultado final. Durante ésta investigación se han realizado dos sistemas de
video que permiten capturar contenidos con dichas condiciones, cubriendo las zonas con mayor y
menor iluminación.
2.1 Sistema de exposición variante en el tiempo
Para realizar un sistema variante en el tiempo, debe considerarse un dispositivo capaz de
cambiar cada exposición sin introducir un alto retardo. Esto se traduce, como el tiempo que el
sensor requiere para estabilizar una exposición y tomar una nueva con ganancia diferente a la
previa. En está investigación, se ha podido observar que un factor crucial es tener exposiciones
constantes, lo cual no es inmune a glitches. La razón principal de este efecto es el tiempo que
requiere el sensor en estabilizar cada exposición. Varios investigadores no han considerado este
factor. Para ello se ha diseñado un algoritmo temporal que analiza la serie de imágenes para
recuperar la secuencia correcta. Algunos investigadores como Stephen y Jerry[7], proponen un
sistema que estima los parámetros en el dominio del tiempo para predecir la cinematica de los
objetos, de ésta manera se evita tener imágenes dobles de un mismo objeto. Ellos asumen que las
exposiciones son constantes y que no contienen ninguna anomalía de exposición temporal.
Este tipo de sistemas tienen como ventaja el uso de un solo sensor, su complejidad se observa
en dos características: alto costo computacional y un sensor con bajos tiempos de respuesta. Es por
ello que este tipo de sistemas, pueden ser mejorados introduciendo multiples sensores.
2.2 Sistema de exposición invariante en el tiempo
Trabajos recientes realizados en la universidad de Nuevo México[8] y la universidad de
Linköping[9], han desarrollado un sistema de sensores múltiples. En donde cada sensor es calibrado
basado en un sistema óptico y usando una exposición invariante en el tiempo. De ésta forma cada
sensor captura un rango lumínico diferente. Una ventaja de este sistema es el uso de una
arquitectura paralela para fusionar la serie de imágenes y así obtener una imagen representativa que
contiene la información de la escena capturada.
En nuestro caso, se ha diseñado un sistema de sensores multiples usado una variante de la
arquitectura óptica para dividir la luz entrante. Se han diseñado diferentes versiones con resultados
aceptables. La ventaja de estos sistemas radica en la simplicidad de la adquisición de la imagen pero
su complejidad en el sistema óptico. Hay que mencionar que una parte crucial es la correcta
selección de lentes y calibración de los sensores para obtener un imagen alineada correctamente. Ya
que esto puede generar artefactos al momento de aplicar algún algoritmo de fusión.
2
2.3 HDR / TMO y Fusion
Dentro de los métodos con los que se puede recuperar una imagen de alto rango dinámico, es
el propuesto por Debevec, basado en ésta idea; se ha propuesto una alternativa, en la que se estima
de manera independiente la contribución que cada imagen tiene para generar los pixeles que tengan
una descripción de luminosidad con cambios no bruscos. Obteniendo este mapa de radiancia, se
procede a discretizar el espacio con un operador de mapeo de tonos (TMO). Con ello se ha usado la
idea propuesta por Duan[10] adaptando el operador a video. Hay que mencionar que para ambos
sistemas (invariante y variante en el tiempo) actualmente se cuenta con un sistema off-line. Dónde
actualmente se encuentra en desarrollo el sistema en tiempo real.
En la técnica de fusion se ha propuesto una función rombica que permite estimar los pesos
que cada pixel contribuye a la imagen resultante. Se han realizado pruebas con este algoritmo y se
cuenta con un sistema en tiempo real para ambos prototipos. Esto es gracias a que el algoritmo no
requiere un alto costo computacional. De igual manera se continúa en un análisis de este método
para mejorar el aspecto visual del video obtenido.
3 – Descripción general del prototipo
En los últimos meses se han desarrollado tres versiones del sistema que se ha denominado
OHDRC (Open High Dyanamic Range Camera). Este prototipo actualmente en su tercera versión,
usa componentes off-the-shelf , está compuesto por un divisor óptico, varios anillos de montura tipo
C, lentes acromáticos y sensores tipo VGA a color. Se usa un mezclador de señales con salida
FireWire B. Todo esto se ha montado en un diseño con plástico acrílico, cuyas dimensiones son: 70
x 122 x 122 mm en su última versión. El sistema pesa alrededor de 200 gramos y puede ser
conectado a una computadora con puerto FireWire.
El software se ha desarrollado usando librerías libdc1394[11] de uso estándar para este tipo de
sensores, además se usa OpenCV y librerías propias en C para realizar el procesamiento de fusión y
mapeo de las imágenes obtenidas.
Actualmente se está desarrollando la inclusión de un algoritmo automático para la selección
de exposiciones dependiendo de la cantidad de luz en la escena, para la obtención de video en
situaciones complejas tal como en un ambiente con altos contenidos lumínicos. Así como mejoras a
los algoritmos de fusión y adecuación para un sistema en tiempo real.
4 – Conclusiones
Para el sistema de exposición variante en el tiempo, se ha podido obtener video a 15 fps y 30
fps. Se han propuesto varios algoritmos para realizar la selección, ordenar la serie de imágenes,
3
además de una metodología para calibrar los sensores y obtener los valores adecuados que deben
ser cargados a los registros de control del sensor para usarse en la selección de exposiciones. Es
claro que usando un solo sensor tiene ventajas en tamaño, peso y portabilidad del sistema. Pero, el
costo computacional es algo que se está analizando para poderlo implementar en unidades GPU.
En el sistema de exposición invariante en el tiempo, se ha observado que una ventaja
importante de usar varios sensores es la inmunidad a glitches, registración de objetos, simplicidad
para obtener imágenes de amplio rango dinámico ( pipeline paralela), en el cual su único
inconveniente pudiera ser el diseño óptico. Se ha usado un sistema óptico equiparable al presentado
por AMP[3]. Se ha propuesto e implementado varios algoritmos de fusión de múltiples imágenes,
para obtener una imagen representativa que contiene información de ambos sensores (tanto en offline como on-line) y se ha diseñado el sistema lo más portable posible usando componentes off-theshelf. Se está investigando como optimizarlo usando diferentes sensores y componentes ópticos.
Algunas de las posibles aplicaciones consideradas, es en sistemas de vigilancia; ya que
permite observar escenas adversas con alto contenido de iluminación. De igual manera en un futuro
cercano se contempla pueda ser usada ésta tecnología por el público en general en sistemas de video
conferencias para web.
Referencias
[1]Steve Mann. Comparametric equations with practical applications in quantigraphic image
processing. IEEE Transaction on Image Processing., 9,8:1389–1406, 2000.
[2]Debevec P. and Malik J. Recovering high dynamic range radiance maps from photographs.
Proceedings of SIGGRAPH., pages 369–378, 1997.
[3]Nayar S. and Mitsunaga T. High dynamic range imaging: spatially varying pixel exposures. Proceedings of CVPR, pages 472–479, 2000.
[4]Apple. Iphone. http://www.apple.com/iphone/built-in-apps/camera.html. (Retrive 2010, october)
[5] Trey Ratcliff's fine art photography and travel photography. http://www.stuckincustoms.com/
[6] Ken Kaminesky. Travel and Lifestyle photography. http://kenkaminesky.com/
[7]Stephen Mangiat and Jery Gibson. High dynamic range video with ghost removal. IECI, 2009.
[8]Nora T. Michael D. T, Chris K and Pradeep S. A versatile hdr video production system. Proceedings of SIGGRAPH., 2011.
[9] Joel Kronander, Stefan Gustavson, Jonas Unger. Real-time HDR video reconstruction for multisensor systems. SIGGRAPH.,2012
[10]Jiang Duan. Tone Mapping for High Dynamic Range Image. PhD thesis, University of
Nottingham., 2006 .
[11]Damien Champs. libdc1394: The api for ieee1394 / firewire cameras., 2010.
4