Defensa Tesis Licenciatura Martín Rais
Titulo: Detección y Localización de Texto en Imágenes. Director: MSc. Norberto Goussies. Co-Director: Marta Mejail
| Qué |
|
|---|---|
| Cuándo |
01/08/2011 de 02:30 pm a 03:30 pm |
| Dónde | Aula a confrimar |
| Agregar evento al calendario |
|
- Titulo: Detección y Localización de Texto en Imágenes
- Director: MSc. Norberto Goussies
- Co-Director: Marta Mejail
- Jurados: Dr. Daniel Acevedo y Lic. Francisco Gómez Fernández
- Resumen
El texto embebido en imágenes y video por lo general, nos provee de certera información sobre el contenido de la imagen, como puede ser el nombre del comentarista de un partido, el título o el lugar de un evento relatado, los nombres de los negocios de una zona determinada, identificación de vehículos a través de sus patentes en una carretera, carteles de velocidad máxima, entre muchos otros. Sumado a esto, desde los noventas, con el rápido crecimiento de la información multimedia digital y la mayor demanda para la indexación y recuperación de información, la extracción de texto en imágenes y en videos ha adquirido una notable importancia en los últimos años.
A diferencia de los documentos en donde el texto suele ser fácilmente reconocible por un OCR, el texto contenido en imágenes posee fondos complejos lo que implica la necesidad de realizar un preprocesamiento previo al reconocimiento. Para esto, es necesario como primer paso detectar y localizar el texto en la imagen para luego segmentarlo y realizar dicho reconocimiento.
Sin embargo, la detección de texto en imágenes es una tarea no trivial debido a que, además de estar embebido en fondos complejos, el texto en imágenes puede aparecer en diferentes variantes, ya sea con distintos tamaño de fuente, utilizando diferentes alfabetos, con mala calidad de imagen, entre muchas otras, lo que hacen de la detección de texto un área que ha adquirido mucha atención en la actualidad.
En este trabajo, se propone un método de detección y localización de texto en imágenes basado en la información de las trazas, una característica específicamente útil para la detección de texto. Como primer paso, realizamos una detección rápida basada en morfología utilizando la detección de ejes multi-escala calculada mediante wavelets. A partir de estos resultados, se computa el filtro de trazas para luego, mediante un algoritmo de ventana deslizante y a través de una máquina de soporte vectorial (SVM), obtener los bounding boxes iniciales.
A diferencia de los trabajos actuales, en esta tesis se le presta una mayor importancia a la obtención inicial de bounding boxes. Tres técnicas son evaluadas para este fin, donde la primera está basada en el uso de reglas estáticas, la segunda en el análisis de componentes conexas (CCA) y la tercera, propuesta en el presente trabajo, combina CCA con los resultados de un algoritmo llamado Adaptive Run Length Smoothing Algorithm (ARLSA), una versión adaptativa del famoso algoritmo RLSA frecuentemente utilizado en OCR.
Posteriormente, una etapa de refinamiento es realizada para mejorar la precisión del algoritmo, en donde se utilizan técnicas de projection profiles y zero crossing para adaptar con mayor fidelidad los bounding box a las líneas de texto. Luego, un algoritmo de expansión es realizado para mejorar el reconocimiento del algoritmo, y al mismo tiempo, sugerir la eliminación de falsos positivos. Esta etapa culmina con la eliminación de bounding boxes que no cumplen con un conjunto de reglas geométricas establecidas en el trabajo.
Por último, este algoritmo realiza la verificación de los resultados utilizando un método innovador que combina tres variables. La primera, propuesta en esta tesis, realiza la verificación utilizando los resultados del algoritmo ARLSA y tanto la segunda como la tercera, en cambio, utilizan las características de las trazas para realizar una clasificación mediante SVM, aprovechando sus valores de salida.
Basándose en los resultados obtenidos luego de evaluar nuestro trabajo con un conjunto de pruebas conocido, nuestro método demostró ser preciso, poseer buen nivel de reconocimiento y ser robusto a distintos tamaños de textos, fuentes, colores y alfabetos.


