2023Empresa de Gestión Documental5 meses

Preprocesamiento de Documentos con Computer Vision (YOLOv8)

Implementación de un algoritmo de Computer Vision (YOLOv8) para detectar y eliminar automáticamente marcas no deseadas en documentación. Este preprocesamiento optimiza la precisión de posteriores procesos de Document Understanding (DU).

Mi Rol

RPA & Computer Vision Specialist

Tamaño del Equipo

3 personas

Duración

5 meses

PythonYOLOv8OpenCVPyTorchDockerFastAPITesseract OCRRedis

El Desafío

La empresa procesaba diariamente miles de documentos escaneados, muchos de los cuales contenían sellos, firmas, anotaciones manuales y otros artefactos que reducían significativamente la precisión del OCR y la extracción automática de datos.

Los sistemas tradicionales de OCR tenían dificultades para ignorar estos elementos, lo que resultaba en errores frecuentes y la necesidad de revisión manual.

Los documentos provenían de múltiples fuentes con formatos inconsistentes, lo que complicaba la aplicación de soluciones basadas en plantillas.

Se necesitaba una solución que pudiera identificar y limpiar estos elementos no deseados antes del procesamiento principal, sin afectar la información relevante del documento.

El sistema debía integrarse con el flujo existente de Document Understanding y procesar hasta 200 documentos por minuto durante períodos de alta demanda.

La Solución

Diseñamos e implementamos un pipeline en Python que utiliza YOLOv8, un modelo avanzado de detección de objetos en tiempo real, para analizar las imágenes de documentos.

Entrenamos el modelo con un dataset personalizado de más de 5.000 imágenes etiquetadas manualmente para reconocer diferentes tipos de marcas, sellos, firmas y anotaciones en documentos.

Desarrollamos un algoritmo de limpieza que, una vez detectados los elementos no deseados, los elimina o suaviza de forma inteligente, preservando el texto y la estructura del documento original.

Implementamos un sistema de validación que verifica que la limpieza no haya afectado al contenido relevante, comparando el texto extraído antes y después del procesamiento.

Desplegamos la solución en contenedores Docker, lo que permitió una integración sencilla con la infraestructura existente y facilitó el escalado horizontal durante picos de demanda.

Creamos una API REST para permitir que diferentes servicios envíen documentos para su preprocesamiento, recibiendo como respuesta la imagen limpia junto con metadatos sobre las modificaciones realizadas.

Implementamos un sistema de feedback continuo que permite mejorar el modelo con el tiempo, identificando casos donde la limpieza fue insuficiente o excesiva.

Galería del Proyecto

Comparación antes/después

Documento original vs. documento procesado con YOLOv8

Mapa de calor de detecciones

Visualización de las zonas detectadas como elementos a eliminar

Arquitectura del sistema

Diagrama del pipeline de preprocesamiento

Dashboard de monitorización

Panel de control para seguimiento de métricas y rendimiento

Tecnologías Utilizadas

Python

Lenguaje principal para el desarrollo del pipeline de procesamiento

YOLOv8

Modelo de Computer Vision para detección de objetos en tiempo real

OpenCV

Biblioteca para procesamiento de imágenes y visión artificial

PyTorch

Framework para entrenamiento y despliegue del modelo de IA

Docker

Containerización para despliegue y escalado

FastAPI

Framework para la creación de APIs web

Tesseract OCR

Motor OCR para verificación de resultados

Redis

Almacenamiento en caché y cola de trabajos

Resultados

Incremento del 25% en la precisión de OCR posterior gracias a la eliminación de elementos que interferían con la lectura.
Capacidad para procesar 200 documentos por minuto, cumpliendo con los requisitos de rendimiento en picos de demanda.
Reducción de falsos positivos en reconocimiento de texto en un 30%, mejorando la calidad global de la extracción de datos.
Disminución del 40% en intervenciones manuales para corregir errores de reconocimiento.
Despliegue multiplataforma con contenedores Docker, facilitando la integración en diferentes entornos.
Mejora continua del modelo gracias al sistema de feedback, alcanzando un 92% de precisión en la detección de elementos a eliminar.

Aspectos Destacados

Desarrollo de una interfaz de etiquetado personalizada que aceleró el proceso de creación del dataset de entrenamiento.
Implementación de un algoritmo de reconstrucción de texto que preserva la legibilidad incluso después de eliminar elementos superpuestos.
Creación de una taxonomía de marcas y sellos que permite un tratamiento diferenciado según el tipo de elemento detectado.
Solución adaptable a múltiples idiomas y formatos de documentos sin necesidad de reentrenamiento específico.

¿Interesado en mejorar tu procesamiento documental?

Puedo ayudarte a implementar soluciones de Computer Vision para optimizar tus flujos de trabajo con documentos.

Contactar

Volver a proyectos

Proyecto anterior Proyecto siguiente