
Preprocesamiento de Documentos con Computer Vision (YOLOv8)
Implementación de un algoritmo de Computer Vision (YOLOv8) para detectar y eliminar automáticamente marcas no deseadas en documentación. Este preprocesamiento optimiza la precisión de posteriores procesos de Document Understanding (DU).
Mi Rol
RPA & Computer Vision Specialist
Tamaño del Equipo
3 personas
Duración
5 meses
El Desafío
La empresa procesaba diariamente miles de documentos escaneados, muchos de los cuales contenían sellos, firmas, anotaciones manuales y otros artefactos que reducían significativamente la precisión del OCR y la extracción automática de datos.
Los sistemas tradicionales de OCR tenían dificultades para ignorar estos elementos, lo que resultaba en errores frecuentes y la necesidad de revisión manual.
Los documentos provenían de múltiples fuentes con formatos inconsistentes, lo que complicaba la aplicación de soluciones basadas en plantillas.
Se necesitaba una solución que pudiera identificar y limpiar estos elementos no deseados antes del procesamiento principal, sin afectar la información relevante del documento.
El sistema debía integrarse con el flujo existente de Document Understanding y procesar hasta 200 documentos por minuto durante períodos de alta demanda.
La Solución
Diseñamos e implementamos un pipeline en Python que utiliza YOLOv8, un modelo avanzado de detección de objetos en tiempo real, para analizar las imágenes de documentos.
Entrenamos el modelo con un dataset personalizado de más de 5.000 imágenes etiquetadas manualmente para reconocer diferentes tipos de marcas, sellos, firmas y anotaciones en documentos.
Desarrollamos un algoritmo de limpieza que, una vez detectados los elementos no deseados, los elimina o suaviza de forma inteligente, preservando el texto y la estructura del documento original.
Implementamos un sistema de validación que verifica que la limpieza no haya afectado al contenido relevante, comparando el texto extraído antes y después del procesamiento.
Desplegamos la solución en contenedores Docker, lo que permitió una integración sencilla con la infraestructura existente y facilitó el escalado horizontal durante picos de demanda.
Creamos una API REST para permitir que diferentes servicios envíen documentos para su preprocesamiento, recibiendo como respuesta la imagen limpia junto con metadatos sobre las modificaciones realizadas.
Implementamos un sistema de feedback continuo que permite mejorar el modelo con el tiempo, identificando casos donde la limpieza fue insuficiente o excesiva.
Galería del Proyecto
Comparación antes/después
Documento original vs. documento procesado con YOLOv8
Mapa de calor de detecciones
Visualización de las zonas detectadas como elementos a eliminar
Arquitectura del sistema
Diagrama del pipeline de preprocesamiento
Dashboard de monitorización
Panel de control para seguimiento de métricas y rendimiento
Tecnologías Utilizadas
Python
Lenguaje principal para el desarrollo del pipeline de procesamiento
YOLOv8
Modelo de Computer Vision para detección de objetos en tiempo real
OpenCV
Biblioteca para procesamiento de imágenes y visión artificial
PyTorch
Framework para entrenamiento y despliegue del modelo de IA
Docker
Containerización para despliegue y escalado
FastAPI
Framework para la creación de APIs web
Tesseract OCR
Motor OCR para verificación de resultados
Redis
Almacenamiento en caché y cola de trabajos
Resultados
- Incremento del 25% en la precisión de OCR posterior gracias a la eliminación de elementos que interferían con la lectura.
- Capacidad para procesar 200 documentos por minuto, cumpliendo con los requisitos de rendimiento en picos de demanda.
- Reducción de falsos positivos en reconocimiento de texto en un 30%, mejorando la calidad global de la extracción de datos.
- Disminución del 40% en intervenciones manuales para corregir errores de reconocimiento.
- Despliegue multiplataforma con contenedores Docker, facilitando la integración en diferentes entornos.
- Mejora continua del modelo gracias al sistema de feedback, alcanzando un 92% de precisión en la detección de elementos a eliminar.
Aspectos Destacados
- Desarrollo de una interfaz de etiquetado personalizada que aceleró el proceso de creación del dataset de entrenamiento.
- Implementación de un algoritmo de reconstrucción de texto que preserva la legibilidad incluso después de eliminar elementos superpuestos.
- Creación de una taxonomía de marcas y sellos que permite un tratamiento diferenciado según el tipo de elemento detectado.
- Solución adaptable a múltiples idiomas y formatos de documentos sin necesidad de reentrenamiento específico.
¿Interesado en mejorar tu procesamiento documental?
Puedo ayudarte a implementar soluciones de Computer Vision para optimizar tus flujos de trabajo con documentos.
Contactar