CLIP Lens: el proyecto de generación de imágenes sintéticas para abordar escenarios de escasez de datos que se desarrolla en Murcia afronta su recta final
El proyecto CLIP Lens, desarrollado por el CENTIC en Murcia con fondos europeos, está en su recta final. El objetivo principal del proyecto es superar las limitaciones en la disponibilidad de datos mediante la introducción de una metodología sólida que aprovecha las tecnologías Stable Diffusion, DreamBooth y LoRA para la generación de imágenes sintéticas. La metodología del proyecto se ha aplicado con éxito a tres casos de uso distintos: prendas de vestir, profesiones y objetos. Adicionalmente, este enfoque se ha evaluado con tres versiones de Stable Diffusion, obteniendo para todos los casos resultados más que satisfactorios.
Los principales investigadores del proyecto son Raquel Espinosa, Javier Abellán y José Miguel Bolarín. Actualmente, el equipo está explorando opciones para que las imágenes generadas puedan integrarse con una herramienta basada en CLIP para su etiquetado automático. Esto agilizará el proceso de anotación de datos, mejorando la eficiencia general del proyecto y abriendo las puertas a futuras aplicaciones en diversos dominios.
La metodología propuesta en el proyecto CLIP Lens es una combinación de clasificadores de pocos disparos de última generación como CLIP, y una robusta generación de datos de aumento como Stable Diffusion y DreamBooth. Esta metodología permite construir motores de búsqueda más robustos que sean automáticos y explicables, especialmente para datos escasos de dominios muy específicos que las pymes como usuarios finales pueden poseer.
La escasez de datos de medios cruzados puede producir un entrenamiento poco confiable para los científicos de datos. Por lo tanto, podría ser necesario un aumento de datos robusto para confiar en una mejor base de datos con imágenes de dominio específico. Las imágenes de dominio muy específicas de una empresa no se pueden extraer mediante la metodología de cero disparo de CLIP porque CLIP nunca ha visto ese tipo de imágenes (fuera de dominio). Por lo tanto, se requiere una sonda lineal CLIP para volver a entrenar estas imágenes de nuevo dominio (ajuste fino de la última capa).
Si se detecta una deriva de dominio (identificación de nuevos contextos en las imágenes de consulta del usuario), se puede utilizar un aumento de datos supervisado como DreamBooth para generar los elementos de la empresa en estos nuevos escenarios/dominios.
¡Esperamos que este proyecto sea de gran ayuda para las pymes y otros usuarios finales! Si tienes alguna pregunta o comentario sobre el proyecto, no dudes en hacérnoslo saber en los comentarios.