Revolución en la generación visual: Nueva técnica logra integrar comprensión y generación de imágenes

Investigadores del Grupo Ant y de la Universidad de Zhejiang han desarrollado una innovadora técnica que promete revolucionar la forma en que los Modelos de Lenguaje Multimodal (MLLM, por sus siglas en inglés) abordan la generación de imágenes. Estos modelos, tradicionalmente, han separado la comprensión visual de la generación de imágenes, limitando su efectividad. Sin embargo, la nueva propuesta busca una evolución colaborativa de ambas capacidades, potenciando el proceso de generación de imágenes hasta convertirlo en un método introspectivo iterativo.

El estudio introduce un enfoque de entrenamiento en dos etapas. En una primera fase, se utiliza un ajuste fino supervisado para dotar al modelo de la capacidad de generar imágenes genuinas, aplicando una técnica denominada Chain-of-Thought (CoT, Cadena de Pensamiento), que permite razonamientos complejos que mejoran la calidad de la generación de imágenes. La segunda etapa revoluciona este proceso mediante el aprendizaje por refuerzo, lo que permite al modelo explorar y explotar sus capacidades a fondo.

La propuesta logró desbloquear lo que los investigadores describen como el “momento Aha” en la generación visual. Durante extensos experimentos, el modelo demostró no solo una notable destreza en la generación de imágenes a partir de texto y en la edición de imágenes, sino también mejoró sus capacidades de comprensión visual semántica.

Los resultados son esperanzadores para quienes buscan integrar tareas complejas de comprensión y generación visual de manera más eficiente. En las pruebas, el modelo ha superado a otros métodos tanto en tener una mejor alineación contexto-semántica de las imágenes generadas a partir del texto, como en la preservación y fidelidad de los elementos visuales originales durante la edición de imagen.

Al concluir, los investigadores sugieren que este avance podría ser la clave para desbloquear el verdadero potencial de los modelos de lenguaje multimodal, abriendo nuevas posibilidades en el ámbito de la inteligencia artificial para la creación de sistemas dialogantes multimodales más inteligentes.

Solo noticias

y ya

Revolución en la generación visual: Nueva técnica logra integrar comprensión y generación de imágenes