Revolución en la Generación de Imágenes: Llega PRISM

Investigadores en inteligencia artificial han presentado un avance significativo en la generación de imágenes a partir de texto mediante el desarrollo de PRISM. Este algoritmo automatiza la creación de “prompts” que son transferibles y comprensibles por humanos, superando las limitaciones que presentaban los métodos manuales tradicionales. Al evitar la necesidad de ajustar los modelos subyacentes, PRISM surge como una solución versátil para modelos de texto-a-imagen (T2I), como Stable Diffusion y DALL-E 2, e incluso para modelos cerrados como Midjourney.

PRISM toma inspiración de técnicas previas utilizadas para “liberar” modelos de lenguaje de gran escala (LLMs), utilizando su habilidad de aprendizaje en contexto para refinar iterativamente una distribución de prompts candidatos basada en imágenes de referencia. Esto no solo permite la creación de imágenes precisas en términos visuales, sino también su contextualización de manera efectiva, dirigiéndose a objetos y estilos específicos tal como se muestran en imágenes de referencia.

Durante el proceso, PRISM genera un primer prompt utilizando un modelo de lenguaje-visual. Posteriormente, se calcula una puntuación que mide la similitud visual entre la imagen generada y la de referencia. Este procedimiento se repite por un número predeterminado de iteraciones, refinando constantemente el prompt hasta obtener el mejor resultado, sin requerir acceso a los parámetros internos del modelo.

Los ensayos realizados con PRISM han demostrado una significante mejora en la capacidad de transferencia y generalización, superando a métodos existentes tanto en precisión visual como en interpretabilidad por humanos. Al permitir la edición de prompts de manera sencilla y efectiva, PRISM abre un amplio abanico de posibilidades creativas, permitiendo a estos prompts ser utilizados en aplicaciones reales.

Las evaluaciones han indicado que PRISM mantiene un alto nivel de precisión visual al tiempo que mejora considerablemente la interpretabilidad humana de los prompts generados. Este avance supone un gran paso hacia un enfoque más generalizado y eficiente para la generación de imágenes basadas en texto, estableciendo un precedente para futuros desarrollos en el mismo campo.

Solo noticias

y ya

Revolución en la Generación de Imágenes: Llega PRISM