Los avances recientes en el modelo GPT-4o de OpenAI para la generación y edición de imágenes han dejado atónita a la comunidad investigadora gracias a sus notables capacidades. Para evaluar este progreso, se ha presentado un nuevo referente de evaluación, GPT-ImgEval, que analiza el rendimiento de GPT-4o en la generación de imágenes, la habilidad de edición basada en instrucciones y la síntesis semántica informada por el conocimiento del mundo.
Este análisis reveló que GPT-4o no solo supera a métodos anteriores en términos de control y calidad de salida de generación de imágenes, sino que también destaca por su capacidad de razonamiento basado en el conocimiento. La arquitectura de GPT-4o ha sido objeto de especulación; se sugiere que utiliza una combinación de un modelo autoregresivo con una cabeza de difusión para la decodificación de imágenes, lo que le confiere una ventaja en su proceso de generación artificial.
En cuanto a la edición de imágenes, el modelo exhibe sorprendentes destrezas, colocando el listón muy alto en el benchmark Reason-Edit con una capacidad sobresaliente para adherirse a instrucciones y controlar detalles finos. Las imágenes generadas por GPT-4o son detectadas fácilmente por modelos forenses actuales, debido a un proceso interno de superresolución que deja artefactos identificables.
Más allá de las pruebas de referencia, comparado con otros modelos comerciales como Gemini 2.0 Flash, GPT-4o mostró ser más consistente y comprensivo en la edición interactiva de múltiples rondas, aunque con menos eficiencia en velocidad.
A través de sus debilidades en generación bajo condiciones complejas y texto no en inglés, queda claro que, aunque GPT-4o ha avanzado mucho en la generación de imágenes, todavía existen áreas que requieren mejoras. No obstante, estas exploraciones proporcionan una base rica en conocimientos para futuras investigaciones, impulsando la innovación en la generación de imágenes.