La generación de anuncios de video a partir de texto, conocido como “Animated Layout Generation”, está experimentando un notable avance gracias a un innovador enfoque presentado mediante el sistema VAKER. Esta tecnología, desarrollada por un grupo de investigadores de la Universidad Nacional de Seúl y SK Telecom, introduce una representación estructurada de texto como fuente de control preciso en la creación de videos.
Partiendo de desafíos identificados en modelos previos, como el control limitado sobre el texto legible y los gráficos animados, VAKER ha demostrado su eficacia en la generación de anuncios de video completamente automatizados. Utilizando una representación textual jerárquica estructurada, la tecnología permite un control granular sobre los elementos visuales, respetando las relaciones espaciales y temporales esenciales en la integración en pantalla de texto y gráficos.
El proceso de VAKER se desarrolla en un esquema de tres etapas: Banner, Mainground y Animación. A través de este pipeline único, donde cada etapa emplea un modelo de lenguaje adaptado, se logra una coherente transición del texto al contenido visual animado de los anuncios. El sistema ha sido probado con una base de datos sustancial de anuncios reales, donde batió a otras herramientas existentes en precisión textual y capacidad de animación.
Este avance destaca especialmente en su capacidad para superar limitaciones presentadas en métodos de difusión actuales, que enfrentaban dificultades en la creación de texto en pantalla clara y precisa. La habilidad de VAKER para conjugar texto y gráficos en movimiento con fluidez ofrece un marco robusto para la creación de contenidos publicitarios visuales dinámicos.
La implementación de la Representación de Texto Estructurado permite que este enfoque se integre fácilmente con Modelos de Lenguaje a Gran Escala, mostrando una compatibilidad natural y potencial para ampliar sus aplicaciones a dominios de síntesis de video más amplios. Al abordar y superar los obstáculos anteriores al ajustar dinámicamente elementos gráficos en video, este sistema abre la puerta a nuevas posibilidades en la automatización de la producción de contenido audiovisual.