Tel Aviv, 2025 - Investigadores de la Universidad de Tel Aviv han presentado FlowMo, un innovador método de orientación para mejorar la coherencia temporal en modelos de generación de texto a video. Este método, aclamado en la comunidad científica, se enfoca en mitigar los problemas de artefactos temporales comunes en estos modelos, sin necesidad de reentrenamiento.
Los modelos de difusión de texto a video suelen enfrentarse a limitaciones cuando se trata de capturar dinámicas temporales precisas, reproduciendo fenómenos como la aparición y desaparición de objetos, miembros duplicados o movimientos abruptos. Sin embargo, FlowMo propone un cambio de paradigma al utilizar señales temporales latentes que el modelo preentrenado ya posee, eliminando la necesidad de entrenamiento adicional o señales condicionantes externas.
La clave del enfoque de FlowMo reside en la distinción de la representación temporal de video, donde se mide la distancia entre pares de frames consecutivos, eliminando el sesgo de apariencia. Este proceso permite medir la coherencia del movimiento basado en la variación parche a parche en la dimensión temporal, guiando al modelo a reducir estas variaciones de manera dinámica durante el muestreo.
Una serie de experimentos exhaustivos muestran la efectividad de FlowMo, destacando mejoras significativas en la coherencia del movimiento sin sacrificar la calidad visual o la alineación con el texto. Los métodos utilizados en la investigación señalaron que al reducir la variación temporal entre parches se logra una representación más suave de los cambios de imagen en el tiempo, lo cual se traduce en un comportamiento más coherente en la representación de los píxeles.
Las evaluaciones automáticas y humanas han reafirmado la superioridad de FlowMo. En el marco de VideoJAM, un banco de pruebas diseñado para evaluar la coherencia de movimiento, FlowMo mostró tasas de preferencia significativamente más altas en comparación con modelos existentes.
Conclusión: Los avances alcanzados con FlowMo podrían marcar un hito importante en el ámbito de la inteligencia artificial, no solo ofreciendo mejoras en la síntesis de video generativa, sino también sentando bases sólidas para futuras investigaciones que exploren las propiedades temporales de los espacios latentes semánticos.