En los últimos años, los modelos generativos de texto a video (T2V) han experimentado un notable avance, permitiendo la creación de videos visualmente atractivos y muy detallados. Sin embargo, persiste una preocupación sustancial: su falta de adherencia a las leyes físicas fundamentales. Este aspecto crucial ha sido poco explorado, a pesar de que las violaciones de leyes físicas básicas, como las colisiones de cuerpos rígidos y la conservación de energía, pueden llevar a contenido engañoso y poco realista.
Para abordar esta brecha, se ha desarrollado T2VPhysBench, una referencia de primer orden diseñada para evaluar sistemáticamente si los sistemas de generación de video, tanto de código abierto como comerciales, son capaces de seguir doce leyes físicas fundamentales. Estas incluyen mecánicas newtonianas, principios de conservación y efectos fenomenológicos, permitiendo así una evaluación más fidedigna de la comprensión física en la generación de videos.
Los resultados generales son reveladores. Los modelos evaluados consistentemente no lograron superar puntajes promedio de 0.60 en cualquiera de las categorías de leyes, y la falta de cumplimiento fue evidente incluso con pistas específicas de ley. En particular, se observaron peores desempeños en las leyes de conservación que en las leyes newtonianas o principios fenomenales. De hecho, a pesar de proporcionar pistas más concretas, los modelos apenas mejoraron su capacidad de generar videos que respeten las leyes físicas, mostrando limitaciones inherentes en su diseño arquitectónico actual.
A través de pruebas contrafactuales, donde se les solicitó que generen escenarios explícitamente imposibles, las deficiencias persistieron. Los modelos no lograron comprender y aplicar un razonamiento físico genuino, lo que evidencia que sus producciones se basan más en patrones superficiales que en un entendimiento profundo de las leyes físicas.
En conclusión, estos hallazgos destacan la necesidad de dirigir la investigación hacia arquitecturas que no solo prioricen la fidelidad visual, sino también una coherencia física auténtica. T2VPhysBench sirve como guía para estas futuras mejoras, enfatizando la importancia de integrar las leyes de la física en los generadores de video, asegurando así una funcionalidad más precisa y realista en aplicaciones críticas como la robótica y la conducción autónoma.