Solo noticias

y ya

martes 29 de de 2025

Sparse VideoGen revoluciona la generación de video con transformadores de difusión

Un equipo de investigadores ha presentado Sparse VideoGen (SVG), un sistema innovador que promete mejorar substancialmente la eficiencia de los modelos de generación de video mediante transformadores de difusión. La iniciativa surge como respuesta a las limitaciones de las arquitecturas tradicionales, cuyo elevado coste computacional restringe su aplicación práctica. Este nuevo enfoque, que no requiere un proceso de entrenamiento, se basa en una estrategia que explota la inherente esparsidad de la atención en transformadores, clasificando las cabezas de atención en dos tipos distintos: las cabezas espaciales y las temporales.

La clave de la eficiencia de SVG radica en un sistema de perfilado online que permite identificar los patrones de esparsidad de manera dinámica y eficaz. Utilizando una pequeña muestra de los tokens de cada cabeza de atención, el sistema predice el tipo de atención que maximiza la eficiencia sin comprometer la calidad del video generado. La adopción de un enfoque hardware-friendly permite transformar la disposición de los patrones de esparsidad en un formato que aprovecha al máximo los núcleos de las GPUs modernas, facilitando una velocidad de generación de video 2.28 veces más rápida en comparación con métodos anteriores.

Comparado con técnicas como MInference, que a menudo dan lugar a degradaciones en la calidad visual, SVG mantiene un alto estándar visual, alcanzando un PSNR de hasta 29, lo que representa una fidelidad más coherente y de alta calidad en el video producido. Además, SVG es compatible con la cuantización a FP8, una técnica que permite una aceleración adicional del proceso de inferencia sin comprometer los resultados.

Una comparativa con modelos previos como Wan 2.1 y HunyuanVideo coloca a SVG como una opción sumamente competitiva en el mercado de modelos generativos de video, propiciando potencialmente una mayor adopción de estas tecnologías. No solo mantiene la calidad y consistencia temporal y espacial de los videos, sino que además, reduce de manera significativa los recursos necesarios en términos de tiempo y procesamiento.