Detectores Avanzados Identifican Videos Falsos Mediante Transformadores de Visión
La generación de contenido multimedia mediante IA ha evolucionado a pasos agigantados, permitiendo la creación de imágenes y videos hiperrealistas que a menudo escapan a la detección humana. Este fenómeno ha dado lugar a la urgente necesidad de desarrollar métodos precisos de detección de medios generados por IA. Un equipo de investigadores de la Universidad de Trento ha dado un paso significativo al aplicar técnicas basadas en “Vision Transformers” (ViT), originalmente utilizadas para la detección de imágenes falsas, al ámbito de los videos.
La introducción de un marco original que integra las incrustaciones de ViT a lo largo del tiempo ha demostrado mejoras en el rendimiento de detección. Este método ha mostrado una prometedora precisión, capacidad de generalización y capacidades de aprendizaje con pocos datos en un nuevo y diversificado conjunto de datos de videos generados usando cinco técnicas de generación de código abierto de vanguardia, así como en un dataset separado que contiene videos generados por métodos propietarios.
El estudio resalta cómo las técnicas recientes de generación basada en modelos de difusión (Diffusion Models, DMs) y su rápida aplicación a la producción de videos han incrementado la dificultad para distinguir contenido DM generado de las imágenes reales. A pesar de los avances en la generación de imágenes basados en IA, la investigación sobre la detección de videos generados por DM aún está en sus primeras etapas.
Los métodos actuales se basan principalmente en la detección de imágenes falsas, utilizando redes neuronales convolucionales (CNNs) o incrustaciones ViT, pero las arquitecturas espaciales-temporales, como las redes convolucionales 3D (3D CNNs), también han sido propuestas, aunque su efectividad sobre los videos generados por DM sigue sin ser explorada a fondo.
El grupo ha introducido “VideoDiffusion”, un nuevo y vasto conjunto de datos con más de diez mil videos generados usando cinco técnicas diferentes basadas en DMs, demostrando así una robustez significativa frente a la compresión H.264, incluso al enfrentarse a técnicas de generación no vistas anteriormente durante el entrenamiento.
En conclusión, se prevé que este nuevo método basado en transformadores de visión y el dataset asociado no sólo mejoren la detección y protección contra la desinformación digital, sino que también abran camino para nuevas investigaciones y aplicaciones en la verificación de contenido multimedia.