Solo noticias

y ya

lunes 19 de de 2025

ALLM4ADD revoluciona la detección de audio deepfake

Investigadores del Instituto de Automatización de la Academia de Ciencias de China y la Universidad de Tsinghua han avanzado en el campo de la detección de audio deepfake con la introducción del modelo ALLM4ADD. Este modelo aprovecha las capacidades de los Modelos de Lenguaje Grande de Audio (ALLMs) para detectar falsificaciones de audio, una necesidad crítica debido al aumento de tecnologías como la conversión de voz y TTS, que han posibilitado la creación de audios altamente realistas pero potencialmente dañinos.

ALLM4ADD se destaca por su enfoque innovador, reformulando la tarea de detección como un problema de preguntas y respuestas de audio, lo que permite al modelo discernir entre audios genuinos y falsificados al responder preguntas como “¿Es este audio falso o real?”. Esto se complementa con un ajuste supervisado, mejorando su habilidad para emitir juicios precisos incluso en escenarios con datos limitados.

El estudio proporciona una evaluación exhaustiva de ALLMs, destacando su ineficacia en tareas de detección de falsificaciones de audio en primeros intentos. Sin embargo, a través de su nuevo enfoque, ALLM4ADD ha superado significativamente a los modelos convencionales y de extremo a extremo, mostrando un rendimiento superior en el conjunto de datos ASVspoof2019.

La investigación también compara su enfoque pionero con métodos tradicionales que generalmente dependen de extractores de características y clasificadores independientes. ALLM4ADD no solo simplifica esta arquitectura sino que logra mayores tasas de éxito al unir el procesamiento de extracción y clasificación en una sola operación de extremo a extremo.

En conclusión, ALLM4ADD mejora la detección de audio falsificado, sobre todo en escenarios de datos escasos, subrayando el potencial de aplicar modelos de lenguaje de audio de gran escala en la seguridad digital. Estos hallazgos abren la puerta a futuras exploraciones donde ALLMs pueden desarrollar sistemas más robustos y eficientes para enfrentar las falsificaciones de audio en un mundo donde la desinformación digital sigue siendo una amenaza creciente.