Solo noticias

y ya

miércoles 30 de de 2025

Transformador Consciente de Calidad Revoluciona la Generación Musical

Investigadores de la Universidad de Ciencia y Tecnología de China, junto a iFlytek AI Research, han desarrollado el “Transformer de Difusión enmascarada consciente de la calidad” (QA-MDT), un modelo innovador para la generación de música a partir de texto (TTM). Este avance pretende superar los desafíos actuales en la generación de música, donde la calidad de los datos suele ser un obstáculo significativo.

El proceso de conversión de texto a música abre nuevas oportunidades en la creación multimedia, pero requiere datos extensos y de alta calidad. Sin embargo, las bases de datos disponibles frecuentemente sufren de grabaciones de baja calidad y un débil vínculo entre los descriptores de texto y el audio, dificultando la generación de música de alta calidad. QA-MDT aborda estos problemas capacitándose en reconocer la calidad durante el entrenamiento, utilizando un transformador de difusión enmascarada para controlar y mejorar tanto la calidad como la musicalidad de la música generada.

Un enfoque clave del proyecto es la utilización de puntuaciones pseudo-MOS para evaluar la calidad de los datos de música y ajustar el proceso de generación en consecuencia. Los experimentos han demostrado que el rendimiento del modelo decae cuando se filtran partes significativas de los datos de baja calidad, lo cual lleva a la propuesta de una estrategia de entrenamiento que incorpora estas puntuaciones para un control de calidad más preciso.

El modelo también emplea técnicas de enmascaramiento en el espacio latente de señales musicales, mejorando así la correlación espacial y acelerando la convergencia durante el entrenamiento. Esto se complementa con un novedoso enfoque de refinamiento de capturas de tres etapas, diseñado para mejorar las descripciones textuales utilizadas para guiar la generación musical.

Con estos desarrollos, el QA-MDT ha logrado superar en métricas objetivas y subjetivas a los modelos existentes en conjuntos de datos de referencia como MusicCaps y el Song-Describer Dataset. Las muestras de audio generadas, preparadas para su acceso público en línea, ilustran el potencial para lograr niveles de calidad y correlación entre texto y audio no vistos anteriormente en proyectos de generación musical.

Los investigadores concluyen destacando la importancia de una estrategia de capacitación efectiva que tenga en cuenta la calidad global del conjunto de datos. Este enfoque no solo facilita una mayor calidad en la música generada sino que enfatiza la importancia de un alineamiento text-audio rico y preciso, un avance fundamental para el campo de la generación de música asistida por inteligencia artificial.