Muyan-TTS: Innovación en Síntesis de Voz para Podcasts

Muyan-TTS es un innovador modelo de texto a voz (TTS) diseñado específicamente para aplicaciones de podcast. Dentro de un presupuesto de 50.000,00 € el proyecto busca llenar un vacío crítico en el mercado al brindar un modelo fuente abierta y adaptado para escenarios de podcasts, con una notable capacidad de síntesis de voz en modo de cero-acondicionamiento.

El pipeline de Muyan-TTS comienza con la recopilación de datos de más de 100,000 horas de audio de podcast, que se procesa mediante una nueva metodología que garantiza su diversidad y alta calidad. Este modelo es pre-entrenado en el corpus recogido, permitiendo la generación de voz de alta calidad sin requerir ajustes finos extensivos. Sumado a ello, se puede personalizar la síntesis de voz adaptando al modelo de acuerdo a las características vocales del usuario con tan solo unos minutos de audio de instrucción.

En contraste con modelos tradicionales, Muyan-TTS emplea una arquitectura que integra un modelo de lenguaje grande, Llama-3.2-3B, con un modelo de síntesis VITS, enfocándose en mitigar las alucinaciones, un problema frecuente en sistemas TTS basados en modelos de lenguaje. Esto no solo mejora la robustez del proceso de generación de habla, sino que también permite un reconocimiento y síntesis de voz más natural y fluido.

Los resultados experimentales muestran que Muyan-TTS ofrece un rendimiento competitivo en términos de inteligibilidad y calidad perceptual del habla, en comparación con otros modelos TTS abiertos. Además, el sistema ostenta el tiempo de inferencia más rápido, haciéndolo extremadamente adecuado para aplicaciones que exigen respuestas rápidas, como asistentes virtuales y otros escenarios de interacción en tiempo real.

El desarrollo de Muyan-TTS subraya la importancia de los datos de alta calidad y la optimización de los decodificadores en la búsqueda por mejorar la calidad perceptiva del habla sintetizada. Además, ya se planean mejoras posteriores para optimizar la similitud de la voz en adiciones futuras del modelo. Este esfuerzo por democratizar el TTS avanzado, hace de Muyan-TTS una resiliente base para futuras investigaciones y desplegues en el ámbito de podcasts y aplicaciones de voz interactiva.

Solo noticias

y ya

Muyan-TTS: Innovación en Síntesis de Voz para Podcasts