Innovación en Anonimización de Voz Mediante Pérdidas Percibidas

Con el crecimiento de los dispositivos de voz basados en la nube, garantizar la privacidad del hablante se ha convertido en una prioridad. Un grupo de investigadores de la Universidad Otto-von-Guericke propone mejorar la calidad vocal en los procesos de anonimización del discurso usando funciones de pérdida informadas por la percepción humana. Este enfoque busca difuminar la identidad del hablante sin sacrificar la calidad del sonido.

La necesidad de anonimizar voces se incrementa debido a que cada vez más datos sensibles, como información de salud y afiliaciones, pueden ser extraídos de grabaciones de voz. La conversión de voz emerge como una de las soluciones más viables para este desafío, convirtiendo un discurso original para que suene como el de otro hablante objetivo, pero manteniendo prosodia vital en sistemas que requieren monitoreo emocional.

Históricamente, las metodologías empleaban principalmente redes generativas adversariales (GANs) para la conversión de voz, logrando resultados cercanos al habla natural. Sin embargo, enfrentaban problemas de entrenamiento inestables debido a múltiples funciones de pérdida. Las autoencoders variacionales (VAEs) y su variante, el VQVAE, ofrecen entrenamientos más estables por sus funciones de probabilidad bien definidas.

El problema de voces “burbujosas” en los VQVAEs, resultado de las funciones de pérdida elementales en el espacio de salida, es abordado a través de pérdidas “informadas por la percepción”. Dos tipos de funciones de pérdida son propuestas: una basada en características hechas a mano y otra impulsada por representaciones. Las primeras se centran en formantes, frecuencias resonantes clave para la calidad vocal, y las segundas incorporan representación derivada de redes deep learning para capturar características críticas para los humanos, mejorando así significativos aspectos percibidos del sonido.

La implementación de estas funciones en un modelo VQVAE demostró a través de pruebas objetivas y subjetivas que mejora la naturalidad, inteligibilidad y prosodia, manteniendo el anonimato del hablante en múltiples escenarios de datos, idiomas y géneros.

Esta investigación establece que la integración de características acústicas específicas en las funciones de pérdida puede mejorar significativamente la calidad del discurso generado sin aumentar la complejidad del modelo. Un área futura de exploración buscará reducir las irregularidades sonoras encontradas en algunas conversiones, impulsando así la eficiencia de estas técnicas avanzadas de conversión de voz en aplicaciones reales.

Solo noticias

y ya

Innovación en Anonimización de Voz Mediante Pérdidas Percibidas