Solo noticias

y ya

martes 3 de de 2025

Bhasa Anuvaad: Rompiendo Barreras Lingüísticas en India

Investigadores del Instituto Indio de Tecnología, en colaboración con múltiples instituciones, han lanzado Bhasa Anuvaad, un ambicioso proyecto para mejorar la traducción automática del habla en 14 idiomas indios. Este avance responde a la necesidad de superar la escasez de datos de alto calibre, disponibles públicamente, que capturen la rica diversidad lingüística de la India.

El principal contratiempo hasta ahora ha sido la carencia de datos de entrenamiento a gran escala para lenguajes de recurso medio y bajo, como los idiomas indios. Bhasa Anuvaad emerge como el corpus más extenso hasta la fecha con más de 44 mil horas de datos de audio y 17 millones de segmentos de texto alineados.

El proceso de construcción del dataset involucró tres pasos claves: la agregación de fuentes existentes de alta calidad, el rastreo masivo del web para diversificar tanto lingüística como contextualmente los datos, y la generación de datos sintéticos para representar mejor las disfluencias del habla en situaciones reales.

Utilizando Bhasa Anuvaad, se entrenó Indic-Seamless, un modelo de traducción del habla de última generación que supera a los modelos actuales en calidad de traducción para lenguajes indios. Este modelo se ha probado exhaustivamente en situaciones de traducción, marcando un nuevo estándar en la industria.

La introducción de Indic-Seamless enriquece la comunicación interlingüística en la India y promete reemplazar los métodos tradicionales de traducción que utilizaban modelos acoplados de reconocimiento y traducción manual del habla. Además, el proyecto planea liberar todos los códigos, datos y pesos de los modelos en código abierto bajo licencias permisivas, para fomentar la accesibilidad y la colaboración.

Con el apoyo de instituciones académicas y gigantes tecnológicos como Microsoft, el objetivo va más allá de la innovación académica; busca también contribuir a atender las necesidades comunicativas de más de mil millones de indios, eliminando las barreras lingüísticas e incentivando la inclusión tecnológica en todas las regiones del país.

En conclusión, Bhasa Anuvaad no sólo marca un avance significativo en la tecnología de traducción del habla, sino que también ofrece un puente crucial para salvar las brechas comunicativas en una de las regiones lingüísticamente más diversas del mundo.