Un equipo de investigadores de la Fundación Bruno Kessler ha anunciado el lanzamiento de FAMA, el primer modelo fundacional de habla de ciencia abierta a gran escala para los idiomas inglés e italiano. Este ambicioso proyecto fue desarrollado por un equipo de expertos compuesto por Sara Papi, Marco Gaido, Luisa Bentivogli, entre otros destacados nombre, con el propósito de superar las limitaciones de modelos similares, que carecen de transparencia y accesibilidad abierta.
El desarrollo de modelos fundacionales de habla ha presentado un avance significativo en el procesamiento del lenguaje oral, utilizando técnicas innovadoras para el reconocimiento automático del habla (ASR) y la traducción de voz (ST). Sin embargo, la falta de accesibilidad a sus bases de entrenamiento y datos planteó retos en cuanto a la reproducibilidad y evaluaciones justas.
FAMA introduce un nuevo estándar en esta área al ser entrenado en más de 150,000 horas de datos de habla conformes a las licencias de fuente abierta (OS). Además, se ha compilado un nuevo conjunto de datos con 16,000 horas de habla limpiada y etiquetada automáticamente en ambos idiomas. Los resultados preliminares han demostrado que FAMA mantiene un desempeño competitivo, equiparable a modelos existentes, y con una aceleración en la velocidad de procesamiento de hasta ocho veces más rápido.
Las herramientas que componen FAMA, desde el conjunto de códigos hasta los modelos mismos, están disponibles bajo licencias compatibles con OS. Este paso promueve la apertura en la investigación tecnológica de habla, permitiendo un acceso completo y control sobre los datos por parte de los usuarios, asegurando que no haya contaminación de datos y fomentando la colaboración científica abierta.
La estructura de los modelos de FAMA incluye una arquitectura de codificador-decodificador escalable en dos tamaños, denominado pequeño y mediano. El FAMA pequeño cuenta con 12 capas de codificador y 6 de decodificador, mientras que el mediano expande hasta 24 capas de codificador y 12 de decodificador. Esta configuración favorece que cada pase de decodificación sea más rápida, y apoya el mantenimiento de las capacidades de procesamiento en integraciones con modelos de lenguaje largo.
Las pruebas han demostrado que FAMA supera al OWSM v3.1 en calidad de reconocimiento automático del habla y también ofrece un rendimiento comparable al popular modelo Whisper en cuanto a la reducción de tasa de error de palabras y mejora en el rendimiento CTC. Estos logros elevan la barra para los modelos en esta categoría, gracias al enfoque de ciencia abierta que permite un escrutinio justo y una evaluación más inclusiva.
Con una velocidad de ejecución notablemente elevada frente a sus competidores, el impacto de FAMA podría ser significativo en la comunidad tecnológica, fomentando una participación más amplia y aplicaciones más diversificadas. El proyecto, financiado entre otros por el proyecto PNRR y la Unión Europea, pantea además extender sus conceptos a otros idiomas en el futuro, expandiendo aún más el ecosistema de ciencia abierta en tecnologías del habla.