Un reciente estudio del Instituto de Investigación Computacional de Qatar se ha enfocado en el análisis de modelos lingüísticos y sus capacidades para captar conceptos semánticos a través de distintos modos de comunicación. Liderado por Asım Ersoy y su equipo, la investigación se centra en comparar modelos entrenados exclusivamente con texto con aquellos que integran tanto texto como habla.
El equipo examinó modelos unimodales como HuBERT para el habla y BERT para el texto, junto con modelos multimodales como Seamless M4T y SpeechT5. Los investigadores emplearon el análisis de concepto latente, una técnica que permite descubrir y comprender las estructuras conceptuales de los modelos para evaluar la capacidad de estas plataformas para internalizar conceptos lingüísticos complejos.
Los resultados revelaron patrones interesantes: mientras que los modelos de texto como BERT capturan directamente la taxonomía lingüística desde las capas iniciales, los modelos de habla como HuBERT requieren un proceso gradual para pasar de representaciones acústicas a lingüísticas. En el caso de modelos multimodales, Seamless M4T y SpeechT5 muestran alineaciones únicas debido a la formación cruzada de modalidades.
Además, los modelos de habla destinan menos capacidad a taxonomías lingüísticas estructuradas y más al análisis de características específicas del habla, como fonética y prosodia. Contrariamente, los modelos de texto son capaces de desarrollar estructuras lingüísticas más profundas y estructuradas a lo largo de sus capas. Esta disparidad destaca la diferencia en cómo cada modalidad interna significados y estructuras.
A través de tareas específicas, los investigadores observaron que los modelos multi-modalidades, como SpeechT5, dedican menos capacidad a las taxonomías lingüísticas explícitas en sus capas profundas, debido a su objetivo de entrenamiento multimodal, que busca la consistencia cruzada entre el habla y el texto. Esto resalta una tendencia en la que, a pesar de sus capacidades emergentes, los modelos de habla aún enfrentan desafíos para igualar el refinamiento semántico de sus contrapartes textuales.
Para el análisis semántico específico de tareas, se observó una alineación de conceptos más fuerte en las capas superiores de modelos textuales, sugiriendo que el refinamiento conceptual de la información lingüística se integra de manera más efectiva en ellos en comparación con los modelos de habla, que dedican gran parte de su capacidad representacional a gestionar la variabilidad intrínseca al medio hablado.
En conclusión, los avances en el aprendizaje de modelos lingüísticos siguen abriendo caminos para entender mejor la estructura conceptual semántica en las inteligencias artificiales, aunque queda un camino por recorrer para equilibrar las capacidades entre modalidades textuales y habladas. Esto podría suponer el próximo gran paso hacia inteligencias artificiales generales, capaces de comprender y procesar información de manera similar a la humana.