La unidad de investigación compuesta por Yutong Yin y Zhaoran Wang de la Universidad de Northwestern ha llevado a cabo un estudio para determinar la capacidad de razonamiento composicional de los modelos Transformer. Este estudio se centra en el uso del tipo de datos ‘FTCT’ (Fragmented at Training, Chained at Testing) que evalúa la habilidad de los Transformers para conectar fragmentos de conocimiento aislados durante el entrenamiento y testear su capacidad de formar cadenas causales completas.
A lo largo de las fases de entrenamiento, el modelo únicamente tiene acceso a cadenas cortas con conocimiento fragmentado, mientras que en el test se le requiere completar cadenas causales más largas y lógicas. Los resultados del estudio muestran que, mediante el uso de ejemplos de ‘raciocinio por fragmentos’ (sp), los Transformers logran un razonamiento composicional al determinar las combinaciones correctas de fragmentos que no se presentan en los datos de entrenamiento.
Uno de los hallazgos claves de la investigación es que el razonamiento composicional solo aflora en modelos de cierta complejidad. Específicamente, cuando el ratio de conocimiento relativo entre los datos de entrenamiento y test es de al menos 0.3, se observa una mejora significativa en la capacidad de razonamiento del modelo. Además, se determina que la complejidad estructural del modelo es determinante, requiriendo al menos dos capas de atención en el Transformer.
Los autores también han desarrollado un marco teórico y empírico que sugiere que los Transformers son capaces de aprender un programa subyacente generalizable en el entrenamiento. Este programa permite la integración eficaz de fragmentos de conocimiento durante el testeo sin necesidad de haber visto las combinaciones completas durante el aprendizaje, mostrando signos de inteligencia general. Estos resultados han sido avalidados mediante mapas de calor de las atenciones y pruebas de sondeo lineal que revelan patrones de interacciones complejas entre el conocimiento fragmentado y las rutas de raciocinio en la estructura interna del Transformer.
Conclusión: Este estudio no solo amplía nuestra comprensión sobre cómo los modelos de lenguaje grandes pueden realizar tareas de razonamiento composicional, sino que también arroja luz sobre los mecanismos internos que facilitan estas capacidades, proponiendo una conexión más clara entre la complejidad del modelo y la estructura de datos con su habilidad para generalizar entendimientos a nuevos contextos.