Modelos de lenguaje: ¿Maestros de la observación simbólica en matemáticas?

En un reciente estudio, expertos de las universidades Rice, Georgia Tech y Duke han presentado un análisis exhaustivo sobre cómo los modelos de lenguaje avanzado (LLMs) enfrentan tareas aritméticas. El estudio se enfoca en desentrañar si estos modelos utilizan efectivamente productos parciales en cálculos multiplicativos o si simplemente operan como observadores simbólicos, desechando la posibilidad de un aprendizaje aritmético auténtico.

Los investigadores realizaron experimentos con modelos de lenguaje de código abierto, como Gemma-2-2B y Llama-3.1-8B, analizando su capacidad para identificar productos parciales de multiplicaciones de dos dígitos antes y después de un ajuste fino. Se descubrió que, aunque los modelos mejoraron en la identificación de productos parciales específicamente para métodos estándar, de rejilla y egipcios, no lograron emplear estos productos para resolver tareas aritméticas más complejas. Este comportamiento se denominó observación simbólica de subgrupos, en lugar de cálculo directo.

El análisis fue más allá, explorando cómo la selección de subgrupos sigue un patrón de “fácil a difícil” durante el aprendizaje. Esto implica que los modelos primero manejan las posiciones de dígitos más sencillas, completando las más complicadas hacia el final. En términos de complejidad de subgrupos, se concluyó que la entropía del espacio de etiquetas ayuda a cuantificar el nivel de dificultad de los modelos. Una entropía más baja se traduce en una precisión de aprendizaje superior.

Adicionalmente, los investigadores variaron el tamaño de los conjuntos de datos de entrenamiento, evaluando desde multiplicaciones de tres hasta cinco dígitos. Descubrieron un sorprendente patrón en forma de “U” en la precisión a nivel de posición, donde los modelos alcanzaban alta precisión al principio y al final de los cálculos, pero presentaban dificultades sustanciales en posiciones intermedias.

En conclusión, lejos de realizar cálculos aritméticos intrínsecos, los LLMs operan bajo un paradigma puramente simbólico. Estos hallazgos abren un amplio campo para investigar futuros modelos que podrían posiblemente integrar tanto el aprendizaje simbólico como aritmético de manera más efectiva, especialmente en tareas consideradas sujetas a complejidades más altas.

Solo noticias

y ya

Modelos de lenguaje: ¿Maestros de la observación simbólica en matemáticas?