El genuino reto de la longitud del razonamiento en modelos de lenguaje

Un estudio reciente, dirigido por académicos de la Universidad de Cornell, Adobe Research y MBZUAI, ha proporcionado nuevas perspectivas sobre cómo la longitud del razonamiento en los Modelos de Lenguaje de Gran Escala (LLM por sus siglas en inglés) afecta la precisión de sus respuestas. La investigación destapa una relación no lineal entre la longitud del razonamiento generado por estos modelos y la exactitud de las respuestas, sugiriendo que “pensar más” no siempre equivale a “pensar mejor”.

Los investigadores llevaron a cabo un análisis empírico sistemático que incluyó dos modelos populares, DeepSeek-1.5B-Distill y DeepScaler-1.5B-Preview, probados en dos conjuntos de datos de razonamiento matemático, GSM8K y MATH. Descubrieron que, si bien las respuestas más largas a menudo se consideran necesarias para resolver problemas complejos, estas pueden ser contraproducentes cuando exceden un umbral específico.

Durante las pruebas, se observó que para preguntas sencillas, las respuestas correctas a menudo se encontraban entre las respuestas más cortas generadas por los modelos. Por el contrario, cuando se enfrentaban a preguntas más difíciles, los modelos tendían a “pensar de menos”, generando respuestas inadecuadas más cortas de lo necesario para proporcionar una respuesta correcta completa.

Una observación notable del estudio es la tendencia de los LLM a darle más vuelta de lo necesario a problemas simples, sobrescribiendo la información con pasos de pensamiento innecesarios que no mejoran, e incluso pueden reducir, la exactitud de las respuestas. Sin embargo, cuando se obligó a los modelos a preferir respuestas más cortas, la precisión se mantuvo en un nivel aceptable mientras se reducía el número de tokens generados en las respuestas incorrectas.

El equipo de investigación explica que esta reducción en la longitud no solo ayuda a aumentar la eficiencia, sino que también destaca la importancia de la longitud del razonamiento como una señal crítica del comportamiento de razonamiento de los LLMs. Estos descubrimientos motivan a seguir explorando el papel de la autoconciencia del modelo sobre la adaptación de su longitud de razonamiento según la complejidad del problema abordado.

Finalmente, el estudio señala la importancia de ajustar la longitud de las cadenas de pensamiento generadas para que se alineen con las capacidades del modelo y las demandas de la tarea, aclarando que más largo no siempre es mejor. Este avance en nuestra comprensión podría influir significativamente en cómo se entrenan y utilizan los LLMs en tareas de razonamiento en el futuro.

Solo noticias

y ya

El genuino reto de la longitud del razonamiento en modelos de lenguaje