Avance en el Razonamiento de Modelos de Lenguaje:
Los recientes experimentos centrados en el escalado de inferencias en modelos de lenguaje muestran cómo realizar un muestreo repetido en estos modelos puede aumentar significativamente la fracción de problemas que pueden resolver, lo que se denomina cobertura. Este enfoque ha sido especialmente notable al trabajar con tareas de razonamiento matemático y conocimiento factual. Sin embargo, un descubrimiento intrigante sugiere que algunos de estos aumentos de cobertura podrían deberse a suposiciones afortunadas más que a un razonamiento sólido.
Se ha definido una línea base que consiste en listar las respuestas según su prevalencia en los conjuntos de datos de entrenamiento. Los experimentos indican que esta línea base frecuentemente supera al muestreo repetido en algunos modelos de lenguaje, mientras que, para otros, el desempeño es igual de bueno que una estrategia combinada que utiliza solo un pequeño conjunto de muestras del modelo y prefiere enumerar respuestas restantes.
Una aproximación notable ha sido definir líneas base simples y revelar que algunos modelos, al compararlos con estas, presentan ganancias menores de lo esperado. Modelos como Llama-3 y Pythia muestran mejoras en la cobertura, pero estas a menudo no superan la realización de un simple recuento de respuestas en los conjuntos de datos.
Resultados específicos:
El diseño de entrenar modelos mayores y largos períodos de entrenamiento ha sido un motor fundamental para la mejora en los modelos de lenguaje.
Se determinaron que las bases de datos utilizadas en estos experimentos tienen un conjunto cerrado de respuestas “fácil de adivinar” con suficientes intentos. Así, los resultados obtenidos podrían percibirse como “enganchar una respuesta correcta” más que desentrañar un razonamiento profundo.
Análisis de Cobertura y Costos de Computo:
El análisis de modelos específicos reveló que a menudo contratar unos pocos ejemplos hace mucho mejor que realizar cantidades masivas de muestreo, mostrando que el beneficio fundamental del muestreo repetido se materializa en las primeras tentativas.
Conclusión:
La investigación concluye que aunque el escalado del muestreo parece prometedor, se recomienda precaución en la interpretación de los resultados. La elección cuidadosa de los conjuntos de datos, modelos y líneas base al evaluar este método es crucial. Este estudio proporciona una perspectiva mucho más matizada sobre cómo las métricas de cobertura del modelo pueden ser influidas por la selección de respuestas y no solo por la calidad del razonamiento.