La investigación reciente desarrollada por el Departamento de Ciencia de la Computación de la Universidad de Stanford, en colaboración con Google DeepMind, ha presentado un innovador enfoque denominado Step-Wise Reinforcement Learning (SWiRL). Este método de aprendizaje por refuerzo se centra en la generación sintética de datos y la optimización en múltiples pasos, apuntando a mejorar la capacidad de razonamiento de los modelos de lenguaje, especialmente en tareas complejas.
El SWiRL propone una metodología que descompone cada tarea en múltiples sub-tareas, permitiendo que los modelos puedan gestionar problemas complejos mediante interacciones iterativas. Para verificar la eficacia de este enfoque, se realizaron experimentos en varias bases de datos, constatando que SWiRL supera a los métodos tradicionales por significativas diferencias en precisión:
En GSM8K, la precisión mejora en un 21.5%.
En HotPotQA, se consigue un 12.3% adicional.
CofCA, MuSiQue y BeerQA también registran incrementos de precisión del 14.8%, 11.1% y 15.3% respectivamente.
Un hallazgo fascinante es la capacidad de SWiRL para generalizar entre tareas. Por ejemplo, el entrenamiento realizado exclusivamente en HotPotQA no solo mejora el rendimiento en el mismo, sino que también se extiende a bases de datos de matemática, como GSM8K, incrementando el rendimiento en un 16.9% de manera espontánea.
Esta metodología, además de proporcionar notables mejoras respecto a métodos anteriores, se destaca por su capacidad de generalización a través de diferentes tareas y bases de datos. Se observó que entrenar SWiRL en tareas de razonamiento matemático potencia significativamente el rendimiento en tareas de preguntas-respuestas y viceversa.
El uso de estrategias de filtrado de datos sintéticos también tuvo un impacto destacado en la efectividad de SWiRL. Modelos entrenados con datos filtrados por la calidad de razonamiento presentaron mejor ejecución que aquellos que solo se filtraron por el resultado. Esto demuestra que el enfoque gradual de SWiRL permite aprender eficazmente de cada paso del proceso, lo que resulta en un rendimiento final superior.
La investigación concluyó que SWiRL no solo mejora el rendimiento de los modelos de lenguaje en tareas de razonamiento multi-pasos sino que también presenta un potencial significativo para aplicarse en aplicaciones lingüísticas avanzadas que requieren uso efectivo de herramientas y generación de soluciones complejas.