Investigadores del ámbito del aprendizaje por refuerzo han dado a conocer “RLZero”, un marco innovador que permite a los agentes de aprendizaje por refuerzo traducir instrucciones en lenguaje natural en acciones, sin necesidad de supervisión dentro del dominio. Este método promete revolucionar el campo del aprendizaje por refuerzo al evitar la costosa anotación y entrenamientos adicionales.
El desafío habitual en el diseño de recompensas para agentes se ve simplificado con RLZero, que utiliza modelos generativos de video y técnicas GL innovadoras. En su núcleo, este enfoque busca que un agente imagine secuencias de observaciones a partir de instrucciones textuales, posteriormente proyecta estas imaginaciones al dominio objetivo y emplea modelos preentrenados para imitar dichas observaciones.
Parte del éxito de RLZero recae en los Modelos de Fundación del Comportamiento (BFM), que permiten obtener políticas óptimas de forma inmediata y sin ajustes graduales, ampliando la utilidad de estos agentes sin supervisión en dominios desconocidos. Las pruebas de este método han demostrado ser eficaces en diversas tareas y entornos, incluso realizando transferencias de comportamiento directo a partir de videos tomados de internet.
Este desarrollo es parte de un esfuerzo conjunto de múltiples instituciones y demuestra que RLZero no solo ofrece una solución eficaz para una mayoría de tareas tradicionales, sino que también representa una prometedora herramienta de enlace entre la intención humana y los agentes de aprendizaje por refuerzo.
En conclusión, RLZero podría ser el puente necesario para que la comunicación humana dirigida a agentes sea más natural y efectiva, eliminando barreras tradicionales como la necesidad de un entrenamiento específico post-instrucción.