Solo noticias

y ya

viernes 11 de de 2024

Revolución en Robótica con Guías Visomotoras y Modelos de Lenguaje

Carnegie Mellon y Bosch han combinado la última tecnología en procesamiento de lenguaje natural y visión por computadora para avanzar en el campo de la robótica. Presentaron un marco innovador basado en agentes conversacionales que mejora políticas robóticas en tiempo real utilizando guía visomotora y lenguaje. Esta solución permite aumentar las tasas de éxito de las tareas robóticas tanto en simulación como en experimentos reales.

Uno de los grandes escollos en la robótica ha sido la escasez de interacciones humano-robot y la falta de datos de entrenamiento a gran escala. Las soluciones anteriores, como las imitaciones de comportamiento o el aprendizaje por refuerzo, aunque prometedoras, se limitan por la necesidad de simulaciones específicas o demostraciones de tarea. Sin embargo, al integrar modelos de lenguaje visual y modelos de lenguaje preentrenados, el nuevo marco aborda estos problemas, proporcionando guías que no dependen de amplios conjuntos de datos o de la intervención humana.

El sistema está conformado por agentes que desempeñan roles específicos: un asesor de alto nivel, un agente de monitoreo, y agentes robóticos y visuales. Estas entidades colaboran para potenciar, en tiempo real, el flujo de acciones hacia estados futuros óptimos. Mediante la retroalimentación entre estos agentes, el marco logra adaptar políticas base ya existentes, conduciendo al éxito en tareas complejas con poca o nula necesidad de insumos humanos adicionales.

Mediante experimentos en tareas estándares y el entrenamiento desde cero, se ha demostrado que el marco no solo mejora el desempeño en comparativa con políticas anteriores pero también permite aprender nuevas habilidades robóticas. Este enfoque irrumpe como un recurso poderoso para incrementar la eficiencia en ambientes reales y simulados, lo que puede representar un avance significativo en la autonomía y capacidades de los robots de última generación.

Con el código y los modelos disponibles para la comunidad de investigación, el proyecto busca incentivar más avances en esta dirección. Aún queda explorar más sobre el uso de estos modelos para percepciones clave y su integración, pero el camino abierto por este nuevo marco es prometedor para un futuro donde robots logren desempeñarse de manera más adaptable e intuitiva en entornos dinámicos y desconocidos.