Investigadores en el Centro de Excelencia de Software de Huawei Canadá y la Universidad de Queen han desarrollado el Sistema de Enrutamiento Adaptativo en Tiempo Real (RAR) para optimizar el uso de modelos de fundamentos (FM) de diferentes capacidades. Este sistema, diseñado para reducir el uso de recursos costosos asociados con modelos grandes, opta por asignar más tareas a los modelos más pequeños siempre que sea posible, utilizando el aprendizaje en contexto para mejorar la calidad de las respuestas.
Los resultados de las pruebas del RAR en el conjunto de datos de MMLU han demostrado que el sistema puede disminuir en un 50,2% las solicitudes dirigidas a modelos más complejos, manteniendo un nivel de calidad de las respuestas del 90,5% en comparación con los métodos existentes. Esto supone importantes ahorros en costos de computación y latencia, ya que los modelos más pequeños, al ser menos demandantes en términos de recursos, permiten una gestión más eficiente de las solicitudes.
Una de las características clave del RAR es su capacidad para aprender continuamente y evolucionar, mejorando sus decisiones de enrutamiento de modelos. El estudio indica que las guías generadas por el modelo fuerte muestran una generalización intra-dominio, mejorando la capacidad de respuesta incluso en tareas para las que originalmente no fueron diseñadas.
En el contexto de la colaboración nube-borde, el sistema también exhibe ventajas adicionales. Dispositivos con hardware limitado pueden procesar más datos localmente, reduciendo la dependencia en conexiones a internet y mejorando la privacidad de los usuarios, ya que disminuye la necesidad de que la información personal salga del dispositivo.
La evaluación sugiere que el enfoque de guías derivadas del modelo fuerte no solo conserva la calidad esperada, sino que también permite generar respuestas precisas para tareas no vistas anteriormente, reduciendo la necesidad de infierencias costosas. Este avance podría suponer un cambio de paradigma en la interacción con software potenciado por FM, donde el balance entre capacidades y economía de recursos se optimiza continuamente.
En conclusión, el enrutamiento adaptativo en tiempo real promete reducir significativamente los costos y mejorar la eficiencia global de sistemas basados en modelos de lenguaje mientras conserva altos estándares de calidad en las respuestas. Esta metodología tiene el potencial de transformar el modo en que las grandes compañías tecnológicas gestionan sus sistemas de inteligencia artificial, haciéndolos más accesibles y sostenibles a largo plazo.