Investigadores de la Universidad de Stony Brook y la Universidad Estatal de Pensilvania han desarrollado un nuevo enfoque para defender agentes impulsados por modelos de lenguaje grande (LLMs) contra ataques de puertas traseras. Estos ataques pueden comprometer la seguridad del agente al inyectar funciones maliciosas durante el entrenamiento. Una vez activadas por desencadenantes específicos, estas funciones permiten a los agentes realizar operaciones perjudiciales.
La innovación principal, llamada ReAgent, aborda estas amenazas mediante una detección en dos niveles: a nivel de ejecución y a nivel de planificación. A nivel de ejecución, ReAgent verifica la consistencia entre los pensamientos y las acciones del agente, asegurándose de que se actúe de acuerdo con el plan. A nivel de planificación, el sistema reconstruye las instrucciones basándose en la trayectoria de pensamiento del agente y verifica la coherencia con las instrucciones originales del usuario.
Las pruebas han revelado que ReAgent reduce la tasa de éxito de ataque en un 90% para tareas de operación de bases de datos, destacando su eficacia comparada con otras soluciones defensivas existentes. Además, este enfoque no sólo detecta inconsistencias en las tareas de un solo paso, que suelen ignorar la complejidad de la interacción entre agentes y su entorno, sino que también mejora la interpretabilidad de las decisiones del agente.
Por último, se sugiere que en el futuro, los agentes comprometidos puedan auto analizarse para prevenir activaciones de puertas traseras, abriendo así nuevas líneas de investigación en seguridad de LLM.