Investigadores de universidades chinas y estadounidenses han publicado un extenso estudio sobre las consecuencias no intencionadas de los agentes GUI basados en Modelos de Lenguaje Grande (LLM) en escenarios de navegación web. El documento destaca cómo estas interfaces presentan desafíos significativos en la ejecución de tareas debido a la comprensión deficiente de instrucciones, errores en la manipulación de interfaces gráficas y problemas de seguridad. Un análisis de redes sociales y entrevistas semiestructuradas sustenta estos hallazgos.
En el proceso de ejecución, los agentes a menudo cometen errores operativos, tal como manipular de manera incorrecta los interfaces gráficos o ejecutar acciones no deseadas. Además, se reveló que los agentes luchan para adaptarse a interfaces dinámicas y encontrar elementos gráficos precisos. Estas deficiencias pueden provocar frustración en los usuarios y hasta la pérdida de confianza en dichos sistemas.
Problemas de generación de resultados incorrectos también son comunes, con agentes proporcionando información engañosa o imprecisa que afecta la credibilidad. Estas salidas incorrectas se consideran hallazgos críticos que destacan la necesidad de una mayor precisión y seguridad en el manejo de datos personales. Algunos usuarios informaron casos de acceso no autorizado y filtraciones de datos; preocupados por la privacidad y la seguridad.
Además, el estudio revela que los agentes requieren un gran control por parte del usuario para mitigar problemas potenciales, destacando la necesidad de diseños más robustos que incluyan controles de seguridad estrictos y una personalización mejorada. La confianza en los agentes podría mejorarse significativamente mediante una optimización de tareas, seguridad mejorada y seguimiento detallado del uso de las interfaces gráficas.
En conclusión, estas investigaciones resaltarían que los actuales desafíos con los agentes GUI LLM en la navegación web exigen una atención urgente. Se recomienda fomentar procesos que permitan a los agentes ser más adaptables, precisos y seguros para garantizar una navegación más eficiente y proteger la privacidad de los usuarios.