Vulnerabilidad en MLLM Expuesta por Ataques No Textuales

Investigadores de la industria de la inteligencia artificial han desarrollado un método innovador que explota la vulnerabilidad de los modelos de gran lenguaje multimodal (MLLM, por sus siglas en inglés). Esta técnica, denominada Con Instruction, utiliza imágenes y audios adversariales como entradas no textuales para eludir las medidas de seguridad de estos modelos, logrando su éxito incluso en situaciones donde los métodos textuales fallan.

El equipo de investigación, integrado por expertos de la Universidad de Inteligencia Artificial Mohammed bin Zayed y el UKP Lab de la Universidad Técnica de Darmstadt, ha demostrado que la inclusión de entradas visuales o auditivas facilita una superficie de ataque más sencilla y efectiva. Estas entradas no textuales logran alinearse con las instrucciones adversarias, revelando las deficiencias en la comprensión sofisticada de los MLLM.

Durante los experimentos, el método Con Instruction mostró tasas de éxito alarmantemente altas en modelos como LLaVA-v1.5, InternVL, Qwen-VL y Qwen-Audio, alcanzando entre 81.3% y 86.6% de éxito. Esto se convirtió en un tema de preocupación para la seguridad del despliegue de estos modelos, que comúnmente se enfrentan a entradas malintencionadas que comprometen su funcionalidad segura.

Para contrarrestar las brechas de seguridad que plantea este método, se exploraron diversas estrategias de defensa. Aunque algunos métodos de entrenamiento adversarial y técnicas de postprocesamiento demostraron efectividad en mitigar los ataques, un considerable espacio de mejora quedó evidente. La producción de respuestas irrelevantes o superficiales aún no alcanza el nivel de seguridad esperado.

Desde el prisma científico, estos resultados nos llevan a reflexionar sobre la importancia de reforzar la seguridad de los modelos IA multimodales, asegurando que sean capaces de resistir ataques sofisticados que combinan múltiples modalidades de entrada. El avance en este campo no solo resguardará las aplicaciones actuales, sino que sentará bases sólidas para futuros desarrollos en inteligencia artificial.

Solo noticias

y ya

Vulnerabilidad en MLLM Expuesta por Ataques No Textuales