Aumenta la Vulnerabilidad de los LLMs con Ataques de Inyección de Prompts

El reciente análisis presentado por los investigadores de la Universidad de Duke ha puesto de manifiesto la alarmante vulnerabilidad de los Modelos de Lenguaje Extenso (LLM, por sus siglas en inglés) ante ataques de inyección de sugerencias que han sido potenciados mediante el envenenamiento de su alineación. La investigación, titulada “Haciendo Vulnerables los LLMs a la Inyección de Prompts a través del Envenenamiento de Alineación”, muestra cómo la introducción de datos envenenados en el proceso de alineación de un LLM puede aumentar significativamente la eficiencia de dichos ataques.

El estudio propone una novedosa técnica denominada PoisonedAlign para crear muestras de alineación envenenadas. Los resultados indican que incluso envenenar una pequeña fracción del conjunto de datos de alineación puede hacer que un LLM se torne más susceptible a seguir mandatos de sugerencias inyectadas, todo mientras conserva su capacidad principal para realizar tareas.

El proceso de alineación de un LLM está diseñado para asegurarse de que estos modelos sigan los valores humanos deseados. Sin embargo, el envenenamiento de estos datos de alineación, provenientes de fuentes no confiables o mediante crowdsourcing, permite a los atacantes introducir muestras envenenadas que debilitan su robustez frente a ataques de inyección de sugerencias. Al probar PoisonedAlign en cinco LLMs, utilizando dos conjuntos de datos y múltiples tipos de ataques de inyección de sugerencias, el equipo descubrió un aumento significativo en la efectividad de los ataques incluso con un 10% de datos envenenados.

Por ejemplo, cuando el conjunto de alineación utilizado fue ORCA-DPO y el modelo de lenguaje Llama-3, la efectividad del ataque aumentó en un 33% en promedio con sólo un 10% de envenenamiento de datos, en comparación con la alineación de datos limpios.

Los datos envenenados diseñados por PoisonedAlign crean un ambiente de alineación en el que el LLM prefiere seguir la instrucción inyectada en lugar de la tarea objetivo. Esto se observa con claridad en experimentos realizados con distintas tareas de lenguaje natural, donde se demostró que modelos preentrenados sobre una base de datos infectada por PoisonedAlign fueron mucho más propensos a seguir comandos de tareas inyectadas.

En conclusión, este estudio destaca una amenaza creciente para la seguridad de los LLM, subrayando la necesidad urgente de desarrollar defensas eficaces contra técnicas de envenenamiento en procesos de alineación de estas tecnologías. Los autores sugieren que futuras investigaciones podrían explorar medios para contrarrestar estos ataques e inclusive ampliar las evaluaciones a modelos multimodales, consolidando así un marco de seguridad más robusto para estas avanzadas herramientas de inteligencia artificial.**

Solo noticias

y ya

Aumenta la Vulnerabilidad de los LLMs con Ataques de Inyección de Prompts