Innovador Método para Garantizar la Seguridad de Modelos de Lenguaje

Investigadores de la Universidad de Massachusetts Amherst, en colaboración con Sony AI, han desarrollado una nueva metodología para mejorar la seguridad de los modelos de lenguaje con inteligencia artificial mediante el uso del Aprendizaje por Refuerzo guiado por retroalimentación humana, conocido como HC-RLHF. Esta técnica ofrece garantías de seguridad de alta confianza mientras maximiza la utilidad, desglosando las preferencias humanas en dos componentes: la eficacia y la inofensividad.

A diferencia de los enfoques tradicionales que entrelazan estas dos métricas, el método HC-RLHF propone un enfoque de dos pasos. Inicialmente, optimiza la función de recompensa bajo un modelo de costo pesimista. Posteriormente, somete el modelo entrenado a una prueba de seguridad para verificar que cumple con el límite superior de confianza del costo predeterminado.

La investigación demuestra teóricamente que este enfoque no entregará soluciones inseguras con una probabilidad mayor a un umbral determinado por el usuario. Los resultados empíricos alinear los modelos de lenguaje (Qwen2-1.5B, Qwen2.5-3B, y LLaMa3.2-3B) con las preferencias humanas indican que los modelos resultantes son seguros con alta probabilidad.

El estudio resalta la importancia de una separación clara entre la utilidad y la seguridad en aplicaciones de la vida real, donde mejoran tanto la inofensividad como la utilidad en comparación con métodos previos.

En conclusión, HC-RLHF representa una prometedora mejoría en el alineamiento de valores humanos en sistemas de inteligencia artificial, presentando una solución balanceada y principista para la alineación de modelos de lenguaje grandes con los valores humanos.

Solo noticias

y ya

Innovador Método para Garantizar la Seguridad de Modelos de Lenguaje