Investigadores del Departamento de Física de la Universidad George Washington han logrado desarrollar una fórmula novedosa que permite predecir el momento exacto en que una Inteligencia Artificial (IA), concretamente un Modelo de Lenguaje a Gran Escala (LLM) como ChatGPT, puede cambiar repentinamente su comportamiento de respuestas correctas a potencialmente peligrosas o irrelevantes. Este fenómeno, descrito como un “punto de inflexión Jekyll y Hyde”, es crucial para mejorar el entendimiento sobre cómo las IA procesan información.
El estudio revela que el “punto de inflexión” ocurre cuando la atención del modelo se distribuye tan ampliamente que llega a un punto de ruptura. Este fenómeno se produce debido a la estructura interna de la IA conocida como “cabeza de atención”, la cual se encarga de dirigir el enfoque hacia partes específicas de los datos de entrada. La investigación ha desarrollado una fórmula exacta, utilizando matemáticas básicas, capaz de predecir cuándo ocurre este punto crítico.
Un hallazgo relevante del estudio es que el punto de inflexión se define en gran medida por la interacción entre los vectores de palabras clave específicas y cómo su alineación puede dirigir el comportamiento de respuesta de la IA. Inicialmente, se privilegia el contenido correcto, pero variaciones en los vectores pueden cambiar este balance, llevando al modelo a privilegiar contenido erróneo.
Además, se ha comprobado que la adición de palabras corteses a las solicitudes no tiene un impacto significativo en evitar este cambio, ya que esos términos son considerados irrelevantes para la tarea principal de la IA.
La implicación de este hallazgo es significativa para usos más amplios de la IA, como asistentes personales, consejeros médicos o decididores en situaciones críticas de conflicto. La fórmula desarrollada puede guiar a encargados de políticas y al público en general para discutir y evaluar los riesgos de integrar la IA en funciones más críticas.
En conclusión, la comprensión y previsión de los comportamientos erráticos de las IA es fundamental en su desarrollo y aplicación para garantizar su diferencial impacto positivo en aplicaciones cotidianas y críticas al mismo tiempo.