En el reciente estudio titulado “Alignment Revisited: Are Large Language Models Consistent in Stated and Revealed Preferences?”, los investigadores abordan un potencial problema en el comportamiento de los Modelos de Lenguaje a Gran Escala (LLMs). Estos modelos, cada vez más integrados en procesos de toma de decisiones, presentan una discrepancia notable entre las preferencias que expresan explícitamente y las que realmente guían sus decisiones en contextos concretos.
Los LLMs, al ser confrontados con enunciados generales, suelen expresar preferencias consistentes con principios morales, sociales o racionales ampliamente aceptados. Sin embargo, en situaciones específicas, estos principios declarados pueden divergir significativamente de las decisiones reales. Esta desviación se atribuye, en parte, a la sensibilidad de los modelos a críticas sutilezas contextuales. Por ejemplo, un LLM podría afirmar inicialmente evitar estereotipos de género, pero al enfrentar un contexto más matizado, podría revertir a asociaciones estereotipadas.
Para cuantificar esta desviación, los investigadores utilizaron herramientas como la divergencia de Kullback-Leibler, que permitió medir la alteración en la distribución de preferencias al pasar de un contexto general a uno específico. En la evaluación, modelos como GPT y Gemini mostraron diferencias en sus niveles de desviación, lo que sugiere variabilidad en cómo los contextos influencian sus preferencias internas.
Los detectives de este fenómeno utilizaron un rico conjunto de datos basado en decisiones binarias forzadas que abarcaban categorías de preferencias como la moral, la gestión de riesgos y la justicia en la distribución de recursos. Esta metodología no solo reveló las inconsistencias inherentes de los LLMs, sino que también propuso un marco sistémico para futuras investigaciones sobre la alineación cultural de estos modelos, crucial para su despliegue ético en servicios donde la moralidad y la justicia son fundamentales.
Con estas observaciones, el estudio invita a una exploración más profunda sobre los principios que los LLMs seleccionan internamente y sobre cómo estos principios son susceptibles a los cambios contextuales. Se sugiere una vigilancia continua para garantizar que estos modelos mantengan un comportamiento alineado con las expectativas éticas y sociales en aplicaciones de alta importancia.
Con un enfoque hacia el futuro, los investigadores planean expandir esta línea de estudio, desarrollando herramientas que esclarecerán los procesos de razonamiento latente dentro de los LLMs, planteando preguntas sobre la naturaleza del juicio y la agencia en sistemas de IA cada vez más autónomos.