La investigación sobre los modelos de lenguaje grande (LLM) ha revelado un enfoque sistemático para comprender sus capacidades en el razonamiento moral, usando el marco de Prioridades en el Razonamiento y Evaluación Moral Intrínseca (PRIME). Examinamos seis modelos de lenguaje, entre ellos GPT-4, Claude, y LLaMA, aplicando dilemas éticos clásicos para mapear patrones en su ética y valores.
Los hallazgos son sorprendentes: todos los modelos destacaron gran compenetración con las bases éticas del cuidado/perjuicio y equidad/trampa, relegando a un segundo plano dimensiones como la autoridad y la lealtad. Esta tendencia también se había observado previamente en estudios de psicología moral humana, sugiriendo que estos modelos reflejan algunos patrones humanos de raciocinio moral.
Valga destacarse cómo estos LLMs presentaron juicios éticos claros, manejando los dilemas con un nivel de seguridad que varió entre los modelos. Gemini, por ejemplo, mostró una confianza alta en sus decisiones, mientras otros modelos como Claude manifestaron moderada incertidumbre al interactuar con dilemas más complejos.
Al evaluar su actuación en dilemas famosos como el Problema del Tranvía y el Dilema Heinz, los modelos tendieron a coincidir con las elecciones más comunes entre los humanos, optando por decisiones basadas en criterios de máxima preservación de vidas. Sorprendentemente, se hallaron discrepancias más marcadas en juegos donde la Teoría de Juegos es aplicada, como en el Dilema del Prisionero, donde los modelos fueron menos proclives a la cooperación comparado con los humanos.
Este estudio subraya el potencial de estos modelos en la simulación de juicios éticos humanos y sugiere que el desarrollo futuro podría beneficiarse de mejores alineaciones con los valores humanos. La prevención del daño y la justicia parecen ser principios prioritarios, mientras que conceptos como la lealtad y la autoridad carecen de suficiente peso.
Por otro lado, la implementación de salvaguardas es un área de mejora crucial para evitar decisiones apresuradas en situaciones éticas complejas. Lo logrado hasta ahora representa una notable promesa en la interacción humano-máquina, aunque su afinación continua resulta indispensable para insertar estos modelos ya tan presentes en nuestras vidas cotidianas.