En un mundo cada vez más digital, el debate sobre los sesgos de lenguaje en los modelos de lenguaje extensivo (LLM) cobra vital importancia. Los investigadores Yixin Wan y Kai-Wei Chang, de la Universidad de California en Los Ángeles, avanzan en esta discusión mediante la introducción del benchmark LABE (Language Agency Bias Evaluation). Su objetivo es evaluar minuciosamente cómo estos sesgos se manifiestan en las generaciones de texto producidas por LLMs.
Los resultados del LABE revelan patrones preocupantes: los textos generados por LLM presentan mayores niveles de sesgo de agencia de lenguaje cuando se comparan con textos escritos por humanos. Este sesgo es más pronunciado en referencias cruzadas por géneros y razas, especialmente donde se cruzan minorías raciales y de género, como las mujeres negras.
A través de sus pruebas, los investigadores utilizaron tres modelos influyentes: ChatGPT, Llama3 y Mistral, notando que estos generan frecuentemente textos con un marcado sesgo de agencia de género. Por ejemplo, las biografías de hombres tienden a estar representadas con un lenguaje más “agencial” que las de mujeres.
Adicionalmente, el equipo destaca que las minorías raciales, como las poblaciones negras y asiáticas, también sufren de representaciones sesgadas que magnifican la brecha de agencia. Las reseñas de profesores generadas por modelos LLM para profesoras negras, tienden a mostrar un menor nivel de agencia en comparación con profesores blancos.
Para mitigar estos sesgos, los investigadores proponen un enfoque innovador llamado “Mitigación mediante Reescritura Selectiva” (MSR), que identifica y reescribe partes del texto generado que muestran características comunales, impulsando una presentación más agencial. Sus resultados muestran que este método es más efectivo que las técnicas tradicionales basadas en indicaciones simples, aunque no eliminan por completo las disparidades observadas.
Este estudio destaca la necesidad urgente de seguir investigando y desarrollando métodos efectivos para abordar estos sesgos latentes en los modelos de lenguaje con el fin de avanzar hacia una inteligencia artificial más justa y equilibrada.