El estudio realizado por Yachao Zhao y su equipo de colaboradores en la Universidad de Tianjin, aborda un tema que ha sido ampliamente discutido en el campo de la inteligencia artificial: los sesgos implícitos y explícitos presentes en los modelos de lenguaje de gran escala. Estos modelos, conocidos como LLMs por sus siglas en inglés, tienen la capacidad de generar patrones lingüísticos complejos, pero también reproducen prejuicios y estereotipos que existen en los datos con los que son entrenados.
La investigación se centra en dos formas de sesgos: el explícito, que es consciente y fácilmente identificable, y el implícito, que es inconsciente y más difícil de detectar. Para ello, el equipo propone un marco de evaluación novedoso basado en la auto-reflexión, utilizando técnicas de psicología social, como el Implicit Association Test (IAT) y el Self-Report Assessment (SRA).
A lo largo del estudio, se realizaron experimentos extensivos sobre modelos avanzados de lenguaje, incluyendo tanto herramientas de código abierto como propietarias, evaluando sesgos en varias dimensiones sociales como género, raza, ocupación, edad y discapacidad. Los resultados revelan una notable inconsistencia entre los sesgos explícitos e implícitos: mientras el sesgo explícito tiende a manifestarse como estereotipos leves, el sesgo implícito resulta en asociaciones más fuertes y problemáticas.
Uno de los hallazgos más significativos del estudio es que mientras el sesgo explícito disminuye con un mayor volumen de datos de entrenamiento y tamaño del modelo, el sesgo implícito sigue una tendencia opuesta. Resulta que las técnicas contemporáneas de alineación logran suprimir eficazmente los sesgos explícitos, pero tienen una eficacia limitada en la mitigación del sesgo implícito.
Esto pone de manifiesto la necesidad de enfoques de investigación más amplios y diferentes para abordar y comprender los complejos mecanismos de los sesgos en los modelos de lenguaje. Aunque las mejoras recientes en los LLMs han logrado reducir el sesgo explícito, tratar con el sesgo implícito puede requerir enfoques fundamentales completamente distintos.