El avance de los modelos de generación de imágenes a partir de texto, conocidos como T2I (Text-to-Image), ha marcado un hito en el ámbito de la inteligencia artificial. Sin embargo, un reciente estudio ha sacado a luz la preocupante persistencia de estereotipos de género en estas tecnologías, que se magnifica de manera lingüística y cultural. Este sesgo presenta variaciones significativas en función del idioma empleado en los prompts, aquellas instrucciones verbales que desencadenan la creación de las imágenes.
Para abordar esta problemática, un grupo de investigadores ha desarrollado un novedoso banco de pruebas denominado MAGBIG, diseñado específicamente para evaluar el sesgo de género en diversos idiomas dentro de los modelos T2I. Según el estudio, aunque estos modelos han adoptado una capacidad multilingüe muy amplia, continúan reproduciendo sesgos ya presentes en sus versiones monolingües. Notablemente, se encontró que al traducir términos neutros al alemán, donde el sustantivo toma género masculino genérico, las imágenes generadas muestran apariencias que difieren notablemente de las versiones en inglés.
El uso del género neutro en los prompts no ha logrado eliminar completamente el sesgo. Por ejemplo, al aplicar el “gender star” en alemán, que usa un asterisco (*) para representar neutralidad de género, se observó una tendencia a generar más imágenes de apariencia femenina, sin embargo, no mitigó del todo la disparidad de género.
Un análisis cuantitativo de los modelos más populares, como MultiFusion y AltDiffusión, realizó una evaluación del desvío absoluto medio respecto de un escenario ideal de equidad en sus resultados. Se descubrió que el sesgo se acentúa en algunos idiomas más que en otros. De hecho, se observó que, incluso utilizando un lenguaje neutral más sofisticado, el sesgo de género persistía, lo que pone en duda la eficacia de este enfoque como solución al problema.
Ante esto, los investigadores concluyen que, mientras que los enfoques para mitigación de sesgos que van más allá de la ingeniería de prompts muestran una eficacia sustancial, es imprescindible un mayor control para alcanzar resultados más equitativos. Esto es particularmente relevante al considerarse diferentes supuestos normativos acerca de las distribuciones esperadas de las imágenes generadas. Se subraya así la necesidad de futuras investigaciones más profundas en modelos de T2I multilingües, para fomentar representaciones más justas y diversas a nivel global.
En última instancia, el trabajo con MAGBIG no únicamente revela las consistentemente presentes brechas en los modelos actuales, sino también señala caminos potenciales para futuras innovaciones en la lucha contra sesgos sociales instaurados en las tecnologías de inteligencia artificial.
En conclusión, mientras que la tecnología avanza rápidamente abriendo un abanico de posibilidades, la necesidad por hacer estos avances más equitativos y libres de sesgo deberá ser una prioridad constante.