Sesgos en la Evaluación Automatizada de Ensayos: Un desafío en la Educación

En el incipiente campo de la evaluación de ensayos automatizada utilizando modelos de lenguaje de gran escala, surge una preocupación sobre los potenciales sesgos que estos modelos pueden introducir al puntuar ensayos escritos por estudiantes de diversos orígenes demográficos. Esta inquietud se centra especialmente en la habilidad de los modelos lingüísticos de inflexión en identificar inadvertidamente atributos demográficos de los estudiantes, lo cual podría influir en la imparcialidad de las calificaciones asignadas.

Nuestro estudio se focalizó en el uso de modelos de gran lenguaje (LLMs) para evaluar ensayos escritos por estudiantes, explorando si estas herramientas modernas de procesamiento de lenguaje eran capaces de identificar características demográficas de los autores, como el género y el trasfondo lingüístico.

Utilizando un corpus público de más de 25,000 ensayos argumentativos escritos por estudiantes, se implementaron prompts dirigidos al modelo GPT-4 para inferir atributos como el género y el idioma de procedencia del estudiante. A nuestros hallazgos destaca que, aunque el modelo presume de una alta tasa de cobertura al identificar el trasfondo lingüístico, el reconocimiento de género fue marcadamente menos confiable.

Más importante aún, los errores de puntaje se vieron exacerbados cuando el modelo identificaba correctamente el trasfondo lingüístico de un estudiante, lo que resultaba en calificaciones menos justas para aquellos cuyo idioma materno no es el inglés. Este fenómeno no se replicó al analizar el atributo de género, apuntando a una menor influencia de este factor en la introducción de sesgos durante el proceso de calificación.

Nuestros análisis revelan que estos sesgos subyacentes podrían estar más relacionados con las diferencias lingüísticas inherentes al idioma que con estereotipos de género. En lo que respecta a las estrategias de mitigación, queda claro que las técnicas de ajuste fino no son directamente aplicables a los modelos basados en prompts debido a su dependencia tanto en el conocimiento preentrenado como en la interacción sin ajuste específico.

Concluimos que aunque los modelos de lenguaje grande ofrecen prometedoras capacidades para la automatización de tareas como la revisión de escritos, se hace imperativo diseñar y aplicar medidas destinadas a corregir estas predisposiciones demográficas. De este modo, podríamos facilitar un acceso más equitativo al uso de la inteligencia artificial en contextos educativos, promoviendo una calificación imparcial que beneficie a estudiantes de diversos orígenes lingüísticos y culturales.

Solo noticias

y ya

Sesgos en la Evaluación Automatizada de Ensayos: Un desafío en la Educación