Noticia
En un estudio realizado por expertos de las universidades de Stony Brook y Saskatchewan, se ha analizado el rendimiento de grandes modelos de lenguaje (LLMs, por sus siglas en inglés) como herramientas alternativas a las evaluaciones manuales de escritos académicos. Las conclusiones son alentadoras, ya que estos modelos son capaces de realizar valoraciones analíticas multidimensionales de manera fiable y general.
El análisis se centró en las revisiones de literatura escritas en inglés por estudiantes de posgrado no nativos (L2), evaluadas previamente por expertos humanos según nueve criterios analíticos. Los LLMs fueron testados en diversas condiciones, generándose evaluaciones y comentarios sobre los textos.
Los resultados indicaron una fiabilidad razonable de los LLMs al asumir la tarea de evaluar escritos académicos no nativos: mostraron capacidad para generar una valoración analítica multidimensional de manera aceptable. A pesar de la creciente adopción de estos modelos para tareas automatizadas en el ámbito educativo, aún queda por estudiar el potencial completo de estas tecnologías.
Se ha liberado el corpus y el código usado para el estudio, lo cual será de ayuda para futuros trabajos. Además, uno de los objetivos clave del proyecto es facilitar la investigación académica futura en este campo proporcionándole a la comunidad acceso a datos estructurados y criterios de evaluación.
Uno de los aspectos cruciales de esta investigación es la comparación entre los resultados generados por los LLMs y las evaluaciones humanas. Se halló que ambos tipos de evaluaciones solo diferían en un punto de diferencia en una escala de diez, lo cual no representa una discrepancia mayor.
El estudio empleó cinco temas específicos, que incluyeron desde las consecuencias sociales de la legalización del cannabis hasta lecciones aprendidas de la pandemia del COVID-19 y el pacifismo, lo que aportó una amplia gama de contextos de evaluación.
Como ventaja de los LLMs se encuentra su capacidad para evitar los sesgos y el agotamiento mental que pueden afectar las evaluaciones humanas, permitiendo además un análisis más detallado y objetivo del material escrito. No obstante, la adopción de estas tecnologías no está exenta de desafíos, especialmente en la fusión habitual de datos de entrenamiento de modelos de lenguaje en sus evaluaciones de contenido.
En conclusión, aunque futuras investigaciones son necesarias para explorar y mejorar la aplicación de LLMs en evaluaciones académicas, los resultados sugieren que estos modelos podrían convertirse en herramientas valiosas para la enseñanza asistida por la tecnología, proporcionando una alternativa dinámica y confiable a las evaluaciones tradicionales en un contexto de aprendizaje autorregulado y apoyo docente.