Los modelos de lenguaje grande (LLMs), esas inteligencias artificiales que están revolucionando la forma en que interactuamos con la tecnología, han demostrado ser capaces no solo de responder preguntas complejas sino también de crear sus propias evaluaciones de razonamiento común. Investigadores del Midjourney Institute for Creative Technologies en San Francisco han realizado un estudio detallado sobre esta capacidad de los LLMs, comparando su desempeño tanto en la creación como en la solución de problemas semejantes al Choice of Plausible Alternatives (COPA), una prueba de referencia en inglés que evalúa el razonamiento causal.
El estudio mostró que los LLMs, al generar sus propias preguntas estilo COPA, tienden a ser consistentes solo si previamente han demostrado capacidad al responder las preguntas originales del COPA. LLMs como Llama 2-70B, por ejemplo, no solo tuvieron alto desempeño en responder las preguntas originales, sino también mostraron mayor precisión en generar preguntas nuevas coherentes con el estilo de la evaluación.
El análisis, sin embargo, no quedó en la mera generación de preguntas. También se evaluó la validez de estas por parte de evaluadores humanos externos. Se encontró que la calidad de las preguntas generadas varía considerablemente entre diferentes modelos de LLM. Los que destacaron en responder las preguntas originales también tendieron a generar preguntas que los humanos consideraron válidas y más significativas.
No obstante, las preguntas nuevas creadas por algunos modelos como BLOOM-7B apenas se acercaron a los estándares esperados, siendo aprobadas por evaluadores humanos en un porcentaje bajo, generalmente debido a que las alternativas eran igualmente plausibles o no guardaban relación causal clara.
Los investigadores señalan que a medida que los benchmarks se convierten en problemas más complejos, el uso de LLMs para el desarrollo de pruebas podría tomar un rol prominente. Sin embargo, la falta de transparencia en el entrenamiento y diseño de algunos LLMs sigue siendo un desafío para interpretar las variaciones en sus desempeños.
La investigación sugiere que, aunque los LLMs parecen ser prometedores en tareas de autoría al igual que en tareas de respuesta, el entendimiento completo de sus capacidades sigue en construcción. De momento, refuerzan la idea de que su éxito en resolver evaluaciones como COPA también refleja su habilidad para generar contenido semejante.
Concluyendo, el estudio reitera la capacidad de los LLMs para desempeñarse en tareas de autoría con una calidad sorprendente, aunque el viaje hacia una comprensión completa de sus habilidades autoras está aún por venir. Esta habilidad promete transformar la forma en que concebimos el testeo de habilidades cognitivas computacionales, abriendo la puerta a nuevas aplicaciones en tecnología educativa.