Investigadores de diferentes universidades en China y a nivel internacional han introducido un nuevo benchmark, LiveIdeaBench para evaluar la capacidad de los Modelos de Lenguaje a Gran Escala (LLMs) en la generación de ideas científicas. LiveIdeaBench se centra en evaluar cómo estos modelos pueden generar ideas innovadoras utilizando un único estímulo como palabra clave, en concordancia con la teoría de la creatividad de Guilford.
A través de extensos experimentos, evaluaron más de 40 modelos líderes con una variedad de palabras clave dentro de 22 dominios científicos. El resultado indica que las capacidades de estos modelos para generar ideas no están bien predichas por métricas estándar de inteligencia general. Aunque algunos modelos mostraron un rendimiento similar al de humanos en ciertas pruebas de creatividad, las lagunas fueron evidentes en sus capacidades de inteligencia general.
El proceso de evaluación se lleva a cabo mediante un panel dinámico que considera cinco dimensiones: originalidad, viabilidad, claridad, fluidez y flexibilidad de las ideas generadas. Este enfoque no solo hace hincapié en la creatividad, sino que también proporciona un conjunto de datos comprensivo que monitorea continuamente el rendimiento de los modelos.
Los investigadores encontraron que los modelos que sobresalieron en la generación científica de ideas mediante LiveIdeaBench sufrieron una discrepancia en la predicción del rendimiento usando métricas de inteligencia general. A menudo, modelos con puntuaciones bajas en inteligencia generacional mostraron un desempeño fuerte en generación de ideas científicas.
Además, la investigación concluyó que las capacidades de generación de ideas pueden requerir diferentes estrategias de entrenamiento comparadas con las necesarias para resolver problemas generales, abriendo la puerta a un potencial más amplio en herramientas científicas basadas en IA.
La existencia de un benchmark especializado como LiveIdeaBench subraya la necesidad de formas de evaluación adaptadas que midan realmente la capacidad de generar nuevas ideas, relevantes en el contexto de descubrimientos científicos. A pesar de los logros, se destacó que estos sistemas deben dirigirse a convertirse en colaboradores eficaces y en desencadenantes creativos para investigadores humanos. Esto marca un paso significativo hacia el desarrollo de sistemas híbridos de inteligencia humano-IA.