Investigadores del Instituto de Tecnología de Stevens presentan CLAIM-BENCH, un nuevo estándar para evaluar el conocimiento científico de Modelos de Lenguaje Extendido (LLMs) en la identificación y validación de relaciones de afirmación-evidencia en documentos científicos. Este estudio detalla cómo los LLMs, aunque prometen mejorar la productividad y creatividad en la investigación científica, aún enfrentan desafíos significativos al comprender los vínculos lógicos entre afirmaciones científicas y sus correspondientes evidencias.
Para analizar estas capacidades, los investigadores realizaron evaluaciones con más de 300 conjuntos de afirmaciones y evidencias en distintos dominios de la investigación. Los resultados indican que los modelos cerrados como GPT-4 y Claude consistentemente superan a sus contrapartes de código abierto en términos de precisión y recuperación en tareas de identificación de afirmaciones-evidencias. Sin embargo, el costo computacional es considerablemente mayor cuando se implementan enfoques de solicitud uno-a-uno y de tres pasos.
Este aspecto se evidencia cuando modelos como GPT-4 y Claude logran identificar y enlazar afirmaciones con evidencias de manera más precisa, sin embargo, las distancias de enlace de oraciones alcanzan cifras altas, a veces superando los mil enlaces de oraciones. Mientras que modelos como LLaMA y Ministral presentan menores distancias de enlace, indicando un enfoque más conservador pero con una cobertura más reducida.
Los investigadores también destacan que, a pesar de su uso extenso en tareas de investigación, aún se desconoce el verdadero potencial de los LLMs para comprender el conocimiento científico más allá del reconocimiento de patrones superficiales. A través de CLAIM-BENCH, no sólo se proporciona una herramienta diagnóstica clave para evaluar la profundidad comprensiva de los LLMs, sino que también propone caminos para desarrollar sistemas con capacidades de razonamiento más fiables y profundas hasta la evaluación de documentos completos.
Las implicaciones de este estudio podrían transformar la manera en que la inteligencia artificial ayude en el proceso científico, especialmente en tareas críticas como revisiones de pares automatizadas y generación de hipótesis. Sin embargo, resalta la necesidad de rediseñar estos modelos para que gestionen de manera más eficiente los contextos largos y complejos presentados en literatura científica. Esto con vistas a ampliar las capacidades prácticas de los LLMs en la investigación científica futura.