Tema: Evaluación
2025
Los Modelos de Lenguaje Extensivo en la Psicoterapia: Avances y Retos
Un análisis exhaustivo revela el potencial y desafíos de integrar LLMs en las etapas críticas del tratamiento psicoterapéutico.
2025
ESGenius: Elevando la Comprensión de la Sostenibilidad en LLMs
Un nuevo benchmark impulsa la evaluación del manejo de conceptos de ESG por parte de los Modelos de Lenguaje Grupal.
2025
Presentan un Innovador Marco de Evaluación para la Validez de la IA
El nuevo enfoque busca garantizar la precisión y utilidad de las evaluaciones en modelos de inteligencia artificial avanzados.
2025
Humanos vs IA: Diferencias en la Evaluación de la Creatividad
Estudios revelan cómo humanos y modelos de lenguaje discrepan en la valoración de la originalidad y creatividad en ciencia y tecnología.
2025
La importancia de evaluaciones adaptadas para modelos de visión en ecología y biología
Estudios recientes destacan cómo personalizar las evaluaciones puede mejorar la aplicación de modelos de visión artificial para la conservación y el análisis de comportamiento animal.
2025
Un Nuevo Enfoque para Aumentar la Consistencia Semántica en Modelos de Lenguaje
Investigadores proponen un marco innovador para medir y asegurar la consistencia en los LLMs, alineando más las evaluaciones humanas frente a métodos léxicos previos.
2025
La Evolución del Razonamiento en Grandes Modelos de Lenguaje: Más Allá de la Respuesta Final
El estudio revela que analizar pasos intermedios en modelos de lenguaje mejora la precisión en tareas complejas.
2025
Nueva Guía para Evaluar Sistemas de IA en Escenarios Reales
La Universidad de Michigan desarrolla un marco de evaluación que aboga por métodos dinámicos y continuos más allá del laboratorio.
2024
Desafíos y Futuro de la Generación de Código con LLMs
Un nuevo estudio examina la habilidad real de los modelos de lenguaje para desarrollar código funcional en diversos lenguajes.
2024
FIOVA: Un Nuevo Horizonte para la Evaluación de Modelos de Comprensión de Video
El benchmark FIOVA propone analizar las diferencias en comprensión entre humanos y modelos LVLM en vídeos complejos.
2024
SPA-BENCH: La Evaluación Integral de Agentes Inteligentes para Smartphones
El nuevo punto de referencia tecnológico que busca poner a prueba los límites de los agentes inteligentes en tiempo real.
2024
Los LLMs Revolucionan la Creación de Pruebas de Razonamiento Común
Examinando la capacidad de los modelos de lenguaje para generar y responder cuestionarios de razonamiento causal
2024
SPORTU: Evaluando la Comprensión Deportiva de los Modelos AI
SPORTU redefine cómo evaluamos el razonamiento deportivo integrando texto y video para MLLMs.
2024
VIVA: Evaluación de Modelos de Lenguaje Visuales con Valores Humanos
Nuevos experimentos revelan limitaciones y potenciales en la integración de valores humanos en la inteligencia artificial.