Tema: Evaluación

2025

Los Modelos de Lenguaje Extensivo en la Psicoterapia: Avances y Retos

jun. 3

Un análisis exhaustivo revela el potencial y desafíos de integrar LLMs en las etapas críticas del tratamiento psicoterapéutico.

2025

ESGenius: Elevando la Comprensión de la Sostenibilidad en LLMs

jun. 3

Un nuevo benchmark impulsa la evaluación del manejo de conceptos de ESG por parte de los Modelos de Lenguaje Grupal.

2025

Presentan un Innovador Marco de Evaluación para la Validez de la IA

may. 19

El nuevo enfoque busca garantizar la precisión y utilidad de las evaluaciones en modelos de inteligencia artificial avanzados.

2025

Humanos vs IA: Diferencias en la Evaluación de la Creatividad

may. 6

Estudios revelan cómo humanos y modelos de lenguaje discrepan en la valoración de la originalidad y creatividad en ciencia y tecnología.

2025

La importancia de evaluaciones adaptadas para modelos de visión en ecología y biología

may. 6

Estudios recientes destacan cómo personalizar las evaluaciones puede mejorar la aplicación de modelos de visión artificial para la conservación y el análisis de comportamiento animal.

2025

Un Nuevo Enfoque para Aumentar la Consistencia Semántica en Modelos de Lenguaje

abr. 30

Investigadores proponen un marco innovador para medir y asegurar la consistencia en los LLMs, alineando más las evaluaciones humanas frente a métodos léxicos previos.

2025

La Evolución del Razonamiento en Grandes Modelos de Lenguaje: Más Allá de la Respuesta Final

abr. 30

El estudio revela que analizar pasos intermedios en modelos de lenguaje mejora la precisión en tareas complejas.

2025

Nueva Guía para Evaluar Sistemas de IA en Escenarios Reales

abr. 29

La Universidad de Michigan desarrolla un marco de evaluación que aboga por métodos dinámicos y continuos más allá del laboratorio.

2024

Desafíos y Futuro de la Generación de Código con LLMs

oct. 23

Un nuevo estudio examina la habilidad real de los modelos de lenguaje para desarrollar código funcional en diversos lenguajes.

2024

FIOVA: Un Nuevo Horizonte para la Evaluación de Modelos de Comprensión de Video

oct. 22

El benchmark FIOVA propone analizar las diferencias en comprensión entre humanos y modelos LVLM en vídeos complejos.

2024

SPA-BENCH: La Evaluación Integral de Agentes Inteligentes para Smartphones

oct. 22

El nuevo punto de referencia tecnológico que busca poner a prueba los límites de los agentes inteligentes en tiempo real.

2024

Los LLMs Revolucionan la Creación de Pruebas de Razonamiento Común

oct. 22

Examinando la capacidad de los modelos de lenguaje para generar y responder cuestionarios de razonamiento causal

2024

SPORTU: Evaluando la Comprensión Deportiva de los Modelos AI

oct. 14

SPORTU redefine cómo evaluamos el razonamiento deportivo integrando texto y video para MLLMs.

2024

VIVA: Evaluación de Modelos de Lenguaje Visuales con Valores Humanos

oct. 11

Nuevos experimentos revelan limitaciones y potenciales en la integración de valores humanos en la inteligencia artificial.

Solo noticias

y ya

Tema: Evaluación

2025

Los Modelos de Lenguaje Extensivo en la Psicoterapia: Avances y Retos

2025

ESGenius: Elevando la Comprensión de la Sostenibilidad en LLMs

2025

Presentan un Innovador Marco de Evaluación para la Validez de la IA

2025

Humanos vs IA: Diferencias en la Evaluación de la Creatividad

2025

La importancia de evaluaciones adaptadas para modelos de visión en ecología y biología

2025

Un Nuevo Enfoque para Aumentar la Consistencia Semántica en Modelos de Lenguaje

2025

La Evolución del Razonamiento en Grandes Modelos de Lenguaje: Más Allá de la Respuesta Final

2025

Nueva Guía para Evaluar Sistemas de IA en Escenarios Reales

2024

Desafíos y Futuro de la Generación de Código con LLMs

2024

FIOVA: Un Nuevo Horizonte para la Evaluación de Modelos de Comprensión de Video

2024

SPA-BENCH: La Evaluación Integral de Agentes Inteligentes para Smartphones

2024

Los LLMs Revolucionan la Creación de Pruebas de Razonamiento Común

2024

SPORTU: Evaluando la Comprensión Deportiva de los Modelos AI

2024

VIVA: Evaluación de Modelos de Lenguaje Visuales con Valores Humanos