Tema: Evaluación De Modelos

2025

G-Pass@k: Redefiniendo la Evaluación de los Modelos de Lenguaje

jun. 3

La nueva métrica G-Pass@k muestra grietas en la estabilidad de desempeño de los modelos de lenguaje actuales.

2025

HiCUPID: Revolucionando la Personalización de Modelos de Lenguaje

jun. 3

Un novedoso benchmark desafía el enfoque "one-size-fits-all" de los LLMs al promover asistentes virtuales más personalizados

2025

GIE-Bench, seguro fijo para evaluar la edición de imágenes guiada por texto

may. 19

GIE-Bench propone un sistema de evaluación innovador para modelos de edición de imágenes que combina precisión funcional y preservación de contenido.

2025

Avances en la Generación de Imágenes Guiada por Texto

may. 6

Investigadores de Singapur evalúan modelos y proponen una mirada hacia el futuro

2025

Evaluación de Modelos de IA Avanzados en Capacidades de Sigilo y Conciencia

may. 5

Los resultados preliminares de un estudio de Google DeepMind sugieren que, si bien los modelos de inteligencia artificial actuales tienen limitaciones, requieren mecanismos de seguridad más robustos a medida que avanzan en complejidad.

2024

Desafíos en los Avances de Modelos de Lenguaje: ¿Genial Razonamiento o Solo Suerte?

oct. 22

Un estudio revela la fragilidad de las mejoras en modelos de lenguaje al considerar el muestreo repetido y sus implicaciones.

2024

Transparencia en la Superposición de Modelos de Lenguaje: Un Camino por Recorrer

oct. 14

Solo 9 de 30 modelos de IA analizados revelan detalles de su superposición de entrenamiento y prueba, destacando la necesidad de mayor transparencia en el sector.

2024

Innovador Método de Clasificación Listwise: LAC Lidera en Eficacia de Crowdsourcing

oct. 11

El método LAC aborda la complejidad de la agregación completa de clasificaciones a través del crowdsourcing, superando a métodos tradicionales mediante un enfoque pionero que integra habilidad de anotadores y dificultad de problemas.

Solo noticias

y ya

Tema: Evaluación De Modelos

2025

G-Pass@k: Redefiniendo la Evaluación de los Modelos de Lenguaje

2025

HiCUPID: Revolucionando la Personalización de Modelos de Lenguaje

2025

GIE-Bench, seguro fijo para evaluar la edición de imágenes guiada por texto

2025

Avances en la Generación de Imágenes Guiada por Texto

2025

Evaluación de Modelos de IA Avanzados en Capacidades de Sigilo y Conciencia

2024

Desafíos en los Avances de Modelos de Lenguaje: ¿Genial Razonamiento o Solo Suerte?

2024

Transparencia en la Superposición de Modelos de Lenguaje: Un Camino por Recorrer

2024

Innovador Método de Clasificación Listwise: LAC Lidera en Eficacia de Crowdsourcing