Tema: Benchmarking
2025
AI-GenBench: Innovación en la Detección de Imágenes Generadas por IA
Un nuevo estándar que aborda la evaluación y mejora de los detectores de imágenes sintéticas en escenarios reales.
2024
mHumanEval: El Puente Hacia la Generación de Código Multilingüe
Un nuevo estándar que amplía el espectro de lenguajes en la programación con inteligencia artificial.
2024
Revolución en la Evaluación de Modelos de Recompensa con PPE
La Universidad de California desarrolla una nueva herramienta para evaluar y mejorar modelos de lenguaje en bases a preferencias humanas reales.