Evaluación Multilingüe mHumanEval: Un Nuevo Benchmark para LLMs
En un entorno en constante evolución donde el desarrollo de software está cada vez más vinculado a la inteligencia artificial, surge mHumanEval, un nuevo y ambicioso benchmark para evaluar modelos de lenguaje (LLMs), encargado de abrir el camino a nuevas posibilidades en la generación de código multilingüe. Diseñado por un grupo de académicos de la Universidad George Mason, este benchmark busca manejar una de las mayores limitaciones actuales: la diversidad y cobertura de tareas a través de múltiples lenguajes naturales y de programación.
La popular evaluación tradicional conocida como HumanEval, creada por OpenAI, ha servido como referencia estándar en el ámbito de la generación de código. Sin embargo, su enfoque limitado a tareas de conversión de Python desde inglés revela un paisaje incompleto. Aunque se han desarrollado variaciones de HumanEval, como aquellas propuestas por Peng y Cassano, estas siguen restringidas en cuanto a su cobertura lingüística y diversidad de casos de prueba.
El nuevo benchmark mHumanEval se posiciona más allá de estas limitaciones al incluir más de 200 lenguajes naturales y 25 lenguajes de programación, abarcando desde lenguajes de alto recurso hasta aquellos de recursos medios y bajos. Esto se logra mediante una combinación de métodos de traducción automática avanzada y traducciones humanas para una quincena de lenguajes, asegurando la integridad y calidad del benchmark.
Para garantizar su efectividad, se llevan a cabo pruebas rigurosas para evaluar la calidad de las traducciones y la adaptabilidad de los modelos, incluidas métricas como BERTScore y CometKiwi. A través de estos métodos, se identifica que los modelos cerrados, con preentrenamientos más extensos y conjuntos de datos más diversos, presentan un rendimiento superior en la generación de código en diferentes contextos lingüísticos. No obstante, se observan desafíos significativos en lenguajes de recursos bajos, resaltando la necesidad de un mayor enfoque en la inclusión de datos multilingües en los modelos de IA.
Además, mHumanEval proporciona subconjuntos específicos adecuados para estudios preliminares y abarcativos, como mHumanEval-mini, mHumanEval-T500 y otros, facilitando la evaluación interina y a gran escala de los modelos de IA con un enfoque en el entorno práctico y la aplicabilidad real del código generado.
En última instancia, la creación de mHumanEval representa un avance crucial en la democratización de la tecnología de inteligencia artificial, al abrir la puerta a una más equitativa distribución de capacidades tecnológicas a través del espectro de lenguajes naturales. Este benchmark no solo ofrece una herramienta vital para investigadores y desarrolladores, sino que también enfatiza la importancia de un enfoque multilingüe en la innovación tecnológica.