Un nuevo marco de evaluación para la inteligencia artificial (IA) ha sido propuesto, centrado en la validez y destinado a asegurar que las evaluaciones capten verdaderamente las habilidades y riesgos de los sistemas de IA. Este marco resalta la importancia de la validez de contenido, criterio, constructiva y externa, evaluando cómo estos conceptos se traducen a evaluaciones de IA. Con el crecimiento de los modelos de IA de propósito general, el enfoque en la validez busca garantizar que las evaluaciones reflejen con precisión la utilidad y riesgos del mundo real.
La propuesta destaca que la validez de contenido debe asegurarse mediante un mapeo sistemático de contenido y análisis de diversidad experta, abordando así la posible exclusión de tópicos relevantes. Además, la validez de criterio es reforzada al comparar el desempeño en estas pruebas con otros estándares científicos establecidos.
El marco introduce la idea de validez constructiva para asegurar que se mida realmente lo que se supone medir, y se destaca la importancia de la validez externa, generalizando los resultados de las evaluaciones más allá del contexto inmediato.
Para ilustrar su aplicación, se examina un conocido conjunto de preguntas de nivel avanzado (Graduate-Level Google-Proof Question Answering Benchmark), diseñado para evaluar conocimientos en ciencias específicas como biología, física y química. Este benchmark es reconocido por su alto nivel de dificultad, demostrado por su tasa de éxito del 34% entre evaluadores no expertos.
A pesar de su complejidad, el nuevo marco de evaluación sugiere que la validez constructiva se ve limitada si no se incluyen aspectos como el razonamiento abstracto y la comprensión integrada de los problemas. Se propone completar estas mediciones con preguntas de tipo abierto que reflejen un razonamiento científico más profundo.
En conclusión, este marco tiene el potencial de cambiar la manera en que los académicos, reguladores y empresas interpretan el rendimiento de la IA. Al considerar múltiples formas de validez, se asegura que las afirmaciones sobre la IA no solo sean persuasivas, sino también fundamentadas y apoyadas por evidencia empírica.