La Universidad de Michigan presentó un documento técnico titulado “Marco de Evaluación para Sistemas de IA en el Mundo Real”, que propone un marco comprensivo para evaluar modelos de inteligencia artificial generativa (GenAI) en escenarios reales. El documento resalta la importancia de implementar métodos de evaluación dinámicos y continuos, en vez de depender únicamente en pruebas de laboratorio estáticas, afirmando que estas últimas no reflejan con precisión el rendimiento de los modelos en el mundo real.
Actualmente, la evaluación de modelos GenAI se centra en puntos de referencia estándar y conjuntos de datos fijos, lo cual proporciona una forma controlada de medir capacidades específicas de los modelos. Sin embargo, estas evaluaciones pueden no coincidir con los escenarios impredecibles que los modelos enfrentan fuera del laboratorio. La necesidad de enfoques de evaluación holísticos que incorporen métricas múltiples, como rendimiento, equidad y consideraciones éticas, es destacada por los autores, quienes proponen la integración del juicio humano en los procesos evaluativos, equilibrándolo con métodos automatizados.
Los autores subrayan que los modelos GenAI son utilizados cada vez más en aplicaciones críticas, donde errores o sesgos pueden tener consecuencias significativas, resaltando la urgencia de métodos de evaluación adaptativos y orientados al resultado, que vayan más allá de la precisión o eficiencia, considerando el impacto más amplio sobre usuarios y la sociedad.
Paralelamente, el documento recomienda que legisladores enfoquen la regulación en los resultados de los sistemas de IA más que en características específicas del diseño de modelos, para mantenerse robustos frente a los adelantos tecnológicos.
Casos de estudio presentados en el documento ilustran cómo implementar esta evaluación de manera práctica en sectores como la salud, con la suma automatizada de notas clínicas, y en la moderación de contenido en redes sociales, donde los modelos deben ser actualizados regularmente para adaptarse a nuevos tipos de lenguaje ofensivo.
Finalmente, los autores concluyen que las recomendaciones dadas buscan que la comunidad de IA avance hacia un futuro donde los modelos GenAI no solo sean técnicamente eficientes, sino también éticos y capaces de generar un impacto positivo en diversos entornos de aplicaciones.