Investigadores del campo de la inteligencia artificial han propuesto un novedoso marco para medir y asegurar la consistencia semántica en los modelos de lenguaje generativo. En el contexto de la generación de lenguaje natural (NLG), estos modelos, conocidos como Large Language Models (LLMs), han demostrado una fluidez y competencia excepcionales en diversas tareas. Sin embargo, su creciente adopción también ha resaltado preocupaciones sobre su confiabilidad y seguridad, especialmente en su capacidad para generar salidas consistentes ante entradas que poseen un significado semántico equivalente.
La investigación, llevada a cabo por Harsh Raj y su equipo, propone superar las medidas de consistencia lexical, que sólo abordan la igualdad de léxicos, mediante un enfoque que considere la consistencia de las secuencias textuales generativas completas. Este marco busca asegurar que las respuestas generadas por los LLMs ante versiones parafraseadas de una pregunta sean coherentes semánticamente, algo crucial para situaciones de generación de texto abierto.
Para validar el nuevo enfoque, los investigadores emplearon diferentes medidas de equivalencia semántica y arquitecturas de LLM, así como técnicas de parafraseo y generación de respuestas. Destacan como hallazgos principales que los LLMs de mayor tamaño suelen mostrar niveles más altos de consistencia, aunque sus respuestas pueden ser menos precisas, reflejando un fenómeno inverso entre tamaño del modelo y precisión.
Además, el estudio introduce una estrategia de “apuntamiento”, denominada Ask-to-Choose (A2C), que mejora significativamente tanto la exactitud como la consistencia semántica de las respuestas generadas. Esta estrategia supone un avance al proporcionar al LLM múltiples salidas candidatas, permitiéndole seleccionar la respuesta más coherente.
Una comparación con métricas tradicionales basadas en consistencia léxica, y algunas de las desarrolladas en estudios previos, demostró que la nueva métrica propuesta se alinea más de cerca con las evaluaciones humanas. Estos resultados son respaldados por evaluaciones empíricas y sugieren que la mejora en la consistencia no tiene un correlato directo con la precisión de las respuestas, lo que resalta la necesidad de métricas que aborden explícitamente la consistencia semántica.
Este enfoque no sólo promete robustecer la seguridad en el uso de modelos de lenguaje generativo, sino que también pone de manifiesto la importancia de un marco de evaluación que abarque las variaciones semánticas y no sólo léxicas. El impacto de un modelo cuya salida sea consistentemente alineada con los significados intensionales de las preguntas podría redefinir su confiabilidad en aplicaciones prácticas, desde la atención al cliente hasta la educación automática.