Un nuevo trabajo académico realizado por investigadores de Yale University ha arrojado una nueva luz sobre la posibilidad de detectar automáticamente las “alucinaciones” en los modelos de lenguaje grande (LLM, por sus siglas en inglés). En este estudio, los investigadores establecen un marco teórico que revela la dificultad inherente para detectar automáticamente resultados alucinados si los algoritmos se entrenan únicamente con ejemplos correctos, es decir, en ausencia de retroalimentación explícita sobre errores.
Los investigadores utilizaron el marco clásico de Gold-Angluin para la identificación de lenguajes y su adaptación al contexto de generación de lenguajes. A través de un análisis riguroso descubrieron que la detección de alucinaciones en LLM es tan complicada como la tarea tradicional de identificación de lenguaje. Esta equivalencia se debe a que un método exitoso para identificar alucinaciones puede transformarse en un método de identificación de lenguajes. Sin embargo, sin la inclusión de ejemplos de alucinaciones explícitamente etiquetados, la detección automatizada se vuelve prácticamente imposible para la mayoría de las colecciones de lenguajes.
En un giro positivo, el equipo de Yale evidenció que la inclusión de retroalimentación experta que incluya tanto ejemplos positivos como negativos cambia este panorama. Entrenar detectores con contraste entre afirmaciones correctas e incorrectas permite una detección automática más confiable de alucinaciones. Este hallazgo resalta la importancia crítica de la retroalimentación humana explícita, sugiriendo que metodologías basadas en retroalimentación (como el aprendizaje por refuerzo con retroalimentación humana) son cruciales para mejorar la confiabilidad y la seguridad de los despliegues reales de LLM.
El trabajo vincula hallazgos teóricos con técnicas empíricas recientes que subrayan la importancia del etiquetado negativo. A través de esta investigación, se demuestra que para enfrentar eficazmente los errores de alucinación en LLM, es indispensable adoptar enfoques que incorporen ejemplos correctos e incorrectos durante el proceso de entrenamiento.
Estos resultados proporcionan una base teórica para numerosos intentos prácticos de diseñar mecanismos de detección de alucinaciones en modelos de lenguaje y explican por qué, a pesar de los avances en NLP, las respuestas generadas a menudo contienen errores. Estos hallazgos fomentan futuras investigaciones sobre el papel de los ejemplos negativos y cómo estos podrían cuantificarse en el contexto de la detección automática de alucinaciones, presentando un desafío atractivo para la comunidad científica.