Alucinaciones inducidas en LLMs: un reto de confiabilidad

En un entorno donde los modelos de lenguaje a gran escala (LLMs) son cada vez más relevantes, un estudio reciente llevado a cabo por Makoto Sato en la Universidad de Kanazawa ha revelado importantes hallazgos en cuanto a la susceptibilidad de estos modelos a generar alucinaciones inducidas por prompts específicos. Este fenómeno, aunque creativo, puede comprometer la fiabilidad y precisión, particularmente en aplicaciones críticas como la medicina y el derecho.

Los investigadores introdujeron un marco de trabajo basado en prompts, denominado Hallucination-Inducing Prompt (HIP) y Hallucination Quantifying Prompt (HQP), para evaluar y generar alucinaciones en LLMs. De hecho, se diseñaron prompts que fusionaban conceptos semánticamente distantes, como la tabla periódica y el tarot, para desatar respuestas alucinadas que carecen de coherencia y veracidad factual.

Resultados experimentales cruzados en varios modelos de LLM revelaron discrepancias significativas, mostrando que los modelos orientados al razonamiento, como ChatGPT-o3, exhiben diferentes perfiles de susceptibilidad en comparación con sus contrapartes de propósito general. Por ejemplo, DeepSeek-R1, uno de los modelos evaluados, presentó una tendencia significativamente mayor a generar respuestas alucinadas comparado con otros modelos como Gemini2.5Pro, que demostró salidas más restringidas y basadas en hechos.

El estudio profundizó en cómo la integración semántica sin una base conceptual puede actuar como un catalizador para alucinaciones, destacando así la importancia del diseño de prompts en la implementación segura de modelos de lenguaje. Dentro de los distintos tipos de prompts probados, los del tipo HIPc, que fusionaban conceptos de manera confusa, provocaron respuestas con mayor nivel de alucinación que sus versiones contrarias, confirmando que la fusión conceptual es clave para promover estos fenómenos.

Para abordar este problema de manera más amplia, el estudio propuso el desarrollo de modelos que no solo sean sinérgicos con otros campos intelectuales, sino también introspectivos, capaces de detectar y regular la aparición de inestabilidades conceptuales.

En conclusión, la investigación liderada por Sato y su equipo proporciona un marco reproducible para estudiar la vulnerabilidad a las alucinaciones en LLMs. Al avanzar hacia modelos más seguros, es crucial comprender los mecanismos internos que subyacen a estas alucinaciones y cómo la estructura y diseño de prompts pueden influir en el comportamiento generativo de estos modelos tan populares en diversas aplicaciones hoy en día.

Solo noticias

y ya

Alucinaciones inducidas en LLMs: un reto de confiabilidad