Un grupo de investigación de las universidades de Stanford y Columbia Británica ha presentado un estudio que desafía la idea convencional de alinear modelos de lenguaje para mejorar su desempeño en tareas comunes. Su análisis sugiere que los modelos base, sin esta alineación, superan a sus versiones alineadas en tareas que requieren imprevisibilidad y creatividad, como la generación de números aleatorios y la escritura creativa.
Las técnicas de alineación, como el aprendizaje por refuerzo con retroalimentación humana, han ganado popularidad debido a su capacidad para hacer que los modelos sigan instrucciones y se desenvuelvan con seguridad en tareas complejas. Sin embargo, hay tareas específicas, como la escritura creativa o los juegos de estrategia mixta, donde estas técnicas resultan más perjudiciales que beneficiosas. El estudio reveló que los modelos alineados tienden a mostrar comportamientos predecibles y patrones fijos, por ejemplo, favoreciendo el número “7” en la generación de números aleatorios, lo cual limita su eficacia en contextos que demandan variabilidad.
En las pruebas de juegos como el “piedra papel o tijera” o “escondite”, se observó que los modelos alineados son demasiado deterministas, lo que los hace vulnerables a estrategias adversarias que explotan estas debilidades. De manera similar, en la poesía escrita por inteligencia artificial, se prioriza la agradabilidad sobre la originalidad, comprometiendo así el potencial artístico del modelo.
Este fenómeno también se verificó en experimentos de generación de números, donde los modelos alineados fallaron en replicar la aleatoriedad pura, mostrando sesgos que los acercan a patrones comunes de pensamiento humano. Esto resalta una disyuntiva entre alinear los modelos para tareas específicas mientras se sacrifica la esencia creativa que podrían aportar en otras áreas.
El análisis sugiere que el desbalance entre capacidades predictivas y creativas podría ser una característica intrínsecamente ligada a la alineación de los modelos. Aunque los modelos alineados brindan resultados consistentes en estándares generales, podrían no ser la opción idónea para aplicaciones que exigen adaptabilidad y pensamiento divergente, cualidades que están mucho más presentes en los modelos base.