Los modelos de lenguaje de escala considerable, entrenados en grandes corpora de texto, han sido objeto de críticas debido a la toxicidad en sus salidas, la cual puede variar desde el discurso de odio hasta microagresiones encubiertas en forma de humor. En respuesta, se han desarrollado diversas estrategias para reducir este comportamiento no deseado en los modelos. Recientemente, un nuevo enfoque llamado IF-GUIDE fue introducido, el cual se centra en prevenir que los modelos aprendan comportamientos tóxicos desde el inicio, identificando y suprimiendo ejemplos de entrenamiento perjudiciales dentro del corpus.
A diferencia de las estrategias reactivas como la optimización de preferencias directas (DPO) o el filtro de palabras, IF-GUIDE adopta un enfoque proactivo, ayudado por las funciones de influencia que estiman cómo contribuyen ejemplos específicos de entrenamiento a las salidas del modelo. Esta metodología ha demostrado reducir significativamente la toxicidad del modelo en hasta diez veces en comparación con los modelos sin filtrar y tres veces respecto a las estrategias de alineación tradicionales en tanto en escenificaciones de preentrenamiento como de ajuste fino.
La investigación mostró que, durante la fase de evaluación, IF-GUIDE pudo reducir tanto la toxicidad explícita como la implícita, esta última siendo más difícil de identificar y tratando sutiles manifestaciones como estereotipos o mircroagresiones. Se destaca por su eficiencia computacional, dado que no requiere de modelos de mil millones de parámetros para calcular las puntuaciones de influencia.
El equipo investigador reveló que los impactos del IF-GUIDE se potenciaban al combinarlo con estrategias de alineamiento actuales. Se demostró que la combinación de IF-GUIDE con técnicas como RAD o DPO no solo minimizó significativamente la toxicidad, sino que también preservó la fluidez y el rendimiento en tareas de los modelos.
IF-GUIDE, al no confiar en datos de preferencias humanas, que a menudo son necesarios para las técnicas de alineación existentes y que pueden ser difíciles de recolectar a gran escala, ofrece una alternativa prometedora para el desarrollo de LLMs más seguros y confiables. Además, proporciona un costo computacional reducido en comparación con métodos que requieren procesar constantemente cambios en los parámetros del modelo ante nuevas adiciones al conjunto de datos.
En conclusión, el uso de IF-GUIDE representa un avance significativo en la reducción de la toxicidad de los modelos de lenguaje, destacándose por su enfoque preventivo y su capacidad para integrarse eficientemente en flujos de aprendizaje en línea sin degradar las capacidades originales del modelo.