En la conferencia COLM 2024, un equipo de investigadores presentó un novedoso enfoque automatizado de verificación de hechos destinado a mejorar la detección de desinformación, aprovechando la combinación de Modelos de Lenguaje de Amplia Escala (LLMs) y agentes de búsqueda en la web. Este enfoque se destaca por superar significativamente las plataformas de verificación de hechos existentes, aumentando la eficacia en un 20% en el índice F1 macro de detección de desinformación.
Uno de los principales descubrimientos es que el uso de agentes de búsqueda en línea, como Cohere y DuckDuckGo, en conjunción con LLMs, mejora notablemente la detección de desinformación en comparación con los modelos que no utilizan búsqueda. Los investigadores probaron diferentes modelos como GPT-3.5, GPT-4, y otros, observando que la búsqueda en la web mejora el rendimiento en todos estos menos en el modelo Vicuna.
Además, se determinó que el aumentar el número de fuentes consultadas mejora la precisión de las verificaciones, mientras que ninguna fuente en particular demostró ser indispensable. No obstante, se deben evitar configuraciones donde Wikipedia se use exclusivamente como base de conocimiento comparado con la web abierta, pues muestran peores resultados.
El estudio también analizó los sesgos de las fuentes usadas. Se encontró que las fuentes presentaban un sesgo leve hacia la izquierda del espectro político, mientras que las afirmaciones verificadas tendían a inclinarse a la derecha. A pesar de esto, el sistema mostró una alta credibilidad en general. La capacidad de los modelos para descomponer afirmaciones inciertas en subafirmaciones más manejables se demostró como un avance crucial en la precisión de la detección.
Finalmente, el estudio acometió la cuantificación del sesgo de las fuentes y la calidad de las afirmaciones de entrada, demostrando que el uso de una variedad de fuentes reduce el ruido y aumenta las posibilidades de encontrar evidencia necesaria para verificar afirmaciones. Aunque no se encontró un patrón concluyente sobre cómo distintos aspectos del sesgo de las fuentes pueden mejorar la eficacia del sistema, los resultados presentan un camino prometedor para mejorar las herramientas de mitigación de desinformación mediante la búsqueda basada en evidencia.
Con esta investigación, los autores esperan contribuir significativamente al desarrollo de sistemas más robustos y basados en evidencia, para enfrentar uno de los mayores desafíos sociales de nuestra era: la desinformación.