La investigación reciente ha revelado que los modelos de lenguaje grande multimodal (MLLMs) enfrentan un desafío crítico al interpretar visualizaciones engañosas. Estos gráficos, a menudo usados en comunicaciones masivas por su eficacia en la presentación de datos, pueden distorsionar la realidad y propiciar la desinformación. A pesar de los avances consistentes en la comprensión automatizada de gráficos por parte de los MLLMs, la capacidad de estos modelos para abordar visualizaciones engañosas es todavía limitada.
Un estudio exhaustivo examinó a 18 MLLMs, mostrando que su precisión en responder preguntas basadas en visualizaciones engañosas es, en promedio, similar a conjeturas al azar, debido a la distorsión de los datos subyacentes. Este problema es especialmente grave en visualizaciones truncadas donde el eje vertical no inicia en cero, confunde la percepción visual de los cambios.
Por otro lado, las visualizaciones del mundo real, en comparación con las sintéticas, parecen menos engañosas para algunos MLLMs, especialmente aquellos que pueden apoyarse en su conocimiento almacenado hasta fechas recientes. Sin embargo, esta ventaja es limitada, ya que los datos actuales generalmente no forman parte de dicho conocimiento almacenado, lo que limita la capacidad predictiva del modelo en muchas situaciones.
Para abordar estas vulnerabilidades, se propusieron seis métodos de corrección en el tiempo de inferencia. Los métodos más efectivos fueron la traducción de los gráficos a tablas de datos, lo que elimina las distorsiones visuales, y la creación de visualizaciones fiables a partir de las tablas con el uso de códigos generados por modelos de lenguaje específicos. Estos enfoques a menudo mejoraron significativamente la precisión en la interpretación de visualizaciones engañosas, aunque a veces a costa de la precisión en gráficas no engañosas debido a errores en la extracción de datos tabulares.
En definitiva, este trabajo subraya un vacío crítico en la capacidad de los MLLMs para tratar con visualizaciones engañosas. En un mundo donde la desinformación puede ser difundida mediante gráficos manipulados, es urgente fortalecer la robustez de estas herramientas tecnológicas tanto para usuarios usuarios corrientes como para aplicaciones más sofisticadas de análisis de datos. La mejora de la precisión en la extracción de tablas y el desarrollo de métodos de detección de engaños son pasos esenciales para fortalecer estos modelos frente a los desafíos de desinformación visual.