La visualización efectiva de datos no solo requiere destrezas técnicas, sino también una profunda comprensión del contexto específico del dominio en que los datos han sido formados. Esto con frecuencia incluye conocimiento tácito acerca del origen de los datos, su calidad y su uso intencionado, que rara vez es explícito en los datos mismos. Para abordar esta necesidad, se presenta el Data Therapist, una herramienta basada en la web, diseñada para ayudar a los expertos en el dominio a externalizar este conocimiento implícito mediante un proceso de iniciativa mixta que combina una serie de preguntas y respuestas iterativas con anotaciones interactivas.
El sistema, potenciado por un modelo de lenguaje extenso, es capaz de analizar conjuntos de datos proporcionados por el usuario, incitando a los usuarios con preguntas enfocadas, y permitiendo la anotación a distintos niveles de granularidad. La base de conocimiento estructurada resultante puede informar tanto el diseño de la visualización humana como la automatizada. Evaluado en un estudio cualitativo, este abordó a expertos de Biología Molecular, Contabilidad, Ciencia Política y Seguridad Usable, revelando patrones recurrentes en cómo los expertos razonan sobre sus datos, destacando áreas en donde el apoyo de la inteligencia artificial puede mejorar el diseño de visualizaciones.
El sistema ofrece diversos tipos de vista: una vista de preguntas que ayuda a extraer el conocimiento del dominio, una vista de hojas de cálculo donde se pueden seleccionar instancias de datos específicos, y una vista de anotación para realizar anotaciones adicionales. Asimismo, permite la generación automática de vistas de visualización que muestran la distribución de características mediante histogramas y correlaciones entre dos características usando diagramas de dispersión.
El elicitación de conocimiento del dominio mediante el Data Therapist se basa en iniciar con un conjunto de datos subido por el experto del dominio, para luego analizarlos y formular una mezcla de preguntas basadas en siete géneros de metadatos y el cuerpo de conocimiento creciente acerca de los datos. El usuario puede optar entre responder preguntas, anotar el conjunto completo de datos o añadir anotaciones específicas a los datos empleando su conocimiento del dominio.
El estudio cualitativo demostró que el Data Therapist ofrece una cobertura sólida, calidad y capacidad de proporcionar perspectivas en lo referente a los géneros de metadatos indicados por Gebru et al., destacando cómo cada base de conocimiento respecto a tres distintos conjuntos de datos obtuvo puntuaciones altas en todos los aspectos mencionados.
En conclusión, el Data Therapist es eficaz para capturar el conocimiento tácito del dominio, abordando un problema fundamental en el diseño de visualizaciones: la brecha de conocimientos. A través de un enfoque estructurado de interacción de iniciativa mixta, este sistema logra cubrir lagunas en el conocimiento sobre el contexto real y la representación de los datos, mejorando así el diseño de visualizaciones y reduciendo la mala comunicación entre expertos del dominio y diseñadores de visualizaciones.