El acceso a las bases de datos de investigación en humanidades suele enfrentarse a limitaciones en los formatos de interacción tradicionales, especialmente en los métodos de búsqueda y generación de respuestas. Innovando en este ámbito, un grupo de investigadores ha desarrollado un asistente inteligente basado en modelos de lenguaje a gran escala (LLM), diseñado específicamente para facilitar la comunicación con datos digitales en humanidades mediante lenguaje natural. Este asistente, que opera en un formato de chatbot, emplea el enfoque de generación aumentada por recuperación (RAG) y tiene capacidades avanzadas como la búsqueda híbrida, la generación automática de consultas, filtros text-to-SQL y búsqueda semántica.
Para evaluar su efectividad, se realizaron experimentos utilizando el archivo digital Prozhito, compuesto por entradas de diarios de individuos rusohablantes del siglo XX. El asistente está diseñado no solo para investigadores con trasfondo en antropología e historia, sino también para usuarios no especializados que deseen explorar este campo sin necesidad de formación técnica avanzada. Esto pretende mejorar la accesibilidad y la eficiencia en la investigación de humanidades.
La arquitectura del sistema consta de módulos que contribuyen a la formación de respuestas a consultas, integrando bases de datos relacionales, de vectores y de índices textuales. La búsqueda híbrida combina técnicas de búsqueda de texto completo con búsqueda semántica, mejorando la relevancia general de las respuestas al comprender el contexto y la semántica de las consultas de los usuarios.
El sistema fue evaluado a través de pruebas de búsqueda y generación de respuestas, donde se destacó que la búsqueda semántica, en combinación con modelos de lenguaje estatales, permite una extracción más precisa de fragmentos textuales relevantes. Sin embargo, el desafío permanece en garantizar que las respuestas generadas sean precisas y éticas, reconociendo la subjetividad del autor sin emitir juicios de valor.
La evaluación también demostró que los modelos pueden proporcionar respuestas precisas a las preguntas planteadas, aunque enfrentan dificultades en la interpretación y análisis correcto de los fragmentos. Las evaluaciones éticas revelaron que, aunque el sistema tiende a respetar la subjetividad y el contexto histórico, es vulnerable a consultas peligrosas cuando son enmarcadas en el contexto pasado, dejando margen para futuras mejoras en seguridad.
En conclusión, este sistema muestra el potencial de transformar la interacción con bases de datos de humanidades, haciéndolas más inclusivas e intuitivas. Sin embargo, se necesitan ajustes adicionales para abordar las vulnerabilidades en la generación de respuestas ante temas sensibles y garantizar la más completa precisión de los resultados.