La inteligencia artificial sigue avanzando a pasos agigantados en todo el mundo, y uno de los campos donde está demostrando un impacto significativo es el de la respuesta a preguntas visuales (VQA) para la comunidad de habla bengalí. Con una población de cerca de 278 millones de hablantes de bengalí, existe un notable interés en mejorar las tecnologías que comprenden esta lengua, pero el progreso ha sido lento debido a la limitada disponibilidad de grandes conjuntos de datos adecuados al contexto cultural y lingüístico de la región.
En respuesta a esta necesidad, se ha construido un nuevo conjunto de datos titulado “ChitroJera”, que se presenta como el mayor repositorio de imagen y texto para VQA en bengalí, compuesto por más de 15,000 muestras. Este conjunto de datos se ha desarrollado utilizando una amplia variedad de fuentes locales que reflejan fielmente las costumbres y el entorno de las comunidades bengalíes.
Los investigadores de Penta Global Limited en Bangladesh han encabezado este esfuerzo, estableciendo un proceso meticuloso de recolección y validación de datos. Con la ayuda de expertos lingüísticos, se han refinado preguntas y respuestas a partir de imágenes representativas de la región, asegurando un alto nivel de precisión y relevancia.
Experimentos iniciales con modelos de texto e imagen revelan que los modelos de codificación dual pre-entrenados han superado a los unimodales estándar. Sin embargo, la introducción de modelos de lenguaje de gran escala como GPT-4 en los experimentos produjo un rendimiento notablemente mejor en la tarea de VQA en bengalí, destacando la capacidad de estos modelos para procesar mejor información textual de distinta naturaleza.
El estudio también identifica desafíos en la obtención de respuestas más precisas al incorporar factores culturales y contextuales únicos en estos modelos inteligentes. Lo más alentador es que este desarrollo se presenta como un punto de partida prometedor, sugiriendo que el conjunto de datos ChitroJera podría ser expandido para abordar tareas más complejas en el ámbito de las aplicaciones lingüísticas-visuales en bengalí a futuro.
La dirección de esta iniciativa alienta a futuros avances en la tecnología de visión y lenguaje en idiomas con mayores recursos y menores obstáculos, asegurando una integración más fluida y un reconocimiento cultural amplio en sistemas de inteligencia artificial. Denmark en vento encapsula el potencial de esta tecnología, ofreciendo aún más oportunidades de investigación para maximizar el aporte de las innovaciones tecnológicas en la vida diaria de las comunidades en todo el mundo.