Un nuevo conjunto de datos, denominado “StickerQueries”, ha emergido como parte de una iniciativa que busca desentrañar el complejo mundo comunicativo de los stickers en plataformas digitales. Aunque aparentemente simples, los stickers están repletos de significados emocionales y culturales que varían notablemente entre diferentes grupos demográficos y contextos lingüísticos. Teniendo en cuenta esto, el proyecto StickerQueries ofrece un enfoque gamificado para la anotación de consultas de stickers y tiene como objetivo mejorar la calidad y precisión de la generación de consultas.
Para entender el uso variado y profundo de los stickers en la comunicación digital, los investigadores han desarrollado “Sticktionary”, un enfoque de anotación que utiliza mecánicas de juego. Los participantes en “Sticktionary” desempeñan roles alternos de etiquetadores y recuperadores, creando y validando consultas de búsqueda de stickers en un ambiente interactivo. Este método no solo fomenta la calidad en las anotaciones, sino que también garantiza que las consultas reflejen expresiones naturales y comprehensibles, esencialmente mediante la colaboración de más de 60 anotadores en más de 60 horas de trabajo.
A través del uso de estos métodos de juego, el dataset StickerQueries ha logrado compilar más de 1,700 pares de consultas de stickers tanto en inglés como en chino, derivados de contextos culturales y expresiones autóctonas. Durante la ejecución del juego, se han registrado promedios de aproximadamente 7.55 stickers por día, lo que refuerza la prevalencia y el papel central de estas pequeñas pero expresivas imágenes en la comunicación digital cotidiana.
Desde que se introdujeron modelos avanzados de imagen a texto, como BLIP y BLIP-2, ha habido un progreso notable en la descripción de imágenes, pero estos modelos muchas veces no capturan la intención emocional detrás del uso de stickers. A través de su metodología única, StickerQueries se propone llenar este vacío, permitiendo una mejor comprensión semántica por parte de los modelos de lenguaje.
Finalmente, los modelos de lenguaje visual, como LLaVA, fueron afinados con el nuevo dataset, lo que ha demostrado un impactante aumento en la generación precisa de consultas y en la recuperación eficaz de stickers. Esta mejora significativa ilustra la importancia de contar con datos especializados cuando se buscan mejorar aplicaciones de alto contexto cultural y emocional, proporcionando un camino valioso para futuras investigaciones en comunicación visual personalizada y comprensión semántica trasnacional.
El trabajo realizado a través de StickerQueries subraya la relevancia de entender no solo la semántica visual básica sino también los matices complejos y culturalmente específicos que los stickers llevan consigo, haciendo una significativa contribución al campo de la inteligencia artificial multimodal.