Solo noticias

y ya

viernes 11 de de 2024

Revolucionario Método Potencia Vinculación Visual Sin Supervisión

Investigadores de la Universidad de Illinois Urbana-Champaign han desarrollado un nuevo enfoque llamado “attend-and-segment” para mejorar las capacidades de “grounding” o vinculación de texto e imagen en modelos multimodales grandes (LMMs, por sus siglas en inglés) sin necesidad de supervisión específica. Este enfoque promete elevar el rendimiento en tareas de respuesta visual y cuestionarios visuales generales.

Su enfoque se centra en utilizar mapas de atención generados por los LMMs para crear máscaras de segmentación a nivel de píxeles. La metodología prescinde de la supervisión de vinculación tradicional, lo que hace que su aplicación sea más escalable y menos propensa a errores inducidos por sesgos en los datos de entrenamiento. Además, han introducido D IFF LMM, un modelo que emplea un codificador visual basado en difusión para fortalecer su capacidad de vinculación visual sin sacrificar el rendimiento en tareas generales de lenguaje-visual.

En pruebas realizadas en una variedad de bancos de pruebas, D IFF LMM demostró ser más efectivo que modelos supervisados previos. Obtuvieron un 44.2 de recuerdo de máscaras sin supervisión de vinculación, superando a modelos ampliamente supervisados como GLaMM. Esto se logró al emplear modelos de difusión que ofrecen una alineación más precisa de características visionarias y textuales, gracias a su habilidad para generar imágenes y textos simultáneamente.

Entre las ventajas de este nuevo enfoque está la eliminación de anotaciones detalladas de humanos o modelos externos, un enfoque más escalable y generalizable. Sin embargo, se mencionan que lidar con conceptos nuevos y dominios es algo que las herramientas anteriores no logran con eficacia debido a su dependencia de la supervisión rigurosa de datos de entrenamiento.

La metodología también fue puesta a prueba en varias plataformas de preguntas visuales como VQAv2, GQA, y otros, donde D IFF LMM no solo preservó sus capacidades generales de conversación, sino que también las mejoró, contrastando acertadamente con enfoques previos que tendían a descartar habilidades de comprensión visual más amplias por centrarse excesivamente en la vinculación supervisada.

En conclusión, esta nueva aproximación apoya la emergencia del “grounding” intrínseco a través de una supervisión débil y plantea un nuevo estándar en la interacción visual-lingüística. Promete contribuir significativamente en el ámbito del aprendizaje multimodal extendido con un enfoque más inclusivo y menos dependiente de los datos específicos de vinculación.