Qualcomm AI Research ha revelado su última innovación, SwiftEdit, un sistema de edición de imágenes guiado por texto que promete revolucionar el modo en que los usuarios interactúan con las imágenes. En un asombroso tiempo de apenas 0.23 segundos, utilizando un solo GPU A100, SwiftEdit realiza transformaciones de imágenes complejas basadas exclusivamente en indicaciones textuales, todo ello sin necesidad de delinear máscaras previamente.
Este avance sobresale gracias a su enfoque de inversión de una sola etapa y la técnica de rescalado de atención, lo que permite realizar ediciones localizadas de alta calidad. Este método es notablemente más rápido que las técnicas de múltiples pasos, superándolas por un factor de al menos 50 veces, manteniendo al mismo tiempo la competencia en términos de calidad de edición. Su marco de inversión desarrollado a través de una estrategia de dos etapas permite la reconstrucción de imágenes en un único paso sin necesidad de reentrenamiento adicional.
Las técnicas recientes en modelos de difusión de texto a imagen han logrado generar imágenes de alta calidad a partir de simples entradas de texto, pero su aplicación en el mundo real se ha visto limitada por procesos de muestreo lentos y costosos. SwiftEdit aborda estos desafíos con su enfoque innovador, reduciendo los pasos de muestreo a apenas uno y permitiendo inferencias más rápidas para tareas posteriores, como la edición de imágenes.
Un aspecto distintivo de SwiftEdit es su capacidad para producir máscaras de edición guiadas por texto fuente y objetivo, logrando resultados de edición finamente controlados. Además, al incorporar el uso de una técnica de rescalado de atención, se ofrece un control flexible sobre la fuerza de la edición mientras se preserva la información de fondo.
En comparación con otros métodos de múltiples pasos en cuanto a preservación de fondo, semántica de edición y tiempo de ejecución, SwiftEdit no solo lidera en términos de tiempo de ejecución con impresionantes 0.23 segundos, sino que también ofrece una calidad de edición de primera. Esto se logra mediante la integración de recientes avances en modelos de generación y técnicas de distilación por difusión que han mostrado ser capaces de igualar, e incluso superar, a los modelos basados en enfoques costosos de múltiples pasos.
A medida que la tecnología avanza, los investigadores apuestan por que SwiftEdit posibilite aplicaciones de edición de imágenes casi en tiempo real en dispositivos, cambiando la dinámica de la creatividad digital. Este desarrollo supone un salto cualitativo en el campo de la inteligencia artificial aplicada al procesamiento de imágenes, evidenciando que la combinación de eficiencia y creatividad es posible.