En un avance significativo en el campo de la generación de imágenes, investigadores han desarrollado una nueva técnica para la creación de imágenes a partir de un tokenizador altamente comprimido que no requiere entrenamiento. Este enfoque rompe con la tradición de usar modelos generativos complejos y plantea una serie de posibilidades innovadoras en el paradigma de la síntesis de imágenes.
El tokenizador, denominado TiTok, transforma imágenes en secuencias de 32 tokens discretos a través de cuantificación vectorial. Gracias a este alto grado de compresión, se permite la manipulación heurística de los tokens, lo cual abre la puerta a tareas como la edición de imágenes guiada por texto o el inpainting, que consiste en completar partes faltantes de una imagen. Esta metodología no solo optimiza el tiempo de ejecución al reducirlo en órdenes de magnitud, sino que también mantiene la calidad de las imágenes generadas.
El uso de la cuantización vectorial en el espacio latente comprimido resulta esencial para el buen desempeño generativo, evitando la necesidad de entrenar modelos generativos dedicados. La investigación demuestra que este método es capaz de generar películas visuales altamente diversas y realistas sin comprometer la calidad de las muestras.
Un hallazgo crucial del estudio es que la manipulación directa del espacio latente, incluso de manera relativamente burda —como copiar y reemplazar tokens—, puede dar lugar a ediciones de imagen detalladas y precisas. Este enfoque se probó efectivamente en tareas como la edición guiada por texto, logrando modificar el contexto de una imagen mientras se mantienen atributos clave del sujeto.
Conclusivamente, el desarrollo de este tokenizador refuerza la premisa de que la compresión extrema de los datos permite alcanzar capacidades generativas significativas que, de otro modo, requerirían modelos más pesados y entrenamientos extensivos. Los investigadores esperan que estas técnicas puedan escalar a mayores volúmenes de datos y diferentes áreas de aplicación en el futuro.