El auge de tecnologías que generan imágenes a través de inteligencia artificial, como las conocidas Generative Adversarial Networks (GANs) y los procesos de difusión estable, está poniendo cada vez más en jaque la autenticidad de las imágenes que observamos en medios sociales. Ante este escenario, investigadores de la Universidad de Rochester se han dado a la tarea de examinar si los modelos de representación multimodal, tales como CLIP, pueden ser efectivos en clasificar imágenes creadas por máquinas.
Los científicos han utilizado un modelo CLIP congelado para extraer embebidos visuales que posteriormente se alimentan a redes ligeras. Estas redes livianas son afinadas en su último clasificador para lograr distinguir si una imagen es real o generada por IA. Los experimentos realizados sobre el benchmark CIFAKE, un conjunto público de datos, demostraron una sorprendente precisión cercana al 95% sin necesidad de razonamiento lingüístico.
Se ha probado la capacidad de adaptación en disparos breves (few-shot) con datos personalizados, utilizando tan solo un 20% del conjunto total, alcanzando un 85% de precisión. Sin embargo, se encontraron dificultades específicas en ciertas categorías, como fotografías de gran angular y pinturas al óleo, que revelaron retos previos sin explorar en la clasificación de estas imágenes.
Además, un modelo de base cerrada, Gemini-2.0 de Google, mostró rendimientos excelentes en situaciones de disparo cero pero falló al clasificar en estilos específicos. Esto demostró que existen preguntas aún más específicas dentro del campo que merecen mayor atención en futuras investigaciones.
Los experimentos han involucrado extraer embebidos visuales de imágenes reales y generadas, utilizando un modelo CLIP pre-entrenado. Posteriormente, convertían estas imágenes en clasificadores binarios, evaluando el poder discriminativo de estos embebidos. Además de los desafíos en ciertas categorías, se destaca que el uso de la IA en la clasificación presenta una posible solución adaptativa en diferentes escenarios, como la variación de estilos. Sin embargo, las pinturas y capturas de gran angular probadas, algunas veces clasificadas erróneamente, muestran que los actuales pipelines dependen en gran medida de pistas a nivel de textura, dejándose así vulnerables a perspectivas extremas. Esto sugiere que una consideración más detallada de las texturas podría mejorar los algoritmos actuales.
En conclusión, este estudio evidencia que los embebidos de modelos visionarios-lingüísticos como CLIP tienen un gran potencial para identificar imágenes generadas por IA. Sin embargo, todavía queda camino por recorrer para abordar plenamente todas las variables involucradas, especialmente cuando se trata de perspectivas amplias y estilos artísticos clásicos. De cara al futuro, se recomienda continuar explorando diferentes técnicas de clasificación que podrían incluir fondos afinados específicamente para tareas determinadas. Considerar imágenes pertenecientes a otros dominios, como dibujos animados o imágenes radiográficas, podría proporcionar un enfoque más robusto que se beneficie de las diversas características de las imágenes generadas por IA y así ampliar la aplicabilidad de esta solución propuesta a campos más variados.