En el presente estudio, los métodos tradicionales para evaluar la percepción de seguridad urbana dependían de encuestas presenciales, que resultaban costosas y poco consistentes. Frente a esta problemática, los modelos de lenguaje multimodal (MLLMs), como GPT, ofrecen una nueva perspectiva al combinar imágenes de Street View con capacidades de análisis mediante aprendizaje profundo y pre-entrenamientos en el reconocimiento de características de imagen, como los proporcionados por CLIP.
Los experimentos llevados a cabo en ciudades como Chengdu y Osaka demostraron que estos modelos permiten una evaluación automática de la percepción de seguridad urbana que se alinea estrechamente con los juicios humanos, eliminando la necesidad de anotaciones manuales intensivas. El modelo GPT-4o en particular, mostró la mayor concordancia con la percepción de los humanos, alcanzando un R2 de 0.4031 para Chengdu y 0.4528 para Osaka.
Se propuso un enfoque adicional utilizando un sistema de recuperación basado en K-Nearest Neighbors (K-NN) junto con características de CLIP. Este enfoque no requiere fases de entrenamiento extensivas, lo cual posee ventajas significativas en términos de escalabilidad. En el análisis, CLIP permitió extraer características robustas de las imágenes, lo cual, combinado con la técnica de KNN, mejoró la precisión de las evaluaciones de seguridad en grandes áreas urbanas.
Más allá de innovaciones en escala y automatización, el estudio ha demostrado que los elementos físicos del entorno urbano, particularmente la densidad de edificios, las características del tráfico y la infraestructura peatonal, influyen de manera no lineal en las percepciones de seguridad. Estos hallazgos tienen importantes implicaciones para quienes buscan mejorar la seguridad y la planificación urbana mediante herramientas basadas en inteligencia artificial.
En conclusión, los modelos de lenguaje multimodal presentan una herramienta poderosa para obtener percepciones de seguridad urbana de forma eficaz, proporcionando una visión más detallada y costo-efectiva para arquitectos, urbanistas y gobiernos. Como próxima etapa, se sugiere ampliar el análisis mediante integración de datos en tiempo real para reflejar cambios rápidos en las condiciones urbanas.