En el vertiginoso mundo del procesamiento del lenguaje natural y la visión por computadora, los modelos han avanzado a pasos agigantados gracias al pre-entrenamiento auto-supervisado en grandes conjuntos de datos. No obstante, esta potencialidad aún no se ha consolidado del todo en el análisis de series temporales, un campo repleto de características heterogéneas. Las series temporales son omnipresentes en diversas disciplinas, como la medicina, la ingeniería, las ciencias naturales y las finanzas. Dichas series difieren significativamente en cantidad de variables, relaciones inter-variables, dinámicas temporales y frecuencia de muestreo.
Para enfrentar este reto, se ha desarrollado OTiS, un modelo abierto para el análisis general de series temporales diseñado para manejar la heterogeneidad multi-dominio. Se ha concebido un novedoso paradigma de pre-entrenamiento que incluye un tokenizador con firmas específicas aprendibles para cada dominio, una estrategia de enmascarado dual que captura la causalidad temporal y una pérdida de correlación cruzada normalizada para modelar las dependencias a largo plazo. El modelo fue pre-entrenado en un extenso corpus de 640,187 muestras y 11 mil millones de puntos temporales que abarcan 8 dominios distintos, permitiendo analizar series temporales de cualquier dominio potencial.
OTiS ha sido sometido a experimentos exhaustivos en 15 aplicaciones diversas, incluyendo clasificación, regresión y predicción, donde ha demostrado su capacidad de captar con precisión las características específicas de cada dominio, mostrando su competitividad frente a los modelos de última generación. Los resultados abren una puerta hacia el análisis de características generalizables de series temporales en diversos escenarios, destacando la importancia de abordar las diferencias entre dominios por medio del pre-entrenamiento avanzado.
En conclusión, con OTiS, se da un paso significativo hacia adelante en la comprensión generalizable de series temporales, proporcionando una herramienta que, con ajustes adicionales y expansión del corpus de pre-entrenamiento, podría establecerse como un referente en análisis multi-dominio.