En el estudio de las técnicas de compresión y su relación con la clasificación de datos, se ha observado que la tasa de compresión no siempre se correlaciona directamente con la precisión en la clasificación de secuencias de texto. Esta investigación resalta la interacción entre compresores neuronales, como los utilizados en modelos de lenguaje de gran escala, y algoritmos de clasificación basados en la distancia de compresión normalizada (NCD). Contrario a la creencia común, los compresores que logran tasas de compresión más bajas no garantizan una mayor precisión en la clasificación.
Los experimentos realizados muestran que compresores neuronales como el modelo RWKV 169M pueden superar a compresores tradicionales, como gzip, en la tasa de compresión en diversas bases de datos textuales, pero no siempre en la efectividad clasificatoria. Por ejemplo, aunque RWKV consiguió mejores tasas de compresión en los conjuntos de datos AGNews y DBpedia, su rendimiento en clasificación varió según el conjunto, superando a gzip en uno, pero quedando por detrás en el otro.
El estudio también experimentó con otros modelos de lenguaje equipados para compresión neural, como GPT-2 117M y OPT 125M, pero los resultados fueron consistentes: las mejoras en compresión no se traducen necesariamente en mejoras clasificatorias. Además, se destacó que algunos modelos pueden ofrecer ventajas al emplear NCD sobre la distancia euclidiana estándar entre representaciones latentes secuenciales, aunque este comportamiento es dependiente del modelo específico.
Estos resultados sugieren que, aunque la arquitectura y el tamaño del modelo impactan la capacidad de compresión, no son los únicos factores determinantes para una clasificación eficaz basada en la compresión. Claves como la longitud de las secuencias y los algoritmos internos también juegan un papel crucial. En conclusiones, este estudio sugiere que se necesita una mayor comprensión de cómo las distintas arquitecturas de modelos y los métodos de compresión interactúan para optimizar las aplicaciones de aprendizaje automático basadas en distancia de compresión.