Solo noticias

y ya

lunes 14 de de 2024

Mycroft: Innovando la Democratización del Aprendizaje Automático

En el ámbito del aprendizaje automático, obtener datos externos relevantes se presenta como un desafío dadas las reticencias de los propietarios de datos a compartir información. Ante esta problemática, investigadores de la Universidad de Chicago han diseñado un protocolo denominado Mycroft, que permite a los entrenadores de modelos evaluar con eficiencia qué subconjuntos de datos pueden mejorar el rendimiento de un modelo con exposiciones mínimas de datos. Mycroft utiliza similitudes funcionales y de características para identificar subconjuntos informativos, evitando la necesidad de acuerdos de compartición complejos y costosos.

Mediante Mycroft, se realizaron experimentos en dos dominios—visión por computadora y datos tabulares—donde se observó que Mycroft se aproxima rápidamente al rendimiento de información completa pero sin necesidad de compartir grandes volúmenes de datos. Este enfoque se muestra robusto ante el ruido de etiquetas y datos, logrando una clasificación del valor de los propietarios de datos basada en la utilidad, lo que sugiere un avance significativo hacia la democratización del entrenamiento de modelos de alto rendimiento.

A pesar de que los grandes conglomerados pueden acceder a recursos de datos a través de métodos como crowdsourcing y aprendizaje federado, las entidades más pequeñas suelen enfrentarse a dificultades para adquirir datos relevantes que no pueden encontrar de dominio público, especialmente cuando datos esenciales son almacenados por entidades privadas con preocupaciones monetarias y de privacidad.

El protocolo de Mycroft considera tanto la similitud funcional, mediante el uso de gradientes de pérdida, como la similitud de características, valorando la distancia en el espacio de características para elegir datos relevantes. Así, permite una evaluación más precisa y eficiente de los datos útiles por parte de los dueños, motivando así acuerdos de compartición más informados.

Mycroft evidencia que al facilitar el intercambio de subconjuntos relevantes y bien curados de datos, las organizaciones pueden reducir significativamente la cantidad de información que necesitan compartir para alcanzar niveles de mejoramiento de sus modelos equiparables a métodos tradicionales más extensivos.

Uno de los desafíos persistentes es el establecimiento de un conjunto de datos problemáticos (Dhard) que el modelo bajo entrenamiento identifique como particularmente desafiante, lo que permite a los dueños proveer datos útilmente seleccionados. Aunque Mycroft sorprende en su eficacia, sugiere nuevos caminos hacia métodos que preserven aún más la privacidad y resiliencia frente a propietarios de datos estratégicamente adversos.