La velocidad con la que los modelos de Procesamiento de Lenguaje Natural (NLP) han evolucionado es impresionante, llegando a impactar significativamente en sectores delicados como la salud. Estas herramientas tecnológicas han abordado tareas que van más allá de la generación de texto, incluidas la clasificación y el reconocimiento de entidades nombradas (NER), pero al mismo tiempo, han levantado fuertes preocupaciones sobre la privacidad de los datos.
La de-identificación, un proceso mediante el cual se eliminan elementos personalmente identificables (PII) de los documentos, se convierte en una necesidad imperiosa para proteger la privacidad en el ámbito de los reportes médicos. Metodologías como la basada en una arquitectura BERT para detectar identificadores, han sido propuestas para garantizar que la información sensible sea manejada adecuadamente. Sin embargo, la sola pseudonimización de datos no es suficiente para el anonimato completo, ya que incluso la información indirectamente identificativa puede generar conexiones con individuos específicos.
Un nuevo enfoque propone asegurar que los modelos de lenguaje no memoricen información directa ni indirectamente identificable durante su especialización. Utilizando modelos preentrenados como BERT y GPT, se aplican metodologías de modelado de lenguaje enmascarado y causal, respectivamente, con una lista negra donde se incluyen términos identificativos tanto directos como indirectos identificados previamente. Esto busca un equilibrio adecuado entre preservar la privacidad y retener la utilidad del modelo cuando se comparten modelos entrenados interinstitucionalmente.
El análisis de una amplia variedad de métricas de privacidad y utilidad ha revelado que estos enfoques propuestos pueden tener éxito donde otros enfoques, como la simple pseudonimización de datos, pueden no ser efectivos. Al evitar la memorización de identificadores dentro de los datos de entrenamiento, se reduce drásticamente el riesgo de fugas de información durante el uso del modelo después del entrenamiento.
La implementación de estas metodologías, aunque aún no se conoce exhaustivamente su impacto en la interacción entre los datos utilizados para el ajuste fino y los modelos de lenguaje grande preentrenados, representa un avance crucial en la protección de datos personales. Las organizaciones, especialmente en el sector salud, podrían beneficiarse significativamente adoptando estos enfoques para compartir modelos de lenguaje especializados de manera segura.