Un grupo de investigadores de la Universidad Estatal de Pensilvania ha llevado a cabo un estudio exhaustivo sobre las limitaciones y diferencias entre las anotaciones de terceros y la representación real de las emociones proporcionadas directamente por sus autores. La investigación, enfocada en el reconocimiento de emociones a partir de textos, revela una importante desconexión entre los estados privados reportados por los autores y cómo estos son interpretados por anotadores humanos y modelos de lenguaje.
El estudio determinó que los modelos de lenguaje de gran tamaño (LLMs) tienden a superar a los anotadores humanos en términos de precisión al alinear etiquetas de emoción con los textos. Sin embargo, a pesar de su superioridad en desempeño, estos modelos no están exentos de problemas. La investigación mostró que las anotaciones por parte de terceros a menudo no capturan adecuadamente las expresiones emocionales genuinas de los autores, lo que suscita preocupaciones sobre la confianza en etiquetas de tercer partido, especialmente en contextos críticos como la moderación de contenido en línea o el uso de chatbots terapéuticos.
Los investigadores también descubrieron que la similitud demográfica entre los anotadores y los autores mejora la precisión de las anotaciones. Sin embargo, incluso con estas mejoras, el alineamiento sigue siendo bajo de acuerdo al índice de Cohen y otras métricas utilizadas en el estudio, como la precisión macro y el puntaje F1.
Además, el estudio abordó la potencialidad de usar información demográfica de los autores en los LLMs para mejorar la calidad de las anotaciones. Aunque se encontraron diferencias estadísticamente significativas en las puntuaciones de F1 y precisión cuando se incluyó información demográfica en las indicaciones, las mejoras prácticas fueron mínimas.
Los investigadores reclutaron usuarios de redes sociales para que compartieran publicaciones y las etiquetaran con sus propias emociones. Luego, se comparó estas etiquetas proporcionadas por los autores con anotaciones realizadas tanto por anotadores humanos como por LLMs. Se encontró que las emociones suelen ser interpretadas de manera diferente según los perceptores, lo que pone de manifiesto la subjetividad inherente en el reconocimiento de emociones.
Concluyen los autores que se requieren prácticas de anotación refinadas para asegurar que las tecnologías de procesamiento del lenguaje natural capturen fielmente los estados privados de los usuarios, sugiriendo la integración de retroalimentación por parte de los propios usuarios para evitar malentendidos que puedan comprometer la fiabilidad de las aplicaciones posteriores.