Innovación en el combate multilingüe al discurso de odio en redes

En un mundo cada vez más conectado por las redes sociales, la lucha contra los discursos de odio multilingües ha recibido un impulso significativo gracias al uso de modelos de lenguaje a gran escala. Este esfuerzo pionero se lleva a cabo en el Instituto Politécnico Nacional de México, donde un equipo encabezado por académicos como Muhammad Usman y Grigori Sidorov ha desarrollado un innovador marco basado en atención mejorada para detectar discursos de odio en inglés, español y urdu.

A pesar de que las plataformas sociales son fundamentales para el discurso público en todo el mundo, su uso también ha amplificado los contenidos dañinos. Destacado entre estos problemas está el discurso de odio, que representa una amenaza para la seguridad y cohesión sociales en línea. Aunque el ingles y el español han sido ampliamente tratados en el ámbito del procesamiento del lenguaje natural, el idioma urdu sigue siendo un desafío poco explorado.

En respuesta a esta necesidad, los investigadores han creado un conjunto de datos trilingües que contiene más de diez mil tweets, equilibradamente etiquetados como “odiosos” o “no odiosos”. Para mejorar la clasificación de texto multilingüe, el enfoque emplea capas de atención previa utilizando modelos de transformación grandes, como GPT-3.5 Turbo, y alcanza sólidas puntuaciones macro F1, destacándose en inglés y español.

Lograr un resultado preciso en urdu, un idioma con menos recursos de preentrenamiento, sigue siendo complicado debido a la escasez de datos anotados y la naturaleza compleja de mezclas de códigos y script persa-árabe. Sin embargo, el modelo Qwen 2.5 72B ha mostrado mejoras significativas en la detección de discursos de odio para urdu, reflejando un aumento notable en comparación con los modelos base tradicionales.

Este marco no solo proporciona una solución robusta para la detección de discursos de odio, sino que además establece nuevas bases para la creación de comunidades digitales más seguras e inclusivas. Es un paso importante hacia la generalización de los modelos de procesamiento del lenguaje natural para abarcar idiomas con menos recursos, lo cual es crucial para promover un ambiente en línea más saludable a nivel mundial.

En conclusión, aunque todavía quedan retos por superar, como la mejora de los mecanismos de detección para idiomas de bajos recursos como el urdu, las técnicas avanzadas y los modelos de lingüística multilingüe avanzados han allanado el camino hacia avances significativos en la lucha contra el odio en línea.

Solo noticias

y ya

Innovación en el combate multilingüe al discurso de odio en redes