Solo noticias

y ya

martes 3 de de 2025

Nueva herramienta VITOSA mejora la detección de toxinas en audios vietnamitas

La Universidad de Tecnología de la Información de Vietnam ha dado un paso significativo en la lucha contra el discurso tóxico en plataformas digitales al presentar la primera base de datos, denominada VITOSA, centrada en la detección de toxicidad en audios vietnamitas. Con 25 horas compuestas por 11,802 muestras, la iniciativa surge en respuesta al limitado desarrollo en la detección de discurso tóxico en lenguas con pocos recursos.

El estudio destaca la utilidad de integrar métodos de reconocimiento de voz (ASR) y modelos lingüísticos finamente adaptados para identificar de manera precisa los segmentos tóxicos dentro de los audios. Experimentos recientes han demostrado que ajustar los modelos ASR con la base de datos VITOSA mejora significativamente su precisión. Sin VITOSA, las tasas de error en las palabras eran notablemente altas.

La metodología del estudio incluyó la recolección de audios a partir de clips de redes sociales conocidos por contener contenido dañino. Posteriormente, se emplearon modelos como PhoWhisper y versiones del modelo wav2vec2, los cuales demostraron mejoras al ser finamente sintonizados con audios de naturaleza tóxica.

Las evaluaciones realizadas sobre la decodificación y detección de palabras tóxicas mostraron una sobresaliente disminución del error, destacando la efectividad de PhoWhisper. Estos modelos se beneficiaron enormemente al ser entrenados con audios seleccionados conforme a directrices controladas y revisadas, indicando la notable mejora en la transcripción precisa del contenido sensible.

Finalmente, no solo se mejoraron las tasas de error de palabra, sino que también se logró una optimización en los modelos de lenguaje encargados de detectar las fracciones tóxicas dentro de las transcripciones. Esto podría establecer las bases para futuras investigaciones en contenido moderado por voz y, en definitiva, ayudar a construir entornos digitales más seguros y confiables para todos los usuarios.