Inclusividad y desafíos del reconocimiento de voz por IA en salud

La inclusión de tecnologías de reconocimiento de voz impulsadas por la inteligencia artificial (IA) en el ámbito sanitario promete revolucionar la comunicación entre pacientes y profesionales, así como mejorar los flujos de trabajo clínicos. Sin embargo, un estudio reciente ha revelado significativas lagunas de inclusividad dentro de estos sistemas, evidenciando que los conjuntos de datos empleados favorecen especialmente a lenguas con muchos recursos y acentos estandarizados. Tal sesgo puede perpetuar las disparidades en la atención médica, pues las interpretaciones erróneas de voces de grupos marginados son una amenaza tangible.

Durante la última década, la investigación sobre tecnología de voz en el ámbito de la salud ha experimentado un crecimiento exponencial. Aunque en 2015 existían apenas 21 estudios al respecto, cifra que se disparó a 676 en 2024, solo una fracción de estos trabajos aborda la inclusividad o los sesgos de manera explícita. De hecho, investigaciones centradas en el sesgo en reconocimiento de voz inclusivo crecieron de un solo artículo en 2015 a 479 en 2024, cantidad que aún resulta insuficiente para cubrir esta necesidad.

Los conjuntos de datos de habla analizados, sobre todo aquellos diseñados para Reconocimiento Automático del Habla (ASR) y Síntesis de Texto por Voz (TTS), han mejorado sustancialmente. Sin embargo, muchos están dominados por el inglés. A pesar del crecimiento en la inclusión de lenguas no inglesas, persistentes brechas en la representación de lenguas africanas e indígenas siguen generando desigualdad. Tal omisión limita la efectividad tecnológica, especialmente para poblaciones que sufren disparidades en salud previamente, como las comunidades indígenas y africanas que no tienen representación adecuada en estos reclamos tecnológicos.

Asimismo, la diversidad de acentos es crucial para garantizar un reconocimiento preciso de las voces de hablantes regionales o no nativos. Iniciativas como el EdAcc, que incorpora diversidad de acentos del inglés, son un gesto de avance hacia la justicia en reconocimiento de voz. Sin embargo, la prevalencia de datasets que ignoran acentos no estándar revela un patrón de sesgo constante.

La representación demográfica en los conjuntos de datos también es crítica, pero sigue siendo insuficiente. Aunque ciertos conjuntos como Europarl-ASR y EdAcc han logrado equilibrar el número de hablantes masculinos y femeninos, la representación de géneros diversos es prácticamente nula. Esto limita la habilidad de los sistemas de IA para atender poblaciones diversas, especialmente en contextos clínicos.

Las personas con impedimentos del habla, aunque consideradas como uno de los grupos que podría beneficiarse más de estas tecnologías, aún encuentran excluidas de muchos conjuntos de datos de reconocimiento de voz. Sin datasets dedicados, las barreras de accesibilidad persisten.

Con este panorama, es evidente que futuras investigaciones deben expandirse y considerar un enfoque inclusivo que represente adecuadamente a las lenguas subrepresentadas. Los investigadores deben colaborar con las comunidades locales para garantizar una colecta de datos ética y efectiva, teniendo siempre en cuenta la diversidad de género, edad y etnia durante el diseño del dataset. Esto permitirá el desarrollo de modelos que capturen patrones de habla diversos.

Concluyendo, la verdadera democratización del acceso a la atención médica mediante IA solo se alcanzará cuando la inclusividad en la tecnología de voz sanitaria sea una realidad palpable, empoderando a cada paciente y proveedor sin importar lengua, acento, edad o capacidad.

Solo noticias

y ya

Inclusividad y desafíos del reconocimiento de voz por IA en salud