En un estudio reciente llevado a cabo por la Universidad Estatal de Michigan, se abordaron los retos y potenciales soluciones para mejorar la precisión de los sistemas de reconocimiento automático de habla (ASR) en personas que tartamudean. La investigación destaca que dichos sistemas presentan una tasa de errores elevada debido a las disfluencias características del tartamudeo, lo que limita la accesibilidad a tecnologías de voz para aproximadamente el 1% de la población mundial que experimenta este trastorno.
Partiendo de esta problemática, se exploraron dos enfoques principales: el ajuste fino de modelos ASR generalizados y personalizados, resaltando una notable reducción de las tasas de error al personalizar los modelos para adaptarlos a las características individuales del habla. Especialmente en situaciones de discurso espontáneo, estos modelos personalizados demostraron ser más efectivos que los generalizados, subrayando la importancia de adaptar los sistemas de tecnología de voz para personas con características de habla atípicas.
Los experimentos se realizaron utilizando un modelo preentrenado, Whisper, capaz de gestionar un amplio espectro de condiciones de habla, incluidos audios ruidosos. A través de técnicas de ajuste fino como la adaptación de baja graduación (LoRA), se logró una drástica reducción en la tasa de errores en la transcripción de discurso espontáneo y leído al adaptar los modelos a cada individuo. Con una cantidad relativamente pequeña de datos por participante, los resultados indicaron que bastaba con un porcentaje mínimo de datos personalizados para lograr mejoras significativas.
En la metodología se emplearon dos conjuntos de datos: el existente FluencyBank y uno nuevo llamado HeardAI. Este último incluyó una diversidad de escenarios de uso de IA de voz y permitió evaluar el rendimiento de ASR en diferentes contextos.
Mediante esta exhaustiva investigación, se concluye que personalizar los modelos ASR no solo reduce las desigualdades en la transcripción entre habla fluida y tartamudeante, sino que también tiene el potencial de cerrar la brecha de accesibilidad en tecnologías y servicios automatizados para individuos que tartamudean. Estos avances no solo beneficiarían a este grupo sino también a un público más amplio, ya que todos experimentamos algún grado de disfluencia en nuestro discurso.