Revolución en la decodificación del habla desde el cerebro

Investigadores han desarrollado un enfoque innovador en el campo de la neurociencia que aumenta significativamente la eficiencia en la decodificación del habla a partir de la actividad cerebral utilizando aprendizaje auto-supervisado. Este método ha sido testado con aproximadamente 400 horas de datos magnetoencefalográficos (MEG) no etiquetados de 900 sujetos, mostrando mejoras de entre el 15 y el 27% frente a modelos previos del estado del arte. Lo más llamativo es que su rendimiento se equipara al del uso de datos quirúrgicos, pero con medios no invasivos.

Uno de los principales retos en la decodificación del habla a partir de datos cerebrales es la variabilidad individual de las estructuras anatómicas y la diversidad en el diseño de tareas y hardware de escaneo. Para afrontar estas dificultades, el equipo desarrolló objetivos informados por la neurociencia que permiten el aprendizaje a partir de grabaciones cerebrales heterogéneas. Usaron redes neuronales entrenadas con pretextos para generar etiquetas implícitas a partir de datos MEG no etiquetados, lo que permitió el aprendizaje a gran escala desde diferentes tareas y participantes.

La metodología consiste en entrenar una red utilizando transformaciones relevantes neurocientíficamente seleccionadas aleatoriamente y dejar que la red prediga tales transformaciones. Posteriormente, se entrena una sonda lineal sobre el modelo pre-entrenado, que queda congelado, logrando una generalización superior.

Las imágenes MEG ofrecen señales más ricas para la decodificación humana en comparación con la electroencefalografía (EEG), aunque los datos de MEG etiquetados para el habla son raros. La escasez de etiquetas ha llevado a los científicos a optar por el aprendizaje auto-supervisado como una alternativa prometedora.

El aprendizaje auto-supervisado representa un cambio de paradigma en diversos dominios por su capacidad de aprendizaje a partir de grandes cantidades de datos no etiquetados. En el caso de las grabaciones cerebrales continuas, esta técnica ha permitido una unificación en el enfoque del aprendizaje de representaciones, posibilitando el aprovechamiento de datos de otras investigaciones sin etiquetas equivalentes ni uniformidad de sujetos y escáneres.

Los resultados sugieren que tales representaciones permiten mejoras significativas en las tareas de detección de habla y clasificación de voz, señalando que las leyes de escalado ya conocidas de las técnicas de aprendizaje profundo pueden aplicarse a las grabaciones no invasivas de MEG, en tanto se realicen pre-entrenamientos con cantidades de datos varias veces superiores a las utilizadas previamente.

Solo noticias

y ya

Revolución en la decodificación del habla desde el cerebro