La investigación reciente presentada por un grupo de ingenieros de la Universidad MIT World Peace en Pune, India, propone una novedosa solución para el procesamiento de documentos en lenguajes con pocos recursos. El sistema utiliza Reconocimiento Óptico de Caracteres (OCR) para extraer información de documentos basados en imágenes, abarcando lenguas como el hindi, tamil y telugu. Posteriormente, a través de una cadena de procesos integrados por APIs de grandes modelos de lenguaje, se efectúa la traducción entre diferentes idiomas y se sintetiza la información obtenida.
El sistema inicia con el reconocimiento de texto en imágenes mediante el motor Tesseract, logrando transformar escritura manuscrita o impresa en texto legible por máquina en diversos idiomas. Luego, gracias a una minuciosa pre-procesamiento, eliminando palabras innecesarias y simplificando textos, se mejora la interpretación lingüística del mismo. Posteriormente, se resumen los textos mediante técnicas avanzadas de abstracción, con el uso de APIs como Cohere.
La traducción se efectúa utilizando API de Google, garantizando convergencia semántica a través de métodos de traducción automática neural. Esto permite que los documentos sean accesibles en múltiples lenguajes, promoviendo la inclusividad y manejando eficientemente las necesidades gramaticales y sintácticas de cada idioma en cuestión.
El proyecto cita un impacto considerable de la calidad inicial en el reconocimiento óptico en las tareas posteriores, donde la reacción predictiva y la corrección post-OCR mejoraron los resultados de manera notable tanto en términos de Tasa de Error de Caracteres (CER) como de Tasa de Error de Palabras (WER).
Entre los éxitos del sistema destaca su capacidad para proporcionar resúmenes coherentes de calidad, con puntuaciones favorables bajo métodos de evaluación automáticos y humanos. En términos de traducción, se alcanzaron puntuaciones BLEU variando según el par de idiomas, destacando la solidez del método propuesto frente a lenguajes poco comúnmente soportados.
Esta metodología integrada se expone a través de la interfaz Gradio, facilitando la interacción en tiempo real y ofreciendo insights profundos sobre el contenido documental en ambientes multilingües como el indio. La elección de modelos de clasificación, balanceando eficacia y costo computacional, resuena bien en contextos con potenciales constricciones de recursos, logrando traducir de manera fiable una amplia gama de guiones indios.
Al concluir, los investigadores resaltan que este enfoque es un paso significativo hacia el puente entre brechas lingüísticas, demostrando cómo las tecnologías actuales pueden facilitar un acceso ampliado y equitativo a la información a través de plataformas multidisciplinarias bien integradas.