Solo noticias

y ya

martes 6 de de 2025

Modelos de Lenguaje Mejoran Conversión de Datos No Estructurados a Estandarizados

Un estudio innovador realizado por investigadores de la Universidad Técnica Eslovaca ha demostrado el potencial de modelos de lenguaje de gran tamaño (LLM) para transformar texto no estructurado en formatos estandarizados, revolucionando así los flujos de trabajo de procesamiento de datos.

El crecimiento exponencial de datos textuales no estructurados representa un desafío fundamental en la gestión de datos moderna. Este estudio abordó esta problemática al convertir recetas de texto plano en especificaciones estructuradas de Cooklang, un formato específico para recetas.

El experimento utilizó cuatro modelos diferentes, destacándose el GPT-4o, que logró un rendimiento notable al utilizar una técnica de ejemplo escaso o “few-shot prompting”, logrando métricas de precisión como una puntuación ROUGE-L de 0.8209 y un WER de 0.3509. Contrariamente, modelos más pequeños como Llama3.1:8b mostraron capacidad de optimización mediante ajuste fino específico, lo cual es significativo considerando la usual correlación entre el tamaño del modelo y su rendimiento.

Además de las métricas tradicionales, como el porcentaje de error de palabra y la medida ROUGE, se implementaron métodos especializados para evaluar la identificación de elementos semánticos en las recetas dadas, como el cálculo de ingredientes y medidas adecuadas. La investigación reveló nuevas posibilidades para la generación automatizada de datos estructurados que abarca desde registros médicos hasta documentos técnicos.

Los hallazgos sugieren que, aunque los modelos más grandes como el GPT-4o pueden ofrecer resultados excepcionales sin entrenamientos extensivos, también hay un prometedor potencial en los modelos más pequeños para tareas específicas. Esto abre una vía para un procesamiento de datos más eficiente, lo que podría cambiar la manera en que las organizaciones manejan y utilizan la información no estructurada.

Se concluye que la aplicación de LLMs en la generación de texto estructurado no solo transforma sectores como el culinario, sino que su adaptación a otros dominios podría tener un impacto significativo en la eficacia y eficiencia del procesamiento de información, estableciendo un nuevo estándar para el manejo de datos en la era digital.