Desafíos de LLMs en Interacciones Médicas Reales: Un Estudio Revelador

En un estudio reciente llevado a cabo con 1,298 participantes del Reino Unido, se evaluó la efectividad de los modelos de lenguaje amplio (LLMs) para asistir a personas en la identificación de condiciones médicas subyacentes y determinar las acciones apropiadas a seguir en diferentes escenarios médicos. Aunque los LLMs, como GPT-4o, Llama 3 y Command R+, han mostrado un alto nivel de precisión en exámenes de licenciamiento médico, los resultados del estudio revelaron que su interacción real con humanos presenta desafíos significativos.

Con una precisión del 94.9% al identificar condiciones cuando se les prueba por sí solos, los LLMs se enfrentaron a dificultades cuando los humanos interactuaron con ellos. En 34.5% de los casos, los participantes que usaron un LLM identificaron correctamente al menos una condición relevante, una cifra menor comparada con el 47% del grupo de control. Igualmente, los participantes que interactuaron con LLMs no lograron mejorar el reconocimiento de disposiciones recomendadas, identificando correctamente solo en el 44.2% de los casos, en comparación con el 56.3% de precisión de los LLMs en solitario.

La tendencia de los participantes a proporcionar información incompleta y la posible confusión del LLM al interpretar las indicaciones sugeridas fueron dos obstáculos prominentes que destacaron en las transcripciones analizadas. Esto ilustra una brecha crítica entre las habilidades demostradas durante los exámenes académicos y la capacidad de proporcionar asistencia efectiva a través de interacciones reales con usuarios. Los resultados sugieren que las pruebas estándar para evaluar conocimientos médicos no son suficientes para prever los fallos en estas interacciones.

El estudio también enfatiza la necesidad de mejorar las capacidades interactivas y la comprensión por parte de los usuarios de las recomendaciones proporcionadas por los LLMs. Se observó que los participantes tendían a ignorar las sugerencias de los LLMs durante las conversaciones, a pesar de que estas solían incluir condiciones relevantes aproximadamente en el 65-73% de las interacciones.

Con más del 60% de aciertos en benchmarks como MedQA, los LLMs mostraron su capacidad teórica para contribuir al ámbito médico. Sin embargo, la experiencia práctica pone de relieve que, aunque los LLMs pueden ofrecer datos útiles, el contexto y la interacción humana son factores que limitan su efectividad en el mundo real.

Esto concluye que, a pesar del potencial de los LLMs para revolucionar la atención sanitaria facilitando asesoramiento médico preliminar, su despliegue eficiente requiere una evaluación rigurosa y avances en pruebas con usuarios humanos reales para asegurar interacciones seguras y efectivas.

Solo noticias

y ya

Desafíos de LLMs en Interacciones Médicas Reales: Un Estudio Revelador