ChatGPT, una herramienta impulsada por grandes modelos de lenguaje (LLM, por sus siglas en inglés), ha experimentado una notable adopción en una variedad de sectores. Sin embargo, su fiabilidad sigue siendo una cuestión en discusión debido a sus tasas de error que varían significativamente según el dominio y la complejidad de las tareas que realiza. Un reciente estudio mediante una Revisión Multivocal de Literatura ha sintetizado datos sobre los índices de error de ChatGPT, agrupando la información por dominios principales y las fases del ciclo de vida del desarrollo de software (SDLC).
En el ámbito sanitario, las tasas de error oscilaron entre un 8% y hasta un 83% para tareas complejas como la diagnosis de enfermedades raras. A pesar de algunos avances with the newer versions such as GPT-4, estas cifras han destacado cierta inconsistencia en la fiabilidad de la herramienta en tareas críticas. Las mejoras más notables se observaron en el ámbito empresarial y económico, donde GPT-4 redujo las tasas de error de manera significativa, alcanzando niveles de 15-20% en ciertos exámenes cruciales.
En tareas de ingeniería, se halló una tasa de error promedio alrededor del 20-30% con versión GPT-4. No obstante, en ciencias de la computación y programación, aunque ChatGPT alcanzó tasas de éxito hasta del 87.5% en ciertos casos, las tareas de debugging complejo revelaron tasas de error aún superiores al 50%. Cuando enfocamos los datos en el ciclo de vida de software, se observó que las fases de requisitos y diseño mostraron las tasas de error más bajas (del 5-20%), mientras que las actividades de codificación y mantenimiento evidenciaron una alta variabilidad, oscilando entre el 10% y el 50%.
Estos hallazgos dejan claro que, aunque la evolución de los modelos ha mejorado su desempeño y puede funcionar como un poderoso complemento para la experiencia humana, aún implica riesgos significativos si se utiliza sin la debida supervisión humana, especialmente en contextos profesionales críticos. Por tanto, se recomienda una evaluación continua, un despliegue cuidadoso, y validar críticamente las salidas del ChatGPT para garantizar su fiabilidad.
Como cierre, las mejoras logradas por las actualizaciones de versión demuestran que ChatGPT, al avanzar hacia modelos más refinados, puede volverse una herramienta sumamente valiosa en diversas disciplinas. Sin embargo, la necesidad de validar estas herramientas en vistas a mantener confianza y seguridad se confirma como esencial para su adopción responsable.