Las recientes investigaciones revelan que los Modelos de Lenguaje Grandes (LLMs) como GPT-3.5-Turbo poseen una capacidad superior para generar comentarios de código de alta calidad en comparación con los comentarios escritos por humanos. Este hallazgo llevado a cabo por varios equipos de investigación, propone reconstruir conjuntos de datos para pre-entrenamiento de modelos de inteligencia de código, sustituyendo los comentarios originales por aquellos generados por LLMs.
La calidad de los modelos pre-entrenados depende en gran medida de los datos usados para entrenarlos. En el contexto de la inteligencia de código, los comentarios humanos que sirven como puentes entre el lenguaje de programación y el lenguaje natural, resultan muchas veces desactualizados o inconsistentes con el código a medida que éste evoluciona. Tal inconsistencia puede afectar negativamente el rendimiento de los modelos, fenómeno evidenciado por estudios que revelan que una significativa proporción de comentarios en conocidos conjuntos de datos como el CodeSearchNet son ruidosos o incorrectos.
Los investigadores iniciaron una serie de pruebas para comparar la calidad de los comentarios generados por los LLMs frente a los humanos. Durante las pruebas, implementaron tareas auxiliares como la detección de inconsistencias entre el código y su comentario y la capacidad de búsqueda semántica del código. Los resultados mostraron que los comentarios generados por LLMs como GPT-3.5-Turbo mantenían mejor consistencia semántica con el código que aquellos escritos por humanos.
Este rendimiento superior condujo a la reconstrucción del conjunto de datos CodeSearchNet, reemplazando alrededor de 2 millones de pares de código-comentario por versiones generadas por LLM. Tras reentrenar el modelo CodeT5 con este nuevo conjunto de datos, fue evidente una mejora significativa en varias tareas de inteligencia de código, especialmente en aquellas relacionadas con la generación de lenguaje natural, como la generación de resúmenes de código.
La investigación destaca no solo la eficacia de los LLMs en mejorar la calidad de los datos de pre-entrenamiento, sino también el potencial que tienen para tratar problemas comunes de inconsistencia y ruido en los datos utilizados para las tareas de inteligencia de código. En conclusión, se argumenta que, dado el impacto positivo en el rendimiento del modelo, se debe reconsiderar la dependencia de referencias humanas para tareas relacionadas con el código a favor de adoptar generadores avanzados de comentarios como herramienta estándar en el pre-entrenamiento de modelos de lenguaje para código.