En un avance significativo para la comunidad de investigación en modelos de lenguaje a gran escala, el equipo detrás de Common Corpus ha lanzado el mayor conjunto de datos multilingüe de acceso abierto para el preentrenamiento de modelos. Con alrededor de dos billones de tokens libres de restricciones de derechos, este recurso está llamado a transformar el panorama de la inteligencia artificial.
El nuevo conjunto de datos se compone de una vasta colección de documentos provenientes de diversos sectores como el gobierno, la cultura, la ciencia, el código y el web abierto. Estos documentos abarcan un espectro de idiomas, asegurando que el recurso tenga aplicabilidad global. Se destaca que el corpus incluye tanto lenguajes europeos de uso común como otros de recursos bajos, rara vez representados en conjuntos de datos de preentrenamiento.
La necesidad de un conjunto de datos de este tipo surgió con la evolución de los modelos de lenguaje, que enfrentan serias restricciones legales y de derechos de autor. Muchas de estas restricciones también han golpeado la calidad de indexación de motores de búsqueda y la recopilación de contenido a gran escala para proyectos de investigación, recortando el acceso al conocimiento.
Common Corpus pretende aliviar estos desafíos ofreciendo un conjunto de datos multilingüe cuidadosamente curado y libre de restricciones. La inversión en desarrollar tal recurso responde a la urgencia de adopción de prácticas éticas y abiertas en la creación de modelos de lenguaje.
Importantes esfuerzos en la curaduría, filtración y documentación de datos aseguran la legalidad y apertura de uso, permitiendo que los modelos de lenguaje sean entrenados sin violaciones de derechos. Gran parte de los contenidos han sido originados de fuentes como archivos de gobierno, herencias culturales y ciencia abierta, estableciendo un puente entre la tecnología y el acceso público.
La aceptación temprana de Common Corpus por líderes de la industria y la comunidad académica destaca su relevancia. Parte del éxito reside en su accesibilidad multilingüe y transparencia en la documentación de la procedencia de los datos.
Con compromiso hacia una ciencia abierta, se anticipa que Common Corpus actúe como una infraestructura crítica que no solo facilite la investigación sino que también inspire iniciativas similares en el futuro. Es un paso hacia un futuro donde los modelos de lenguaje avanzan sin estar encadenados a problemáticas legales o éticas. Con esta innovación, el camino está pavimentado para un desarrollo responsable y accesible en el ámbito de la inteligencia artificial.