Estudio de la influencia de una base de datos sesgada en algoritmos de selección estándar
Un reciente estudio encabezado por universitarios de Grenoble se sumergió en la problemática de cómo las bases de datos sesgadas afectan los resultados de los algoritmos de selección de candidatos en procesos de contratación. En la pesquisa, se señala la creciente dependencia de la Inteligencia Artificial (IA) para procesos de selección de personal, una práctica implementada por el 24% de las empresas medianas consultadas, con una tendencia a aumentar al 56% próximo año.
Esto plantea una problemática crucial, dado que, aunque estos algoritmos prometen reclutamiento objetivo, no están exentos de sesgos, ya que son entrenados con datos históricos contaminados con casos de discriminación. Los investigadores crearon simulaciones de procesos de selección basados en datos sesgados, divididos en dos tipos: sesgo externo y auto-censura. Se evaluó el rendimiento de cinco algoritmos estándar evaluando si encuentran a los candidatos “óptimos” según criterios objetivos.
Los algoritmos probados incluyeron técnicas desde regresión logística hasta máquinas de soporte vectorial (SVM), observando que aplicaciones sofisticadas como las SVM no presentaron mejores resultados respecto a algoritmos más transparentes como la regresión logística. Además, se experimentó el anonimato de datos, buscando mejorar la calidad de las predicciones sin discriminar variables correlacionadas a las discriminatorias.
Pese a la promesa de objetividad, ciertos algoritmos como el usado por Amazon mostraron preferencias hacia candidatos masculinos para roles técnicos, un claro ejemplo de los peligros inherentes al entrenamiento basado en datos sesgados. El estudio destaca la importancia de no solo buscar refinamiento técnico en los algoritmos, sino también asegurar que los datos subyacentes sean representativos y libres de discriminación histórica.
Conclusivamente, el estudio argumenta sobre la necesidad de desarrollar procedimientos que evalúen el sesgo de los algoritmos utilizados comercialmente, sugiriendo que se tome mayor atención no solo al diseño algorítmico sino también a la sanidad de los datos con los que se nutren estos sistemas de IA.