Investigadores del Instituto de Tecnología de Massachusetts y otras universidades han desarrollado un novedoso marco de seguridad para sistemas de inteligencia artificial que promete asegurar el cumplimiento de restricciones definidas por el usuario en múltiples dominios. Este esfuerzo surge como respuesta a la creciente aplicación de la IA en áreas críticas como la salud y el transporte, donde la seguridad es una prioridad imperativa.
El marco propuesto se distingue por su capacidad para manejar restricciones no determinísticas, que no pueden evaluarse de manera determinista debido a la naturaleza probabilística de las salidas de los modelos de IA modernos. A través de la formulación de estas restricciones como “constraints” de oportunidad dentro de la teoría de control estocástica, el sistema busca garantizar el cumplimiento de las restricciones mientras optimiza el rendimiento.
Un componente clave del marco es el uso de datos de prueba internos suplementarios etiquetados en términos de seguridad, lo que ayuda a validar la credibilidad del modelo de IA. Este enfoque se complementa con una metodología de prueba conservadora que asegura una sobreestimación fiable de las probabilidades de cumplimiento de restricciones.
Además, el marco incluye un método innovador para aproximar funciones de pérdida y calcular su gradiente, lo que facilita el entrenamiento de modelos de IA para asegurar el cumplimiento de las restricciones con umbrales de probabilidad dados por el usuario. Matemáticamente, prueban que el cumplimiento probabilístico de restricciones está garantizado bajo condiciones específicas y presentan una ley de escalamiento entre seguridad y la cantidad de datos de prueba internos.
A través de experimentos en dominios diversos como la predicción de demanda para la decisión de producción, aprendizaje por refuerzo seguro dentro del simulador SafetyGym, y el control de salidas de chatbots de IA, se demostraron las ventajas de este enfoque novedoso. El marco superó en hasta varios órdenes de magnitud a los métodos existentes en regiones de umbrales de seguridad bajos y demostró escalar efectivamente con respecto al tamaño de los datos de prueba internos.
Estos resultados subrayan el potencial de este marco para mejorar dramáticamente la seguridad de la inteligencia artificial, ofreciendo además flexibilidad y transparencia en la integración de las preferencias del usuario. Con esta nueva herramienta, se busca establecer un estándar más alto para el despliegue de aplicaciones de IA en escenarios críticos donde la seguridad no es solo una opción, sino una necesidad crucial.