Avances en el particionado de inferencia DNN en sistemas distribuidos

Investigadores del Instituto de Tecnología de Karlsruhe han desarrollado un marco automatizado para particionar la inference de redes neuronales profundas (DNN) en sistemas empotrados distribuidos, lo que puede aumentar drásticamente el rendimiento de sistemas autónomos como los de conducción y robótica. Este avance busca optimizar la distribución de la carga de trabajo de un modelo DNN en múltiples nodos de cómputo, considerando métricas clave como velocidad, eficiencia energética y precisión del DNN.

El método propuesto utiliza una representación gráfica del DNN para localizar puntos óptimos de particionamiento, logrando un mapeo Pareto-óptimo en términos de latencia, eficiencia energética y precisión del modelo. Gracias a ello, se ha demostrado que es posible obtener un incremento del 47.5% en el rendimiento a través de la partición de la inferencia de EfficientNet-B0 en dos plataformas distintas, logrando también una alta eficiencia energética.

El estudio detalla cómo el algoritmo ayuda a optimizar la utilización de hardware en sistemas con restricciones severas de memoria y energía, en especial al particionar punto por punto los modelos DNN sobre plataformas embebidas con aceleradores múltiples especializados.

Uno de los ejemplos más reveladores es cómo el enfoque reduce los requerimientos latentes y el consume energético al ejecutar el procesamiento de Redu en la plataforma A (con arquitectura Eyriss) antes de trasladar los resultados a la plataforma B (con arquitectura Simba).

Al combinar tecnologías como Timeloop para encontrar múltiples mapeos y Accelergy para estimar el consumo energético, el marco logra no solo optimizar cada capa de la red, sino también asegurar que los mapas característicos intermedios no excedan las capacidades de la plataforma seleccionada.

Este avance es particularmente relevante en sistemas automotrices, donde el hardware distribuido puede mejorar significativamente el rendimiento acumulativo en entornos con varias plataformas, exponiendo la importancia de diseñar soluciones de software/hardware en armonía.

Además, con la posibilidad de compresión y compensación de características, y al incorporar técnicas de entrenamiento consciente de cuantización (QAT), las pérdidas de precisión se minimizan permitiendo que modelos como ResNet-50 mantengan alta exactitud incluso con particiones en múltiples plataformas distintas.

En resumen, el marco establece un nuevo estándar para la inferencia de DNN en sistemas embebidos distribuidos, equipando a diseñadores de sistemas con herramientas que optimizan simultáneamente múltiples métricas y garantizan un uso eficiente del hardware disponible. Con la continua complejidad creciente de estas arquitecturas, enfoques como este serán cada vez más cruciales para aplicaciones de vanguardia.

Solo noticias

y ya

Avances en el particionado de inferencia DNN en sistemas distribuidos