El nuevo sistema Aegaeon puede procesar docenas de grandes modelos de lenguaje utilizando una fracción de las GPU requeridas anteriormente, lo que podría transformar las cargas de trabajo de IA.
Alibaba Group Holding ha presentado una solución de pooling computacional que, según afirma, ha reducido en un 82% la cantidad de unidades de procesamiento gráfico (GPU) de Nvidia necesarias para procesar sus modelos de inteligencia artificial.
El sistema, llamado Aegaeon, se sometió a pruebas beta en el mercado de modelos de Alibaba Cloud durante más de tres meses, donde redujo de 1.192 a 213 el número de GPU Nvidia H20 necesarias para gestionar docenas de modelos con hasta 72 mil millones de parámetros, según un artículo de investigación presentado esta semana en el 31º Simposio sobre Principios de Sistemas Operativos (SOSP) en Seúl, Corea del Sur.
“Aegaeon es el primer trabajo que revela los costes excesivos asociados a la gestión de cargas de trabajo LLM simultáneas en el mercado”, escribieron los investigadores de la Universidad de Beijing y Alibaba Cloud.
Alibaba Cloud es la unidad de servicios de IA y nube de Alibaba, con sede en Hangzhou. Su director de tecnología, Zhou Jingren, es uno de los autores del artículo.
Los proveedores de servicios en la nube, como Alibaba Cloud y Volcano Engine de ByteDance, gestionan miles de modelos de IA a los usuarios simultáneamente, lo que significa que se gestionan numerosas llamadas a la interfaz de programación de aplicaciones (IPA) al mismo tiempo. Sin embargo, un pequeño grupo de modelos, como Qwen y DeepSeek de Alibaba, son los más populares para la inferencia, mientras que la mayoría de los demás modelos solo se utilizan esporádicamente. Esto genera ineficiencia en el uso de recursos, ya que el 17,7% de las GPU se asignan para atender solo el 1,35% de las solicitudes en el marketplace de Alibaba Cloud, según los investigadores.
Investigadores de todo el mundo han buscado mejorar la eficiencia agrupando la potencia de las GPU, lo que permite, por ejemplo, que una GPU atienda varios modelos.

