El gigante chino de tecnología financiera Ant Group ha publicado en código abierto un marco de inferencia para un tipo de modelo de inteligencia artificial relativamente nuevo que, según afirma, podría aumentar la eficiencia de los sistemas de IA, superando un marco propuesto por investigadores del gigante estadounidense de chips Nvidia.
La filial de Alibaba Group Holding anunció el lunes que su framework, dInfer, fue diseñado para modelos de lenguaje de difusión, una clase más reciente de modelos que generan resultados en paralelo, a diferencia de los sistemas «autorregresivos» utilizados en modelos de lenguaje de gran tamaño (LLM), como ChatGPT, que producen texto secuencialmente de izquierda a derecha.
Los modelos de difusión ya se utilizan ampliamente en la generación de imágenes y vídeos.
Ant afirmó que dInfer era hasta tres veces más rápido que vLLM, un motor de inferencia de código abierto desarrollado por investigadores de la Universidad de California en Berkeley, y diez veces más rápido que Fast-dLLM, el framework de Nvidia.
Los modelos de lenguaje autorregresivos, desde GPT-3.5 de OpenAI hasta R1 de DeepSeek, han impulsado hasta la fecha el auge de los chatbots gracias a su capacidad para comprender y generar lenguaje humano. Sin embargo, los investigadores, especialmente en el ámbito académico, han seguido explorando los modelos de lenguaje de difusión en busca de mayores capacidades. La incursión de Ant en paradigmas de modelos alternativos pone de relieve cómo las grandes tecnológicas chinas están intensificando sus esfuerzos en la optimización de algoritmos y software para compensar las desventajas del país en chips de IA avanzados.
Según pruebas internas realizadas con el modelo de difusión LLaDA-MoE de Ant, dInfer generó un promedio de 1.011 tokens por segundo en un benchmark de generación de código llamado HumanEval, en comparación con los 91 tokens por segundo de Fast-dLLM de Nvidia y los 294 del modelo Qwen-2.5-3B de Alibaba, optimizado con vLLM.

