Este desarrollo subraya el enfoque de la startup en maximizar la rentabilidad en un contexto de déficit de potencia computacional en comparación con EE.UU.
Un artículo técnico, coescrito por Liang Wenfeng, fundador de la startup china de inteligencia artificial DeepSeek, y un grupo de investigadores de la Universidad de Beijing, propone una nueva técnica de entrenamiento de modelos que, según afirman, puede facilitar una «expansión agresiva de parámetros» al superar las limitaciones de memoria de la unidad de procesamiento gráfico (GPU).
Este desarrollo subraya el enfoque continuo de la startup de Hangzhou en maximizar la rentabilidad en medio de un déficit de potencia computacional en comparación con los líderes de la industria estadounidense, a medida que aumenta la especulación sobre el lanzamiento de un nuevo modelo importante en vísperas del Año Nuevo Lunar.
El documento, altamente técnico, será ampliamente consultado por expertos de la industria, tanto en China como en Estados Unidos, en busca de indicios de progreso en DeepSeek, que ha sido el ejemplo perfecto de la innovación en IA de China durante el último año.
El último documento, publicado el martes, introdujo una técnica de «memoria condicional» llamada Engram para abordar un obstáculo clave en la ampliación de los modelos de IA: la capacidad limitada de la memoria de alto ancho de banda (HBM) de la GPU.

Los modelos de lenguaje grande (LLM) existentes recuperan información básica mediante computación, lo que requiere potencia computacional. Sin embargo, los investigadores afirmaron que este proceso desperdiciaba «una valiosa profundidad secuencial en operaciones triviales que, de otro modo, podrían asignarse al razonamiento de alto nivel».
HBM representa una de las mayores brechas de hardware de IA de China con respecto a EE.UU. Según Ray Wang, analista de SemiAnalysis con sede en Seúl, la empresa china líder en memoria, ChangXin Memory Technologies (CXMT), aún se encontraba varios años por detrás de líderes del sector como Samsung Electronics y SK Hynix de Corea del Sur, y Micron Technology de EE.UU., a pesar del progreso constante de los últimos años.

