En este momento estás viendo DeepSeek comienza 2026 con un artículo que señala su intención de entrenar modelos más grandes con menos recursos
Para los observadores de la industria, los artículos de DeepSeek suelen ser una importante señal temprana de las decisiones de ingeniería que darán forma al próximo lanzamiento de modelos importantes de la startup.

DeepSeek comienza 2026 con un artículo que señala su intención de entrenar modelos más grandes con menos recursos

  • Autor de la entrada:
  • Categoría de la entrada:China
  • Última modificación de la entrada:enero 2, 2026

DeepSeek ha publicado un artículo técnico, coescrito por su fundador Liang Wenfeng, que propone una revisión de su arquitectura central de aprendizaje profundo.

La startup china de inteligencia artificial DeepSeek ha comenzado 2026 con un nuevo artículo técnico, coescrito por su fundador Liang Wenfeng, que propone una revisión de la arquitectura fundamental utilizada para entrenar modelos de IA fundacionales.

El método, denominado Manifold-Constrained Hyper-Connections (mHC), forma parte del esfuerzo de la empresa de Hangzhou para que sus modelos sean más rentables, mientras intenta mantenerse al día con sus rivales estadounidenses, mejor financiados y con mayor acceso a la capacidad de computación.

También refleja la cultura cada vez más abierta y colaborativa entre las empresas chinas de IA, que han publicado una parte creciente de su investigación públicamente.

Para los observadores de la industria, los artículos de DeepSeek suelen ser una importante señal temprana de las decisiones de ingeniería que darán forma al próximo lanzamiento de modelos importantes de la startup.

En el artículo, publicado el jueves, un equipo de 19 investigadores de DeepSeek afirmó haber probado mHC en modelos con 3 mil millones, 9 mil millones y 27 mil millones de parámetros, y descubrió que escalaba sin añadir una carga computacional significativa.

«Los resultados empíricos confirman que mHC permite de forma efectiva un entrenamiento estable a gran escala con una escalabilidad superior en comparación con las hiperconexiones convencionales (HC)», escribieron los investigadores, liderados por Zhenda Xie, Yixuan Wei y Huanqi Cao.