El artículo llega en un momento en que la mayoría de las startups de IA se han centrado en convertir las capacidades de la IA en modelos de lenguaje grandes (LLM) en agentes y otros productos.
El último artículo técnico de DeepSeek, coescrito por el fundador y CEO de la empresa, Liang Wenfeng, ha sido citado como un posible punto de inflexión en el desarrollo de modelos de inteligencia artificial, ya que podría traducirse en mejoras en la arquitectura fundamental del aprendizaje automático.
El tema del artículo, Conexiones Hiperconectadas con Restricciones de Variedad (mHC), representa una mejora con respecto a las hiperconexiones convencionales en las redes residuales (ResNet), un mecanismo fundamental subyacente a los modelos de lenguaje grandes (LLM), lo que demuestra los continuos esfuerzos de la startup china de IA para entrenar modelos potentes con recursos informáticos limitados.
En el artículo, un equipo de 19 investigadores de DeepSeek afirmó haber probado mHC en modelos con 3 mil millones, 9 mil millones y 27 mil millones de parámetros y descubrió que escalaba sin añadir una carga computacional significativa.
El artículo, publicado el 1 de enero, generó inmediatamente interés y debate entre los desarrolladores a pesar de sus complejos detalles técnicos.
Quan Long, profesor de la Universidad de Ciencia y Tecnología de Hong Kong, afirmó que los nuevos hallazgos eran «muy significativos para la arquitectura Transformer utilizada en los LLM». Long se mostró «muy entusiasmado de ver la importante optimización de DeepSeek, que ya ha revolucionado la eficiencia de los LLM».
El artículo llega en un momento en que la mayoría de las startups de IA se han centrado en convertir las capacidades de la IA en LLM en agentes y otros productos. DeepSeek, un proyecto paralelo de la empresa de comercio cuantitativo de Liang, sin embargo, ha estado buscando mejoras en los mecanismos técnicos básicos de cómo las máquinas aprenden de los datos.

