Si bien los fabricantes de chips chinos han logrado avances en el soporte de la inferencia de IA, se enfrentan a dificultades con el proceso mucho más complejo de entrenamiento.
Un equipo de investigación, del que forma parte Huawei Technologies, afirma haber utilizado con éxito los chips Ascend 910C de la compañía para completar el postentrenamiento del modelo DeepSeek-V4-Pro, lo que supone un importante paso adelante para la industria china de semiconductores, que intenta pasar del soporte de la inferencia básica de IA al entrenamiento de modelos más complejos en medio de las crecientes sanciones estadounidenses.
Si bien los fabricantes de chips chinos han logrado avances en el soporte de la inferencia de IA —el proceso relativamente sencillo de ejecutar un modelo ya terminado para responder a las preguntas del usuario—, se han enfrentado a dificultades con el entrenamiento, el proceso mucho más complejo de construir o perfeccionar el cerebro de un modelo. Si el preentrenamiento inicial enseña a un modelo a comunicarse absorbiendo grandes cantidades de datos, el postentrenamiento le enseña a trabajar siguiendo instrucciones humanas, normas de seguridad y tareas específicas.

Para lograrlo, los investigadores ejecutaron el modelo más grande de DeepSeek hasta la fecha, con 1,6 billones de parámetros, en un clúster de computación con al menos 1.000 chips Huawei, según una publicación del gobierno de Shenzhen en redes sociales el viernes.
El equipo llevó a cabo con éxito un postentrenamiento con parámetros completos, lo que significa que toda la arquitectura del modelo se actualizó y perfeccionó sin comprometer la calidad, según la publicación.
Anteriormente, la capacidad de computación nacional se utilizaba principalmente para la inferencia, «como construir una carretera de un solo sentido para el modelo: se introduce una pregunta y se obtiene una respuesta», explicaba la publicación. El proyecto, sin embargo, permitió que el modelo se autorreflexionara y ajustara.
Esto añadió “pasos elevados y bucles complejos a esa vía de sentido único, multiplicando instantáneamente las exigencias computacionales y de comunicación por varias veces”, agregó.
La exploración, realizada conjuntamente por Huawei, el Instituto del Área de Bucles de Shenzhen, el campus de Shenzhen del Instituto Tecnológico de Harbin y el Instituto de Investigación de Big Data de Shenzhen, “contribuirá a mejorar la autosuficiencia de la cadena de valor de la industria de la IA en China”, concluyó la publicación.

