En este momento estás viendo IA más rápida y costes más bajos: DSpark alivia los cuellos de botella en la inferencia y la carga sobre los chips, según DeepSeek
DeepSeek afirma que DSpark ofrece resultados más rápidos y costes más bajos, lo que supone un avance en la inferencia.

IA más rápida y costes más bajos: DSpark alivia los cuellos de botella en la inferencia y la carga sobre los chips, según DeepSeek

  • Autor de la entrada:
  • Categoría de la entrada:China
  • Última modificación de la entrada:junio 29, 2026

Una *startup* presenta un marco de decodificación especulativa que acelera la inferencia hasta en un 85%, en medio del esfuerzo de China por superar las restricciones de EE.UU. a la IA.

La *startup* china de inteligencia artificial DeepSeek ha lanzado una importante actualización de su modelo insignia V4, destinada a acelerar drásticamente la generación de respuestas de IA, en un momento en que la competencia entre los desarrolladores chinos se centra cada vez más en reducir los costes de servicio y mejorar la experiencia del usuario.

Al adoptar un marco de decodificación especulativa denominado DSpark, DeepSeek afirma haber aumentado la velocidad de respuesta por usuario hasta en un 85%; esta mejora en la eficiencia podría reducir la dependencia de los sistemas de IA respecto a infraestructuras de chips más grandes y potentes.

La generación convencional de resultados «token a token» (unidad a unidad) de los modelos de IA solía ralentizarse cuando las respuestas eran extensas, lo que provocaba una baja utilización de las unidades de procesamiento gráfico (GPU) y largos tiempos de espera percibidos por el usuario; esto constituía un «cuello de botella principal en el servicio de IA», según señaló la empresa en una investigación publicada el sábado.

DeepSeek explicó que el módulo DSpark acelera la generación de respuestas de IA —también conocida como inferencia de IA, que consiste en utilizar un modelo entrenado para responder a las consultas de los usuarios— mediante el uso de un modelo preliminar ligero que propone respuestas candidatas y las verifica posteriormente por lotes con un modelo mayor, agilizando así la generación de resultados.

DSpark perfeccionó aún más este enfoque con un método de generación semiautorregresiva, permitiendo al modelo producir pequeños bloques de *tokens* en lugar de uno solo cada vez.

La nueva técnica podría reducir los recursos informáticos necesarios para operar sistemas de IA, según un programador.

Asimismo, introdujo un sistema de programación basado en niveles de confianza que ajustaba dinámicamente la intensidad de la verificación según la demanda de computación, ayudando a equilibrar la velocidad y la calidad del resultado.