¿Superará el nuevo modelo de IA de DeepSeek el cuello de botella del «contexto largo» que frena los LLM?

El logotipo de DeepSeek v3.1 aparece en la pantalla de un smartphone.

¿Superará el nuevo modelo de IA de DeepSeek el cuello de botella del «contexto largo» que frena los LLM?

Autor de la entrada:Fernando
Categoría de la entrada:China
Última modificación de la entrada:octubre 23, 2025

La solución propuesta por DeepSeek en su último artículo consiste en convertir tokens de texto en imágenes, o píxeles, mediante un codificador de visión.

El nuevo modelo de inteligencia artificial de DeepSeek, que convierte imágenes en texto, no es solo una herramienta de análisis de documentos, sino un posible avance de su próxima generación de modelos de lenguaje largo (LLM), según expertos en IA.

Publicado el lunes, DeepSeek-OCR es técnicamente un modelo de reconocimiento óptico de caracteres (OCR), un sistema de IA que utiliza la visión artificial para convertir imágenes en texto legible por máquina. Las aplicaciones comunes incluyen vehículos inteligentes y escáneres de documentos.

La startup con sede en Hangzhou citó las puntuaciones líderes del modelo en OmniDocBench, un popular punto de referencia para evaluar las capacidades de análisis de documentos de los modelos de IA.

Sin embargo, esta etiqueta de OCR «casi puede ignorarse», afirmó Florian Brand, estudiante de doctorado en la Universidad de Trier (Alemania) y experto en modelos de código abierto.

Más bien, creía que el artículo de investigación que acompañaba al modelo insinuaba su verdadero propósito, que era mejorar la eficiencia de la serie insignia de LLM de DeepSeek.

«El artículo trata principalmente sobre la compresión», afirmó Brand. Los LLM han sido el principal impulsor del auge de la IA generativa en los últimos años, desde ChatGPT de OpenAI hasta R1 de DeepSeek. Los LLM procesan las entradas convirtiendo el texto en tokens, que representan partes de una palabra.

Etiquetas: Ai, Alemania, ChatGPT, Codificador de Visión, Contexto Largo, DeepSeek, DeepSeek V3.1, DeepSeek-OCR, DeepSeek-R1, Florian Brand, Hangzhou, IA, IA Generativa, Inteligencia Artificial, LLM, OCR, OmniDocBench, OpenAI, Smartphone, Startup, Universidad de Trier

También podría gustarte

La Bolsa de Hong Kong (HKEX) examina 300 solicitudes de cotización tras convertirse la ciudad en el mayor mercado de OPI del mundo

Los rápidos avances en el sector del vídeo con IA en China impulsan la adopción generalizada de la tecnología

Los líderes de la industria de semiconductores en China apuestan por la IA, los vehículos eléctricos y RISC-V como motores de crecimiento futuro