La solución propuesta por DeepSeek en su último artículo consiste en convertir tokens de texto en imágenes, o píxeles, mediante un codificador de visión.
El nuevo modelo de inteligencia artificial de DeepSeek, que convierte imágenes en texto, no es solo una herramienta de análisis de documentos, sino un posible avance de su próxima generación de modelos de lenguaje largo (LLM), según expertos en IA.
Publicado el lunes, DeepSeek-OCR es técnicamente un modelo de reconocimiento óptico de caracteres (OCR), un sistema de IA que utiliza la visión artificial para convertir imágenes en texto legible por máquina. Las aplicaciones comunes incluyen vehículos inteligentes y escáneres de documentos.
La startup con sede en Hangzhou citó las puntuaciones líderes del modelo en OmniDocBench, un popular punto de referencia para evaluar las capacidades de análisis de documentos de los modelos de IA.
Sin embargo, esta etiqueta de OCR «casi puede ignorarse», afirmó Florian Brand, estudiante de doctorado en la Universidad de Trier (Alemania) y experto en modelos de código abierto.
Más bien, creía que el artículo de investigación que acompañaba al modelo insinuaba su verdadero propósito, que era mejorar la eficiencia de la serie insignia de LLM de DeepSeek.
«El artículo trata principalmente sobre la compresión», afirmó Brand. Los LLM han sido el principal impulsor del auge de la IA generativa en los últimos años, desde ChatGPT de OpenAI hasta R1 de DeepSeek. Los LLM procesan las entradas convirtiendo el texto en tokens, que representan partes de una palabra.

