MiniMax, una empresa emergente de inteligencia artificial (IA) con sede en Shanghai, ha lanzado un modelo de razonamiento de código abierto que, según afirma, requiere solo la mitad de los recursos informáticos de los modelos de su rival DeepSeek para algunas tareas.
El martes, la compañía anunció el lanzamiento de MiniMax-M1, su primer modelo de razonamiento, en su cuenta oficial de WeChat. M1 consume menos de la mitad de la potencia de procesamiento de DeepSeek-R1 para tareas de razonamiento con una generación de 64.000 tokens o menos, según un documento técnico publicado junto con el producto.
“En comparación con DeepSeek… esta reducción sustancial en el costo computacional hace que M1 sea significativamente más eficiente tanto durante la inferencia como durante el entrenamiento [de modelos] a gran escala”, escribieron los investigadores de MiniMax en el informe.
El nuevo modelo surge en un momento en que los gigantes tecnológicos y las startups chinas compiten por desarrollar modelos de razonamiento avanzados, diseñados para analizar un problema antes de responder, en un intento por alcanzar a DeepSeek, cuyo asequible modelo R1 atrajo la atención mundial a principios de este año. MiniMax mencionó a DeepSeek 24 veces en su informe técnico, lo que subraya la ambición de la compañía de desafiar a su rival con sede en Hangzhou, que se ha convertido en la favorita de la industria china de la IA.
MiniMax citó puntos de referencia de terceros que muestran que M1 coincide con el rendimiento de los principales modelos globales de Google , OpenAI respaldado por Microsoft y Anthropic respaldado por Amazon.com en matemáticas, codificación y conocimiento del dominio.
M1 se basa en el modelo fundamental MiniMax-Text-01 de 456 mil millones de parámetros y emplea una arquitectura híbrida de expertos, un enfoque para diseñar modelos de IA que reduce el procesamiento, también utilizado por DeepSeek. M1 también utiliza Lightning Attention, una técnica que acelera el entrenamiento, reduce el uso de memoria y permite que el modelo gestione textos más largos.