GPT-OSS ahora disponible en tamaños de 120 y 20 mil millones de parámetros bajo la licencia Apache 2.0.
OpenAI lanzó el martes sus primeros modelos de lenguaje de ponderaciones abiertas desde GPT-2 con el debut de GPT-OSS.
Los modelos están disponibles en dos tamaños: el primero es un modelo de razonamiento de 117 mil millones de parámetros que, según OpenAI, ofrece un rendimiento similar al de su modelo propietario o4-mini. El segundo es una versión más pequeña, de 21 mil millones de parámetros, que, según nos informan, alcanza un rendimiento similar al de o3-mini.

En cuanto a modelos, estos son los más abiertos posibles. En lugar de utilizar una licencia personalizada que restrinja el número de usuarios o su uso en aplicaciones comerciales, OpenAI ha optado por ofrecer sus últimos modelos bajo una licencia Apache 2.0 altamente permisiva. Esto significa que puedes hacer prácticamente cualquier cosa con ellos.
Según OpenAI, entrenó sus modelos GPT-OSS principalmente con texto en inglés, con énfasis en STEM, programación y cultura general. Además, los modelos carecen de las capacidades de visión de los modelos más grandes de OpenAI, como GPT4o.
Durante el post-entrenamiento, OpenAI aplicó aprendizaje por refuerzo en un proceso similar al que utilizó para dotar a o4-mini de sus capacidades de razonamiento en cadena de pensamiento. Y al igual que con los modelos propietarios de Altman y su equipo, puedes ajustar el esfuerzo de razonamiento de los modelos a bajo, medio o alto configurando el nivel deseado en el mensaje del sistema: por ejemplo, «Razonamiento: alto».
Los modelos de ponderaciones abiertas también utilizan una arquitectura mixta de expertos (MoE).
GPT-OSS-120B cuenta con 128 expertos, de los cuales cuatro (con un total de 5.100 millones de parámetros) generan cada token de salida. GPT-OSS-20B, por su parte, es esencialmente una versión simplificada con 32 expertos y 3.600 millones de parámetros activos. Si no lo conoce, estos expertos son submodelos que un mecanismo de enrutamiento interno activa dinámicamente al generar una respuesta.

Esto significa que, siempre que estos modelos se puedan integrar en la VRAM, generarán tokens mucho más rápido que un modelo denso de tamaño equivalente.
En cuanto al hardware, ejecutar estos modelos no debería ser un gran problema, ya que OpenAI los entrenó con precisión MXFP4 nativa en la capa MoE. Según OpenAI, el modelo 120B puede ejecutarse en una sola GPU H100 de 80 GB, mientras que la versión más pequeña de 20B solo admite 16 GB de VRAM.
Al probar GPT-OSS-20B en Ollama con una RTX 6000 Ada, observamos tasas de generación de tokens superiores a 125 tokens/s con un tamaño de lote de uno.
Ambos modelos cuentan con una ventana de contexto nativa de 128.000 tokens. Si bien esto podría haber sido competitivo hace un año, la familia Qwen3 de Alibaba ofrece una ventana de contexto de 256.000 tokens, mientras que el grupo Llama 4 de Meta, para bien o para mal, admite hasta 10 millones de contextos de tokens.
El debut de GPT-OSS se produce tras repetidos retrasos, el más reciente de los cuales Sam Altman, director ejecutivo de OpenAI, atribuyó a evaluaciones de seguridad prolongadas.
En una publicación de blog del martes, OpenAI amplió estas funciones de seguridad, que incluyeron el filtrado de datos dañinos sobre temas como investigación y desarrollo químico, biológico, radiológico o nuclear.
OpenAI también censuró el modelo para evitar que los usuarios ingresaran avisos inseguros o intentaran inyectarlos.
«Una vez que se lanza un modelo de peso abierto, los adversarios pueden ajustarlo con fines maliciosos», explicó la compañía.
OpenAI afirma que, durante el desarrollo, estas medidas evitaron eficazmente que los evaluadores se apropiaran de los modelos para usos maliciosos. La compañía confía tanto en sus medidas de seguridad que ha retado a los desarrolladores a integrar los modelos en un equipo rojo y ha ofrecido un premio de medio millón de dólares a quien identifique nuevos problemas de seguridad.
En el lanzamiento, GPT-OSS está disponible en diversos repositorios de modelos, incluyendo Hugging Face, y ofrece un amplio soporte para marcos de inferencia como Hugging Face Transformers, PyTorch, Triton, vLLM, Ollama y LM Studio.
GPT-OSS no parece ser lo único que OpenAI está preparando. En una publicación en X, Altman comentó que se espera una «gran actualización a finales de esta semana». ¿Quizás GPT-5?.

