Grok 4 lidera varios benchmarks destacados, superando por poco a empresas veteranas como OpenAI y Google. Desde su lanzamiento, Grok 4 ha sido reconocido como el modelo más inteligente. A continuación, analizamos en profundidad qué lo distingue de otros LLM.
«Es más inteligente que casi todos los estudiantes de posgrado en todas las disciplinas simultáneamente», declaró Elon Musk durante la transmisión en vivo del lanzamiento de la versión más avanzada del chatbot Grok, desarrollado por su startup de IA, xAI.
Grok 4 es la última versión del modelo de lenguaje grande (LLM) Grok de xAI, y no solo incluye actualizaciones menores, sino también mejoras importantes con respecto a sus predecesores. Según quienes probaron los nuevos modelos, la serie Grok 4 representa un avance enorme en los LLM, supuestamente gracias al uso de la técnica conocida como aprendizaje de refuerzo con recompensas verificables (RLVW). El RLVW es un método mediante el cual un agente de IA aprende a tomar decisiones interactuando con su entorno y recibiendo recompensas o penalizaciones por sus acciones.
Grok se lanzó en 2023 como un modelo centrado completamente en la predicción del siguiente token, un concepto fundamental en el modelado del lenguaje donde el modelo predice la siguiente palabra o token en la secuencia de texto. Los modelos posteriores de la línea mostraron un aumento de 10 veces en la capacidad de cómputo, específicamente Grok 3, lo que resultó en mejores resultados de preentrenamiento. Grok 3.5 introdujo capacidades de razonamiento en los LLM de xAI mediante aprendizaje por refuerzo; sin embargo, ahora Grok 4 ha ido mucho más allá. Con un gran énfasis en el aprendizaje por refuerzo (RLVW), Grok 4 parece haber superado a los modelos de frontera de OpenAI, Google, Anthropic, etc.
Para quienes no lo sepan, cuando un modelo de IA resuelve problemas con respuestas conocidas, como ecuaciones matemáticas o datos científicos, la técnica de aprendizaje por refuerzo lo recompensa. La idea es que entrenar repetidamente el modelo con problemas sencillos mejora su capacidad de razonamiento. Durante la demostración, el equipo de ingenieros de Musk incluso comentó que se estaban quedando sin este tipo de problemas, insinuando que los entornos reales podrían convertirse pronto en el mejor campo de entrenamiento, ofreciendo retroalimentación ilimitada y verificable.
¿Por qué Grok 4 es el LLM más inteligente hasta la fecha?.
Para cualquier LLM, la prueba definitiva de sus capacidades es obtener puntuaciones en pruebas de referencia populares que evalúan su capacidad para responder preguntas, resolver problemas lógicos, identificar patrones e incluso demostrar competencia en algunas tareas de programación. En los últimos años, las grandes empresas tecnológicas han estado presentando sus modelos de IA en lo que podría llamarse una «superación»; quizás esta sea la razón por la que seguimos oyéndolas presentar sus modelos de IA como la «mejor y más avanzada IA hasta la fecha». Si bien las puntuaciones de los benchmarks son clave para evaluar las capacidades de un modelo de IA, sus implicaciones en el mundo real y aplicaciones prácticas pueden variar significativamente.
xAI afirma que Grok 4 de Elon Musk ha demostrado un rendimiento notable en benchmarks en todas las categorías. Uno de los benchmarks más destacados que el LLM superó con creces es la prueba denominada «El Último Examen de la Humanidad», considerada una de las pruebas de IA más difíciles del mundo. Esta prueba evalúa esencialmente el conocimiento y la comprensión de un modelo en campos académicos como biología, física, informática e ingeniería. Ha sido diseñada para competir incluso con los expertos humanos más brillantes. En esta prueba, sin herramientas, Grok 4 obtuvo un 26,9%, superando el 21,6% de Google Gemini 2.5 Pro y el modelo GPT-4 de OpenAI con puntuaciones cercanas al 20%. Con herramientas, el modelo obtuvo una puntuación del 41% en navegación web, memoria y entornos de codificación. Por otro lado, con un cálculo escalado en tiempo de prueba, Grok 4 Heavy, que genera múltiples agentes de IA para resolver problemas, obtuvo un 50,7%, lo que representa un avance significativo. En cuanto a Grok 4 Heavy, este modelo emplea agentes que trabajan en equipo para resolver problemas, compartir información y refinar respuestas colectivamente. Esta arquitectura colaborativa multiagente es la característica distintiva del modelo Grok 4 Heavy.
Otro parámetro clave es ARC-AGI, diseñado para evaluar el razonamiento abstracto y la capacidad de resolución de problemas de un modelo. Esto también implica el reconocimiento de patrones e incluso las habilidades de razonamiento general, que son fáciles para los humanos, pero mucho más difíciles para los modelos de IA. En ARC-AGI V2, Grok 4 obtuvo un 15,9%, el doble de la puntuación anterior del 8% (Opus 4).
“ARC-AGI-2 es complejo para los modelos de IA actuales. Para obtener una buena puntuación, los modelos deben aprender una minihabilidad a partir de una serie de ejemplos de entrenamiento y luego demostrarla en la prueba. La puntuación máxima anterior fue de aproximadamente el 8% (de Opus 4). Por debajo del 10% se genera ruido; obtener un 15,9% rompe esa barrera. Grok 4 muestra niveles de inteligencia fluida superiores a cero”, publicó Greg Kamradt, fundador del Premio ARC, en X, sugiriendo que este es un gran avance en la IA.
Visualizaciones, predicciones deportivas y más.
Además de las pruebas de referencia, durante la demostración, los ingenieros también mostraron cómo Grok 4 era capaz de realizar predicciones deportivas, visualizaciones de agujeros negros y diseño de juegos. Durante la demostración, Grok 4 creó una representación visual científicamente plausible de la colisión de dos agujeros negros. Grok 4 tiene acceso a datos en tiempo real, lo que le permite organizar cronologías de reacciones, noticias y más. Mientras tanto, otros benchmarks demuestran el alcance y la versatilidad de Grok 4. En GPQA (prueba de respuesta a preguntas de posgrado), el modelo obtuvo una puntuación del 88,9%, considerada la mejor hasta la fecha. En Math Arena, superó a todos con un 96,7%. El modelo también dominó la Olimpiada de Matemáticas de EE.UU. con un 79,4%. Live CodeBench sugiere que también puede ser un programador de primer nivel. En el Desafío de IA y Aprendizaje Automático 2025, Grok 4 obtuvo un 100% perfecto.
Además de los benchmarks tradicionales, el modelo Grok 4 también se puso a prueba con inteligencia del mundo real. VendingBench es un benchmark que simula la gestión de una máquina expendedora y tiene limitaciones como el presupuesto y el inventario. Como parte de la prueba de VendingBench, los agentes de IA deben gestionar pedidos, el inventario y los precios, y, en esencia, generar ingresos. Esta prueba determina la coherencia a largo plazo de un modelo de IA. Grok 4 obtuvo un patrimonio neto de 4.700$, superando a los mejores modelos de IA e incluso a los participantes humanos. En comparación, GPT-3.5 obtuvo 1.,800$, y un participante humano solo pudo obtener 844$. El rendimiento de Grok 4 en la prueba VendingBench demuestra su capacidad para razonar, planificar y actuar en situaciones impredecibles que requieren el uso de habilidades críticas.
Muchos usuarios han mostrado casos de uso únicos donde Grok 4 brilló. Un miembro del equipo de xAI utilizó el modelo para crear un juego de disparos en primera persona en tan solo cuatro horas. Según el ingeniero, el modelo automatizó tareas como la búsqueda de recursos, la lógica y los elementos visuales, reduciendo drásticamente el tiempo y el esfuerzo de desarrollo. Hace poco, Elon Musk afirmó que la IA generará títulos AAA completos. Si bien no se trata de un AAA, demuestra el gran avance de la IA en el desarrollo de videojuegos.
xAI, una empresa relativamente nueva, ha experimentado un crecimiento fenomenal en los últimos años. Musk ha afirmado que la compañía está entrenando su Modelo Fundacional v7, que se espera que esté listo pronto. Además, la compañía de IA planea presentar un modelo especializado en codificación en agosto, un agente multimodal en septiembre y un modelo de generación de vídeo en octubre.
¿Estamos más cerca de la IAG?.
En teoría, Grok 4 supera a sus competidores en numerosos benchmarks de alto riesgo. Sin embargo, cuando Musk afirmó que Grok 4 es más inteligente que todos los estudiantes de posgrado, su afirmación requiere un poco de contexto. Cabe destacar que Grok 4 es otro LLM, lo que significa que es propenso a alucinaciones o a generar información incorrecta, como cualquier otro modelo de IA. En esencia, no se trata de un nuevo tipo de IA. Musk aclaró posteriormente que su comentario sobre la inteligencia de «nivel de posgrado» se basaba en la prueba del modelo en exámenes académicos. Uno de los usuarios de X señaló que las puntuaciones son impresionantes, pero las presentaciones pueden ser engañosas. Por ejemplo, las gráficas compartidas por xAI también podrían exagerar las diferencias entre los modelos. A pesar de las asombrosas puntuaciones, varios usuarios señalaron que Grok 4 parece tener dificultades con las tareas visuales. Grok 4 presenta una modesta mejora respecto a Gemini 2.5 Pro en las pruebas multimodales completas, una prueba que incluye textos e imágenes.
La Inteligencia Artificial General, o IAG, es un concepto teórico de sistemas de IA que poseen capacidades cognitivas a nivel humano. Mientras las grandes tecnológicas se apresuran a lograr la IA general e invierten miles de millones de dólares en su consecución, aún no hay un cronograma concreto. El rendimiento de Grok 4 en pruebas de referencia como ARC-AGI y Humanity’s Last Exam muestra lo lejos que hemos llegado en cuanto a avances en IA, pero esto no es IA general. Grok 4 es un LLM, que tiende a inventar información con confianza, y se espera que la IA general se base en la realidad. Según las pruebas de referencia, Grok 4 destaca en tareas estructuradas como matemáticas, programación, etc. Sin embargo, falla en el razonamiento espacial y la comprensión visual matizada. No es una IA general, ya que carece de agencia u objetivos, y realmente no aprende de sus errores. En pocas palabras, Grok 4 imita el pensamiento, pero aún no es un pensador autónomo.
El jueves 10 de julio, xAI lanzó Grok 4, el multiagente Grok4 Heavy y SuperGrok Heavy. Los modelos se lanzaron con una demo dirigida por Elon Musk e ingenieros de xAI. El nuevo Grok 4 se basa en el Modelo Fundacional v6 de xAI. Se puede acceder a Grok 4 a través de la plataforma de xAI o mediante una API. Incorpora una ventana de contexto de 256K, razonamiento multimodal, acceso web en tiempo real y seguridad de nivel empresarial. El precio del Grok 4 es de 30$ al mes, mientras que el del Grok 4 Heavy es de 300$ al mes o 3.000$ al año.

