El valor de la IA para la mayoría de los usuarios actuales reside en su capacidad de generar un lenguaje coherente y conversacional mediante la aplicación de la teoría de la probabilidad a conjuntos de datos masivos. Sin embargo, un futuro en el que los modelos de IA impulsen avances en campos como la criptografía y la exploración espacial mediante la resolución de problemas matemáticos complejos de varios pasos está cada vez más cerca de hacerse realidad.
OpenAI anunció el sábado 19 de julio que su modelo experimental de razonamiento de IA obtuvo la puntuación suficiente en la Olimpiada Internacional de Matemáticas (OIM) de este año para ganar una medalla de oro.
Creada en 1959 en Rumanía, la OIM es considerada una de las competiciones de matemáticas más difíciles y prestigiosas del mundo para estudiantes de secundaria. Tiene una duración de dos días. Los participantes realizan dos exámenes, en los que se espera que resuelvan tres problemas matemáticos en cada sesión en cuatro horas y media.
El modelo de IA inédito de OpenAI participó en la OIM 2025 en estas mismas condiciones, sin acceso a internet ni herramientas externas. Leyó los enunciados oficiales de los problemas matemáticos y generó demostraciones en lenguaje natural. El modelo resolvió cinco de un total de seis problemas, obteniendo una puntuación de 35/42 digna de una medalla de oro, según Alexander Wei, miembro del equipo técnico de OpenAI.
“Esto subraya la rapidez con la que la IA ha avanzado en los últimos años. En 2021, mi asesor de doctorado, @JacobSteinhardt, me hizo pronosticar el progreso de la IA en matemáticas para julio de 2025. Predije un 30% en el índice de referencia MATH (y pensé que todos los demás eran demasiado optimistas). En cambio, tenemos el oro en la OMI”, escribió Wei en una publicación en X.
Esta no es la primera vez que una empresa afirma que su modelo de IA puede igualar el rendimiento de los medallistas de oro de la OMI. A principios de este año, Google DeepMind presentó AlphaGeometry 2, un modelo diseñado específicamente para resolver problemas geométricos complejos a un nivel comparable al de un medallista de oro olímpico humano.
Sin embargo, el rendimiento del modelo experimental de OpenAI se considera un avance para la inteligencia general, no solo para los sistemas de IA específicos de tareas. “Alcanzamos este nivel de capacidad no mediante una metodología limitada y específica para cada tarea, sino abriendo nuevos caminos en el aprendizaje de refuerzo de propósito general y el escalamiento computacional en tiempo de prueba”, afirmó Wei.
El éxito del modelo supone un avance más allá del aprendizaje de refuerzo (AR) tradicional, un proceso utilizado para entrenar modelos de IA mediante un sistema de recompensas y penalizaciones claras y verificables. En cambio, el modelo posiblemente demuestre capacidades más flexibles y generales para la resolución de problemas, ya que “puede elaborar argumentos complejos y sólidos al nivel de los matemáticos humanos”.
Wei también reconoció que “las presentaciones de la OMI son demostraciones de varias páginas difíciles de verificar”. Las demostraciones matemáticas se componen de teoremas menores llamados lemas. OpenAI afirmó que las demostraciones generadas por IA para los problemas fueron calificadas de forma independiente por tres ex medallistas de la OMI, quienes otorgaron la puntuación final del modelo por unanimidad.
Sin embargo, Gary Marcus, profesor de la Universidad de Nueva York (NYU) y conocido crítico de OpenAI, señaló que los resultados aún no han sido verificados de forma independiente por los organizadores de la OMI.
Las afirmaciones de OpenAI también llegan meses después de que la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) de EE.UU. lanzara una nueva iniciativa que busca reclutar investigadores para encontrar maneras de realizar investigación matemática de alto nivel con un «coautor» de IA. Anteriormente, DARPA fue responsable de impulsar la investigación que condujo a la creación de ARPANET, la precursora de internet.
Un modelo de IA capaz de verificar las demostraciones de forma fiable ahorraría muchísimo tiempo a los matemáticos y les ayudaría a ser más creativos. Si bien algunos de estos modelos podrían parecer capaces de resolver problemas complejos, también podrían ser propensos a tropezar con preguntas sencillas como si 9,11 es mayor que 9,9. Por ello, se dice que poseen «inteligencia irregular», término acuñado por el cofundador de OpenAI, Andrej Karpathy.
En respuesta a la puntuación de oro del modelo en la OMI, Sam Altman, director ejecutivo de OpenAI, declaró: «Este es un Máster en Derecho (LLM) que se centra en las matemáticas, no en un sistema matemático formal específico; forma parte de nuestro principal impulso hacia la inteligencia general».
Sin embargo, el creador de ChatGPT no tiene previsto lanzar el modelo de investigación experimental durante los próximos meses, a pesar de sus capacidades matemáticas.

