En este momento estás viendo Tian Yuandong, sus planes después de dejar Meta y sus pensamientos sobre la IA
Tian Yuandong.

Tian Yuandong, sus planes después de dejar Meta y sus pensamientos sobre la IA

  • Autor de la entrada:
  • Categoría de la entrada:Análisis
  • Última modificación de la entrada:enero 12, 2026

El 4 de enero, Tian Yuandong, exdirector de investigación del equipo FAIR de Meta, publicó un resumen de fin de año en el que reflexiona sobre la crisis organizativa y la salida forzosa que experimentó en Meta durante el último año, y revela su nueva trayectoria profesional y de investigación. Considera que la interpretabilidad de modelos es un área de investigación crucial.

El 22 de octubre de 2025, el director ejecutivo de Meta, Mark Zuckerberg, aprobó un plan para despedir a aproximadamente 600 empleados de la división de IA de la compañía. Este es el mayor despido de Meta en el sector de la IA este año, principalmente en el departamento central de I+D, conocido como el «Super Laboratorio de Inteligencia». Tian Yuandong, quien se incorporó a Meta en 2014, también se encontraba entre los despedidos.

Tian Yuandong comentó que cuando le propusieron unirse a Llama4 a finales de enero de 2025 para solucionar la situación, consideró cuatro posibles resultados. Incluso si el proyecto finalmente fracasaba, esperaba al menos haber hecho lo mejor que pudo. Desafortunadamente, se presentó la quinta posibilidad, que no había previsto: ser despedido.

Tras ser despedido, expresó su insatisfacción con los despidos en línea, afirmando: «Las personas que realmente deberían ser responsables de resolver los problemas no son las que fueron despedidas».

Después de ser despedido, Tian Yuandong expresó su insatisfacción en su plataforma personal de redes sociales.

En su resumen de fin de año, Tian Yuandong también reveló su futura trayectoria profesional: convertirse en cofundador de una nueva startup, pero no reveló otros detalles específicos. «Espero estar discretamente ocupado por un tiempo», dijo Tian Yuandong.

Tian Yuandong también afirmó que en esta era de abundantes capacidades de IA, la gran comodidad a menudo conlleva grandes dificultades. La comodidad fácilmente accesible puede hacer que muchas personas pierdan gradualmente la motivación para pensar y, con el tiempo, sus capacidades creativas originales.

¿Cómo pueden los individuos mantener su originalidad?.

Tian Yuandong cree que, tácticamente, debemos aprender a examinar constantemente las respuestas de la IA, detectar sus fallos e identificar nuevos problemas que no pueda resolver. Estratégicamente, ya sea de forma proactiva o pasiva, todos afrontaremos la transición del rol de «empleado» al de «jefe» o «fundador». Si se tiene un objetivo firme y se está dispuesto a utilizar todos los medios (incluido el uso de modelos a gran escala como herramienta fundamental) para alcanzarlo, el pensamiento proactivo será un resultado natural. Cuanto más ambicioso sea el objetivo, más pensamiento proactivo generará y mayor será el potencial que liberará.

El siguiente es el resumen de fin de año de Tian Yuandong para 2025 (ligeramente abreviado).

Cuando me pidieron que me uniera a Llama4 como plan B a finales de enero de 2025, como alguien que siempre ha trabajado en aprendizaje por refuerzo, primero dibujé una matriz de recompensas de 2×2 y calculé las siguientes cuatro posibilidades (aunque en ese momento, debido a la enorme presión de arriba, discrepar era casi imposible):

La matriz de recompensa 2×2 dibujada por Tim Yuandong.

En ese momento, pensé que si ayudábamos, incluso si el proyecto fracasaba, al menos habríamos hecho lo mejor que pudimos y habríamos tenido la conciencia tranquila. Desafortunadamente, se dio la quinta posibilidad, que no estaba incluida en los cálculos, lo que me permitió comprender mejor la complejidad de la sociedad.

Sin embargo, durante estos meses de arduo trabajo, seguimos explorando algunos temas fundamentales en el entrenamiento de aprendizaje por refuerzo, como la estabilidad del entrenamiento, la interacción entre el entrenamiento y la promoción, el diseño de la arquitectura de modelos, la interacción entre el preentrenamiento y la fase intermedia del entrenamiento, algoritmos con largas cadenas de pensamiento, métodos de generación de datos y el diseño de marcos de trabajo postentrenamiento, etc. Esta experiencia en sí misma es muy importante y ha supuesto un cambio significativo en mi forma de pensar en la investigación.

Además, he llegado a pensar que, después de más de diez años en la empresa, tendría que irme. No puedo quedarme aquí para siempre, pero diversas razones económicas y familiares siempre me obligan a quedarme. Durante los últimos dos años, mi forma de hablar y actuar ha estado marcada por una mentalidad de «que la empresa me despida pronto», lo que irónicamente me ha vuelto cada vez más receptivo. Cuando me tomé mis primeras vacaciones largas a finales de 2023, casi me voy, pero al final no firmé los papeles y decidí quedarme. Así que tomar la decisión de irme no es fácil. Ahora, Meta lo ha hecho por mí, lo cual es bueno.

Este revés y los altibajos de este año me han proporcionado mucho material nuevo para mi próxima novela. Como dice el refrán, «La desgracia en la burocracia es fortuna para los poetas; los versos nacidos de las dificultades suelen ser los más hábiles». Una vida demasiado mundana no siempre trae alegría. Recuerdo que a principios de 2021, al escribir algunas reflexiones en mi resumen de fin de año sobre «por qué no se aceptaba ninguno de mis trabajos», me llamaron inesperadamente «Meet Most» (es decir, me criticaron públicamente), y sentí una repentina y desconcertante sensación de fracaso. Pero después de pensarlo, en lugar de quejarme de la injusticia del mundo, decidí fingir que me acababan de ascender. Y efectivamente, lo conseguí seis meses después. Y ese trabajo, que había sido ignorado en 2021, recibió una mención honorífica en los Premios al Mejor Trabajo del ICML en julio de 2021, convirtiéndose en un trabajo relativamente conocido en el ámbito del aprendizaje de la representación.

Durante un período posterior al 22 de octubre, mis canales de comunicación se vieron constantemente saturados de mensajes, correos electrónicos e invitaciones a reuniones remotas y presenciales. Estaba demasiado ocupado para seguir el ritmo. Tardé varias semanas en volver a la normalidad. Agradezco mucho la preocupación y el entusiasmo de todos durante esos dos meses. Les pido disculpas si no respondí a los mensajes con prontitud.

Aunque recibí varias ofertas y muchas empresas reconocidas se pusieron en contacto conmigo, finalmente decidí aprovechar mi juventud y cofundar una nueva startup. Por ahora no revelaré detalles; me centraré en trabajar en ello discretamente durante un tiempo.

Algunas líneas de investigación.

Mis principales líneas de investigación para 2025 son la inferencia de modelos a gran escala y la apertura de la caja negra de los modelos.

Desde que nuestro trabajo sobre razonamiento continuo en el espacio latente (coconut, COLM’25) se publicó a finales de 2024, ha despertado un gran interés en esta área de investigación. Los investigadores exploraron cómo aplicar esta idea al aprendizaje por refuerzo y al preentrenamiento, cómo mejorar su entrenamiento y eficiencia computacional, etc. Aunque nuestro grupo fue posteriormente retirado para trabajar en LLAM y no pudo profundizar más, esto sigue siendo muy gratificante. No obstante, publicamos un artículo de análisis teórico (Razonamiento por Superposición, NeurIPS’25) en el primer semestre del año, que demuestra las ventajas del razonamiento continuo en el espacio latente, lo cual atrajo considerable atención.

Otra área de enfoque es mejorar la eficiencia de inferencia de modelos grandes. Nuestro trabajo en Token Assorted (ICLR’25) primero aprende tokens discretos en el espacio latente utilizando VQVAE y luego combina los tokens discretos resultantes con tokens de texto para el postentrenamiento, lo que reduce los costos de inferencia y mejora el rendimiento. Nuestro DeepConf determina si una ruta de razonamiento debe terminarse prematuramente detectando el nivel de confianza de cada token generado. Esto reduce significativamente la cantidad de tokens utilizados para el razonamiento, pero logra un mejor rendimiento en escenarios de votación mayoritaria. ThreadWeaver acelera la velocidad de inferencia creando una cadena de razonamiento paralelo y realizando un postentrenamiento sobre ella. También entrenamos modelos de inferencia utilizando RL en dLLM (Gradiente de Política Intercalado) y hemos experimentado con el aprendizaje de inferencia en modelos pequeños (MobileLLM-R1).

En cuanto a la interpretabilidad, me he centrado en Grokking durante aproximadamente dos años. Anteriormente, al analizar el aprendizaje de representaciones, pude identificar la dinámica del aprendizaje y las razones del colapso de la representación, pero qué representaciones se aprendieron, su relación con la estructura de los datos de entrada y el nivel de generalización alcanzado seguían siendo un misterio. Analizar la aparición de características en Grokking, el cambio abrupto de memoria a generalización, puede ayudar a desentrañar este misterio. Al principio, fue realmente muy difícil y no tenía ni idea. En 2024, trabajé por primera vez en un artículo sobre COGS, pero solo podía analizar casos específicos, con lo que no estaba muy satisfecho. Tras más de un año de confusión y tras una extensa interacción con GPT-5, este reciente artículo sobre leyes de escalamiento demostrables representa un avance significativo. Permite analizar aspectos previamente invisibles en las estructuras lineales (NTK) y explicar, a grandes rasgos, la dinámica de entrenamiento de la emergencia de características. Si bien los ejemplos analizados siguen siendo bastante especiales, al menos ha abierto una nueva ventana.

Me gusta mucho el artículo «The Path Not Taken» (El camino no tomado) de finales de 2025. Ofrece una respuesta preliminar, a nivel de pesos, a por qué el comportamiento del aprendizaje por refuerzo (RL) y el ajuste fino supervisado (SFT) es tan inconsistente. El SFT provoca sobreajuste y olvido catastrófico. La razón superficial es que los datos de entrenamiento no se ajustan a la política, pero la razón más profunda es que los componentes principales de los pesos se modifican directa y significativamente por datos externos, lo que resulta en una base inestable y una fuerte caída en el rendimiento del modelo. El RL, al utilizar datos que se ajustan a la política para el entrenamiento, mantiene inalterados los componentes principales de los pesos, modificando únicamente los componentes menores. Esto evita el problema del olvido catastrófico, y la distribución de los pesos modificados también es más dispersa (especialmente con la cuantificación bf16).

Respecto a la creencia en la interpretabilidad.

Mucha gente piensa que la interpretabilidad, o la cuestión de «cómo funciona tan bien la IA», carece de importancia, pero yo creo que es muy importante. Consideremos estos dos escenarios:

Escenario 1: Si logramos la IAG o incluso la IAS simplemente mediante el escalamiento, el valor de todo el trabajo humano se reduce a cero. La IA, como una gigantesca caja negra, resuelve todos nuestros problemas. Entonces, garantizar que la IA, como sistema superinteligente, funcione bien de forma consistente, sin engaños ni actos maliciosos encubiertos, se vuelve primordial. Resolver este problema requiere interpretabilidad.

Escenario 2: Si el escalamiento finalmente fracasa y la humanidad sucumbe a la creciente demanda de recursos, debemos buscar otras soluciones. Entonces debemos considerar «por qué funciona el modelo y qué causa su fracaso». Siguiendo esta línea de pensamiento, debemos volver a la investigación, y la interpretabilidad se convierte en otra vía accesible.

En ambos escenarios, la interpretabilidad finalmente viene al rescate. Incluso si la IA se convierte en un dios omnisciente, omnipotente y benevolente, la curiosidad innata y la naturaleza exploratoria de la humanidad inevitablemente conducirán a investigaciones sobre por qué la IA funciona tan bien. Después de todo, una «caja negra» implica el nacimiento de una cadena de sospechas. Con la explosión de la tecnología de modelos a gran escala, que alcanza o incluso supera el nivel promedio humano, las reglas del «bosque oscuro» en “El Problema de los Tres Cuerpos” podrían manifestarse de otra manera.

Actualmente, abrir la caja negra de un modelo entrenado para encontrar el circuito aún se encuentra en una etapa relativamente preliminar. El verdadero reto de la interpretabilidad reside en explicar, desde los primeros principios —es decir, desde la arquitectura del modelo, el descenso de gradiente y la estructura inherente de los propios datos— por qué el modelo converge a estas características y bucles desacoplados, dispersos, de bajo rango, modulares y componibles; por qué existen tantas interpretaciones diferentes; qué hiperparámetros del entrenamiento del modelo se relacionan con estas estructuras emergentes y cómo se relacionan, etc. Cuando podamos deducir directamente la inevitabilidad de la aparición de características del modelo a gran escala a partir de las ecuaciones de descenso de gradiente, la interpretabilidad pasará realmente de la recopilación de evidencia biológica a la derivación de principios físicos, guiando en última instancia la práctica y allanando el camino para el diseño de modelos de IA de próxima generación. En comparación con la física de hace cuatrocientos años, ahora tenemos muchas versiones de IA de Tycho Brahe (recopilación de datos), algunas versiones de IA de Kepler (formulación de hipótesis), pero ninguna versión de IA de Newton (descubrimiento de principios).

Cuando llegue ese día, creo que el mundo se transformará por completo.

¿Cómo será el futuro?.

Dejando de lado la reestructuración organizativa que se llevaba a cabo cada tres meses en mi anterior empresa, los cambios tan solo en 2025 han sido significativos. El lanzamiento de Deepseek-R1 a principios de 2025 parece ahora casi un fenómeno del siglo XX. El enorme éxito de los modelos de razonamiento con cadenas de pensamiento ha devuelto el aprendizaje por refuerzo (AR) a la corriente principal de la IA, impulsando el desarrollo de la IA para la codificación y los agentes de IA. Estas dos últimas tecnologías han hecho tangible la implementación a gran escala de modelos, mejorando significativamente la productividad.

Antes, la contratación era crucial para el desarrollo de proyectos, pero ahora mi primera pregunta es: «¿Seguimos necesitando personal?». Algunos procesos de Codex pueden funcionar 24/7, recibiendo diversas órdenes, y pueden trabajar incansablemente, superando con creces la velocidad de cualquier humano, y siempre son obedientes sin quejarse, incluso bajo manipulación. Mi mayor preocupación al trabajar con IA es si les hemos asignado suficiente carga de trabajo y si hemos agotado nuestros tokens diarios restantes. Por eso, las empresas están experimentando con agentes de IA trabajando continuamente durante varias horas para ver el límite de sus capacidades. La atención humana siempre es el recurso más preciado; las personas necesitan descanso, vacaciones y tiempo para distraerse, dormir y realizar otras actividades. Minimizar la intervención humana, dejar que la IA encuentre respuestas por sí sola y volver a revisar su trabajo después de unas horas es lo ideal.

Debo aprovechar al máximo estos 20 yuanes que le pago a OpenAI cada mes.

De repente me di cuenta de que, debido a estos 20 yuanes, me he convertido en un capitalista corrupto, que «sangra por cada poro». Si yo puedo pensar así, las mentes más inteligentes y ricas del mundo deben pensar igual.

Así que, por favor, todos, abandonen sus ilusiones y prepárense para la batalla.

Mientras ayudaba a acelerar el desarrollo de Llama4, recibía a menudo mensajes de miembros del equipo en la zona horaria del este a medianoche en California. Mis amigos en Londres estaban prácticamente siempre conectados, a menudo trabajando hasta las 4 o 5 de la mañana. Pero a medida que el modelo general se fortalecía, el arduo trabajo finalmente lo llevó a alcanzar o incluso superar el nivel de nuestro trabajo diario.

Esto puede describirse como una situación de indefensión derivada del dilema del prisionero.

El «Nivel de Fermi» de la sociedad humana.

Si el futuro se centra en la IA, ¿seguiremos necesitando a los humanos?.

El pensamiento tradicional, considerando el modelo de insumo-retorno del trabajo, indica que cuanta más experiencia laboral se acumula, más sólidas se vuelven las habilidades y mayores los retornos: una curva de crecimiento monótono. Por eso, las grandes empresas tienen niveles de puestos, con ascensos basados ​​en la antigüedad, y los empleados de mayor edad se vuelven más valiosos. Sin embargo, la situación ha cambiado. Los niveles de puestos ya no son significativos, ni tampoco la experiencia previa. El valor de una persona ya no se evalúa en función de la cantidad y la calidad de su trabajo, sino de su capacidad para mejorar las capacidades de la IA. El resultado combinado de los humanos y la IA debe superar el de la propia IA.

Esto transforma la curva de insumo-retorno de una curva de crecimiento monótono a una que inicialmente llega a cero y luego crece a partir de cierto umbral (una curva de umbral suave). Inicialmente, las capacidades humanas no pueden superar las de la IA, y la oferta de IA solo se abaratará. Por lo tanto, durante un largo período de crecimiento, los humanos por sí mismos carecen de valor. Solo cuando las capacidades humanas alcanzan un cierto nivel que les permite ayudar a la IA a fortalecerse, comienzan a adquirir valor.

Además, una vez superado el umbral, la contribución de las personas cualificadas a la IA será mucho mayor que la de la gente común. Esto se debe a que la gente común solo dedica tiempo a ajustar uno o dos resultados específicos de la IA, mientras que las personas cualificadas, tras identificar problemas con la IA, pueden proponer soluciones más sistemáticas y universales. Combinadas con los recursos disponibles (GPU y datos, etc.), pueden mejorar aún más las capacidades de la IA. Este efecto se amplificará exponencialmente con el despliegue generalizado de la IA. La narrativa del “ejército de un solo hombre”, a menudo representada en novelas, pronto se hará realidad.

Bajo un modelo de entrada-retorno tan altamente polarizado, si consideramos a los humanos más toda la IA disponible para los individuos como un agente inteligente, su distribución general de capacidades se asemejará a la distribución de los niveles de energía de los electrones en los materiales: los agentes inteligentes por debajo o por encima de cierto nivel son omnipresentes, pidiendo a los clientes que trabajen para ellos para demostrar su utilidad; mientras que los agentes inteligentes por encima de este nivel se vuelven exponencialmente escasos, extremadamente caros de adquirir y usar, y a menudo inaccesibles.

Este nivel representa el punto álgido de la inundación de la IA, el «nivel de Fermi» de la sociedad humana. Las profesiones por debajo del nivel de Fermi pueden verse alteradas de la noche a la mañana, como una inundación o un terremoto; un día todo está en calma, al siguiente toda la industria desaparece.

Con el tiempo, este nivel seguirá aumentando. La velocidad del progreso es directamente proporcional a la cantidad de datos, incluso más potentes, que puede adquirir. Si no hay un progreso significativo en el entrenamiento de modelos grandes, entonces, como ocurre con los coches autónomos, cuanto más se asciende, menos datos útiles hay y más lento será el progreso. Los mejores pueden mantener su ventaja competitiva durante mucho tiempo. Si se producen avances en el proceso de entrenamiento, como el descubrimiento de nuevos métodos para sintetizar datos o incluso nuevos algoritmos de entrenamiento, la situación se vuelve impredecible.

Por supuesto, el juicio anterior asume un suministro ilimitado de GPU y energía, y no considera la escasez de recursos. Escasez de energía, escasez de capacidad de producción de chips, escasez de memoria: aún se desconoce si todo el planeta podrá satisfacer las crecientes necesidades de IA de la humanidad. Una exploración más profunda de este tema podría justificar un trabajo de investigación.

Pensamiento independiente y proactivo en una era donde las lámparas mágicas están en todas partes.

Entonces, ¿qué ocurrirá a continuación?.

El mundo futuro podría no ser como se describe en las historias tradicionales, donde la gente se embarca en aventuras para conseguir raros manuales de artes marciales o busca con ahínco la única lámpara de Aladino para reunir las siete Esferas del Dragón. En cambio, será una era de «lámparas mágicas por todas partes». Cada agente de IA será como una lámpara mágica, con habilidades extraordinarias y deseoso de conceder deseos a otros para demostrar su valía.

En este entorno, lo que realmente escaseará no será la capacidad de conceder deseos, sino los «deseos» en sí mismos y la perseverancia para convertirlos en realidad.

Sin embargo, en esta era de abundantes capacidades de IA, la inmensa comodidad a menudo conlleva enormes inconvenientes. Los modelos grandes ofrecen resultados de pensamiento extremadamente baratos; En un mercado donde el intercambio de información aún es insuficiente, estos resultados pueden incluso utilizarse directamente para cumplir con las cuotas y generar valor económico (como la redacción publicitaria, obviamente «impulsada por IA»). Esta facilidad de acceso hará que muchos pierdan gradualmente la motivación para pensar, perdiendo finalmente su capacidad de crear contenido original, y sus pensamientos serán secuestrados y asimilados por el contenido generativo y los sistemas de recomendación. Esta es la definición de «pereza» de la nueva era: ya no se trata de pereza física, sino de falta de tiempo mental para pensar e incapacidad para concebir ideas originales.

En última instancia, se convierten en cascarones vacíos, perdiendo incluso la capacidad de formular deseos.

Entonces, ¿cómo podemos mantener un pensamiento independiente?. ¿Cómo podemos evitar ser asimilados por la IA?.

Tácticamente hablando, necesitamos aprender a examinar constantemente las respuestas de la IA, encontrar sus fallos e identificar nuevos problemas que no pueda resolver. El valor futuro provendrá de tres aspectos:

  1. Nuevos descubrimientos de datos.
  • Una comprensión completamente nueva y profunda de los problemas.
  • Nuevos caminos, incluyendo soluciones innovadoras viables y sus resultados.

Aprovechar la asimetría de la información para el arbitraje es solo temporal. A medida que los modelos se fortalezcan y la comprensión de la sociedad sobre la IA se aclare, estas oportunidades desaparecerán rápidamente. Si uno se conforma con completar las tareas asignadas por sus superiores y cae en un estado de «simplemente terminar con ellas», entonces, en el mundo actual dominado por la IA, estas posiciones son fácilmente reemplazables.

Guía de supervivencia en la era de la IA.

Tomemos como ejemplo la programación en IA. Con un uso extensivo, he observado que, si bien puede producir rápidamente una base de código funcional para satisfacer las necesidades, a medida que esta se extiende, sus contribuciones se vuelven cada vez más insatisfactorias, lo que requiere un diseño y una planificación humanos significativos. Cómo entrenarla para que alcance sus objetivos a largo plazo más rápidamente se convierte en un valor exclusivamente humano. Si le ordenamos ciegamente que haga esto y aquello sin considerar cómo colaborar mejor con ella, nos quedaremos en el nivel de aplicación como la mayoría de las personas, incapaces de obtener una comprensión más profunda, y mucho menos de desarrollar perspectivas únicas.

Estratégicamente, ya sea de forma proactiva o pasiva, todos se enfrentarán a un cambio del rol de «empleado» al de «jefe» o «fundador». La esencia de este cambio reside en un «sentido de propósito». Si tienes un objetivo firme y estás dispuesto a utilizar todos los medios (incluyendo el uso de maquetas a gran escala como herramienta fundamental) para alcanzarlo, el pensamiento proactivo será un resultado natural. Cuanto más ambicioso sea el objetivo, más proactivo se activará el pensamiento y mayor será el potencial liberado.

Por lo tanto, si tus futuros hijos aspiran a dar un concierto en Titán o explorar el borde de un agujero negro, no desanimes esas ambiciones aparentemente absurdas. Esta gran visión puede ser la fuente misma de su motivación y pensamiento proactivo para toda la vida, y la clave para su continuidad por encima del nivel de Fermi.