Poco después de que el CEO de Amazon, Andy Jassy, anunciara el innovador acuerdo de inversión de 50 mil millones de dólares de AWS con OpenAI, Amazon me invitó a una visita privada al laboratorio de desarrollo de chips, clave para este acuerdo.

Los expertos del sector siguen de cerca el chip Trainium de Amazon, creado en esas instalaciones, por sus implicaciones para la inferencia de IA a menor coste y, potencialmente, para el casi monopolio de Nvidia.

Intrigado, acepté la visita.

Mis guías fueron el director del laboratorio, Kristopher King (en la foto de abajo a la derecha), y el director de ingeniería, Mark Carroll (abajo a la izquierda), así como el responsable de relaciones públicas del equipo, Doron Aronson.

AWS ha sido la principal plataforma en la nube de Anthropic desde los inicios del laboratorio de IA, una relación lo suficientemente importante como para sobrevivir a la posterior incorporación de Microsoft como socio en la nube por parte de Anthropic, y a la creciente colaboración de Amazon con OpenAI.

El acuerdo con OpenAI convierte a AWS en el proveedor exclusivo de Frontier, el nuevo generador de agentes de IA del fabricante de modelos, que podría convertirse en una parte importante del negocio de OpenAI si los agentes alcanzan la magnitud que Silicon Valley prevé. Veremos si esta exclusividad se mantiene tal como se anunció. El Financial Times informó esta semana que Microsoft podría considerar que el acuerdo de OpenAI con Amazon infringe su propio acuerdo con OpenAI, concretamente el acceso de Microsoft a todos los modelos y la tecnología de OpenAI.

¿Qué hace que AWS sea tan atractivo para OpenAI? Como parte de este acuerdo, el gigante de la nube se ha comprometido a proporcionar a OpenAI 2 gigavatios de capacidad de computación de Trainium. Se trata de un compromiso enorme, dado que Anthropic y el propio servicio Bedrock de Amazon ya consumen chips Trainium a un ritmo mayor del que Amazon puede producirlos.

Hay 1,4 millones de chips Trainium desplegados en las tres generaciones, y Claude de Anthropic funciona con más de 1 millón de chips Trainium2 desplegados, según informó la compañía.

Cabe destacar que, si bien Trainium se diseñó originalmente para un entrenamiento de modelos más rápido y económico (una prioridad mayor hace un par de años), ahora también se utiliza para la inferencia. La inferencia —el proceso de ejecutar un modelo de IA para generar respuestas— es actualmente el principal cuello de botella de rendimiento en el sector.

Un ejemplo: Trainium2 gestiona la mayor parte del tráfico de inferencia en el servicio Bedrock de Amazon, que permite a los numerosos clientes empresariales de Amazon desarrollar aplicaciones de IA y utilizar múltiples modelos.

«Nuestra base de clientes se expande tan rápido como podemos aumentar la capacidad disponible», afirmó King. “Bedrock podría llegar a ser tan grande como EC2 algún día”, añadió, refiriéndose al gigantesco servicio de computación en la nube de AWS.

Trainium vs. Nvidia.

Además de ofrecer una alternativa a las GPU de Nvidia, que tienen retrasos en la entrega y son difíciles de conseguir, Amazon afirma que sus nuevos chips, que se ejecutan en sus nuevos UltraServers especializados Trn3, cuestan hasta un 50% menos para un rendimiento comparable al de los servidores en la nube clásicos.

Junto con Trainium3, lanzado en diciembre, este equipo de AWS también desarrolló nuevos conmutadores Neuron, y Carroll afirma que esta combinación es transformadora.

“Esto nos aporta algo enorme”, dijo Carroll. Los conmutadores permiten que cada chip Trainium3 se comunique con todos los demás chips en una configuración de malla, reduciendo la latencia. “Por eso Trainium3 está batiendo todo tipo de récords”, especialmente en “precio por potencia”, afirmó.

Cuando se manejan billones de tokens al día, estas mejoras son significativas. De hecho, el equipo de chips de Amazon fue elogiado por Apple en 2024. En un inusual momento de transparencia para la hermética compañía, el director de IA de Apple describió públicamente cómo utilizaban otro de los chips del equipo: Graviton, una CPU de servidor de bajo consumo basada en ARM y el primer chip innovador diseñado por este equipo. Apple también elogió Inferentia, un chip diseñado específicamente para inferencia, y reconoció la labor de Trainium, que por aquel entonces era una novedad.

Estos chips representan la estrategia clásica de Amazon: observar qué quiere comprar la gente y luego desarrollar una alternativa propia que compita en precio.

Históricamente, el problema con los chips ha sido el coste de la migración. Las aplicaciones escritas para los chips de Nvidia deben rediseñarse para que funcionen con otros, un proceso laborioso que desincentiva a los desarrolladores a cambiar de plataforma.

Sin embargo, el equipo de chips de AWS me comentó con orgullo que Trainium ahora es compatible con PyTorch, un popular framework de código abierto para la creación de modelos de IA. Esto incluye muchos de los modelos alojados en Hugging Face, una extensa biblioteca donde los desarrolladores comparten modelos de código abierto.

Según me comentó Carroll, la transición requiere “básicamente un cambio de una sola línea, recompilar y luego ejecutar en Trainium”. En otras palabras, Amazon está intentando reducir el dominio de mercado de Nvidia siempre que sea posible.

AWS también anunció este mes una alianza con Cerebras Systems, integrando el chip de inferencia de esta última en servidores que ejecutan Trainium para ofrecer, según promete Amazon, un rendimiento de IA ultrarrápido y de baja latencia.

Pero las ambiciones de Amazon van más allá de los chips en sí. También diseña el servidor que los aloja. Además de los componentes de red, este equipo ha diseñado «Nitro», una combinación de hardware y software que proporciona tecnología de virtualización (que permite ejecutar múltiples instancias de software de forma independiente en el mismo servidor); una nueva tecnología de refrigeración líquida de última generación; y las plataformas para servidores (que se muestran a continuación) que albergan este equipo.

Todo esto con el objetivo de controlar los costos y el rendimiento.

Visita al laboratorio de chips de AWS en Austin: Plataforma de componentes.

Trabajando sin descanso en la puesta en marcha.

La unidad de diseño de chips personalizados de Amazon nació cuando el gigante de la nube adquirió la empresa israelí de diseño de chips Annapurna Labs en enero de 2015 por aproximadamente 350 millones de dólares. Así, este equipo lleva más de 10 años diseñando chips para AWS. La unidad ha conservado sus raíces y su nombre, Annapurna; su logotipo está presente en todas partes de la oficina.

Este laboratorio de chips se encuentra en un edificio reluciente con ventanas cromadas en el exclusivo distrito «The Domain» de Austin, una zona peatonal repleta de tiendas y restaurantes, a veces conocida como el Silicon Valley de Austin.

Las oficinas tienen el ambiente clásico de una empresa tecnológica: escritorios en cubículos, espacios comunes y salas de conferencias. Pero escondido al fondo de una planta alta del edificio se encuentra el laboratorio propiamente dicho, con impresionantes vistas de la ciudad.

El laboratorio, repleto de estanterías y del tamaño aproximado de dos grandes salas de conferencias, es un espacio industrial ruidoso debido a los ventiladores de los equipos. Parece una mezcla entre un taller de instituto y un plató de Hollywood para un laboratorio de alta gama, solo que los ingenieros visten vaqueros en lugar de batas blancas.

Cabe destacar que aquí no se fabrican los chips, por lo que no se necesitaron trajes de protección. El Trainium3 es un chip de última generación de 3 nanómetros, producido por TSMC, posiblemente líder en la fabricación de chips de 3 nanómetros, junto con otros chips producidos por Marvell.

Pero esta es la sala donde se produce la magia del proceso de puesta en marcha.

“La puesta en marcha del silicio es cuando recibes el chip por primera vez, y es como una gran fiesta nocturna. Te quedas aquí, como en una concentración total”, explica King. Después de 18 meses de trabajo, el chip se activa por primera vez para verificar que funciona según lo previsto. El equipo incluso grabó parte de la puesta en marcha de Trainium3 y la publicó en YouTube.

Alerta de spoiler: Nunca está exento de problemas.

Para Trainium3, el prototipo del chip se refrigeraba por aire, como las versiones anteriores. El chip actual ahora se refrigera por líquido, lo que ofrece ventajas energéticas y fue toda una proeza de ingeniería.

Durante la puesta en marcha, las dimensiones de cómo el chip se conectaba al disipador de calor de refrigeración por aire no eran las correctas, por lo que el chip no se pudo activar.

Sin inmutarse, el equipo “inmediatamente consiguió una amoladora y empezó a lijar el metal”, dijo King. Como no querían que el ruido interrumpiera el ambiente festivo de la puesta en marcha, se escabulleron y lijaron en una sala de conferencias.

Pasar la noche en vela resolviendo problemas “es la esencia del desarrollo de chips”, afirmó King.

El laboratorio incluso cuenta con una estación de soldadura, donde el ingeniero de laboratorio de hardware y maestro soldador Isaac Guevara demostró cómo soldar diminutos componentes de circuitos integrados a través de un microscopio. Este trabajo es tan increíblemente difícil que el líder sénior Carroll admitió abiertamente que no podría hacerlo, provocando las risas de Guevara y el resto de los ingenieros presentes.

Visita al laboratorio de chips de AWS en Austin, estación de soldadura.

El laboratorio también dispone de herramientas, tanto personalizadas como comerciales, para probar y analizar problemas con los chips. Aquí vemos al ingeniero de señales Arvind Srinivasan demostrando cómo el laboratorio prueba cada pequeño componente del chip:

Visita al laboratorio de chips de AWS en Austin, equipo de pruebas.

Las plataformas son la joya del laboratorio.

Pero la verdadera estrella es una fila entera que exhibe cada generación de las plataformas diseñadas por el equipo.

Tour del laboratorio de chips de AWS en Austin: Muro de plataformas.

Las plataformas son las bandejas que albergan los chips de IA Trainium, los chips de CPU Graviton y las placas y componentes de soporte. Apiladas en un rack junto con el componente de red, también diseñado a medida por este equipo, se obtienen los sistemas que son la base del éxito de Anthropic Claude.

Esta es la plataforma que se mostró durante la conferencia AWS re:invent en diciembre:

Tour del laboratorio de chips de AWS en Austin: Plataforma Trainium3.

Probado por Anthropic y OpenAI.

Esperaba que mis guías presumieran del acuerdo con OpenAI durante el recorrido. Pero no lo hicieron.

La reticencia podría estar relacionada con la posible incertidumbre legal que podría rodear el acuerdo. Sin embargo, me dio la impresión de que estos ingenieros de campo (que actualmente diseñan la próxima versión, Trainium4) aún no han tenido mucha oportunidad de trabajar con OpenAI. Su trabajo diario se ha centrado hasta ahora en las necesidades de Anthropic y Amazon.

Actualmente, la mayor parte de los chips de Trainium2 está desplegada en el Proyecto Rainier, uno de los clústeres de computación de IA más grandes del mundo, que entró en funcionamiento a finales de 2025 con 500.000 chips. Anthropic lo utiliza.

Pero en la oficina principal había un monitor que mostraba una cita sobre cómo OpenAI utilizará Trainium. El orgullo era evidente, aunque sutil.

Además de este laboratorio, el equipo también cuenta con su propio centro de datos privado para pruebas y control de calidad. Ubicado a poca distancia, no ejecuta cargas de trabajo de clientes, por lo que se encuentra en un centro de datos compartido, no en un centro de datos de AWS. La seguridad es estricta: existen protocolos rigurosos para entrar al edificio y acceder al área de Amazon.

El sistema de refrigeración del centro de datos es tan ruidoso que es obligatorio usar tapones para los oídos, y el aire está impregnado del olor acre a metal caliente. No es un lugar agradable para la mayoría de la gente.

*Doron Aronson (derecha) en el centro de datos AWS AUSTIN CHIP LAB, protegiéndose los oídos junto a servidores en funcionamiento.*

En este centro de datos, hay filas y filas de servidores con soportes que integran los chips personalizados más recientes de Amazon: la CPU Graviton, el Trainium3 con refrigeración líquida y el Amazon Nitro, todos funcionando sin problemas. El líquido funciona en un sistema cerrado, lo que significa que se reutiliza, lo que también debería ayudar a reducir el impacto ambiental, según los ingenieros.

Así luce un UltraServer Trn3 actual: varios soportes se encuentran en la parte superior e inferior, con los conmutadores Neuron en el centro. Aquí vemos al ingeniero de desarrollo de hardware David Martinez-Darrow realizando tareas de mantenimiento en un soporte:

*Visita al centro de datos del laboratorio de chips de AWS en Austin.*

Si bien el equipo siempre ha estado en el punto de mira, el escrutinio se ha intensificado considerablemente últimamente.

El CEO de Amazon, Andy Jassy, supervisa de cerca este laboratorio y presume públicamente de sus productos como un padre orgulloso. En diciembre, afirmó que Trainium ya era un negocio multimillonario para AWS y lo calificó como una de las tecnologías de AWS que más le entusiasman. También mencionó el chip al anunciar el acuerdo con OpenAI.

El equipo también siente la presión. Los ingenieros trabajarán sin descanso durante tres o cuatro semanas en torno a cada evento de puesta en marcha para solucionar cualquier problema y así poder producir en masa los chips e instalarlos en los centros de datos.

«Es fundamental que demostremos cuanto antes que va a funcionar», dijo Carroll. «Hasta ahora, nos ha ido muy bien».

Trainium vs. Nvidia.

Trabajando sin descanso en la puesta en marcha.

Las plataformas son la joya del laboratorio.

Probado por Anthropic y OpenAI.

También podría gustarte

La única galardonada china de este año: ¿Cómo destacó esta profesora de la Universidad de Zhejiang?

La aplicación revolucionaria de la IA podría ser un navegador

La apuesta arriesgada de Apple por Gemini podría terminar en una división complicada