Las empresas están invirtiendo miles de millones en infraestructura de IA que, en gran medida, permanece sin utilizar, según un informe publicado el martes por Cast AI, una plataforma global de automatización para cargas de trabajo nativas de la nube y de IA.
Basándose en datos de 23.000 clústeres de Kubernetes, el informe reveló que la utilización promedio de las GPU en los servidores empresariales es de apenas un 5%. En otras palabras, el 95% de la capacidad de GPU aprovisionada no se está utilizando.
El informe señaló que un núcleo de CPU inactivo cuesta unos pocos centavos por hora, mientras que una GPU inactiva cuesta varios dólares. Por primera vez desde el lanzamiento de EC2 en 2006, los precios de las GPU están subiendo, en lugar de bajar. En enero de 2026, AWS aumentó un 15% los precios de los bloques de capacidad H200, citando razones de oferta y demanda. Este incremento rompe una tendencia de precios que se había mantenido durante dos décadas.
A estos precios, el instinto de acaparamiento tiene sentido, reconoció el informe. Los plazos de entrega son largos y liberar capacidad que no se podrá recuperar parece más arriesgado que pagar de más por ella. Sin embargo, con una utilización del 5%, los números no cuadran, y el acaparamiento alimenta el ciclo de escasez que impulsa los precios al alza.
«Esto nos resultó impactante, y también lo fue para nuestros clientes», comentó Laurent Gil, presidente de Cast AI. «Casi nadie se había percatado de que no estaban aprovechando esas máquinas de manera eficiente».
El temor a quedarse sin capacidad de cómputo.
«Sus ambiciones deben ser realmente grandes para justificar la compra excesiva de GPU», añadió Alvin Nguyen, analista sénior especializado en externalización de infraestructuras, servicios de centros de datos e investigación de semiconductores en Forrester Research, una multinacional de investigación de mercado con sede en Cambridge, Massachusetts.
«A menos que usted sea un hiperescalador, una empresa de «neocloud» o una startup de IA, es muy poco probable que cuente con los casos de uso necesarios para justificar la compra excesiva de GPU», explicó.
Dan Herbatschek, CEO y fundador de Ramsey Theory Group —un holding tecnológico y firma de innovación con sede en la ciudad de Nueva York—, explicó que las organizaciones están sobreponderando la capacidad de infraestructura porque anticipan casos de uso de IA que aún no se han puesto en marcha de forma operativa.
«Los altos directivos temen quedarse sin capacidad de cómputo en el momento en que los sistemas de IA con capacidad de agencia entren en funcionamiento», declaró. «Trabajamos con grandes empresas, y estas están comprando por adelantado, anticipándose a la demanda. Sin embargo, resulta realmente difícil justificar esa inversión en este momento, cuando la mayoría de las compañías carecen de casos de uso listos para su implementación en producción».
«La última vez que vi algo así fue con la computación en la nube», continuó. «En realidad, nos encontramos en una fase de «burbuja de capacidad» en el ámbito de la IA. Los líderes están perdiendo de vista que lo importante no es quién posee la mayor capacidad de cómputo, sino si realmente se es capaz de transformar esa capacidad en retorno de la inversión (ROI) y resultados empresariales concretos».
El miedo alimenta el exceso de capacidad de GPU.
Debo Ray, fundador de DevZero —una empresa de infraestructura en la nube y productividad para desarrolladores con sede en Seattle—, coincidió en que el miedo es la razón principal por la que las empresas invierten en infraestructura de IA que, posteriormente, permanece inactiva.
«Si sufren una interrupción del servicio (una caída) grave, los equipos tienden a sobredimensionar la asignación de recursos», comentó. «Si se les escapa una reserva de GPU, los líderes entran en pánico y compran capacidad de forma impulsiva. Las decisiones de aprovisionamiento se toman de manera reactiva, y nadie las revisa una vez superada la crisis».
«Hemos observado clústeres con 96 GPU asignadas que operan a un nivel de utilización del 23%, con 31 réplicas permaneciendo inactivas durante 22 horas al día», señaló. «A los equipos se les tacha de negligentes por esta situación; sin embargo, cuando no existe un ciclo de retroalimentación ni nadie que supervise esa brecha, el sobredimensionamiento se convierte en la decisión más racional. El instinto de acaparamiento es una respuesta directa a la ansiedad generada por la escasez, y dicha ansiedad tiene, en parte, una base real».
«Cuando resulta verdaderamente difícil recuperar la capacidad una vez liberada, tiene sentido aferrarse a ella», prosiguió. «El problema estructural subyacente radica en que el equipo encargado de formular las solicitudes de recursos no es el mismo que paga la factura de la nube; por consiguiente, esos márgenes de seguridad (ese «colchón» de recursos) nunca se revisan, el autoescalador del clúster responde a las solicitudes infladas como si se tratara de una demanda real, y el desperdicio de recursos se acumula silenciosamente».
Las GPU inactivas conllevan repercusiones significativas para las empresas. Por un lado, está el coste económico. «Las organizaciones están pagando precios de primera clase por un nivel de utilización propio de la clase económica», explicó Ray.
Asimismo, existe un problema relacionado con aquello que deja de construirse o desarrollarse. «La capacidad de infraestructura de IA que existe, pero permanece inactiva, no constituye únicamente un desperdicio de recursos; representa, además, un coste de oportunidad», afirmó Ray. «Los equipos nos comentan que están a la espera de obtener acceso a las GPU para poder ejecutar sus experimentos. Sin embargo, esa capacidad ya existe dentro de sus propios clústeres; simplemente, ellos lo desconocen».
«Existe también una paradoja en torno a la fiabilidad que la mayoría de la gente pasa por alto», añadió. «La premisa es que el sobreaprovisionamiento garantiza la seguridad. A menudo, ocurre todo lo contrario».
Impacto en el capital.
Gerald Ramdeen, fundador, CEO y CTO de Luxcore —una empresa de semiconductores y redes ópticas con sede en la ciudad de Nueva York—, señaló que uno de los mayores impactos de las GPU inactivas es la deficiente eficiencia del capital y la reducción de los retornos sobre la inversión en infraestructura.
«Estos sistemas se deprecian rápidamente, mientras que los costos de energía, refrigeración y del centro de datos persisten, independientemente de si las GPU son productivas o no», comentó. «Además, inmoviliza un capital que podría haberse destinado a productos, datos o talento».
«En un sentido más amplio —continuó—, esto distorsiona el mercado al hacer que la demanda parezca superior a la utilización real, lo cual puede propiciar una mayor sobreconstrucción e incluso un aumento de las compras defensivas».
El acaparamiento de capacidad de cómputo también puede repercutir en el panorama general de la IA. «Concentra la ventaja en manos de los actores más grandes y dificulta el acceso a las startups, los investigadores y las empresas más pequeñas», afirmó Ramdeen. «Eso puede elevar los precios, ralentizar la experimentación y reducir la innovación en todo el ecosistema».
«También crea un mercado en el que el éxito depende demasiado de reservar el suministro y demasiado poco de utilizarlo de manera eficiente», añadió. «Esa no es una estructura saludable a largo plazo para la industria».
Se necesita una mejor gestión.
Ramdeen argumentó que cierto acaparamiento es racional, más que malintencionado. «Es una respuesta predecible ante la incertidumbre del suministro», señaló. «Pero, a largo plazo, los ganadores en el ámbito de la infraestructura de IA no serán las empresas que simplemente acumulen la mayor cantidad de GPU. Los ganadores serán aquellas que transformen el hardware en capacidad de cómputo de alta disponibilidad y gran utilización, mediante una mejor orquestación, mejores redes y una mejor economía».
Lakshya Jain, director de tecnología en Annaly Capital Management —una firma de inversión centrada en hipotecas con sede en la ciudad de Nueva York—, sostuvo que la subutilización no es un problema de la tecnología en sí.
«Es un problema de la forma en que están organizadas las empresas», comentó. «Las empresas aún están aprendiendo a utilizar la IA. Hasta que logren mejorar en la gestión de sus proyectos de IA, ser responsables con sus costos y asegurarse de que todos estén alineados, seguirán comprando más capacidad de cómputo de la que necesitan».
«La ironía del acaparamiento de capacidad de cómputo para IA es que socava precisamente los resultados que se supone que estas inversiones deberían impulsar», añadió Siddardha Vangala, cofundador y asesor técnico en Tiered World Studios, una empresa de videojuegos y tecnologías inmersivas con sede en Salt Lake City.
«Las empresas están realizando apuestas a nivel de junta directiva en la transformación mediante IA, mientras que sus equipos de infraestructura operan sin objetivos de utilización, sin marcos de rendición de cuentas sobre los costos y sin circuitos de retroalimentación que vinculen el gasto con la producción efectiva», explicó.
«Los datos de Cast AI no resultan sorprendentes para nadie que se dedique a construir sistemas de IA reales», afirmó. «Simplemente, es algo que ahora se está haciendo visible a nivel de toda la industria».

