Tensordyne, una startup de infraestructura de IA, ha completado el diseño final (*tape-out*) de su primer acelerador comercial, cuya fabricación mediante el proceso de 3 nm de TSMC ya está en marcha.
Desarrollados en colaboración con Juniper Networks y Broadcom, los sistemas de Tensordyne prometen un mayor rendimiento y un menor consumo de energía que las GPU. La empresa afirma lograr esto mediante un enfoque matemático poco convencional que utiliza logaritmos —aquellos que quizás recuerdes de la aritmética escolar— para reducir la carga computacional de las operaciones de multiplicación de matrices, fundamentales en las cargas de trabajo intensivas de IA.
En la computación convencional, la suma es una operación económica (de bajo coste computacional) y la multiplicación es costosa. Los logaritmos invierten esta situación: al utilizarlos, la multiplicación se convierte esencialmente en un problema de suma; es decir, $a \times b$ pasa a ser $\log(a) + \log(b)$.
El desafío reside en convertir los valores a logaritmos y viceversa de manera eficiente. Existen varias formas de abordar esto. Una de las opciones más sencillas habría sido utilizar una tabla de búsqueda (LUT, por sus siglas en inglés); sin embargo, Gilles Backhus, cofundador de Tensordyne, explica a *El Reg* que depender de tablas de búsqueda habría requerido un tamaño excesivo para resultar práctico.
En su lugar, la empresa emplea un método heurístico —concretamente la aproximación de Mitchell— para estimar el logaritmo y el antilogaritmo de cada valor. Dado que se trata de una aproximación, por sí sola introduce un margen de error demasiado elevado para ser viable. Para solucionar esto, Backhus señala que Tensordyne ha implementado un mecanismo de corrección por segmentos a nivel de hardware, logrando una precisión equivalente a la del formato FP16. No obstante, cabe destacar que el chip «Napier» también será compatible con los formatos de datos FP8 y de punto flotante por bloques de 4 bits.
En la práctica, Tensordyne asegura haber creado un chip en el que la unidad de multiplicación-acumulación (MAC) opera sin realizar multiplicaciones en el sentido convencional. El resultado es un chip que ofrece una eficiencia energética significativamente superior a la de las GPU modernas. O, al menos, eso es lo que afirma la compañía.
Análisis a fondo: sistemas a escala de rack.
Consulta aquí nuestro análisis detallado sobre sistemas a escala de rack para conocer mejor cómo empresas como Nvidia, AMD y otras aprovechan las redes de alta velocidad para lograr que múltiples aceleradores pequeños funcionen como una única unidad de gran potencia.
Tensordyne afirma que sus sistemas a escala de rack generarán hasta 17 veces más *tokens* por vatio y alcanzarán un rendimiento 13 veces mayor que los sistemas Blackwell de Nvidia.
Analizando Napier.
Napier, el primer chip comercial de Tensordyne, cuenta con muchas de las especificaciones que se habrían visto en una GPU de gama alta hace apenas un par de años.
El acelerador presenta un TDP nominal de 300 vatios, 144 GB de memoria HBM3e distribuidos en cuatro pilas, un ancho de banda de memoria de 4,7 TB/s y un rendimiento de hasta 2,1 petaFLOPS en operaciones densas FP8. Esto lo hace aproximadamente comparable a los aceleradores H200 de Nvidia anunciados en 2023, pero consumiendo casi un 60% menos de energía.
Dicho esto, los FLOPS máximos reales suelen quedar muy por debajo de los FLOPS teóricos (pico), por lo que conviene tomar esa comparación con cautela. No sabremos cómo se compara realmente Napier con las GPU de última generación de Nvidia o AMD hasta que llegue al mercado el próximo año.
Backhus nos comenta que Tensordyne apuesta fuertemente por la escalabilidad de sus aceleradores más que por el rendimiento individual. Cada chip ofrece aproximadamente un terabyte de ancho de banda de interconexión, lo que permite despliegues a escala de rack de hasta 72 aceleradores por *pod* (unidad de cómputo).
El TDN72.
El sistema de Tensordyne, denominado TDN72, consta de ocho *blades* (módulos) de cómputo refrigerados por aire; cada uno incluye una CPU anfitriona Intel Xeon-D de 10 núcleos y nueve aceleradores Napier.
Estos chips están interconectados mediante una topología de red de alta velocidad que recuerda a la utilizada en los sistemas de rack GB200 NVL72 de Nvidia.
Cada chip se conecta a seis módulos de conmutación (*switch blades*) propietarios —desarrollados por Juniper, socio de redes de Tensordyne y situados en la parte posterior del sistema— mediante una arquitectura de red de interconexión total (*all-to-all*).

A pesar de ciertas similitudes con los racks NVL72 de Nvidia, el TDN72 de Tensordyne será mucho más compacto y no requerirá refrigeración líquida, lo que debería facilitar su implementación en centros de datos existentes (infraestructuras heredadas).
Según Backhus, es posible alojar hasta cuatro sistemas TDN72 de 30 kW en un rack de 52U (de gran tamaño, cabe reconocer). Esto se traduce en 608 petaFLOPS en una huella energética de 120 kW, o una densidad de computación FP8 por rack aproximadamente 1,68 veces mayor que la del sistema GB200 NVL72 de Nvidia. Esta cifra no tiene en cuenta que el equipo de Nvidia admite aceleración NVFP4, mientras que Napier se limita a pesos FP4. No obstante, conviene no sobrevalorar dicha comparación: los FLOPS máximos no reflejan necesariamente el rendimiento en condiciones reales.
El lanzamiento del TDN72 de Tensordyne está previsto para el próximo año; competirá con los sistemas de próxima generación Vera Rubin y Vera Rubin Ultra de Nvidia, lo que sin duda supondrá un desafío mayor, especialmente al considerar la compatibilidad de software.
Promesas en el ámbito del software.
Desde la creación de su primer prototipo de silicio hace unos años, la empresa se ha esforzado al máximo para que su plataforma de software sea lo más sencilla y fácil de implementar posible para los clientes.
Por ejemplo, el prototipo carecía de la función de corrección de errores presente en los chips Napier actuales y obligaba a los usuarios a recurrir al entrenamiento consciente de la cuantización (*quantization-aware training*) para adaptar sus modelos al hardware; un enfoque poco viable para quienes buscan ejecutar modelos de billones de parámetros.
El software también ha evolucionado hasta permitir que el compilador del hardware convierta modelos existentes para su ejecución directa en los equipos más recientes de la compañía, una estrategia similar a la adoptada por otras *startups* de chips, como Tenstorrent.
Para la fase de inferencia, Tensordyne ha desarrollado su propia plataforma de servicio (*serving platform*) y un entorno de ejecución que, según Backhus, permitirá a los clientes utilizar sus servidores de inferencia preferidos, como vLLM. Actualmente se está trabajando en la compatibilidad con PyTorch.
Incluso antes de que el chip llegue al mercado, la empresa ya ha realizado afirmaciones audaces sobre su rendimiento. Backhus prevé que los chips alcancen una velocidad superior a los 1.000 tokens por segundo, y ello sin recurrir a la predicción de múltiples tokens ni a otras formas de decodificación especulativa para acelerar la generación de tokens.
La plataforma de Tensordyne ha despertado el interés de proveedores de «neocloud» como Cirrascale y BlueSky Compute; ambas empresas han manifestado su intención de implementar el hardware de la compañía una vez que esté disponible.
Sin embargo, como hemos visto en el caso de AMD y otros fabricantes, el software puede determinar el éxito o el fracaso de una empresa de chips. Dado que el lanzamiento de Napier está previsto para el segundo o tercer trimestre de 2027, Tensordyne dispone de poco tiempo para lograr que todo funcione correctamente.

