SenseTime puede haber pasado desapercibido como uno de los «dragones de la IA» de China, pero su apuesta por la IA multimodal en el mundo real insinúa un regreso.
SenseTime, pionero chino en inteligencia artificial, apuesta a que sus raíces en la visión artificial le ayudarán a liderar la siguiente fase de la IA, a medida que la industria migra hacia sistemas multimodales e inteligencia incorporada en el mundo físico, según el cofundador y científico jefe Lin Dahua.
En una entrevista con el Post el miércoles, Lin afirmó que la dilatada experiencia de la compañía en IA basada en visión la posiciona sólidamente para convertirse en líder en inteligencia artificial, robótica y agentes de IA que operan en entornos reales, en un momento en el que crece el debate sobre los límites de los grandes modelos lingüísticos (LLM).
«Nuestro enfoque estratégico es similar al de Google en Estados Unidos, que se centra principalmente en la IA multimodal, incluyendo el último Nano Banana Pro. También parten de las capacidades de visión como núcleo y luego añaden capacidades lingüísticas para crear sistemas multimodales reales», afirmó Lin, quien también es profesor asociado de ingeniería de la información en la Universidad China de Hong Kong.
La compañía, que cotiza en la bolsa de Hong Kong y considerada durante mucho tiempo uno de los principales proveedores de reconocimiento facial del mundo, busca forjarse un nuevo rol en la era de la IA generativa que siguió al lanzamiento de ChatGPT hace tres años.
Ampliando su comparación con Google, que cuenta con amplias capacidades en toda la pila de IA, incluyendo sus propios chips TPU para entrenar modelos, Lin afirmó que la decisión de SenseTime, tomada ya en 2018, de construir centros de datos a gran escala había sentado una base sólida para sus ambiciones.
En agosto, la potencia de procesamiento total de la compañía se situaba en torno a los 25.000 petaflops, un 8,7% más que a principios de año, tras haber aumentado un 92% durante todo 2024.

