Practicar artes marciales, correr maratones… el ritmo actual de la evolución de los robots humanoides es asombroso. Es inevitable preguntarse: ¿dónde está progresando exactamente la tecnología de los robots humanoides?. ¿Cuándo podrán entrar en nuestros hogares y ayudarnos realmente con las tareas domésticas?. Un reciente folleto de salida a bolsa de Unitree Robotics refleja el estado actual de la industria: la hoja de ruta tecnológica aún no se ha completado; fuera de escenarios específicos, el mercado de consumo de robots de uso general aún no ha generado una demanda sólida. Entonces, ¿por qué existen tantos desafíos en lo que respecta a su aplicación en el mundo real?.
¿Cómo aprenden los robots diversas habilidades?. En las escuelas de entrenamiento robótico, se recopilan datos de diversas tareas, creando esencialmente un manual para los robots, enseñándoles comportamiento y toma de decisiones.
Usando un dispositivo de aprendizaje de imitación robótica y controlando la pinza idéntica del robot, podemos realizar una demostración completa de cómo comer estofado. Los movimientos parecen sencillos, pero la posición, el ángulo, la fuerza e incluso la curvatura al agacharse y arrodillarse deben controlarse con precisión. Un recolector de datos bien entrenado completó con éxito una serie de acciones de recolección de datos relacionadas con comer olla caliente. Se grabaron repetidamente videos que simulaban el proceso de cocción de la olla caliente, acumulando un total de ocho horas de datos válidos. Los ingenieros introdujeron estos datos reales recopilados en el modelo a gran escala del robot, y este adquirió inicialmente la capacidad de ejecutar comportamientos. Mediante este entrenamiento preciso con datos, el robot rápidamente se volvió competente.

Después de una semana de entrenamiento con datos, el robot comenzó a demostrar sus habilidades para cocinar olla caliente. No logró agarrar la comida en los dos primeros intentos, pero finalmente lo consiguió en el tercero.
A lo largo del proceso, se puede observar que el robot continuamente probaba, ajustaba sus estrategias y las optimizaba durante la operación. Esto es lo que la industria denomina «VLA», un modelo de inteligencia incorporada multimodal. Utiliza la observación visual y los comandos en lenguaje natural como entrada, integra información perceptiva y genera directamente acciones para controlar el robot. En términos sencillos, se trata del «modelo cerebral» del robot. Sin embargo, el fallo y la imperfección son la norma en el camino hacia la integración de los robots en el mundo real.
Los robots se enfrentan a una «escasez de datos» en su transición al mundo real.
En el campo de la inteligencia artificial, existe un principio que se ha verificado repetidamente mediante la conducción autónoma y los modelos a gran escala: la Ley de Escala. Esta ley establece que, a medida que la escala, la capacidad de procesamiento y el volumen de datos de un modelo aumentan continuamente, las capacidades del sistema suelen mejorar en consecuencia. Por lo tanto, la industria generalmente cree que, para la tecnología de inteligencia incorporada, que aún se encuentra en su fase inicial, el recurso más escaso son los datos operativos del mundo real. ¿Cómo pueden los robots superar la «ley de escala» de los datos para realizar tareas en el mundo real?.
Durante la investigación, el reportero descubrió que los profesionales del sector mencionaban repetidamente la cifra de «millones de horas». Se cree generalmente que un «momento ChatGPT» en la industria de la inteligencia incorporada requiere al menos millones de horas de acumulación de datos. Sin embargo, la realidad es que incluso los líderes del sector carecen actualmente de los datos verdaderamente valiosos que poseen, una cantidad que aún está muy por debajo de lo necesario.
Visitamos un equipo de I+D de aprendizaje de datos robóticos en el distrito de Nanshan, Shenzhen, donde utilizaban datos de vídeo para entrenar robots.

La capacidad de convertir con precisión los datos de vídeo en datos de entrenamiento robótico se basa en un algoritmo inteligente. Esta tecnología permite prescindir de los trajes tradicionales de captura de movimiento y mapear los movimientos humanos en robots o brazos robóticos utilizando un solo vídeo. Transforma los algoritmos de vídeo 2D en conjuntos de datos que abarcan más de una docena de modalidades, incluyendo trayectorias de brazos robóticos y efectores finales, trayectorias de objetos y modelos geométricos de objetos, para el entrenamiento robótico. El equipo también ha desarrollado una cámara montada en la cabeza que puede grabar datos de entrenamiento para robots mientras las personas trabajan.

Zhuo Yu, fundador de Shutu Technology: «Ya hemos recopilado más de 10.000 horas de vídeo y podemos procesar millones de puntos de datos. Nuestros escenarios son muy diversos, lo que permite que los vídeos de personas trabajando —que podrían parecer irrelevantes— se conviertan en datos valiosos que brindan apoyo cognitivo para el entrenamiento de robots».

Para hacer el mundo más tangible y comprensible, las tecnologías de adquisición de datos en toda la industria están evolucionando rápidamente. Por ejemplo, este dispositivo con forma de garra que tengo al lado se llama UMI. Es un dispositivo portátil de adquisición de datos que permite trasladar fácilmente la adquisición de datos del laboratorio al mundo físico real.
En resumen, UMI es una solución de adquisición de datos que consta de una pinza manual y una cámara. Con ella, ya no es necesario controlar los robots manualmente; en cambio, se les puede ayudar a aprender diversas acciones en entornos reales.

Lu Cewu, vicedecano de la Facultad de Inteligencia Artificial de la Universidad Jiao Tong de Shanghái y fundador de Qiongche Intelligence: Cualquier forma de inteligencia artificial, especialmente la IA general, depende de la recopilación de datos por parte de la población, no solo de unos pocos. Por ejemplo, los modelos multimodales a gran escala se basan en datos generados por el público en línea. En el caso de los coches autónomos, los conductores ayudan a registrar datos. La clave fundamental de depender del público para la recopilación de datos es que no debe alterar la vida cotidiana; solo así se puede escalar.
El mundo real en el que vivimos está en constante cambio, con entornos y tareas que varían enormemente. Actualmente, la acumulación de datos de inteligencia incorporada solo existe desde hace dos o tres años, lo cual no es suficiente para generar un verdadero cambio cualitativo en el sector. Nuestra investigación muestra que el sector está acelerando la construcción de una pirámide de datos robóticos. A medida que las dimensiones de los datos se expanden, los métodos de recopilación evolucionan, los costes disminuyen gradualmente e incluso se avanza hacia la recopilación masiva, los robots se preparan poco a poco para su momento de «ChatGPT».
Los robots acumulan experiencia en escenarios específicos.
La falta de datos representa una limitación importante para la aplicación de robots en escenarios generales. Por ello, la mayoría de los equipos de robótica se centran actualmente en perfeccionar sus habilidades en un campo específico para convertirse en expertos. En algunos casos reales, podemos observar robots aprendiendo sobre la marcha y ya en uso. ¿En qué escenarios se han implementado?. ¿Y cómo aprenden y trabajan simultáneamente?.
En Shenzhen, los robots han comenzado recientemente a trabajar junto a empleadas domésticas, prestando servicios de limpieza en hogares. Sus principales tareas de entrenamiento se desarrollan en el salón y el comedor, ayudando a las empleadas con la limpieza y la recogida de basura.
Hu Bowen, ingeniero de Independent Variable Robotics Technology (Shenzhen) Co., Ltd., explica: «Por ejemplo, recoge botellas, tarros y papel arrugado, depositándolos en la papelera. A medida que el robot realiza tareas en el hogar, se entrena a través de ellas. Con la práctica, su modelo se optimiza y su algoritmo se vuelve más potente, lo que le permite realizar las tareas cada vez mejor».
Por otro lado, los robots clasificadores de supermercados necesitan familiarizarse con la ubicación de los artículos, ingresar información sobre los productos y entrenar continuamente sus habilidades de agarre.

Pan Guoping, Jefe de Algoritmos en Zero Power Robotics: Primero contamos con un modelo preentrenado. Este modelo, al usarse para recopilar datos sobre ciertos productos, podría requerir solo media hora para obtener alrededor de veinte puntos de datos.
Pregunta: Se suele decir que la inteligencia incorporada aún está a entre 5 y 10 años de una adopción generalizada. ¿Cuál es su opinión al respecto?.

Yang Wei, Gerente de Marca en Zero Power Robotics: Visualizamos una inteligencia general, donde los robots posean capacidades multidimensionales similares a las de los humanos. Esto podría llevar entre 5 y 10 años. Sin embargo, para el desarrollo acelerado, especialmente en aplicaciones comerciales donde se logran avances significativos y se puede alcanzar un ciclo cerrado para la comercialización, predecimos que veremos algunos casos de aplicación muy innovadores en los próximos 1 o 2 años.
Diversos enfoques tecnológicos, estándares industriales unificados para la inteligencia incorporada.
Durante la investigación, descubrimos que, si bien la industria de la inteligencia incorporada se desarrolla rápidamente, aún requiere una acumulación tecnológica continua. Desde la perspectiva de I+D, los enfoques tecnológicos aún no están unificados; desde la perspectiva de la aplicación, los escenarios de aplicación esenciales todavía se están explorando. Entonces, ¿cómo perciben los expertos la etapa actual de desarrollo de la inteligencia incorporada?. ¿Cómo pueden los robots inteligentes incorporados acumular mejor experiencia y lograr un desarrollo estable y a largo plazo?.
Visitamos la Academia de Inteligencia Artificial de Beijing (BAAI), donde se exhibían más de diez dispositivos diferentes de adquisición de datos robóticos desarrollados por diversos equipos. ¿Por qué se reunieron todos allí?.
Wang Zhongyuan, director de BAAI, explicó: «Los formatos de conjuntos de datos para la inteligencia incorporada son inconsistentes y no están estandarizados, lo que lleva a que cada uno trabaje de forma independiente. Esto dificulta la acumulación de conjuntos de datos verdaderamente efectivos y de alta calidad. La insuficiencia de datos de alta calidad impide que los modelos logren un salto cualitativo real en sus capacidades. Solo cuando los conjuntos de datos estén estandarizados, los conjuntos de datos de alta calidad podrán mejorar realmente las capacidades de los modelos de inteligencia incorporada en todas las configuraciones de robots de la industria».

Los expertos explicaron que, actualmente, los cuerpos de los robots varían enormemente en forma; incluso las manos diestras pueden tener dos, tres o cinco dedos. Esto provoca que los datos de diferentes cuerpos no se puedan compartir y sean incompatibles. Aunque muchos fabricantes optan por compartir sus conjuntos de datos como código abierto, es difícil reproducirlos en otros cuerpos de robots. Además, la tecnología del «cerebro» del robot aún no está finalizada y las soluciones siguen en desarrollo. Podemos observar que, si bien los robots de algunos equipos, con el apoyo de algoritmos de aprendizaje por refuerzo y capacidades corporales, presentan movimientos muy fiables, aún no pueden aplicarse de forma estable en escenarios del mundo real.

Chen Tao, profesor del Instituto de Innovación en Información del Futuro de la Universidad de Fudan: Creo que actualmente nos encontramos en el período previo al auge de la primera generación de la tecnología GPT-1. Esto se debe a que el camino de la inteligencia incorporada aún no ha convergido por completo. Cada profesor tiene sus propias convicciones tecnológicas, pero es precisamente esta divergencia lo que hace que este campo sea tan valioso y fascinante.
Si bien existen desafíos, la industria atrae cada vez a más profesionales y desarrolladores. En cuanto al desarrollo de la industria, los ministerios pertinentes han tomado la iniciativa, y China ha lanzado sucesivamente un sistema de estándares para robots humanoides e inteligencia incorporada. En un momento en que la hoja de ruta de la tecnología de inteligencia incorporada aún es inmadura, esto nos ha mostrado una senda de desarrollo cada vez más clara.

Jiang Lei, subdirector del Comité de Estandarización de Robots Humanoides e Inteligencia Incorporada del Ministerio de Industria y Tecnología de la Información: Creo que los 52 estándares que publicamos este año son como una cabaña de paja. Quizás el próximo año existan cientos de estándares, transformando gradualmente esta cabaña de paja en una casa, y en el futuro en una villa; entonces la industria será sólida.

Nuestra investigación muestra que para 2026, los robots se implementarán cada vez más en diversos escenarios. A pesar de las numerosas e impresionantes demostraciones que hemos visto hoy, la aplicación práctica sigue siendo un proceso complejo. Los problemas surgen y se resuelven a medida que aparecen, y la tecnología se desarrolla, se perfecciona, se prueba y se aplica simultáneamente. Todavía no podemos predecir con exactitud dónde se producirá la singularidad de la tecnología robótica corporal, pero con la colaboración de toda la industria, la respuesta podría surgir de forma natural a medida que avancemos.

