Tecnología de vanguardia para mejorar las reacciones de los vehículos en entornos complejos.
Los modelos mundiales —redes neuronales diseñadas para comprender y simular la dinámica del mundo real, incluyendo las propiedades físicas y las relaciones espaciales— se perfilan como la próxima frontera estratégica para la conducción asistida basada en inteligencia artificial. Los fabricantes de automóviles y las grandes empresas tecnológicas están redoblando sus esfuerzos en el sector para mejorar la percepción, predicción y comportamiento de los vehículos en entornos complejos, según expertos del sector.
«Un modelo mundial comprende lo que está sucediendo en el mundo físico en este momento y predice lo que viene después, incluyendo capacidades de planificación», afirmó Arnold Gao, vicepresidente y analista de la firma de investigación Gartner.
Como uno de los enfoques centrales de la IA física, los modelos mundiales han atraído la atención de las industrias tecnológicas. Gartner ha incluido la IA física como una de las 10 principales tendencias tecnológicas estratégicas para 2026, dada su capacidad para interactuar con el mundo real y sus aplicaciones más representativas en las industrias de vehículos autónomos y robótica.
A diferencia de los grandes modelos de lenguaje, que carecen de simulación directa y capacidades predictivas para entornos físicos, los modelos de mundo aprenden representaciones a partir de datos sensoriales y pronostican dinámicas como el movimiento, la fuerza y las relaciones espaciales.
Por ejemplo, cuando un vehículo detecta una posible anomalía más adelante, el modelo de mundo genera continuamente múltiples posibilidades para el siguiente segundo, ya sea frenar, cambiar de carril o tomar otras medidas preventivas, explicó Gao.
«Es esta simulación predictiva la que permite a los sistemas autónomos tomar decisiones más fiables y similares a las humanas», afirmó, añadiendo que muchos sistemas avanzados de asistencia al conductor que ya se encuentran en circulación ya siguen el enfoque del modelo de mundo.
Según un informe técnico publicado por Frost & Sullivan sobre el sector de modelos de mundo en China, más del 80% de los algoritmos de conducción autónoma utilizan ahora modelos de mundo para el entrenamiento auxiliar. Al generar automáticamente imágenes y datos de vídeo autoetiquetados, y crear escenarios multimodales e intertemporales sin un diseño manual complejo, los modelos de mundo pueden reducir los costes en casi un 50% y mejorar la eficiencia en alrededor de un 70%, según el informe.
En este contexto, los fabricantes de automóviles chinos están acelerando el desarrollo y la implementación de modelos mundiales en vehículos.
En septiembre, el sistema Qiankun ADS 4.0 de Huawei comenzó a incorporarse a sus vehículos. Impulsado por la arquitectura WEWA, desarrollada por la compañía, incluye un motor mundial basado en la nube para el entrenamiento de datos a gran escala y la generación de escenarios, así como una arquitectura de comportamiento del vehículo para el razonamiento ambiental en tiempo real y la toma de decisiones similar a la humana.
Nio también anunció planes para introducir el Modelo Mundial Nio (NWM) 2.0 en múltiples plataformas desde finales de este año hasta el primer trimestre del próximo. La primera versión del NWM, implementada desde mayo, puede simular 216 escenarios potenciales en 100 milisegundos, seleccionar la ruta óptima mediante filtrado algorítmico y emular el razonamiento espacio-temporal humano con capacidades predictivas instintivas.
Dado que la rápida adopción de modelos mundiales en la conducción autónoma exige mayores avances en las tecnologías relevantes, gigantes tecnológicos globales como Nvidia, Google y Tesla también están intensificando sus esfuerzos en este prometedor nuevo campo.
En enero, Nvidia presentó Cosmos, una plataforma generativa de modelos de base mundial que puede generar grandes cantidades de datos realistas basados en la física para entrenar y evaluar vehículos autónomos, robots y otros sistemas físicos de IA.
A esta iniciativa le siguió Google DeepMind, que lanzó Genie 3 en agosto, un modelo mundial de nueva generación que permite la interacción en tiempo real por primera vez. Con una instrucción de texto, Genie 3 puede generar mundos dinámicos navegables a 24 fotogramas por segundo, manteniendo la consistencia de la escena durante varios minutos con una resolución de 720p.
«La aplicación de modelos mundiales en la conducción autónoma resolverá muchos de los obstáculos actuales», afirmó Wei Dong, ingeniero del laboratorio de tecnología microelectrónica de la Universidad Tecnológica de Xi’an.
«Por ejemplo, los modelos mundiales pueden generar vídeos realistas de escenas de conducción que se utilizan para entrenar robots y vehículos autónomos, lo que permite a los desarrolladores realizar entrenamientos y pruebas en un entorno virtual», añadió Wei.
Además de generar entornos virtuales de entrenamiento para robots y vehículos autónomos, Wei afirmó que los videos realistas generados a partir de modelos mundiales son mucho más rentables que la recopilación de datos tradicional y, además, permiten el procesamiento de datos en circuito cerrado, lo que mejora la eficiencia y la precisión, a la vez que acelera la iteración y la optimización del sistema.
«Con los modelos mundiales, los sistemas integrales obtienen protecciones más fiables y un mayor potencial de mejora», añadió Wei.

