Se ha informado que Google DeepMind ha lanzado un nuevo modelo de control de robots, Gemini Robotics On-Device, que puede ejecutarse localmente en robots y cuenta con capacidades de reconocimiento visual, comprensión del lenguaje y ejecución de acciones. Incluso sin conexión, Gemini On-Device puede comprender instrucciones humanas y completar tareas sin problemas.
Este modelo es un modelo básico VLA (visión + lenguaje + acción) especialmente diseñado para robots de doble brazo, que pueden comprender directamente instrucciones en lenguaje natural y realizar las acciones correspondientes.
Gemini On-Device ofrece ventajas en tareas como operaciones médicas, asistencia en desastres y automatización de fábricas, ya que no necesita transmitir datos a la nube, lo que reduce la latencia y mejora la estabilidad.
Además, el modelo puede adaptarse a diferentes plataformas robóticas mediante un pequeño proceso de aprendizaje, lo que se espera que acelere la popularización y la aplicación de la tecnología robótica.
Sin embargo, Gemini On-Device aún presenta desafíos en seguridad y planificación lógica, que requieren mejoras adicionales.

