Google DeepMind ha anunciado el lanzamiento de dos nuevos modelos de inteligencia artificial (IA) diseñados para llevar el razonamiento avanzado al mundo físico: Gemini Robotics y Gemini Robotics-ER. Estos modelos, basados en la tecnología Gemini 2.0, sientan las bases para una nueva generación de robots más útiles y versátiles.
Gemini Robotics, el primer modelo, es un sistema de visión-lenguaje-acción (VLA) que permite a los robots realizar tareas complejas que requieren precisión física, como doblar origami o guardar alimentos en una bolsa con cierre hermético.
Por otro lado, Gemini Robotics-ER es un modelo de visión-lenguaje (VLM) con avanzada comprensión espacial. Esta capacidad le permite identificar objetos y calcular trayectorias seguras para manipularlos con precisión. Por ejemplo, puede sujetar una taza de café por el asa y acercarla cuidadosamente.
Google DeepMind destacó que para que los robots sean realmente útiles deben cumplir tres requisitos clave:
- Versatilidad, para adaptarse a distintas situaciones.
- Interactividad, para responder rápidamente a su entorno.
- Destreza, para manejar objetos con precisión similar a la humana.
Estos avances permitirán que robots de distintas formas y tamaños puedan realizar una amplia variedad de tareas en el mundo real. Además, Google ha colaborado con la empresa Apptronik para desarrollar esta nueva generación de robots humanoides y trabaja con grupos especializados para seguir mejorando sus capacidades.