La inteligencia artificial generativa se ha mostrado muy prometedora en el campo de los robots. Las aplicaciones de esta tecnología incluyen interacciones de lenguaje natural, aprendizaje robótico, programación sin código e incluso diseño. Esta semana, el equipo de DeepMind Robotics de Google presenta un nuevo avance en la navegación, estableciendo un posible punto de equilibrio entre la inteligencia artificial y la robótica.
En un artículo titulado “Movilidad VLA: navegación de instrucciones multimodal con VLM de contexto largo y gráficos topológicos”, el equipo muestra cómo implementaron el sistema Google Gemini 1.5 Pro para enseñar a un robot a responder a comandos y moverse por una oficina de 9,000 pies cuadrados.
En diferentes videos adjuntos al proyecto, los empleados de DeepMind comienzan con un asistente inteligente, tipo “OK, Robot”, antes de pedirle al sistema que realice distintas tareas. Por ejemplo, un trabajador solicita al robot que lo lleve a un lugar para dibujar. “Está bien”, responde el robot, vestido con una pajarita amarilla, “dame un minuto”.

Luego, el robot guía al humano hasta una pizarra del tamaño de una pared. En otro video, se le pide que siga las instrucciones anotadas en la pizarra.
Un mapa simple muestra al robot cómo llegar a la “zona azul”. Después de un breve momento de reflexión, el robot avanza hacia lo que resulta ser una área de pruebas robóticas. Finalmente, el robot manifiesta: “He seguido con éxito las instrucciones de la pizarra”, con un nivel de confianza que la mayoría de los humanos solo pueden soñar.
Para familiarizarse con el espacio, los robots usaron lo que el equipo llama “Navegación multimodal con instrucciones y recorridos de demostración (MINT)”. Esto implica que el robot camina mientras se le indican puntos de referencia de manera verbal. Después, el equipo combina este proceso con visión-lenguaje-acción (VLA), lo que permite al robot comprender su entorno y razonar con sentido común.
La combinación de estos procesos permite al robot no solo responder a comandos escritos y dibujados, sino también a gestos.
Según Google, el robot obtuvo una tasa de éxito de alrededor del 90% en más de 50 interacciones con los empleados. Este despliegue no solo representa un avance en la robotización, sino también una nueva forma de interactuar con la tecnología en los entornos de trabajo modernos.
El compromiso de Google con la investigación en inteligencia artificial y la robótica promete cambiar la forma en que concebimos la asistencia机器人. Así, el futuro de los espacios de trabajo parece cada vez más automatizado y eficiente, con robots capaces de llevar a cabo tareas complejas con autonomía y precisión.
En conclusión, la demostración realizada por DeepMind no solo subraya la innovación en el campo de la IA sino que también promete transformar nuestra interacción cotidiana con la tecnología. Con avances continuos, es fascinante imaginar lo que depara el futuro de la inteligencia artificial y la robótica.