Google DeepMind ha dado un nuevo paso en su estrategia para llevar agentes de IA al mundo real. La compañía ha presentado dos modelos complementarios de la familia Gemini orientados a robótica: Gemini Robotics-ER 1,5 —el modelo de razonamiento “encarnado” que piensa y planifica— y Gemini Robotics 1,5 —el modelo de acción que traduce esos planes en movimientos de robot con guía visual—. La propuesta, en palabras del equipo, consiste en “pensar antes de actuar”: primero razonar en lenguaje natural y usar herramientas externas (como la búsqueda web) y, después, ejecutar pasos concretos en robots reales con retroalimentación visual.
La narrativa técnica se ilustra con tareas cotidianas —clasificar la ropa por colores, preparar una maleta comprobando la previsión meteorológica o separar residuos siguiendo reglas locales—, pero el objetivo es más ambicioso: dotar a los robots de capacidad de planificación multi-etapa, transferencia entre “cuerpos” distintos y autonomía creciente sin tener que entrenar un modelo a medida para cada plataforma. En pruebas internas, el sistema ha funcionado con brazos bimanuales (como ALOHA 2 o Franka de doble brazo) y con humanoides como Apollo de Apptronik, traspasando habilidades entre formatos sin ajuste específico.
Dos cerebros, un agente: cómo se reparten el trabajo
El modelo ER (Embodied Reasoning) actúa como “cerebro deliberativo”. Recibe la instrucción del usuario junto con imágenes del entorno (por ejemplo, la montaña de ropa) y puede invocar herramientas externas, como Google Search, para recuperar información contextual (normas de reciclaje, clima, listas de comprobación). Con todo ello genera un plan detallado en lenguaje natural, desglosado por pasos, que sirve de guía para el robot.
Por su parte, Gemini Robotics 1,5 es el modelo de acción. Toma el plan del ER y lo convierte en acciones mientras se guía por la visión del entorno (cámaras del robot). La novedad clave es que este modelo también “piensa” internamente: antes de mover un dedo virtual, produce su propia cadena de razonamiento para decidir cómo abordar cada subpaso; una suerte de “intuiciones” explícitas que hacen más transparente por qué actúa como actúa. DeepMind resume esta capacidad como “thinks before acting” (piensa antes de actuar).
Esta separación de funciones —planificación en ER y ejecución con pensamiento en 1,5— acerca a los robots a un patrón humano: proyectar el objetivo, documentarse si hace falta y decidir micro-estrategias sobre la marcha según la percepción del entorno. No es “inteligencia humana”, advierten analistas, pero supera el clásico esquema de “una orden, un movimiento” propio de modelos VLA (visión-lenguaje-acción) de generaciones anteriores.
“Pensar” tiene coste: el presupuesto de pensamiento y el equilibrio latencia-precisión
La deliberación mejora resultados, pero consume tiempo. Por eso, el modelo ER llega con un “thinking budget” configurable: los desarrolladores pueden ajustar cuánta “reflexión” permite el sistema antes de responder, equilibrando latencia y exactitud según la tarea (detectar un objeto requiere poco; estimar peso o hacer conteos complejos, más). También es posible desactivar el pensamiento explícito si la aplicación lo exige.
En términos prácticos, esto habilita modos de operación distintos: respuesta rápida para manipulación reactiva (abrir/cerrar, agarrar/soltar) o planificación profunda para secuencias largas (ordenar una colada por tipos de tejido, verificar etiquetas, detectar prendas delicadas y decidir programa de lavado).
Aprender una vez, ejecutar en muchos “cuerpos”: la transferencia entre robots
Una de las limitaciones históricas de la robótica es la dependencia del hardware: cada robot, con su cinemática y sensores, requiere modelos o ajustes ad hoc. DeepMind sostiene que Gemini Robotics 1,5 rompe parte de esa barrera: habilidades aprendidas con un sistema (por ejemplo, el gripper de ALOHA 2) se transfieren a otro de manos más complejas (como el humanoide Apollo) sin afinado especializado, gracias al aprendizaje cruzado entre “encarnaciones”. Esto acelera el despliegue y abarata el entrenamiento, al compartir datos y políticas entre plataformas.
La prensa tecnológica y los materiales oficiales describen casos de traspaso de habilidades entre ALOHA 2, Franka bimanual y Apollo, y apuntan a generalización en situaciones nuevas. Aun así, especialistas recuerdan que destreza fina, seguridad y aprendizaje por observación siguen siendo frentes abiertos: hay progreso sustantivo, pero no es “un robot que ya pliegue la colada en casa”.
¿Qué hay disponible hoy y para quién?
- Gemini Robotics-ER 1,5: ya está llegando a Google AI Studio vía Gemini API para que desarrolladores generen planes e instrucciones robóticas para experimentos con robots físicos. Es el primer “trozo” del sistema que sale a la calle de forma amplia (aunque con controles).
- Gemini Robotics 1,5: el modelo de acción que controla robots permanece con probadores de confianza (“trusted testers”) y socios seleccionados; DeepMind no ofrece disponibilidad pública aún. En paralelo, el grupo ha mostrado versiones optimizadas para ejecución on-device (sin nube) en ciertos robots, aunque con alcance limitado y en pruebas.
Es decir: la planificación se democratiza antes que el control motriz. Tiene sentido: planear es menos riesgoso y más portable entre plataformas, mientras que mover hardware exigirá controles de seguridad, evaluaciones y responsabilidades más estrictas.
Por qué importa: de asistentes conversacionales a agentes físicos
La IA generativa ya resume documentos, escribe código o contesta correos. El siguiente salto es que esos agentes interactúen con el mundo: manipular objetos, navegar espacios, adaptarse a contextos cambiantes. Con Gemini Robotics-ER 1,5 y 1,5, DeepMind persigue agentes generalistas capaces de encadenar pasos y corregir el plan en tiempo real con percepción —lo que denomina “embodied thinking”. El “pensar antes de actuar” no solo mejora la calidad de las acciones; también expone el razonamiento en lenguaje natural, lo que facilita auditorías y depuración de fallos.
Esta transparencia es clave para seguridad y regulación: si un robot se equivoca, es algo distinto poder leer la cadena de razones que le llevó a tirar una prenda roja en el cubo de blancos, que tratar una “caja negra” donde no se sabe qué “pensó” el modelo. La capacidad de ajustar el presupuesto de pensamiento también abre ventanas para certificar niveles de precisión vs. latencia según el caso de uso (hospital vs. hogar, por ejemplo).
Qué se puede (y no) esperar a corto plazo
No habrá, de inmediato, robots domésticos que plieguen y coloquen la ropa en el armario tras comprar detergente online. Según DeepMind y cobertura independiente, el lanzamiento marca progreso en razonamiento físico, planificación y transferencia entre plataformas, pero persisten retos en destreza, robustez, seguridad operacional y aprendizaje con pocos ejemplos fuera de laboratorio. Aún se necesitarán entornos controlados, demostraciones de calidad y sistemas de seguridad redundantes.
Dicho esto, el impacto a medio plazo puede ser notable en logística ligera, manufactura flexible, laboratorios, hospitales o asistencias donde un agente que planifica y explica sus pasos aporta valor inmediato aunque no tenga manos perfectas.
Un matiz importante: “pensar” no es “ser consciente”
La propia DeepMind y medios especializados insisten en que “pensar antes de actuar” en este contexto no equivale a conciencia ni a razonamiento humano pleno. Se trata de generar cadenas de texto que descomponen una tarea en pasos, proyectan expectativas y seleccionan estrategias a partir de patrones aprendidos, no de “entender” como lo haría una persona. El avance está en la utilidad y transparencia de ese proceso para tareas físicas, no en un salto ontológico.
Qué dicen los protagonistas
Kanishka Rao, ingeniero principal en DeepMind, sintetiza el avance así: “**uno de los grandes progresos es la capacidad de pensar antes de actuar” en el modelo de acción, para suplir la falta de intuiciones que las personas emplean de forma natural al ejecutar una tarea. Con ese “pensamiento intermedio”, el robot puede evaluar el siguiente paso con mayor criterio y menos errores.
¿Cómo se desarrolla con esto?
Quienes experimentan con robótica pueden probar desde ya Gemini Robotics-ER 1,5 en Google AI Studio. Allí, la API permite enviar imágenes del entorno y pedir planes paso a paso; además, se puede configurar el presupuesto de pensamiento para ajustar latencia y calidad. La forma segura de empezar es interponer un “intérprete” que revise las acciones antes de mandarlas al robot real o simular el plan en un gemelo digital. El modelo de acción seguirá, por ahora, en acceso restringido.
¿Qué cambia para el ecosistema?
- Arquitectura. Se consolida la separación plan/acto con líneas de razonamiento visibles.
- Portabilidad. La transferencia entre “cuerpos” reduce el coste de adoptar nuevas plataformas (un humanoide puede heredar lo aprendido por un brazo).
- Herramientas. La invocación de servicios (p. ej., búsqueda web) desde el planificador amplía el perímetro de tareas posibles sin pre-programar todo.
- Gobernanza. La exposición del pensamiento facilita auditorías, explicabilidad y, potencialmente, certificación.
El contexto competitivo
La carrera por los agentes físicos se acelera: laboratorios académicos y empresas exploran modelos generalistas con percepción 3D, control generativo y datos a gran escala. En este tablero, Gemini Robotics apuesta por aprovechar los fundamentales de la familia Gemini y afinarlos para la física. El techo vendrá determinado por datos multirobot de calidad, seguridad en la ejecución y costes de hardware capaces de escalar fuera del laboratorio.
Preguntas frecuentes
¿Qué es exactamente Gemini Robotics-ER 1,5 y cómo se usa?
Es el modelo de razonamiento encarnado que planifica tareas físicas en lenguaje natural y puede llamar herramientas (como la búsqueda) antes de proponer pasos al robot. Ya se ofrece vía Gemini API en Google AI Studio, con presupuesto de pensamiento configurable para equilibrar latencia y precisión.
¿Gemini Robotics 1,5 “controla” robots hoy?
Sí, pero solo en programas de acceso restringido con probadores de confianza. Es el modelo que traduce los planes en acciones con visión y “pensamiento” propio antes de mover el robot. DeepMind ha mostrado también variantes on-device en pruebas, orientadas a escenarios con requisitos de seguridad y baja latencia.
¿De verdad puede aprender en un robot y ejecutar en otro?
Ese es uno de los puntos diferenciales reportados: transferencia entre encarnaciones (de ALOHA 2 a Franka o al humanoide Apollo) sin ajuste dedicado. No elimina todos los problemas de destreza, pero acorta el camino para reutilizar habilidades entre plataformas.
¿“Pensar antes de actuar” significa que el robot es consciente?
No. Significa que el modelo genera y expone una cadena de razonamiento antes de ejecutar, lo que mejora la planificación y la explicabilidad. No equivale a conciencia ni a inteligencia humana.
¿Cuándo habrá robots domésticos que hagan la colada?
No hay calendario. La destreza fina, la seguridad y la robustez siguen siendo retos. Lo que sí llega ya a la comunidad es el planificador ER 1,5, útil para prototipos y experimentos con robots físicos o simulados.
Fuentes (solo al final)
- DeepMind (blog y ficha del modelo): “Gemini Robotics 1.5 brings AI agents into the physical world”; “Gemini Robotics” (capacidad de pensar antes de actuar, transferencia entre encarnaciones, herramientas).
- Google AI for Developers: “Gemini Robotics-ER 1.5 overview” y post técnico “Building the Next Generation of Physical Agents with Gemini Robotics-ER 1.5” (API, thinking budget, disponibilidad en AI Studio).
- Financial Times / The Verge: cobertura de anuncio (casos: colada, reciclaje, consulta del tiempo; planificación multi-etapa; aprendizaje entre robots; estado de disponibilidad).
- Tech report (DeepMind): “Gemini Robotics 1.5 — Tech Report” (concepto de embodied thinking y razonamiento previo a la acción).
- The Verge (contexto on-device): versión optimizada en robot y estado para probadores.