Google ha presentado Gemini 3, su nuevo modelo de inteligencia artificial de referencia, con una idea clara: dejar de ser solo un asistente que responde preguntas para convertirse en un “compañero de pensamiento” capaz de razonar en profundidad, usar herramientas, planificar a largo plazo y ayudar a construir software y proyectos complejos casi de principio a fin.
En apenas dos años, la compañía ha pasado de la primera generación de Gemini a este nuevo modelo, que se estrena directamente en productos de consumo masivo como el Modo IA en el Buscador, la app Gemini o la plataforma para desarrolladores AI Studio. Y lo hace acompañado de un modo especial de razonamiento avanzado, Gemini 3 Deep Think, y de una nueva plataforma de desarrollo centrada en agentes, Google Antigravity.
Dos años de carrera: de Gemini 1 a un modelo pensado para “entender el contexto”
Sundar Pichai, consejero delegado de Google y Alphabet, recuerda que la “era Gemini” comenzó hace menos de dos años y ya ha cambiado la manera en la que millones de personas usan los productos de la compañía.
Según los datos que ofrece Google, las experiencias generativas del Buscador llegan a unos 2.000 millones de usuarios mensuales, la app Gemini supera los 650 millones de usuarios al mes, más del 70 % de los clientes de Google Cloud utilizan capacidades de IA y 13 millones de desarrolladores han construido aplicaciones con sus modelos generativos.
Cada ciclo ha ido añadiendo una pieza:
- Gemini 1 introdujo la multimodalidad nativa y ventanas de contexto largas.
- Gemini 2 y 2.5 Pro dieron el salto a los agentes y a un razonamiento más avanzado, hasta liderar durante meses rankings comunitarios como LMArena.
- Gemini 3 combina todo lo anterior y añade un enfoque más profundo en razonamiento, planificación y personalización.
La tesis de Google es que, por primera vez, un modelo comercial empieza a “leer el contexto” completo de lo que el usuario quiere hacer, no solo el texto literal de la pregunta.
Qué aporta Gemini 3 Pro: menos adulación, más razonamiento
Gemini 3 Pro es la variante que inaugura la nueva familia. Google la presenta como su modelo más inteligente hasta la fecha y subraya un cambio de tono: respuestas más directas, menos frases hechas y una orientación clara a decir “lo que el usuario necesita oír, no solo lo que quiere oír”.
En pruebas internas y benchmarks públicos, Gemini 3 Pro mejora de forma amplia a Gemini 2.5 Pro y compite directamente con otros modelos de frontera. La tabla de evaluación publicada por Google recoge, por ejemplo:
- Humanity’s Last Exam, una prueba de razonamiento académico de alto nivel: Gemini 3 Pro alcanza el 37,5 % sin herramientas, por encima de modelos anteriores y de la mayoría de competidores.
- GPQA Diamond, enfocada en conocimiento científico exigente: 91,9 %, muy cerca del máximo teórico en esta métrica.
- MathArena Apex, problemas matemáticos de competición: 23,4 %, frente a cifras por debajo del 2 % en versiones previas y otros modelos.
- MMMU-Pro, razonamiento multimodal complejo: 81,0 %.
- Video-MMMU, comprensión de información en vídeo: 87,6 %.
En el terreno de la precisión factual, destaca el 72,1 % en SimpleQA Verified y el 70,5 % en el conjunto FACTS, que combina preguntas de conocimiento paramétrico, multimodal y con apoyo en búsqueda. En tareas de comprensión y sentido común en muchos idiomas (MMLU, Global PIQA), se sitúa en torno o por encima del 90 %.
Todo ello se apoya en una ventana de contexto que puede llegar al millón de tokens, lo que le permite trabajar con documentos largos, colecciones de artículos, transcripciones de vídeos extensos o sesiones de chat prolongadas sin perder el hilo.
Deep Think: cuando el modelo se toma más tiempo para pensar
Como complemento a Gemini 3 Pro, Google introduce Gemini 3 Deep Think, un modo de razonamiento extendido en el que el modelo dedica más pasos internos y tiempo de cálculo a resolver un problema antes de responder.
En este modo, las puntuaciones suben aún más en pruebas como Humanity’s Last Exam, donde alcanza el 41,0 % sin herramientas, o GPQA Diamond, con un 93,8 %. En el benchmark ARC-AGI, centrado en desafíos novedosos de razonamiento abstracto, Deep Think llega al 45,1 % con ejecución de código, una cifra que la compañía presenta como “sin precedentes”.
Por ahora, Google mantiene Deep Think en fase de evaluación de seguridad, con acceso anticipado para revisores y organismos especializados, antes de liberarlo a los suscriptores de Google AI Ultra.
Aprender con Gemini 3: de recetas familiares a artículos científicos
Gemini 3 mantiene la apuesta por la multimodalidad: puede trabajar con texto, imágenes, vídeo, audio y código en una misma interacción. Google pone ejemplos cotidianos para ilustrarlo:
- Digitalizar y traducir recetas manuscritas en varios idiomas para crear un recetario familiar.
- Convertir un conjunto de artículos académicos o vídeos de clase en tarjetas didácticas interactivas, resúmenes visuales o simulaciones.
- Analizar un vídeo de un partido amateur, detectar patrones de juego y generar un plan de entrenamiento.
En el Modo IA del Buscador, Gemini 3 alimenta nuevas interfaces generativas que combinan explicaciones con gráficos, simulaciones interactivas o layouts visuales inmersivos creados “al vuelo” según la consulta. El objetivo es que una búsqueda compleja —por ejemplo, entender cómo funciona la ARN polimerasa o un fenómeno físico concreto— se convierta en una explicación guiada, con diagramas y pasos visuales.
Construir y programar con Gemini 3: de asistente a “agente desarrollador”
Para desarrolladores, Gemini 3 Pro se posiciona como un modelo especialmente fuerte en tareas de codificación y uso de herramientas:
- Lidera WebDev Arena con 1.487 puntos ELO, según las cifras que comparte Google.
- Consigue un 54,2 % en Terminal-Bench 2.0, que mide la capacidad de operar un ordenador vía terminal de forma agéntica.
- Mejora a Gemini 2.5 Pro en SWE-bench Verified, llegando al 76,2 % en resolución de incidencias de código en un solo intento.
- En LiveCodeBench Pro, centrado en problemas de competición como los de Codeforces, ICPC o IOI, alcanza un ELO de 2.439.
Gemini 3 ya está disponible en herramientas como Google AI Studio, Vertex AI, la CLI de Gemini y, además, se integra en editores y plataformas de terceros como Cursor, entornos JetBrains, Replit y otras soluciones orientadas a programación asistida por IA.
Google Antigravity: una plataforma para agentes que planifican y actúan
La compañía va más allá del “copiloto” tradicional con Google Antigravity, una nueva plataforma de desarrollo centrada en agentes. La idea es que el desarrollador deje de pedir pequeñas ayudas puntuales y trabaje con un sistema que pueda:
- Planificar todo un proyecto o tarea de software.
- Editar directamente el código en el IDE.
- Usar la terminal y el navegador integrados.
- Validar por sí mismo la ejecución y corregir errores.
En la demostración de referencia, un agente con Gemini 3 diseña, programa y valida una aplicación de seguimiento de vuelos de extremo a extremo. Antigravity combina Gemini 3 Pro con otros modelos de la familia, como Gemini 2.5 especializado en uso de ordenador y el modelo de edición de imágenes Nano Banana.
En planificación a largo plazo, uno de los puntos clave de la IA agéntica, los resultados de la tabla de benchmarks son ilustrativos: en Vending-Bench 2, una prueba que simula la gestión de un negocio de máquinas expendedoras durante un año, Gemini 3 Pro alcanza un patrimonio medio de unos 5.478 dólares, frente a 573 de Gemini 2.5 Pro y cifras inferiores de otros modelos evaluados.
Traducido a la vida real, Google sostiene que este tipo de capacidades se podrán aplicar a tareas como clasificar una bandeja de entrada, planificar viajes complejos o ejecutar flujos empresariales de varios pasos, siempre bajo supervisión humana.
Seguridad y uso responsable: menos “adulación” y más resistencia a ataques
Google insiste en que Gemini 3 es su modelo más seguro hasta la fecha. Ha sido sometido, según la compañía, al conjunto más amplio de pruebas internas que han aplicado nunca a un modelo propio, centradas en dominios de alto riesgo como ciberseguridad, desinformación o manipulación.
Entre las mejoras señaladas destacan:
- Menor tendencia a la adulación y a respuestas complacientes cuando no dispone de información fiable.
- Mayor resistencia a ataques de prompt injection, en los que un atacante intenta que el modelo ignore sus instrucciones de seguridad.
- Mejor protección frente a usos maliciosos en ciberataques, gracias a filtros y evaluaciones específicas.
La empresa afirma, además, que ha trabajado con expertos externos y organismos públicos, como la agencia británica AISI, y ha sometido el modelo a evaluaciones independientes de firmas especializadas.
Qué llega hoy y qué queda por venir
Gemini 3 empieza a desplegarse desde ya en varios frentes:
- Usuarios de la app Gemini y suscriptores de Google AI Pro y Ultra, con integración en el Modo IA del Buscador.
- Desarrolladores, a través de la API en AI Studio, la CLI de Gemini y la nueva plataforma Antigravity.
- Empresas, desde Vertex AI y Gemini Enterprise.
El modo Deep Think llegará más adelante, una vez superadas las pruebas de seguridad adicionales. Google también adelanta que habrá más modelos de la serie Gemini 3 orientados a distintos usos y dispositivos.
La compañía presenta este lanzamiento como “el comienzo de un nuevo capítulo” en la era Gemini, con tres grandes ejes: más inteligencia, agentes realmente útiles y una personalización más profunda. El mercado, los reguladores y los propios usuarios serán quienes decidan hasta qué punto esa promesa se cumple en el día a día.
Preguntas frecuentes sobre Gemini 3, Deep Think y Google Antigravity
¿En qué se diferencia Gemini 3 de Gemini 2.5 Pro para un usuario normal?
Gemini 3 ofrece un razonamiento más profundo, es mejor entendiendo el contexto de la conversación y admite entradas más largas, con una ventana de hasta 1 millón de tokens. Además, sus respuestas tienden a ser más directas y con menos “relleno”, y el modelo muestra mejor rendimiento en tareas de conocimiento científico, matemáticas, multimodalidad (texto, imagen, vídeo) y precisión factual según los benchmarks publicados por Google.
¿Qué es exactamente Gemini 3 Deep Think y cuándo estará disponible?
Deep Think es un modo de Gemini 3 en el que el modelo se toma más tiempo para “pensar” y recorre más pasos internos de razonamiento antes de responder. Esto le permite mejorar todavía más en pruebas complejas de razonamiento abstracto y científico, como Humanity’s Last Exam, GPQA o ARC-AGI. Actualmente está en fase de evaluación de seguridad con revisores externos y se espera que llegue primero a los suscriptores de Google AI Ultra.
¿Qué aporta Google Antigravity frente a un simple “chat con IA” para programar?
Antigravity es una plataforma completa de desarrollo basada en agentes. En lugar de limitarse a sugerir fragmentos de código, los agentes tienen acceso directo al editor, la terminal y el navegador integrados. Pueden planificar tareas de software complejas, implementar cambios, ejecutar pruebas y validar resultados de manera autónoma, siempre con supervisión y capacidad de intervención por parte del desarrollador.
¿Cómo se compara Gemini 3 con otros modelos avanzados como Claude Sonnet o GPT-5.1?
En la tabla de benchmarks publicada por Google, Gemini 3 Pro aparece por delante de esos modelos en muchas pruebas de razonamiento académico, matemáticas avanzadas, comprensión multimodal, uso de herramientas y planificación a largo plazo. En otras métricas, como ciertas tareas de codificación (por ejemplo, SWE-bench Verified), las diferencias son más ajustadas. Conviene recordar que estos resultados proceden de pruebas realizadas por la propia Google y deben interpretarse en ese contexto.
Fuentes (sin enlaces activos):
- Entrada “Una nueva era de inteligencia con Gemini 3”, blog oficial de Google, 18 de noviembre de 2025.
- Tabla comparativa de benchmarks de Gemini 3 Pro frente a Gemini 2.5 Pro, Claude Sonnet 4.5 y GPT-5.1, publicada por Google DeepMind.
vía: blog.google



