La API de Interactions ya está disponible de forma general. Te recomendamos que uses esta API para acceder a todos los modelos y funciones más recientes.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Modelos

En esta guía, se presentan todos los modelos disponibles a través de la API de Gemini.

Gemini 3

Estable

Gemini 3.5 Flash

El modelo más inteligente para un rendimiento sostenido de vanguardia en tareas de agentes y de programación.

Estable

Gemini 3.1 Flash-Lite

Rendimiento de clase de vanguardia que compite con modelos más grandes a una fracción del costo.

Estable

Nano Banana 2

Generación y edición de imágenes potentes y de alta eficiencia, optimizadas para la velocidad y los casos de uso de gran volumen.

Estable

Nano Banana 2 Lite

Generación y edición de imágenes rentables y de latencia ultrabaja, diseñadas para casos de uso interactivos de gran volumen.

Estable

Nano Banana Pro

Modelos de generación y edición de imágenes de estado del arte para la creación de imágenes nativas altamente contextuales.

Estable

Vista previa

Gemini 3.1 Pro

Inteligencia avanzada, habilidades complejas para resolver problemas y potentes capacidades de agente y de vibe coding.

Vista previa

Gemini 3 Flash

Rendimiento de clase de vanguardia que compite con modelos más grandes a una fracción del costo.

Vista previa

Gemini 3.5 Live Translate

Modelo de traducción de voz a voz en tiempo real y de baja latencia que admite más de 70 idiomas.

Nueva versión preliminar

Gemini 3.1 Flash Live

Modelo de API Live de alta calidad y baja latencia para aplicaciones de IA de diálogo en tiempo real y de voz primero.

Nueva versión preliminar

TTS de Gemini 3.1 Flash

Generación de voz potente y de baja latencia.

Nueva versión preliminar

Gemini Omni Flash

Generación y edición de videos conversacionales rápidas. Convierte texto e imágenes en video y perfecciona los resultados a través del lenguaje natural.

Nueva versión preliminar

Gemini 2.5 Flash

Nuestro mejor modelo de precio-rendimiento para tareas de baja latencia y gran volumen que requieren razonamiento.

Nano Banana

Generación y edición de imágenes nativas de estado del arte diseñadas para flujos de trabajo creativos y rápidos.

Vista previa de Gemini 2.5 Flash Live

Optimizado para agentes conversacionales en tiempo real con transmisión de audio nativa de menos de un segundo.

Vista previa de TTS de Gemini 2.5 Flash

Generación de audio de texto a voz controlable con control preciso sobre el estilo y el ritmo.

Gemini 2.5 Flash-Lite

El modelo multimodal más rápido y económico de la familia 2.5.

Gemini 2.5 Pro

Nuestro modelo más avanzado para tareas complejas, con capacidades de razonamiento y programación profundas.

Vista previa de TTS de Gemini 2.5 Pro

Síntesis de voz de alta fidelidad optimizada para la calidad en flujos de trabajo estructurados, como podcasts y audiolibros.

Modelos de audio

Esta sección contiene todos los modelos de audio, incluidos los que ya pueden aparecer en otras secciones.

Vista previa de Gemini 3.1 Flash Live

Nuestro modelo de audio a audio (A2A) de alta calidad y baja latencia diseñado para aplicaciones de IA de diálogo en tiempo real y de voz primero.

Vista previa de TTS de Gemini 3.1 Flash

Generación de voz potente y de baja latencia, con salidas naturales, instrucciones orientables y nuevas etiquetas de audio expresivas para un control preciso de la narración.

Vista previa de Gemini 2.5 Flash Live

Nuestro modelo insignia de API Live para agentes de voz y video bidireccionales de baja latencia con razonamiento de audio nativo.

Vista previa de TTS de Gemini 2.5 Flash

Texto a voz rápido y controlable para aplicaciones de baja latencia y rentables, y asistentes en tiempo real.

Vista previa de TTS de Gemini 2.5 Pro

Síntesis de voz de alta fidelidad optimizada para la calidad en flujos de trabajo estructurados, como podcasts y audiolibros.

Modelos de contenido multimedia generativo

Esta sección contiene todos los modelos de contenido multimedia generativo, incluidos los que ya pueden aparecer en otras secciones.

Nano Banana 2

Creación visual a escala de producción de alta eficiencia, que combina la inteligencia de la serie Gemini 3 con velocidades de generación ultrarrápidas.

Nano Banana 2 Lite

Diseñado como el especialista en eficiencia de la familia de generación de imágenes, que ofrece generación y edición de imágenes rentables y de latencia ultrabaja.

Vista previa de Veo 3.1

Generación de videos cinematográficos de estado del arte con controles creativos avanzados y audio sincronizado de forma nativa.

Nano Banana Pro

Un motor de diseño profesional con un núcleo de razonamiento para imágenes 4K de calidad de estudio, diseños complejos y renderización de texto precisa.

Veo 3.1 Lite Vista previa

Generación, edición y control cinematográfico de videos de alta eficiencia, bajo costo y primero para desarrolladores de la familia Veo 3.1.

Vista previa de Gemini Omni Flash

Generación y edición de videos conversacionales rápidas. Convierte texto e imágenes en video y perfecciona los resultados a través del lenguaje natural.

Nano Banana

Generación y edición de imágenes nativas de estado del arte diseñadas para flujos de trabajo creativos y rápidos.

Imagen 4 Obsoleto

Modelo de texto a imagen, que ofrece generación rápida y ultrarrápida, y claridad excepcional hasta una resolución de 2K.

Modelos de generación de música

Esta sección contiene todos los modelos de generación de música, incluidos los que ya pueden aparecer en otras secciones.

Vista previa de Lyria 3 Pro

Nuestro modelo insignia de generación de música, optimizado para canciones completas con coherencia estructural compleja.

Vista previa de Lyria 3 Clip

Optimizado para generar clips musicales cortos, bucles y vistas previas de hasta 30 segundos.

Lyria RealTime Experimental

Modelo de generación de música de alta fidelidad que proporciona control creativo detallado y capacidades de transmisión en tiempo real.

Modelos de herramientas y agentes

Vista previa de uso de computadora

Un modelo especializado que puede "ver" una pantalla digital y realizar acciones de IU, como hacer clic, escribir y navegar, para automatizar tareas complejas del navegador.

Vista previa de Deep Researchde Gemini

Un modelo de agente que planifica y ejecuta de forma autónoma investigaciones de varios pasos en cientos de fuentes para producir informes interactivos y citados.

Vista previade Deep Research Max de Gemini

Máxima exhaustividad para la recopilación y síntesis automatizadas de contexto en cientos de fuentes.

Vista previadel agente Antigravity

Un agente administrado de uso general que planifica, razona, ejecuta código, administra archivos y navega por la Web de forma autónoma dentro de una zona de pruebas de Linux segura y aislada.

Modelos de tareas especializadas

Embedding de Gemini 2

Nuestro primer modelo de embedding multimodal, que asigna texto, imágenes, video, audio y PDFs a un espacio de embedding unificado para sistemas avanzados de búsqueda semántica y RAG.

Embedding de Gemini

Representaciones vectoriales de alta dimensión para sistemas avanzados de búsqueda semántica, clasificación de texto y RAG.

Vista previa de Gemini Robotics-ER 1.6

Modelo avanzado de razonamiento incorporado que comprende espacios físicos y planifica tareas de varios pasos para agentes robóticos con nuevas capacidades, como lectura de instrumentos, razonamiento espacial y físico mejorado.

Modelos anteriores

Gemini 2.0 Flash Apagar

Nuestro modelo de segunda generación, con funciones de próxima generación y capacidades mejoradas, como velocidad superior, uso de herramientas nativas y una ventana de contexto de 1 millón de tokens.

Gemini 2.0 Flash-Lite Apagar

Nuestro modelo de segunda generación más rápido, optimizado para la rentabilidad y la baja latencia.

Cierre de la versión preliminar de Gemini 3.1 Flash-Lite

Nuestro modelo multimodal más rentable, que ofrece el rendimiento más rápido para tareas ligeras y de alta frecuencia.

Cierre de la versión preliminar de Gemini 3 Pro Shut down

Nuestro modelo de razonamiento de vanguardia, con comprensión multimodal avanzada.

Patrones de nombres de versiones de modelos

Los modelos de Gemini están disponibles en versiones estables, preliminares, más recientes o experimentales.

Estable

Apunta a un modelo estable específico. Por lo general, los modelos estables no cambian. La mayoría de las apps de producción deben usar un modelo estable específico.

Por ejemplo: gemini-3.5-flash.

Vista previa

Apunta a un modelo de vista previa que se puede usar para la producción. Por lo general, los modelos de vista previa tienen habilitada la facturación, pueden incluir límites de frecuencia más restrictivos y quedarán obsoletos con un aviso de al menos 2 semanas.

Por ejemplo: gemini-2.5-flash-preview-09-2025.

Más recientes

Apunta a la versión más reciente de una variación de modelo específica. Puede ser una versión estable, preliminar o experimental. Este alias se intercambiará en caliente con cada nuevo lanzamiento de una variación de modelo específica. En el caso de los cambios rotundos, se proporcionará un aviso de 2 semanas por correo electrónico antes de que se cambie la versión anterior a la más reciente.

Por ejemplo: gemini-flash-latest.

Experimental

Apunta a un modelo experimental que, por lo general, no será adecuado para el uso en producción y tendrá límites de frecuencia más restrictivos. Lanzamos modelos experimentales para recopilar comentarios y poner nuestras actualizaciones más recientes en manos de los desarrolladores rápidamente.

Los modelos experimentales no son estables y la disponibilidad de los extremos del modelo está sujeta a cambios.

Bajas de modelos

Para obtener información sobre las bajas de modelos, visita la página de bajas de Gemini.