Grounding with Google Search ya está disponible. Más información

Se usó la API de Cloud Translation para traducir esta página.

Modelos de Gemini

1.5 Flash

Nuestro modelo multimodal más equilibrado con un gran rendimiento para la mayoría de las tareas

Ingresa audio, imágenes, video y texto, y obtén respuestas de texto
Generar código, extraer datos, editar texto y mucho más
Ideal para tareas que buscan equilibrar el rendimiento y el costo

1.5 Flash-8B

Nuestro modelo multimodal más rápido y rentable con un gran rendimiento para tareas de alta frecuencia

Ingresa audio, imágenes, video y texto, y obtén respuestas de texto
Generar código, extraer datos, editar texto y mucho más
Es mejor para tareas de alta frecuencia y menor inteligencia.

1.5 Pro

Nuestro modelo multimodal con mejor rendimiento y funciones para una amplia variedad de tareas de razonamiento

Ingresa audio, imágenes, video y texto, y obtén respuestas de texto
Generar código, extraer datos, editar texto y mucho más
Para cuando necesites un aumento en el rendimiento

Variantes del modelo

La API de Gemini ofrece diferentes modelos optimizados para casos de uso específicos. A continuación, se incluye una breve descripción general de las variantes de Gemini disponibles:

Variante del modelo	Entradas	Salida	Optimizado para
Gemini 1.5 Flash `gemini-1.5-flash`	Audio, imágenes, videos y texto	Texto	Rendimiento rápido y versátil en una amplia variedad de tareas
Gemini 1.5 Flash-8B `gemini-1.5-flash-8b`	Audio, imágenes, videos y texto	Texto	Tareas de alto volumen y menor inteligencia
Gemini 1.5 Pro `gemini-1.5-pro`	Audio, imágenes, videos y texto	Texto	Tareas de razonamiento complejas que requieren más inteligencia
Gemini 1.0 Pro (obsoleto a partir del 15/2/2025) `gemini-1.0-pro`	Texto	Texto	Tareas de lenguaje natural, chat de código y texto de varios turnos, y generación de código
Incorporación de texto `text-embedding-004`	Texto	Incorporaciones de texto	Cómo medir la relación entre cadenas de texto
AQA `aqa`	Texto	Texto	Proporcionar respuestas a preguntas basadas en fuentes

Gemini 1.5 Flash

Gemini 1.5 Flash es un modelo multimodal rápido y versátil para escalar en diversas tareas.

Probar en AI Studio

Detalles del modelo

Propiedad	Descripción
Código de modelo	`models/gemini-1.5-flash`
Tipos de datos admitidos	Entradas Audio, imágenes, video y texto Resultado Texto
Límites de tokens^[*]	Límite de tokens de entrada 1,048,576 Límite de tokens de salida 8,192
Especificaciones de audio y video	Cantidad máxima de imágenes por instrucción 3,600 Duración máxima del video 1 hora Duración máxima del audio Aproximadamente 9.5 horas
Límites de frecuencia^[**]	Gratis: 15 rpm 1 millón de TPM 1,500 RPD Pay-as-you-go: 2,000 RPM 4 millones de TPM
Funciones de	Instrucciones del sistema Admitido Modo JSON Admitido Esquema JSON Admitido Configuración de seguridad ajustable Admitido Almacenamiento en caché Admitido Ajuste Admitido Llamada a función Admitido Ejecución de código Admitido
Versiones	Lee los patrones de versiones de modelos para obtener más información. Más reciente: `gemini-1.5-flash-latest` Versión estable más reciente: `gemini-1.5-flash` Estable: `gemini-1.5-flash-001` `gemini-1.5-flash-002` Experimental: `gemini-1.5-flash-8b-exp-0924` `gemini-1.5-flash-8b-exp-0827` `gemini-1.5-flash-exp-0827`
Actualización más reciente	Septiembre de 2024

Gemini 1.5 Flash-8B

Gemini 1.5 Flash-8B es un modelo pequeño diseñado para tareas de menor inteligencia.

Probar en AI Studio

Detalles del modelo

Propiedad	Descripción
Código de modelo	`models/gemini-1.5-flash-8b`
Tipos de datos admitidos	Entradas Audio, imágenes, video y texto Resultado Texto
Límites de tokens^[*]	Límite de tokens de entrada 1,048,576 Límite de tokens de salida 8,192
Especificaciones de audio y video	Cantidad máxima de imágenes por instrucción 3,600 Duración máxima del video 1 hora Duración máxima del audio Aproximadamente 9.5 horas
Límites de frecuencia^[**]	Gratis: 15 rpm 1 millón de TPM 1,500 RPD Pay-as-you-go: 4,000 RPM 4 millones de TPM
Funciones de	Instrucciones del sistema Admitido Modo JSON Admitido Esquema JSON Admitido Configuración de seguridad ajustable Admitido Almacenamiento en caché Admitido Ajuste Admitido Llamada a función Admitido Ejecución de código Admitido
Versiones	Lee los patrones de versiones de modelos para obtener más información. Más reciente: `gemini-1.5-flash-8b-latest` Versión estable más reciente: `gemini-1.5-flash-8b` Estable: `gemini-1.5-flash-8b-001`
Actualización más reciente	Octubre de 2024

Gemini 1.5 Pro

Gemini 1.5 Pro es un modelo multimodal de tamaño mediano que está optimizado para una amplia variedad de tareas de razonamiento. La versión 1.5 Pro puede procesar grandes cantidades de datos a la vez, incluidas 2 horas de video, 19 horas de audio, bases de código con 60,000 líneas de código o 2,000 páginas de texto.

Probar en AI Studio

Detalles del modelo

Propiedad	Descripción
Código de modelo	`models/gemini-1.5-pro`
Tipos de datos admitidos	Entradas Audio, imágenes, video y texto Resultado Texto
Límites de tokens^[*]	Límite de tokens de entrada 2,097,152 Límite de tokens de salida 8,192
Especificaciones de audio y video	Cantidad máxima de imágenes por instrucción 7,200 Duración máxima del video 2 horas Duración máxima del audio Aproximadamente 19 horas
Límites de frecuencia^[**]	Gratis: 2 rpm 32,000 TPM 50 RPD Pay-as-you-go: 1,000 RPM 4 millones de TPM
Funciones de	Instrucciones del sistema Admitido Modo JSON Admitido Esquema JSON Admitido Configuración de seguridad ajustable Admitido Almacenamiento en caché Admitido Ajuste No compatible Llamada a función Admitido Ejecución de código Admitido
Versiones	Lee los patrones de versiones de modelos para obtener más información. Más reciente: `gemini-1.5-pro-latest` Versión estable más reciente: `gemini-1.5-pro` Estable: `gemini-1.5-pro-001` `gemini-1.5-pro-002` Experimental: `gemini-1.5-pro-exp-0827`
Actualización más reciente	Septiembre de 2024

Gemini 1.0 Pro (obsoleto)

Gemini 1.0 Pro es un modelo de PLN que controla tareas como el chat de código y texto de varios turnos, y la generación de código.

Probar en AI Studio

Detalles del modelo

Propiedad	Descripción
Código de modelo	`models/gemini-1.0-pro`
Tipos de datos admitidos	Entrada Texto Resultado Texto
Límites de frecuencia^[**]	Gratis: 15 rpm 32,000 TPM 1,500 RPD Pay-as-you-go: 360 RPM 120,000 TPM 30,000 RPD
Funciones de	Instrucciones del sistema No compatible Modo JSON No compatible Esquema JSON No compatible Configuración de seguridad ajustable Admitido Almacenamiento en caché No compatible Ajuste Admitido Llamada a función Admitido Configuración de llamadas a función No compatible Ejecución de código No compatible
Versiones	Más reciente: `gemini-1.0-pro-latest` Versión estable más reciente: `gemini-1.0-pro` Estable: `gemini-1.0-pro-001`
Actualización más reciente	Febrero de 2024

Nota: gemini-pro es un alias para gemini-1.0-pro.

Incorporación de texto y de embeddings

Incorporación de texto

Las incorporaciones de texto se usan para medir la relación entre cadenas y se usan ampliamente en muchas aplicaciones de IA.

text-embedding-004 logra un rendimiento de recuperación más sólido y supera a los modelos existentes con dimensiones comparables en las comparativas de incorporación de MTEB estándar.

Detalles del modelo

Propiedad	Descripción
Código de modelo	API de Gemini `models/text-embedding-004`
Tipos de datos admitidos	Entrada Texto Resultado Incorporaciones de texto
Límites de tokens^[*]	Límite de tokens de entrada 2,048 Tamaño de la dimensión de salida 768
Límites de frecuencia^[**]	1,500 solicitudes por minuto
Configuración de seguridad ajustable	No compatible
Actualización más reciente	Abril de 2024

Embedding

Puedes usar el modelo de incorporación para generar incorporaciones de texto para el texto de entrada.

El modelo de incorporación está optimizado para crear incorporaciones con 768 dimensiones para texto de hasta 2,048 tokens.

Detalles del modelo de incorporación

Propiedad	Descripción
Código de modelo	`models/embedding-001`
Tipos de datos admitidos	Entrada Texto Resultado Incorporaciones de texto
Límites de tokens^[*]	Límite de tokens de entrada 2,048 Tamaño de la dimensión de salida 768
Límites de frecuencia^[**]	1,500 solicitudes por minuto
Configuración de seguridad ajustable	No compatible
Actualización más reciente	Diciembre de 2023

AQA

Puedes usar el modelo de AQA para realizar tareas relacionadas con la respuesta a preguntas atribuidas (AQA) en un documento, un corpus o un conjunto de pasajes. El modelo AQA muestra respuestas a preguntas que se basan en las fuentes proporcionadas, junto con la estimación de la probabilidad de respuesta.

Detalles del modelo

Propiedad	Descripción
Código de modelo	`models/aqa`
Tipos de datos admitidos	Entrada Texto Resultado Texto
Idioma admitido	Inglés
Límites de tokens^[*]	Límite de tokens de entrada 7,168 Límite de tokens de salida 1,024
Límites de frecuencia^[**]	1,500 solicitudes por minuto
Configuración de seguridad ajustable	Admitido
Actualización más reciente	Diciembre de 2023

Consulta los ejemplos para explorar las capacidades de estas variaciones de modelos.

[*] Un token equivale a cerca de 4 caracteres para los modelos de Gemini. 100 tokens son entre 60 y 80 palabras en inglés.

[**] RPM: Solicitudes por minuto
TPM: Tokens por minuto
RPD: Solicitudes por día
TPD: Tokens por día

Debido a las limitaciones de capacidad, no se garantizan los límites máximos de frecuencia especificados.

Patrones de nombres de versiones de modelos

Los modelos de Gemini están disponibles en versiones preliminares o estables. En tu código, puedes usar uno de los siguientes formatos de nombre de modelo para especificar qué modelo y versión deseas usar.

Más reciente: Indica la versión más reciente del modelo para una generación y una variación especificadas. El modelo subyacente se actualiza con frecuencia y podría ser una versión preliminar. Solo las apps y los prototipos de pruebas exploratorias deben usar este alias.

Para especificar la versión más reciente, usa el siguiente patrón: <model>-<generation>-<variation>-latest. Por ejemplo, gemini-1.0-pro-latest
Más reciente estable: Hace referencia a la versión estable más reciente que se lanzó para la generación y variación de modelos especificadas.

Para especificar la versión estable más reciente, usa el siguiente patrón: <model>-<generation>-<variation>. Por ejemplo, gemini-1.0-pro
Estable: Hace referencia a un modelo estable específico. Los modelos estables no cambian. La mayoría de las apps de producción deben usar un modelo estable específico.

Para especificar una versión estable, usa el siguiente patrón: <model>-<generation>-<variation>-<version>. Por ejemplo, gemini-1.0-pro-001
Experimental: Hace referencia a un modelo experimental disponible en la versión preliminar, como se define en los Términos, lo que significa que no es para uso en producción. Lanzamos modelos experimentales para recopilar comentarios, poner nuestras actualizaciones más recientes en manos de los desarrolladores rápidamente y destacar el ritmo de innovación que se lleva a cabo en Google. Lo que aprendemos de los lanzamientos experimentales nos permite lanzar los modelos de forma más amplia. Un modelo experimental se puede intercambiar por otro sin aviso previo. No garantizamos que un modelo experimental se convierta en un modelo estable en el futuro.

Para especificar una versión experimental, usa el siguiente patrón: <model>-<generation>-<variation>-<version>. Por ejemplo, gemini-1.5-pro-exp-0827

Idiomas disponibles

Los modelos de Gemini se entrenan para funcionar con los siguientes idiomas:

Árabe (ar)
Bengalí (bn)
Búlgaro (bg)
Chino simplificado y tradicional (zh)
Croata (hr)
Checo (cs)
Danés (da)
Neerlandés (nl)
Inglés (en)
Estonio (et)
Finés (fi)
Francés (fr)
Alemán (de)
Griego (el)
Hebreo (iw)
Hindi (hi)
Húngaro (hu)
Indonesio (id)
Italiano (it)
Japonés (ja)
Coreano (ko)
Letón (lv)
Lituano (lt)
Noruego (no)
Polaco (pl)
Portugués (pt)
Rumano (ro)
Ruso (ru)
Serbio (sr)
Eslovaco (sk)
Esloveno (sl)
Español (es)
Suajili (sw)
Sueco (sv)
Tailandés (th)
Turco (tr)
Ucraniano (uk)
Vietnamita (vi)