Modelos de Gemini

Variantes del modelo

La API de Gemini ofrece diferentes modelos optimizados para casos de uso específicos. A continuación, se incluye una breve descripción general de las variantes de Gemini disponibles:

Variante del modelo Entradas Salida Optimizado para
Gemini 1.5 Flash
gemini-1.5-flash
Audio, imágenes, videos y texto Texto Rendimiento rápido y versátil en una amplia variedad de tareas
Gemini 1.5 Flash-8B
gemini-1.5-flash-8b
Audio, imágenes, videos y texto Texto Tareas de alto volumen y menor inteligencia
Gemini 1.5 Pro
gemini-1.5-pro
Audio, imágenes, videos y texto Texto Tareas de razonamiento complejas que requieren más inteligencia
Gemini 1.0 Pro (obsoleto a partir del 15/2/2025)
gemini-1.0-pro
Texto Texto Tareas de lenguaje natural, chat de código y texto de varios turnos, y generación de código
Incorporación de texto
text-embedding-004
Texto Incorporaciones de texto Cómo medir la relación entre cadenas de texto
AQA
aqa
Texto Texto Proporcionar respuestas a preguntas basadas en fuentes

Gemini 1.5 Flash

Gemini 1.5 Flash es un modelo multimodal rápido y versátil para escalar en diversas tareas.

Probar en AI Studio

Detalles del modelo

Propiedad Descripción
Código de modelo models/gemini-1.5-flash
Tipos de datos admitidos

Entradas

Audio, imágenes, video y texto

Resultado

Texto

Límites de tokens[*]

Límite de tokens de entrada

1,048,576

Límite de tokens de salida

8,192

Especificaciones de audio y video

Cantidad máxima de imágenes por instrucción

3,600

Duración máxima del video

1 hora

Duración máxima del audio

Aproximadamente 9.5 horas

Límites de frecuencia[**]
Gratis:
  • 15 rpm
  • 1 millón de TPM
  • 1,500 RPD
Pay-as-you-go:
  • 2,000 RPM
  • 4 millones de TPM
Funciones de

Instrucciones del sistema

Admitido

Modo JSON

Admitido

Esquema JSON

Admitido

Configuración de seguridad ajustable

Admitido

Almacenamiento en caché

Admitido

Ajuste

Admitido

Llamada a función

Admitido

Ejecución de código

Admitido

Versiones
Lee los patrones de versiones de modelos para obtener más información.
  • Más reciente: gemini-1.5-flash-latest
  • Versión estable más reciente: gemini-1.5-flash
  • Estable:
    • gemini-1.5-flash-001
    • gemini-1.5-flash-002
  • Experimental:
    • gemini-1.5-flash-8b-exp-0924
    • gemini-1.5-flash-8b-exp-0827
    • gemini-1.5-flash-exp-0827
Actualización más reciente Septiembre de 2024

Gemini 1.5 Flash-8B

Gemini 1.5 Flash-8B es un modelo pequeño diseñado para tareas de menor inteligencia.

Probar en AI Studio

Detalles del modelo

Propiedad Descripción
Código de modelo models/gemini-1.5-flash-8b
Tipos de datos admitidos

Entradas

Audio, imágenes, video y texto

Resultado

Texto

Límites de tokens[*]

Límite de tokens de entrada

1,048,576

Límite de tokens de salida

8,192

Especificaciones de audio y video

Cantidad máxima de imágenes por instrucción

3,600

Duración máxima del video

1 hora

Duración máxima del audio

Aproximadamente 9.5 horas

Límites de frecuencia[**]
Gratis:
  • 15 rpm
  • 1 millón de TPM
  • 1,500 RPD
Pay-as-you-go:
  • 4,000 RPM
  • 4 millones de TPM
Funciones de

Instrucciones del sistema

Admitido

Modo JSON

Admitido

Esquema JSON

Admitido

Configuración de seguridad ajustable

Admitido

Almacenamiento en caché

Admitido

Ajuste

Admitido

Llamada a función

Admitido

Ejecución de código

Admitido

Versiones
Lee los patrones de versiones de modelos para obtener más información.
  • Más reciente: gemini-1.5-flash-8b-latest
  • Versión estable más reciente: gemini-1.5-flash-8b
  • Estable:
    • gemini-1.5-flash-8b-001
Actualización más reciente Octubre de 2024

Gemini 1.5 Pro

Gemini 1.5 Pro es un modelo multimodal de tamaño mediano que está optimizado para una amplia variedad de tareas de razonamiento. La versión 1.5 Pro puede procesar grandes cantidades de datos a la vez, incluidas 2 horas de video, 19 horas de audio, bases de código con 60,000 líneas de código o 2,000 páginas de texto.

Probar en AI Studio

Detalles del modelo

Propiedad Descripción
Código de modelo models/gemini-1.5-pro
Tipos de datos admitidos

Entradas

Audio, imágenes, video y texto

Resultado

Texto

Límites de tokens[*]

Límite de tokens de entrada

2,097,152

Límite de tokens de salida

8,192

Especificaciones de audio y video

Cantidad máxima de imágenes por instrucción

7,200

Duración máxima del video

2 horas

Duración máxima del audio

Aproximadamente 19 horas

Límites de frecuencia[**]
Gratis:
  • 2 rpm
  • 32,000 TPM
  • 50 RPD
Pay-as-you-go:
  • 1,000 RPM
  • 4 millones de TPM
Funciones de

Instrucciones del sistema

Admitido

Modo JSON

Admitido

Esquema JSON

Admitido

Configuración de seguridad ajustable

Admitido

Almacenamiento en caché

Admitido

Ajuste

No compatible

Llamada a función

Admitido

Ejecución de código

Admitido

Versiones
Lee los patrones de versiones de modelos para obtener más información.
  • Más reciente: gemini-1.5-pro-latest
  • Versión estable más reciente: gemini-1.5-pro
  • Estable:
    • gemini-1.5-pro-001
    • gemini-1.5-pro-002
  • Experimental:
    • gemini-1.5-pro-exp-0827
Actualización más reciente Septiembre de 2024

Gemini 1.0 Pro (obsoleto)

Gemini 1.0 Pro es un modelo de PLN que controla tareas como el chat de código y texto de varios turnos, y la generación de código.

Probar en AI Studio

Detalles del modelo

Propiedad Descripción
Código de modelo models/gemini-1.0-pro
Tipos de datos admitidos

Entrada

Texto

Resultado

Texto

Límites de frecuencia[**]
Gratis:
  • 15 rpm
  • 32,000 TPM
  • 1,500 RPD
Pay-as-you-go:
  • 360 RPM
  • 120,000 TPM
  • 30,000 RPD
Funciones de

Instrucciones del sistema

No compatible

Modo JSON

No compatible

Esquema JSON

No compatible

Configuración de seguridad ajustable

Admitido

Almacenamiento en caché

No compatible

Ajuste

Admitido

Llamada a función

Admitido

Configuración de llamadas a función

No compatible

Ejecución de código

No compatible

Versiones
  • Más reciente: gemini-1.0-pro-latest
  • Versión estable más reciente: gemini-1.0-pro
  • Estable: gemini-1.0-pro-001
Actualización más reciente Febrero de 2024

Incorporación de texto y de embeddings

Incorporación de texto

Las incorporaciones de texto se usan para medir la relación entre cadenas y se usan ampliamente en muchas aplicaciones de IA.

text-embedding-004 logra un rendimiento de recuperación más sólido y supera a los modelos existentes con dimensiones comparables en las comparativas de incorporación de MTEB estándar.

Detalles del modelo
Propiedad Descripción
Código de modelo

API de Gemini

models/text-embedding-004

Tipos de datos admitidos

Entrada

Texto

Resultado

Incorporaciones de texto

Límites de tokens[*]

Límite de tokens de entrada

2,048

Tamaño de la dimensión de salida

768

Límites de frecuencia[**] 1,500 solicitudes por minuto
Configuración de seguridad ajustable No compatible
Actualización más reciente Abril de 2024

Embedding

Puedes usar el modelo de incorporación para generar incorporaciones de texto para el texto de entrada.

El modelo de incorporación está optimizado para crear incorporaciones con 768 dimensiones para texto de hasta 2,048 tokens.

Detalles del modelo de incorporación
Propiedad Descripción
Código de modelo models/embedding-001
Tipos de datos admitidos

Entrada

Texto

Resultado

Incorporaciones de texto

Límites de tokens[*]

Límite de tokens de entrada

2,048

Tamaño de la dimensión de salida

768

Límites de frecuencia[**] 1,500 solicitudes por minuto
Configuración de seguridad ajustable No compatible
Actualización más reciente Diciembre de 2023

AQA

Puedes usar el modelo de AQA para realizar tareas relacionadas con la respuesta a preguntas atribuidas (AQA) en un documento, un corpus o un conjunto de pasajes. El modelo AQA muestra respuestas a preguntas que se basan en las fuentes proporcionadas, junto con la estimación de la probabilidad de respuesta.

Detalles del modelo

Propiedad Descripción
Código de modelo models/aqa
Tipos de datos admitidos

Entrada

Texto

Resultado

Texto

Idioma admitido Inglés
Límites de tokens[*]

Límite de tokens de entrada

7,168

Límite de tokens de salida

1,024

Límites de frecuencia[**] 1,500 solicitudes por minuto
Configuración de seguridad ajustable Admitido
Actualización más reciente Diciembre de 2023

Consulta los ejemplos para explorar las capacidades de estas variaciones de modelos.

[*] Un token equivale a cerca de 4 caracteres para los modelos de Gemini. 100 tokens son entre 60 y 80 palabras en inglés.

[**] RPM: Solicitudes por minuto
TPM: Tokens por minuto
RPD: Solicitudes por día
TPD: Tokens por día

Debido a las limitaciones de capacidad, no se garantizan los límites máximos de frecuencia especificados.

Patrones de nombres de versiones de modelos

Los modelos de Gemini están disponibles en versiones preliminares o estables. En tu código, puedes usar uno de los siguientes formatos de nombre de modelo para especificar qué modelo y versión deseas usar.

  • Más reciente: Indica la versión más reciente del modelo para una generación y una variación especificadas. El modelo subyacente se actualiza con frecuencia y podría ser una versión preliminar. Solo las apps y los prototipos de pruebas exploratorias deben usar este alias.

    Para especificar la versión más reciente, usa el siguiente patrón: <model>-<generation>-<variation>-latest. Por ejemplo, gemini-1.0-pro-latest

  • Más reciente estable: Hace referencia a la versión estable más reciente que se lanzó para la generación y variación de modelos especificadas.

    Para especificar la versión estable más reciente, usa el siguiente patrón: <model>-<generation>-<variation>. Por ejemplo, gemini-1.0-pro

  • Estable: Hace referencia a un modelo estable específico. Los modelos estables no cambian. La mayoría de las apps de producción deben usar un modelo estable específico.

    Para especificar una versión estable, usa el siguiente patrón: <model>-<generation>-<variation>-<version>. Por ejemplo, gemini-1.0-pro-001

  • Experimental: Hace referencia a un modelo experimental disponible en la versión preliminar, como se define en los Términos, lo que significa que no es para uso en producción. Lanzamos modelos experimentales para recopilar comentarios, poner nuestras actualizaciones más recientes en manos de los desarrolladores rápidamente y destacar el ritmo de innovación que se lleva a cabo en Google. Lo que aprendemos de los lanzamientos experimentales nos permite lanzar los modelos de forma más amplia. Un modelo experimental se puede intercambiar por otro sin aviso previo. No garantizamos que un modelo experimental se convierta en un modelo estable en el futuro.

    Para especificar una versión experimental, usa el siguiente patrón: <model>-<generation>-<variation>-<version>. Por ejemplo, gemini-1.5-pro-exp-0827

Idiomas disponibles

Los modelos de Gemini se entrenan para funcionar con los siguientes idiomas:

  • Árabe (ar)
  • Bengalí (bn)
  • Búlgaro (bg)
  • Chino simplificado y tradicional (zh)
  • Croata (hr)
  • Checo (cs)
  • Danés (da)
  • Neerlandés (nl)
  • Inglés (en)
  • Estonio (et)
  • Finés (fi)
  • Francés (fr)
  • Alemán (de)
  • Griego (el)
  • Hebreo (iw)
  • Hindi (hi)
  • Húngaro (hu)
  • Indonesio (id)
  • Italiano (it)
  • Japonés (ja)
  • Coreano (ko)
  • Letón (lv)
  • Lituano (lt)
  • Noruego (no)
  • Polaco (pl)
  • Portugués (pt)
  • Rumano (ro)
  • Ruso (ru)
  • Serbio (sr)
  • Eslovaco (sk)
  • Esloveno (sl)
  • Español (es)
  • Suajili (sw)
  • Sueco (sv)
  • Tailandés (th)
  • Turco (tr)
  • Ucraniano (uk)
  • Vietnamita (vi)