Gemini

Variantes del modelo

La API de Gemini ofrece diferentes modelos que están optimizados para usos específicos diferentes. Esta es una descripción general breve de las variantes de Gemini disponibles:

Variante del modelo Entradas Salida Optimizado para
Gemini 1.5 Pro
(gemini-1.5-pro)
Audio, imágenes, videos y texto Texto Tareas de razonamiento complejas, como la generación de código y texto edición de texto, resolución de problemas, extracción y generación de datos
Gemini 1.5
(gemini-1.5-flash)
Audio, imágenes, videos y texto Texto Rendimiento rápido y versátil en una gran variedad de tareas
Gemini 1.0 Pro
(gemini-1.0-pro)
Texto Texto Tareas de lenguaje natural, chat de código y texto de varios turnos, y código generación
(Obsoleto) Gemini 1.0 Pro Vision
(gemini-pro-vision)
Imágenes, videos y texto Texto Tareas relacionadas con elementos visuales, como generar imágenes descripciones o identificar objetos en imágenes
Incorporación de texto
(text-embedding-004)
Texto Incorporaciones de texto Medir la relación de las cadenas de texto
ICA
(aqa)
Texto Texto Brindar respuestas fundamentadas a las preguntas

En la siguiente tabla, se describen los atributos de los modelos de Gemini que son comunes a todas las variantes del modelo:

Atributo Descripción
Datos de entrenamiento El límite de conocimiento de Gemini es noviembre de 2023. El conocimiento sobre los eventos posteriores a ese tiempo es limitado.
Idiomas admitidos Consulta los idiomas disponibles
Parámetros configurables del modelo
  • Top-P
  • Top-K
  • Temperatura
  • Secuencia de detención
  • Longitud máxima de salida
  • Cantidad de candidatos de respuesta

Consulta los parámetros del modelo de la y los modelos generativos para obtener información sobre cada uno de estos parámetros.

Gemini 1.5 Flash

Gemini 1.5 Flash es un modelo multimodal rápido y versátil para escalar tareas diversas.

Probar en AI Studio

Detalles del modelo

Propiedad Descripción
Código de modelo models/gemini-1.5-flash
Tipos de datos admitidos

Entradas

Audio, imágenes, video y texto

Resultado

Texto

Límites de tokens[*]

Límite de tokens de entrada

1.048.576

Límite de tokens de salida

8,192

Especificaciones audiovisual

Cantidad máxima de imágenes por instrucción

3,600

Duración máxima del video

1 hora

Duración máxima del audio

Aproximadamente 9.5 horas

Límites de frecuencia[**]
Gratis:
  • 15 RPM
  • 1 millón de TPM
  • RPD 1,500
Pay-as-you-go:
  • 1,000 RPM
  • 2 millones de TPM

Instrucciones del sistema

Admitido

Modo JSON

Admitido

Esquema de JSON

No compatible

Configuración de seguridad ajustable

Admitido

Almacenamiento en caché

Admitido

Ajuste

No compatible

Llamada a función

Admitido

Configuración de llamadas a funciones

Admitido

Ejecución de código

Admitido

Última actualización Mayo de 2024

Gemini 1.5 Pro

Gemini 1.5 Pro es un modelo multimodal de tamaño medio optimizado para una amplia gama de tareas de razonamiento. 1.5 Pro puede procesar grandes cantidades de datos a la vez, lo que incluye 2 horas de video, 19 horas de audio, bases de código con 60,000 líneas de código o 2,000 páginas de texto.

Probar en AI Studio

Detalles del modelo

Propiedad Descripción
Código de modelo models/gemini-1.5-pro
Tipos de datos admitidos

Entradas

Audio, imágenes, video y texto

Resultado

Texto

Límites de tokens[*]

Límite de tokens de entrada

2.097.152

Límite de tokens de salida

8,192

Especificaciones audiovisual

Cantidad máxima de imágenes por instrucción

7,200

Duración máxima del video

2 horas

Duración máxima del audio

Aproximadamente 19 horas

Límites de frecuencia[**]
Gratis:
  • 2 RPM
  • 32,000 TPM
  • 50 RPD
Pay-as-you-go:
  • 360 RPM
  • 2 millones de TPM
  • RPD 10,000

Instrucciones del sistema

Admitido

Modo JSON

Admitido

Esquema de JSON

Admitido

Configuración de seguridad ajustable

Admitido

Almacenamiento en caché

Admitido

Ajuste

No compatible

Llamada a función

Admitido

Configuración de llamadas a funciones

Admitido

Ejecución de código

Admitido

Última actualización Mayo de 2024

Gemini 1.0 Pro

Gemini 1.0 Pro es un modelo de PLN que maneja tareas como texto de varios turnos y el chat de código y la generación de código.

Probar en AI Studio

Detalles del modelo

Propiedad Descripción
Código de modelo models/gemini-1.0-pro
Tipos de datos admitidos

Entrada

Texto

Resultado

Texto

Límites de frecuencia[**]
Gratis:
  • 15 RPM
  • 32,000 TPM
  • RPD 1,500
Pay-as-you-go:
  • 360 RPM
  • 120 000 TPM
  • RPD 30,000

Instrucciones del sistema

No compatible

Modo JSON

No compatible

Esquema de JSON

No compatible

Configuración de seguridad ajustable

Admitido

Almacenamiento en caché

No compatible

Ajuste

Admitido

Llamada a función

Admitido

Configuración de llamadas a funciones

No compatible

Ejecución de código

No compatible

Última actualización Febrero de 2024

Gemini 1.0 Pro Vision (obsoleto)

Gemini 1.0 Pro Vision es un modelo multimodal optimizado para el rendimiento capaz de realizar tareas visuales. Por ejemplo, 1.0 Pro Vision puede generar descripciones de imágenes, identificar objetos presentes en imágenes, proporcionar información sobre lugares u objetos presentes en imágenes, entre otros.

Detalles del modelo

Propiedad Descripción
Código de modelo models/gemini-pro-vision
Tipos de datos admitidos

Entradas

Imágenes, video y texto

Resultado

Texto

Límites de tokens[*]

Límite de tokens de entrada

12,288

Límite de tokens de salida

4,096

Especificaciones audiovisual

Duración máxima del video

2 minutos

Límites de frecuencia[**] 60 solicitudes por minuto

Instrucciones del sistema

No compatible

Modo JSON

No compatible

Esquema de JSON

No compatible

Configuración de seguridad ajustable

Admitido

Almacenamiento en caché

No compatible

Ajuste

No compatible

Llamada a función

Admitido

Configuración de llamadas a funciones

No compatible

Ejecución de código

No compatible

Última actualización Diciembre de 2023

Incorporación de texto

Incorporación de texto

Puedes usar el modelo de incorporación de texto para generar incorporaciones de texto para texto de entrada. Para obtener más información sobre el modelo de incorporación de texto, visita la Documentación de IA generativa en Vertex AI sobre las incorporaciones de texto.

El modelo de incorporación de texto está optimizado para crear incorporaciones con 768 dimensiones para texto de hasta 2,048 tokens. La incorporación de texto ofrece elástico incluso por debajo de 768. Puedes usar incorporaciones elásticas para generar dimensiones de salida más pequeñas y, potencialmente, ahorrar costos de procesamiento y almacenamiento con una leve pérdida de rendimiento.

Detalles del modelo
Propiedad Descripción
Código de modelo

API de Gemini

models/text-embedding-004

Vertex AI

text-embedding-preview-0409

Tipos de datos admitidos

Entrada

Texto

Resultado

Incorporaciones de texto

Límites de tokens[*]

Límite de tokens de entrada

2,048

Tamaño de la dimensión de salida

768

Límites de frecuencia[**] 1,500 solicitudes por minuto
Configuración de seguridad ajustable No compatible
Última actualización Abril de 2024

Incorporación

Puedes usar el modelo de incorporación para generar incorporaciones de texto para texto de entrada.

El modelo de incorporación está optimizado para crear incorporaciones con 768 dimensiones para texto de hasta 2,048 tokens.

Detalles del modelo de incorporación
Propiedad Descripción
Código de modelo models/embedding-001
Tipos de datos admitidos

Entrada

Texto

Resultado

Incorporaciones de texto

Límites de tokens[*]

Límite de tokens de entrada

2,048

Tamaño de la dimensión de salida

768

Límites de frecuencia[**] 1,500 solicitudes por minuto
Configuración de seguridad ajustable No compatible
Última actualización Diciembre de 2023

ICA

Puedes usar el modelo AQA para realizar Preguntas atribuidas (AQA) sobre un documento, un corpus o un conjunto de pasajes. El AQA modelo devuelve respuestas a preguntas que se basan en las fuentes proporcionadas, y la estimación de probabilidades de respuesta.

Detalles del modelo

Propiedad Descripción
Código de modelo models/aqa
Tipos de datos admitidos

Entrada

Texto

Resultado

Texto

Idioma admitido Inglés
Límites de tokens[*]

Límite de tokens de entrada

7,168

Límite de tokens de salida

1,024

Límites de frecuencia[**] 1,500 solicitudes por minuto
Configuración de seguridad ajustable Admitido
Última actualización Diciembre de 2023

Consulta los ejemplos para explorar las capacidades de estos modelos. variaciones.

[*] Un token equivale a aproximadamente 4 caracteres en los modelos de Gemini. 100 tokens hay entre 60 y 80 palabras en inglés.

[**] RPM: Solicitudes por minuto
TPM: Tokens por minuto
RPD: Solicitudes por día
TPD: Tokens por día

Debido a las limitaciones de capacidad, no se especifican los límites de frecuencia máxima garantizada.

Patrones de nombre de versión del modelo

Los modelos de Gemini están disponibles en versiones de vista previa o estable. En tu código, puedes usar uno de los siguientes formatos de nombre de modelo para especificar y la versión que quieres usar.

  • Más reciente: Apunta a la versión de vanguardia del modelo para un determinado generación y variación. El modelo subyacente se actualiza con regularidad y podría ser una versión preliminar. Solo se deben realizar pruebas exploratorias de apps y prototipos usa este alias.

    Para especificar la última versión, usa el siguiente patrón: <model>-<generation>-<variation>-latest. Por ejemplo, gemini-1.0-pro-latest

  • Estable más reciente: Hace referencia a la versión estable más reciente que se lanzó para el la generación y variación del modelo especificado.

    Para especificar la versión estable más reciente, usa el siguiente patrón: <model>-<generation>-<variation>. Por ejemplo, gemini-1.0-pro

  • Estable: Apunta a un modelo estable específico. Los modelos estables no cambian. La mayoría de las apps de producción deberían usar un modelo estable específico.

    Para especificar una versión estable, usa el siguiente patrón: <model>-<generation>-<variation>-<version>. Por ejemplo, gemini-1.0-pro-001

Idiomas disponibles

Los modelos de Gemini se entrenan para funcionar con los siguientes lenguajes:

  • Árabe (ar)
  • Bengalí (bn)
  • Búlgaro (bg)
  • Chino simplificado y tradicional (zh)
  • Croata (hr)
  • Checo (cs)
  • Danés (da)
  • Neerlandés (nl)
  • Inglés (en)
  • Estonio (et)
  • Finés (fi)
  • Francés (fr)
  • Alemán (de)
  • Griego (el)
  • Hebreo (iw)
  • Hindi (hi)
  • Húngaro (hu)
  • Indonesio (id)
  • Italiano (it)
  • Japonés (ja)
  • Coreano (ko)
  • Letón (lv)
  • Lituano (lt)
  • Noruego (no)
  • Polaco (pl)
  • Portugués (pt)
  • Rumano (ro)
  • Ruso (ru)
  • Serbio (sr)
  • Eslovaco (sk)
  • Esloveno (sl)
  • Español (es)
  • Suajili (sw)
  • Sueco (sv)
  • Tailandés (th)
  • Turco (tr)
  • Ucraniano (uk)
  • Vietnamita (vi)