Gemini

Gemini es una familia de modelos de IA generativa que permite a los desarrolladores generar contenido y resolver problemas. Estos modelos están diseñados y entrenados para controlar imágenes y texto como entrada. En esta guía, se proporciona información sobre cada variante del modelo a fin de ayudarte a decidir cuál es la mejor para tu caso de uso.

Idiomas disponibles

Los modelos de Gemini están entrenados para funcionar con los siguientes idiomas: árabe (ar), bengalí (bn), búlgaro (bg), chino simplificado y tradicional (zh), croata (hr), checo (cs), danés (da), holandés (nl), inglés (en), estoniano (et), inglés (en), Estoniano (et), finés (bnzh), (italiano) (bn), búlgaro (bg) y japonés (zh), japonészh, (ar) y japonésbg, (ar)zh, japonésbg), (ar)zh, japonésbg y búlgaro (4/}), búlgaro (bg) y búlgaro (bg/}), japonés (bn)bn, japonésbn), búlgaro (4//}), búlgaro (bg) y búlgaro (zh) (12/}), chino simplificado y tradicional (zh) (12/}), japonés (bn).fifrdeeliwhihuiditjakolvltnoplptrorusrskslesswsvthtrukvi

Los modelos PaLM solo funcionan bien con el idioma inglés. El uso de otros lenguajes puede producir resultados inesperados.

Variantes del modelo

La API de Gemini ofrece diferentes modelos que están optimizados para casos de uso específicos. Esta es una descripción general breve de las variantes de Gemini disponibles:

Variante del modelo Entradas Salida Optimizado para
Gemini 1.5 Pro (versión preliminar) Audio, imágenes, videos y texto Texto Tareas de razonamiento que incluyen, sin limitaciones, generación de código y texto, edición de texto, resolución de problemas, extracción y generación de datos
Gemini 1.5 Flash (versión preliminar) Audio, imágenes, videos y texto Texto Rendimiento rápido y versátil en una gran variedad de tareas
Gemini 1.0 Pro Texto Texto Tareas de lenguaje natural, chat de código y texto de varios turnos, y generación de código
Gemini 1.0 Pro Vision Imágenes, videos y texto Texto Rendimiento optimizado para tareas relacionadas con elementos visuales, como generar descripciones de imágenes o identificar objetos en imágenes
Incorporación de texto Texto Incorporaciones de texto Genera incorporaciones de texto elásticas con hasta 768 dimensiones para texto de hasta 2,048 tokens
Incorporación Texto Incorporaciones de texto Genera incorporaciones de texto con 768 dimensiones para texto de hasta 2,048 tokens
ICA Texto Texto Realizar tareas relacionadas con preguntas atribuidas a partir del texto proporcionado

En la siguiente tabla, se describen los atributos de los modelos de Gemini que son comunes para todas las variantes de modelos:

Atributo Descripción
Datos de entrenamiento El límite de conocimiento de Gemini será a principios de 2023. El conocimiento sobre los eventos posteriores a ese tiempo es limitado.
Idiomas admitidos Consulta los idiomas disponibles
Parámetros configurables del modelo
  • Top-P
  • Top-K
  • Temperatura
  • Secuencia de detención
  • Longitud máxima de salida
  • Cantidad de candidatos de respuesta

Consulta la sección de parámetros del modelo de la guía de modelos generativos para obtener información sobre cada uno de estos parámetros.

Gemini 1.5 Pro (versión preliminar)

Gemini 1.5 Pro es un modelo multimodal de tamaño medio optimizado para una amplia gama de tareas de razonamiento, como las siguientes:

  • Generación de código
  • Generación de texto
  • Edición de texto
  • Solución de problemas
  • Generación de recomendaciones
  • Extracción de información
  • Extracción o generación de datos
  • Creación de agentes de IA

1.5 Pro puede procesar grandes cantidades de datos a la vez, incluidas 1 hora de video, 9.5 horas de audio, bases de código con más de 30,000 líneas de código o más de 700,000 palabras.

1.5 Pro es capaz de realizar tareas de aprendizaje sin ejemplos, en uno o con ejemplos limitados.

Detalles del modelo

Propiedad Descripción
Código del modelo models/gemini-1.5-pro-latest
Entradas Audio, imágenes, video y texto
Salida Texto
Métodos de generación compatibles generateContent
Límite de tokens de entrada[**] 1.048.576
Límite de tokens de salida[**] 8,192
Cantidad máxima de imágenes por instrucción 3,600
Duración máxima del video 1 hora
Duración máxima del audio Aproximadamente 9.5 horas
Cantidad máxima de archivos de audio por instrucción 1
Seguridad del modelo Configuración de seguridad aplicada automáticamente que los desarrolladores pueden ajustar. Consulta nuestra página sobre la configuración de seguridad para obtener más detalles.
Límites de frecuencia[*]
Gratis:
  • 2 RPM
  • 32,000 TPM
  • 50 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 RPM
  • 10 millones de TPM
  • RPD 10,000
  • 14,400,000,000 de TPD
Dos millones de contexto:
  • 1 RPM
  • 2 millones de TPM
  • 50 RPD
Instrucciones del sistema Admitido
Modo JSON Admitido
Última versión gemini-1.5-pro-latest
Última versión estable gemini-1.5-pro
Actualización más reciente Abril de 2024

Gemini 1.5 Flash (versión preliminar)

Gemini 1.5 Flash es un modelo multimodal rápido y versátil para escalar en diversas tareas.

Detalles del modelo

Propiedad Descripción
Código del modelo gemini-1.5-flash-latest
Entradas Audio, imágenes, video y texto
Salida Texto
Métodos de generación compatibles generateContent
Límite de tokens de entrada[**] 1.048.576
Límite de tokens de salida[**] 8,192
Cantidad máxima de imágenes por instrucción 3,600
Duración máxima del video 1 hora
Duración máxima del audio Aproximadamente 9.5 horas
Cantidad máxima de archivos de audio por instrucción 1
Seguridad del modelo Configuración de seguridad aplicada automáticamente que los desarrolladores pueden ajustar. Consulta nuestra página sobre la configuración de seguridad para obtener más detalles.
Límites de frecuencia[*]
Gratis:
  • 15 RPM
  • 1 millón de TPM
  • RPD 1,500
Pay-as-you-go:
  • 360 RPM
  • 10 millones de TPM
  • RPD 10,000
Instrucciones del sistema Admitido
Modo JSON Admitido
Última versión gemini-1.5-flash-latest
Última versión estable gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro es un modelo de PLN que maneja tareas como texto de varios turnos, chat de código y generación de código.

1.0 Pro es capaz de realizar tareas de aprendizaje sin ejemplos, en uno o con ejemplos limitados.

Detalles del modelo

Propiedad Descripción
Código del modelo models/gemini-pro
Entrada Texto
Salida Texto
Métodos de generación compatibles
Python: generate_content
REST: generateContent
Límites de frecuencia[*]
Gratis:
  • 15 RPM
  • 32,000 TPM
  • RPD 1,500
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 RPM
  • 120 000 TPM
  • RPD 30,000
  • 172,800,000 TPD
Instrucciones del sistema No compatible
Modo JSON No compatible
Última versión gemini-1.0-pro-latest
Última versión estable gemini-1.0-pro
Versiones estables gemini-1.0-pro-001
Actualización más reciente February 2024

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision es un modelo multimodal optimizado para el rendimiento que puede realizar tareas relacionadas con los aspectos visuales. Por ejemplo, 1.0 Pro Vision puede generar descripciones de imágenes, identificar objetos presentes en imágenes, proporcionar información sobre objetos o lugares presentes en imágenes, y mucho más.

1.0 Pro Vision es capaz de realizar tareas sin ejemplos, con uno y con pocos intentos.

Detalles del modelo

Propiedad Descripción
Código del modelo models/gemini-pro-vision
Entradas Texto, imágenes y video
Salida Texto
Métodos de generación compatibles
Python: generate_content
REST: generateContent
Límite del token de entrada[*] 12,288
Límite de tokens de salida[*] 4,096
Tamaño máximo de la imagen Sin límite
Cantidad máxima de imágenes por instrucción 16
Duración máxima del video 2 minutos
Cantidad máxima de videos por instrucción 1
Seguridad del modelo Configuración de seguridad aplicada automáticamente que los desarrolladores pueden ajustar. Consulta nuestra página sobre la configuración de seguridad para obtener más detalles.
Límite de frecuencia[*] 60 solicitudes por minuto
Última versión gemini-1.0-pro-vision-latest
Última versión estable gemini-1.0-pro-vision
Actualización más reciente Diciembre de 2023

Incorporación de texto

Incorporación de texto

Puedes usar el modelo de incorporación de texto a fin de generar incorporaciones de texto para el texto de entrada. Para obtener más información sobre el modelo de incorporación de texto, consulta la documentación de IA generativa en Vertex AI sobre las incorporaciones de texto.

El modelo de incorporación de texto está optimizado para crear incorporaciones con 768 dimensiones para texto de hasta 2,048 tokens. La incorporación de texto ofrece tamaños de incorporación elásticos inferiores a 768. Puedes usar incorporaciones elásticas para generar dimensiones de salida más pequeñas y, potencialmente, ahorrar costos de procesamiento y almacenamiento con una pequeña pérdida de rendimiento.

Detalles del modelo
Propiedad Descripción
Código del modelo models/text-embedding-004 (text-embedding-preview-0409 en Vertex AI)
Entrada Texto
Salida Incorporaciones de texto
Límite de tokens de entrada 2,048
Tamaño de la dimensión de salida 768
Métodos de generación compatibles
Python: embed_content
REST: embedContent
Seguridad del modelo Sin configuración de seguridad ajustable.
Límite de frecuencia[*] 1,500 solicitudes por minuto
Actualización más reciente Abril de 2024

Embedding

Puedes usar el modelo de incorporación para generar incorporaciones de texto para el texto de entrada.

El modelo de incorporación está optimizado para crear incorporaciones con 768 dimensiones para texto de hasta 2,048 tokens.

Detalles del modelo de incorporación
Propiedad Descripción
Código del modelo models/embedding-001
Entrada Texto
Salida Incorporaciones de texto
Límite de tokens de entrada 2,048
Tamaño de la dimensión de salida 768
Métodos de generación compatibles
Python: embed_content
REST: embedContent
Seguridad del modelo Sin configuración de seguridad ajustable.
Límite de frecuencia[*] 1,500 solicitudes por minuto
Actualización más reciente Diciembre de 2023

ICA

Puedes usar el modelo de AQA para realizar tareas relacionadas con la respuesta de preguntas atribuidas (AQA) en un documento, corpus o un conjunto de pasajes. El modelo de AQA muestra respuestas a preguntas que se basan en las fuentes proporcionadas, junto con una estimación de la probabilidad respondible.

Detalles del modelo

Propiedad Descripción
Código del modelo models/aqa
Entrada Texto
Salida Texto
Métodos de generación compatibles
Python: GenerateAnswerRequest
REST: generateAnswer
Idiomas admitidos Inglés
Límite de tokens de entrada[**] 7,168
Límite de tokens de salida[**] 1,024
Seguridad del modelo Configuración de seguridad aplicada automáticamente que los desarrolladores pueden ajustar. Consulta nuestra página sobre la configuración de seguridad para obtener más detalles.
Límite de frecuencia[*] 60 solicitudes por minuto
Actualización más reciente Diciembre de 2023

Consulta los ejemplos para explorar las capacidades de estas variaciones del modelo.

[*] Un token equivale a aproximadamente 4 caracteres en los modelos de Gemini. 100 tokens son entre 60 y 80 palabras en inglés.

[**] RPM: Solicitudes por minuto
TPM: Tokens por minuto
RPD: Solicitudes por día
TPD: Tokens por día

Debido a las limitaciones de capacidad, no se garantizan los límites de frecuencia máximo especificados.

Patrones de nombre de versión del modelo

Los modelos de Gemini están disponibles en versiones de vista previa o estable. En tu código, puedes usar uno de los siguientes formatos de nombre de modelo para especificar qué modelo y versión deseas usar.

  • Más reciente: Apunta a la versión de vanguardia del modelo para una generación y variación específicas. El modelo subyacente se actualiza con regularidad y puede ser una versión preliminar. Solo las apps y los prototipos de pruebas exploratorias deben usar este alias.

    Para especificar la versión más reciente, usa el siguiente patrón: <model>-<generation>-<variation>-latest. Por ejemplo, gemini-1.0-pro-latest

  • Estable más reciente: Apunta a la versión estable más reciente que se lanzó para la generación y variación del modelo especificada.

    Para especificar la versión estable más reciente, usa el siguiente patrón: <model>-<generation>-<variation>. Por ejemplo, gemini-1.0-pro

  • Estable: Apunta a un modelo estable específico. Los modelos estables no cambian. La mayoría de las apps de producción deberían usar un modelo estable específico.

    Para especificar una versión estable, usa el siguiente patrón: <model>-<generation>-<variation>-<version>. Por ejemplo, gemini-1.0-pro-001