Gemini

Variantes de modelo

A API Gemini oferece modelos diferentes otimizados para usos específicos casos de uso diferentes. Confira uma breve visão geral das variantes do Gemini disponíveis:

Variante do modelo Entradas Saída Otimizado para
Gemini 1.5 Pro
gemini-1.5-pro
Áudio, imagens, vídeos e texto Texto Tarefas de raciocínio complexas, como geração de código e texto, edição de textos, resolução de problemas, extração e geração de dados
Gemini 1.5 Flash
gemini-1.5-flash
Áudio, imagens, vídeos e texto Texto Desempenho rápido e versátil para várias tarefas
Gemini 1.0 Pro
gemini-1.0-pro
Texto Texto Tarefas de linguagem natural, chat de código, texto multiturno e programação geração
(Descontinuado) Gemini 1.0 Pro Vision
gemini-pro-vision
Imagens, vídeos e texto Texto Tarefas relacionadas a recursos visuais, como gerar imagens descrições ou identificar objetos em imagens
Incorporação de texto
text-embedding-004
Texto Embeddings de textos Medir a relação entre strings de texto
AQA (link em inglês)
aqa
Texto Texto Fornecer respostas a perguntas com base em fontes

A tabela a seguir descreve os atributos dos modelos Gemini que são comum a todas as variantes de modelo:

Atributo Descrição
Dados de treinamento O limite de conhecimento do Gemini é novembro de 2023. O conhecimento sobre os eventos após esse período é limitado.
Idiomas aceitos Confira os idiomas disponíveis
Parâmetros de modelo configuráveis
  • Top-P
  • Top-K
  • Temperatura
  • Sequência de paradas
  • Tamanho máximo da saída
  • Número de respostas candidatas

Veja os parâmetros do modelo seção do modelos generativos para mais informações sobre cada um desses parâmetros.

Gemini 1.5 Flash

O Gemini 1.5 Flash é um modelo multimodal rápido e versátil para escalonamento diversas tarefas.

Testar no AI Studio

Detalhes do modelo

Propriedade Descrição
Código do modelo models/gemini-1.5-flash
Tipos de dados compatíveis

Entradas (link em inglês)

Áudio, imagens, vídeo e texto

Saída

Texto

Limites de token[*]

Limite de tokens de entrada

1.048.576

Limite de tokens de saída

8.192

Especificações audiovisuais

Número máximo de imagens por comando

3.600

Duração máxima do vídeo

1 hora

Duração máxima do áudio

Aproximadamente 9,5 horas

Limites de taxa[**]
Sem custo financeiro:
  • 15 RPM
  • 1 milhão TPM
  • 1.500 RPD
.
Pay-as-you-go:
  • 1.000 RPM
  • 2 milhões de TPM
Recursos

Instruções do sistema

Compatível

Modo JSON

Compatível

Esquema JSON

incompatível

Configurações de segurança ajustáveis

Compatível

Armazenamento em cache

Compatível

Ajuste

incompatível

Chamadas de função

Compatível

Configuração da chamada de função

Compatível

Execução de código

Compatível

Atualização mais recente Maio de 2024

Gemini 1.5 Pro

O Gemini 1.5 Pro é um modelo multimodal de tamanho médio otimizado para uma ampla gama de tarefas de raciocínio. O 1.5 Pro pode processar grandes quantidades de dados de uma só vez, incluindo 2 horas de vídeo, 19 horas de áudio, bases de código com 60 mil linhas de código ou 2 mil páginas de texto.

Testar no AI Studio

Detalhes do modelo

Propriedade Descrição
Código do modelo models/gemini-1.5-pro
Tipos de dados compatíveis

Entradas (link em inglês)

Áudio, imagens, vídeo e texto

Saída

Texto

Limites de token[*]

Limite de tokens de entrada

2.097.152

Limite de tokens de saída

8.192

Especificações audiovisuais

Número máximo de imagens por comando

7.200

Duração máxima do vídeo

2 horas

Duração máxima do áudio

Aproximadamente 19 horas

Limites de taxa[**]
Sem custo financeiro:
  • 2 RPM
  • 32.000 TPM
  • 50 rPD
.
Pay-as-you-go:
  • 360 RPM
  • 2 milhões de TPM
  • 10.000 RPD
Recursos

Instruções do sistema

Compatível

Modo JSON

Compatível

Esquema JSON

Compatível

Configurações de segurança ajustáveis

Compatível

Armazenamento em cache

Compatível

Ajuste

incompatível

Chamadas de função

Compatível

Configuração da chamada de função

Compatível

Execução de código

Compatível

Atualização mais recente Maio de 2024

Gemini 1.0 Pro

O Gemini 1.0 Pro é um modelo de PLN que processa tarefas como texto multiturno e chat de código e geração de código.

Testar no AI Studio

Detalhes do modelo

Propriedade Descrição
Código do modelo models/gemini-1.0-pro
Tipos de dados compatíveis

Entrada

Texto

Saída

Texto

Limites de taxa[**]
Sem custo financeiro:
  • 15 RPM
  • 32.000 TPM
  • 1.500 RPD
.
Pay-as-you-go:
  • 360 RPM
  • 120.000 TPM
  • 30.000 RPD
Recursos

Instruções do sistema

incompatível

Modo JSON

incompatível

Esquema JSON

incompatível

Configurações de segurança ajustáveis

Compatível

Armazenamento em cache

incompatível

Ajuste

Compatível

Chamadas de função

Compatível

Configuração da chamada de função

incompatível

Execução de código

incompatível

Atualização mais recente Fevereiro de 2024

Gemini 1.0 Pro Vision (descontinuado)

O Gemini 1.0 Pro Vision é um modelo multimodal otimizado para desempenho que podem realizar tarefas relacionadas a elementos visuais. Por exemplo, o 1.0 Pro Vision pode gerar descrições de imagens, identificar objetos presentes em imagens, fornecer informações sobre lugares ou objetos presentes em imagens e muito mais.

Detalhes do modelo

Propriedade Descrição
Código do modelo models/gemini-pro-vision
Tipos de dados compatíveis

Entradas (link em inglês)

Imagens, vídeo e texto

Saída

Texto

Limites de token[*]

Limite de tokens de entrada

12.288

Limite de tokens de saída

4.096

Especificações audiovisuais

Duração máxima do vídeo

2 minutos

Limites de taxa[**] 60 solicitações por minuto
Recursos

Instruções do sistema

incompatível

Modo JSON

incompatível

Esquema JSON

incompatível

Configurações de segurança ajustáveis

Compatível

Armazenamento em cache

incompatível

Ajuste

incompatível

Chamadas de função

Compatível

Configuração da chamada de função

incompatível

Execução de código

incompatível

Atualização mais recente Dezembro de 2023

Embedding de textos

Incorporação de texto

O modelo de embedding de texto pode ser usado para gerar embeddings de texto para o texto de entrada. Para mais informações sobre o modelo de incorporação de texto, acesse a Documentação da IA generativa na Vertex AI sobre embeddings de texto.

O modelo de embedding de texto é otimizado para criar embeddings com 768 dimensões para texto de até 2.048 tokens. O embedding de texto oferece elasticidade tamanhos de embedding abaixo de 768. É possível usar embeddings elásticos para gerar dimensões de saída menores e potencialmente economizar custos de computação e armazenamento com pequena perda de desempenho.

Detalhes do modelo
Propriedade Descrição
Código do modelo

API Gemini

models/text-embedding-004

Vertex AI

text-embedding-preview-0409

Tipos de dados compatíveis

Entrada

Texto

Saída

Embeddings de textos

Limites de token[*]

Limite de tokens de entrada

2.048

Tamanho da dimensão de saída

768

Limites de taxa[**] 1.500 solicitações por minuto
Configurações de segurança ajustáveis incompatível
Atualização mais recente Abril de 2024

Incorporação

O modelo de embedding pode ser usado para gerar embeddings de texto para o texto de entrada.

O modelo de embedding é otimizado para criar embeddings com 768 dimensões para texto de até 2.048 tokens.

Detalhes do modelo de embedding
Propriedade Descrição
Código do modelo models/embedding-001
Tipos de dados compatíveis

Entrada

Texto

Saída

Embeddings de textos

Limites de token[*]

Limite de tokens de entrada

2.048

Tamanho da dimensão de saída

768

Limites de taxa[**] 1.500 solicitações por minuto
Configurações de segurança ajustáveis incompatível
Atualização mais recente Dezembro de 2023

Controle de qualidade (QA, na sigla em inglês)

É possível usar o modelo AQA para realizar Respostas a perguntas com atribuição (AQA, na sigla em inglês) de um documento, corpus ou um conjunto de trechos. A AQA retorna respostas a perguntas embasadas nas fontes fornecidas, além da estimativa da probabilidade de resposta.

Detalhes do modelo

Propriedade Descrição
Código do modelo models/aqa
Tipos de dados compatíveis

Entrada

Texto

Saída

Texto

Idioma compatível Inglês
Limites de token[*]

Limite de tokens de entrada

7.168

Limite de tokens de saída

1.024

Limites de taxa[**] 1.500 solicitações por minuto
Configurações de segurança ajustáveis Compatível
Atualização mais recente Dezembro de 2023

Confira os exemplos para conhecer os recursos desse modelo variações.

[*] Um token equivale a cerca de 4 caracteres para modelos do Gemini. 100 tokens são cerca de 60 a 80 palavras em inglês.

[**] RPM: solicitações por minuto
TPM: tokens por minuto
RPD: solicitações por dia
TPD: tokens por dia
de
Devido a limitações de capacidade, os limites máximos de taxa especificados não são garantida.

Padrões de nome da versão do modelo

Os modelos do Gemini estão disponíveis nas versões pré-lançamento ou estável. Em seu é possível usar um dos formatos de nome de modelo a seguir para especificar qual modelo e a versão que você quer usar.

  • Mais recente:aponta para a versão mais moderna do modelo para um determinado geração e variação. O modelo subjacente é atualizado regularmente e pode ser uma versão de visualização. Somente protótipos e apps de teste exploratório devem use este alias.

    Para especificar a versão mais recente, use o seguinte padrão: <model>-<generation>-<variation>-latest: Por exemplo, gemini-1.0-pro-latest.

  • Estável mais recente:aponta para a versão estável mais recente lançada para o geração e variação de modelo especificadas.

    Para especificar a versão estável mais recente, use o seguinte padrão: <model>-<generation>-<variation>: Por exemplo, gemini-1.0-pro.

  • Estável:aponta para um modelo estável específico. Os modelos estáveis não mudam. A maioria dos apps de produção precisa usar um modelo estável específico.

    Para especificar uma versão estável, use o seguinte padrão: <model>-<generation>-<variation>-<version>: Por exemplo, gemini-1.0-pro-001.

Idiomas disponíveis

Os modelos do Gemini são treinados para funcionar com as seguintes linguagens:

  • Árabe (ar)
  • Bengalês (bn)
  • Búlgaro (bg)
  • Chinês (simplificado e tradicional) (zh)
  • Croata (hr)
  • República Tcheca (cs)
  • Coreano (da)
  • Holandês (nl)
  • Inglês (en)
  • Estoniano (et)
  • Finlandês (fi)
  • Francês (fr)
  • Alemão (de)
  • Grego (el)
  • Hebraico (iw)
  • Hindi (hi)
  • Húngaro (hu)
  • Indonésio (id)
  • Italiano (it)
  • Japonês (ja)
  • Coreano (ko)
  • Letão (lv)
  • Lituano (lt)
  • Norueguês (no)
  • Polonês (pl)
  • Português (pt)
  • Romeno (ro)
  • Russo (ru)
  • Sérvio (sr)
  • Eslovaco (sk)
  • Esloveno (sl)
  • Espanhol (es)
  • Suaíli (sw)
  • Sueco (sv)
  • Tailandês (th)
  • Turco (tr)
  • Ucraniano (uk)
  • Vietnamita (vi)