Variantes de modelo
A API Gemini oferece modelos diferentes otimizados para usos específicos casos de uso diferentes. Confira uma breve visão geral das variantes do Gemini disponíveis:
Variante do modelo | Entradas | Saída | Otimizado para |
---|---|---|---|
Gemini 1.5 Pro
gemini-1.5-pro |
Áudio, imagens, vídeos e texto | Texto | Tarefas de raciocínio complexas, como geração de código e texto, edição de textos, resolução de problemas, extração e geração de dados |
Gemini 1.5 Flash
gemini-1.5-flash |
Áudio, imagens, vídeos e texto | Texto | Desempenho rápido e versátil para várias tarefas |
Gemini 1.0 Pro
gemini-1.0-pro |
Texto | Texto | Tarefas de linguagem natural, chat de código, texto multiturno e programação geração |
(Descontinuado) Gemini 1.0 Pro Vision
gemini-pro-vision
|
Imagens, vídeos e texto | Texto | Tarefas relacionadas a recursos visuais, como gerar imagens descrições ou identificar objetos em imagens |
Incorporação de texto
text-embedding-004 |
Texto | Embeddings de textos | Medir a relação entre strings de texto |
AQA (link em inglês)
aqa |
Texto | Texto | Fornecer respostas a perguntas com base em fontes |
A tabela a seguir descreve os atributos dos modelos Gemini que são comum a todas as variantes de modelo:
Atributo | Descrição |
---|---|
Dados de treinamento | O limite de conhecimento do Gemini é novembro de 2023. O conhecimento sobre os eventos após esse período é limitado. |
Idiomas aceitos | Confira os idiomas disponíveis |
Parâmetros de modelo configuráveis |
|
Veja os parâmetros do modelo seção do modelos generativos para mais informações sobre cada um desses parâmetros.
Gemini 1.5 Flash
O Gemini 1.5 Flash é um modelo multimodal rápido e versátil para escalonamento diversas tarefas.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/gemini-1.5-flash |
Tipos de dados compatíveis |
Entradas (link em inglês) Áudio, imagens, vídeo e texto Saída Texto |
[*] | Limites de token
Limite de tokens de entrada 1.048.576 Limite de tokens de saída 8.192 |
Especificações audiovisuais |
Número máximo de imagens por comando 3.600 Duração máxima do vídeo 1 hora Duração máxima do áudio Aproximadamente 9,5 horas |
[**] | Limites de taxa
|
Recursos |
Instruções do sistema Compatível Modo JSON Compatível Esquema JSON incompatível Configurações de segurança ajustáveis Compatível Armazenamento em cache Compatível Ajuste incompatível Chamadas de função Compatível Configuração da chamada de função Compatível Execução de código Compatível |
Atualização mais recente | Maio de 2024 |
Gemini 1.5 Pro
O Gemini 1.5 Pro é um modelo multimodal de tamanho médio otimizado para uma ampla gama de tarefas de raciocínio. O 1.5 Pro pode processar grandes quantidades de dados de uma só vez, incluindo 2 horas de vídeo, 19 horas de áudio, bases de código com 60 mil linhas de código ou 2 mil páginas de texto.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/gemini-1.5-pro |
Tipos de dados compatíveis |
Entradas (link em inglês) Áudio, imagens, vídeo e texto Saída Texto |
[*] | Limites de token
Limite de tokens de entrada 2.097.152 Limite de tokens de saída 8.192 |
Especificações audiovisuais |
Número máximo de imagens por comando 7.200 Duração máxima do vídeo 2 horas Duração máxima do áudio Aproximadamente 19 horas |
[**] | Limites de taxa
|
Recursos |
Instruções do sistema Compatível Modo JSON Compatível Esquema JSON Compatível Configurações de segurança ajustáveis Compatível Armazenamento em cache Compatível Ajuste incompatível Chamadas de função Compatível Configuração da chamada de função Compatível Execução de código Compatível |
Atualização mais recente | Maio de 2024 |
Gemini 1.0 Pro
O Gemini 1.0 Pro é um modelo de PLN que processa tarefas como texto multiturno e chat de código e geração de código.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/gemini-1.0-pro |
Tipos de dados compatíveis |
Entrada Texto Saída Texto |
[**] | Limites de taxa
|
Recursos |
Instruções do sistema incompatível Modo JSON incompatível Esquema JSON incompatível Configurações de segurança ajustáveis Compatível Armazenamento em cache incompatível Ajuste Compatível Chamadas de função Compatível Configuração da chamada de função incompatível Execução de código incompatível |
Atualização mais recente | Fevereiro de 2024 |
Gemini 1.0 Pro Vision (descontinuado)
O Gemini 1.0 Pro Vision é um modelo multimodal otimizado para desempenho que podem realizar tarefas relacionadas a elementos visuais. Por exemplo, o 1.0 Pro Vision pode gerar descrições de imagens, identificar objetos presentes em imagens, fornecer informações sobre lugares ou objetos presentes em imagens e muito mais.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/gemini-pro-vision |
Tipos de dados compatíveis |
Entradas (link em inglês) Imagens, vídeo e texto Saída Texto |
[*] | Limites de token
Limite de tokens de entrada 12.288 Limite de tokens de saída 4.096 |
Especificações audiovisuais |
Duração máxima do vídeo 2 minutos |
[**] | Limites de taxa60 solicitações por minuto |
Recursos |
Instruções do sistema incompatível Modo JSON incompatível Esquema JSON incompatível Configurações de segurança ajustáveis Compatível Armazenamento em cache incompatível Ajuste incompatível Chamadas de função Compatível Configuração da chamada de função incompatível Execução de código incompatível |
Atualização mais recente | Dezembro de 2023 |
Embedding de textos
Incorporação de texto
O modelo de embedding de texto pode ser usado para gerar embeddings de texto para o texto de entrada. Para mais informações sobre o modelo de incorporação de texto, acesse a Documentação da IA generativa na Vertex AI sobre embeddings de texto.
O modelo de embedding de texto é otimizado para criar embeddings com 768 dimensões para texto de até 2.048 tokens. O embedding de texto oferece elasticidade tamanhos de embedding abaixo de 768. É possível usar embeddings elásticos para gerar dimensões de saída menores e potencialmente economizar custos de computação e armazenamento com pequena perda de desempenho.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo |
API Gemini
|
Tipos de dados compatíveis |
Entrada Texto Saída Embeddings de textos |
[*] | Limites de token
Limite de tokens de entrada 2.048 Tamanho da dimensão de saída 768 |
[**] | Limites de taxa1.500 solicitações por minuto |
Configurações de segurança ajustáveis | incompatível |
Atualização mais recente | Abril de 2024 |
Incorporação
O modelo de embedding pode ser usado para gerar embeddings de texto para o texto de entrada.
O modelo de embedding é otimizado para criar embeddings com 768 dimensões para texto de até 2.048 tokens.
Detalhes do modelo de embedding
Propriedade | Descrição |
---|---|
Código do modelo |
models/embedding-001
|
Tipos de dados compatíveis |
Entrada Texto Saída Embeddings de textos |
[*] | Limites de token
Limite de tokens de entrada 2.048 Tamanho da dimensão de saída 768 |
[**] | Limites de taxa1.500 solicitações por minuto |
Configurações de segurança ajustáveis | incompatível |
Atualização mais recente | Dezembro de 2023 |
Controle de qualidade (QA, na sigla em inglês)
É possível usar o modelo AQA para realizar Respostas a perguntas com atribuição (AQA, na sigla em inglês) de um documento, corpus ou um conjunto de trechos. A AQA retorna respostas a perguntas embasadas nas fontes fornecidas, além da estimativa da probabilidade de resposta.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/aqa |
Tipos de dados compatíveis |
Entrada Texto Saída Texto |
Idioma compatível | Inglês |
[*] | Limites de token
Limite de tokens de entrada 7.168 Limite de tokens de saída 1.024 |
[**] | Limites de taxa1.500 solicitações por minuto |
Configurações de segurança ajustáveis | Compatível |
Atualização mais recente | Dezembro de 2023 |
Confira os exemplos para conhecer os recursos desse modelo variações.
[*] Um token equivale a cerca de 4 caracteres para modelos do Gemini. 100 tokens são cerca de 60 a 80 palavras em inglês.
[**] RPM: solicitações por minuto
TPM: tokens por minuto
RPD: solicitações por dia
TPD: tokens por dia
de
Devido a limitações de capacidade, os limites máximos de taxa especificados não são
garantida.
Padrões de nome da versão do modelo
Os modelos do Gemini estão disponíveis nas versões pré-lançamento ou estável. Em seu é possível usar um dos formatos de nome de modelo a seguir para especificar qual modelo e a versão que você quer usar.
Mais recente:aponta para a versão mais moderna do modelo para um determinado geração e variação. O modelo subjacente é atualizado regularmente e pode ser uma versão de visualização. Somente protótipos e apps de teste exploratório devem use este alias.
Para especificar a versão mais recente, use o seguinte padrão:
<model>-<generation>-<variation>-latest
: Por exemplo,gemini-1.0-pro-latest
.Estável mais recente:aponta para a versão estável mais recente lançada para o geração e variação de modelo especificadas.
Para especificar a versão estável mais recente, use o seguinte padrão:
<model>-<generation>-<variation>
: Por exemplo,gemini-1.0-pro
.Estável:aponta para um modelo estável específico. Os modelos estáveis não mudam. A maioria dos apps de produção precisa usar um modelo estável específico.
Para especificar uma versão estável, use o seguinte padrão:
<model>-<generation>-<variation>-<version>
: Por exemplo,gemini-1.0-pro-001
.
Idiomas disponíveis
Os modelos do Gemini são treinados para funcionar com as seguintes linguagens:
- Árabe (
ar
) - Bengalês (
bn
) - Búlgaro (
bg
) - Chinês (simplificado e tradicional) (
zh
) - Croata (
hr
) - República Tcheca (
cs
) - Coreano (
da
) - Holandês (
nl
) - Inglês (
en
) - Estoniano (
et
) - Finlandês (
fi
) - Francês (
fr
) - Alemão (
de
) - Grego (
el
) - Hebraico (
iw
) - Hindi (
hi
) - Húngaro (
hu
) - Indonésio (
id
) - Italiano (
it
) - Japonês (
ja
) - Coreano (
ko
) - Letão (
lv
) - Lituano (
lt
) - Norueguês (
no
) - Polonês (
pl
) - Português (
pt
) - Romeno (
ro
) - Russo (
ru
) - Sérvio (
sr
) - Eslovaco (
sk
) - Esloveno (
sl
) - Espanhol (
es
) - Suaíli (
sw
) - Sueco (
sv
) - Tailandês (
th
) - Turco (
tr
) - Ucraniano (
uk
) - Vietnamita (
vi
)