Gemini é uma família de modelos de IA generativa que permite aos desenvolvedores gerar conteúdo e resolver problemas. Esses modelos são projetados e treinados para lidar com texto e imagens como entrada. Neste guia, apresentamos informações sobre cada variante de modelo para ajudar você a decidir qual é a melhor opção para seu caso de uso.
Segurança e uso pretendido
Os modelos generativos de inteligência artificial são ferramentas poderosas, mas não estão sem as limitações. Sua versatilidade e aplicabilidade às vezes pode levar a resultados inesperados, como saídas imprecisas, tendenciosas ou ofensivas. O pós-processamento e a avaliação manual rigorosa são essenciais para limitar o risco de danos desses resultados. Consulte as orientações de segurança para ver outras sugestões de uso seguro.
Os modelos fornecidos pela API Gemini podem ser usados para uma ampla variedade de aplicativos de IA generativa e de processamento de linguagem natural (PLN). O uso dessas funções só está disponível por meio da API Gemini ou do app da Web Google Studio. O uso da API Gemini também está sujeito à Política de uso proibido da IA generativa e aos Termos de Serviço da API Genmini.
Variantes de modelo
A API Gemini oferece diferentes modelos otimizados para casos de uso específicos. Confira uma breve visão geral das variantes do Gemini disponíveis:
Variante do modelo | Entradas | Saída | Otimizado para |
---|---|---|---|
Gemini 1.5 Pro (pré-lançamento) | Áudio, imagens e texto | Texto | Tarefas de raciocínio, incluindo, entre outras, geração de código e texto, edição de texto, solução de problemas, extração e geração de dados |
Gemini 1.5 Flash (pré-lançamento) | Áudio, imagens e texto | Texto | Desempenho rápido e versátil em diversas tarefas |
Gemini 1.0 Pro | Texto | Texto | Tarefas de linguagem natural, chat de código e texto com várias interações e geração de código |
Gemini 1.0 Pro Vision | Imagens e texto | Texto | Desempenho otimizado para tarefas relacionadas a recursos visuais, como gerar descrições de imagens ou identificar objetos em imagens |
Embedding de texto | Texto | Embeddings de textos | Gerar embeddings de texto elástico com até 768 dimensões para textos com até 2.048 tokens |
Incorporação | Texto | Embeddings de textos | Gerar embeddings de texto com 768 dimensões para texto de até 2.048 tokens |
AQA (link em inglês) | Texto | Texto | Realizar tarefas relacionadas a respostas atribuídas sobre o texto fornecido |
A tabela a seguir descreve os atributos dos modelos Gemini que são comuns a todas as variantes de modelo:
Atributo | Descrição |
---|---|
Dados de treinamento | O limite de conhecimento para o Gemini é o início de 2023. O conhecimento sobre eventos após esse período é limitado. |
Idiomas disponíveis | Consulte os idiomas disponíveis |
Parâmetros de modelo configuráveis |
|
Consulte a seção Parâmetros do modelo do guia de modelos generativos para ver informações sobre cada um desses parâmetros.
Gemini 1.5 Pro (pré-lançamento)
O Gemini 1.5 Pro é um modelo multimodal médio otimizado para uma ampla gama de tarefas de raciocínio, como:
- Geração de códigos
- Geração de texto
- Edição de texto
- Solução de problemas
- Geração de recomendações
- Extração de informações
- Extração ou geração de dados
- Criação de agentes de IA
O 1.5 Pro pode processar grandes quantidades de dados de uma só vez, incluindo 1 hora de vídeo, 9,5 horas de áudio, bases de código com mais de 30.000 linhas de código ou mais de 700.000 palavras.
O 1.5 Pro é capaz de lidar com tarefas de aprendizado zero, one-shot e few-shot.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/gemini-1.5-pro-latest |
Entradas | Áudio, imagens e texto |
Saída | Texto |
Métodos de geração com suporte |
generateContent
|
Limite de tokens de entrada[**] | 1.048.576 |
Limite de tokens de saída[**] | 8.192 |
Número máximo de imagens por comando | 3.600 |
Duração máxima do vídeo | 1 hora |
Duração máxima do áudio | Aproximadamente 9,5 horas |
Número máximo de arquivos de áudio por comando | 1 |
Segurança de modelos | Configurações de segurança aplicadas automaticamente que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes. |
Limites de taxa[*] |
|
Instruções do sistema | Compatível |
Modo JSON | Compatível |
Versão mais recente | gemini-1.5-pro-latest |
Versão estável mais recente | gemini-1.5-pro |
Atualização mais recente | Abril de 2024 |
Flash 1.5 do Gemini (pré-lançamento)
O Gemini 1.5 Flash é um modelo multimodal rápido e versátil para escalonamento em diversas tarefas.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | gemini-1.5-flash |
Entradas | Áudio, imagens e texto |
Saída | Texto |
Métodos de geração com suporte |
generateContent
|
Limite de tokens de entrada[**] | 1.048.576 |
Limite de tokens de saída[**] | 8.192 |
Número máximo de imagens por comando | 3.600 |
Duração máxima do vídeo | 1 hora |
Duração máxima do áudio | Aproximadamente 9,5 horas |
Número máximo de arquivos de áudio por comando | 1 |
Segurança de modelos | Configurações de segurança aplicadas automaticamente que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes. |
Limites de taxa[*] |
|
Instruções do sistema | Compatível |
Modo JSON | Compatível |
Versão mais recente | gemini-1.5-flash-latest |
Versão estável mais recente | gemini-1.5-flash |
Gemini 1.0 Pro
O Gemini 1.0 Pro é um modelo de PLN que processa tarefas como chat de código e texto de vários turnos e geração de código.
O 1.0 Pro é capaz de lidar com tarefas de aprendizado zero, one-shot e few-shot.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/gemini-pro |
Entrada | Texto |
Saída | Texto |
Métodos de geração com suporte |
generate_content
generateContent
|
Limites de taxa[*] |
|
Instruções do sistema | Sem suporte |
Modo JSON | Sem suporte |
Versão mais recente | gemini-1.0-pro-latest |
Versão estável mais recente | gemini-1.0-pro |
Versões estáveis | gemini-1.0-pro-001 |
Atualização mais recente | fevereiro de 2024 |
Gemini 1.0 Pro Vision
O Gemini 1.0 Pro Vision é um modelo multimodal otimizado para desempenho que pode realizar tarefas relacionadas a recursos visuais. Por exemplo, o Pro Vision versão 1.0 pode gerar descrições de imagens, identificar objetos presentes nelas, fornecer informações sobre lugares ou objetos presentes em imagens e muito mais.
A Pro Vision 1.0 é capaz de lidar com tarefas zero-shot, one-shot e few-shot.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/gemini-pro-vision |
Entradas | Texto e imagens |
Saída | Texto |
Métodos de geração com suporte |
generate_content
generateContent
|
Limite de tokens de entrada[*] | 12.288 |
Limite de tokens de saída[*] | 4.096 |
Tamanho máximo da imagem | Sem limite |
Número máximo de imagens por comando | 16 |
Duração máxima do vídeo | 2 minutos |
Número máximo de vídeos por comando | 1 |
Segurança de modelos | Configurações de segurança aplicadas automaticamente que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes. |
Limite de taxa[*] | 60 solicitações por minuto |
Versão mais recente | gemini-1.0-pro-vision-latest |
Versão estável mais recente | gemini-1.0-pro-vision |
Atualização mais recente | Dezembro de 2023 |
Embedding e incorporação de textos
Incorporação de texto
É possível usar o modelo de embedding de texto para gerar embeddings de texto para texto de entrada. Para mais informações sobre o modelo de embedding de texto, acesse a documentação da IA generativa na Vertex AI sobre embeddings de texto.
O modelo de embedding de texto é otimizado para criar embeddings com 768 dimensões de texto de até 2.048 tokens. O Text Embedding oferece tamanhos de embedding elásticos abaixo de 768. É possível usar embeddings elásticos para gerar dimensões de saída menores e economizar custos de computação e armazenamento com pequena perda de desempenho.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo |
models/text-embedding-004
(text-embedding-preview-0409 na
Vertex AI)
|
Entrada | Texto |
Saída | Embeddings de textos |
Limite de tokens de entrada | 2.048 |
Tamanho da dimensão de saída | 768 |
Métodos de geração com suporte |
embed_content
embedContent
|
Segurança de modelos | Não há configurações de segurança ajustáveis. |
Limite de taxa[*] | 1.500 solicitações por minuto |
Atualização mais recente | Abril de 2024 |
Incorporação
É possível usar o modelo de embedding para gerar embeddings de texto para texto de entrada.
O modelo de embedding é otimizado para criar embeddings com 768 dimensões de texto de até 2.048 tokens.
Como incorporar os detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/embedding-001 |
Entrada | Texto |
Saída | Embeddings de textos |
Limite de tokens de entrada | 2.048 |
Tamanho da dimensão de saída | 768 |
Métodos de geração com suporte |
embed_content
embedContent
|
Segurança de modelos | Não há configurações de segurança ajustáveis. |
Limite de taxa[*] | 1.500 solicitações por minuto |
Atualização mais recente | Dezembro de 2023 |
AQA
É possível usar o modelo AQA para executar tarefas relacionadas a Respostas a perguntas atribuídas (AQA, na sigla em inglês) em um documento, corpus ou um conjunto de trechos. Esse modelo retorna respostas para perguntas baseadas nas fontes fornecidas, além da estimativa da probabilidade de resposta.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/aqa |
Entrada | Texto |
Saída | Texto |
Métodos de geração com suporte |
GenerateAnswerRequest
generateAnswer
|
Idiomas disponíveis | Inglês |
Limite de tokens de entrada[**] | 7.168 |
Limite de tokens de saída[**] | 1.024 |
Segurança de modelos | Configurações de segurança aplicadas automaticamente que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes. |
Limite de taxa[*] | 60 solicitações por minuto |
Atualização mais recente | Dezembro de 2023 |
Veja os exemplos para explorar os recursos dessas variações de modelo.
[*] Um token é equivalente a cerca de 4 caracteres para modelos do Gemini. 100 tokens equivalem aproximadamente a 60 a 80 palavras em inglês.
[**] RPM: solicitações por minuto
TPM: tokens por minuto
RPD: solicitações por dia
TPD: tokens por dia
Devido a limitações de capacidade, os limites máximos de taxa especificados não são garantidos.
Padrões de nome da versão do modelo
Gemini estão disponíveis nas versões pré-lançamento ou estável. No seu código, use um dos formatos de nome de modelo a seguir para especificar qual modelo e versão você quer usar.
Mais recente:aponta para a versão mais moderna do modelo para uma geração e variação especificadas. O modelo subjacente é atualizado regularmente e pode ser uma versão de pré-lançamento. Somente apps e protótipos de teste exploratório podem usar esse alias.
Para especificar a versão mais recente, use o seguinte padrão:
<model>-<generation>-<variation>-latest
. Por exemplo,gemini-1.0-pro-latest
.Stable mais recente:indica a versão estável mais recente lançada para a geração e variação de modelo especificadas.
Para especificar a versão estável mais recente, use o seguinte padrão:
<model>-<generation>-<variation>
. Por exemplo,gemini-1.0-pro
.Stable:aponta para um modelo estável específico. Os modelos estáveis não mudam. A maioria dos apps de produção precisa usar um modelo estável específico.
Para especificar uma versão estável, use o seguinte padrão:
<model>-<generation>-<variation>-<version>
. Por exemplo,gemini-1.0-pro-001
.