Gemini

Gemini é uma família de modelos de IA generativa que permite aos desenvolvedores gerar conteúdo e resolver problemas. Esses modelos são projetados e treinados para lidar com texto e imagens como entrada. Neste guia, apresentamos informações sobre cada variante de modelo para ajudar você a decidir qual é a melhor opção para seu caso de uso.

Segurança e uso pretendido

Os modelos generativos de inteligência artificial são ferramentas poderosas, mas não estão sem as limitações. Sua versatilidade e aplicabilidade às vezes pode levar a resultados inesperados, como saídas imprecisas, tendenciosas ou ofensivas. O pós-processamento e a avaliação manual rigorosa são essenciais para limitar o risco de danos desses resultados. Consulte as orientações de segurança para ver outras sugestões de uso seguro.

Os modelos fornecidos pela API Gemini podem ser usados para uma ampla variedade de aplicativos de IA generativa e de processamento de linguagem natural (PLN). O uso dessas funções só está disponível por meio da API Gemini ou do app da Web Google Studio. O uso da API Gemini também está sujeito à Política de uso proibido da IA generativa e aos Termos de Serviço da API Genmini.

Variantes de modelo

A API Gemini oferece diferentes modelos otimizados para casos de uso específicos. Confira uma breve visão geral das variantes do Gemini disponíveis:

Variante do modelo Entradas Saída Otimizado para
Gemini 1.5 Pro (pré-lançamento) Áudio, imagens e texto Texto Tarefas de raciocínio, incluindo, entre outras, geração de código e texto, edição de texto, solução de problemas, extração e geração de dados
Gemini 1.5 Flash (pré-lançamento) Áudio, imagens e texto Texto Desempenho rápido e versátil em diversas tarefas
Gemini 1.0 Pro Texto Texto Tarefas de linguagem natural, chat de código e texto com várias interações e geração de código
Gemini 1.0 Pro Vision Imagens e texto Texto Desempenho otimizado para tarefas relacionadas a recursos visuais, como gerar descrições de imagens ou identificar objetos em imagens
Embedding de texto Texto Embeddings de textos Gerar embeddings de texto elástico com até 768 dimensões para textos com até 2.048 tokens
Incorporação Texto Embeddings de textos Gerar embeddings de texto com 768 dimensões para texto de até 2.048 tokens
AQA (link em inglês) Texto Texto Realizar tarefas relacionadas a respostas atribuídas sobre o texto fornecido

A tabela a seguir descreve os atributos dos modelos Gemini que são comuns a todas as variantes de modelo:

Atributo Descrição
Dados de treinamento O limite de conhecimento para o Gemini é o início de 2023. O conhecimento sobre eventos após esse período é limitado.
Idiomas disponíveis Consulte os idiomas disponíveis
Parâmetros de modelo configuráveis
  • Top-p
  • Top-K
  • Temperatura
  • Sequência de paradas
  • Comprimento máximo da saída
  • Número de candidatos para a resposta

Consulte a seção Parâmetros do modelo do guia de modelos generativos para ver informações sobre cada um desses parâmetros.

Gemini 1.5 Pro (pré-lançamento)

O Gemini 1.5 Pro é um modelo multimodal médio otimizado para uma ampla gama de tarefas de raciocínio, como:

  • Geração de códigos
  • Geração de texto
  • Edição de texto
  • Solução de problemas
  • Geração de recomendações
  • Extração de informações
  • Extração ou geração de dados
  • Criação de agentes de IA

O 1.5 Pro pode processar grandes quantidades de dados de uma só vez, incluindo 1 hora de vídeo, 9,5 horas de áudio, bases de código com mais de 30.000 linhas de código ou mais de 700.000 palavras.

O 1.5 Pro é capaz de lidar com tarefas de aprendizado zero, one-shot e few-shot.

Detalhes do modelo

Propriedade Descrição
Código do modelo models/gemini-1.5-pro-latest
Entradas Áudio, imagens e texto
Saída Texto
Métodos de geração com suporte generateContent
Limite de tokens de entrada[**] 1.048.576
Limite de tokens de saída[**] 8.192
Número máximo de imagens por comando 3.600
Duração máxima do vídeo 1 hora
Duração máxima do áudio Aproximadamente 9,5 horas
Número máximo de arquivos de áudio por comando 1
Segurança de modelos Configurações de segurança aplicadas automaticamente que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes.
Limites de taxa[*]
Sem custo financeiro:
  • 2 RPM
  • 32.000 TPM
  • 50 RPD
  • TPD 46.080.000
Pay-as-you-go:
  • 360 RPM
  • 10 milhões de TPM
  • 10.000 RPD
  • 14.400.000.000 TPD
Dois milhões de contextos:
  • 1 RPM
  • 2 milhões de TPM
  • 50 RPD
Instruções do sistema Compatível
Modo JSON Compatível
Versão mais recente gemini-1.5-pro-latest
Versão estável mais recente gemini-1.5-pro
Atualização mais recente Abril de 2024

Flash 1.5 do Gemini (pré-lançamento)

O Gemini 1.5 Flash é um modelo multimodal rápido e versátil para escalonamento em diversas tarefas.

Detalhes do modelo

Propriedade Descrição
Código do modelo gemini-1.5-flash
Entradas Áudio, imagens e texto
Saída Texto
Métodos de geração com suporte generateContent
Limite de tokens de entrada[**] 1.048.576
Limite de tokens de saída[**] 8.192
Número máximo de imagens por comando 3.600
Duração máxima do vídeo 1 hora
Duração máxima do áudio Aproximadamente 9,5 horas
Número máximo de arquivos de áudio por comando 1
Segurança de modelos Configurações de segurança aplicadas automaticamente que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes.
Limites de taxa[*]
Sem custo financeiro:
  • 15 RPM
  • 1 milhão de TPM
  • 1500 rPD
Pay-as-you-go:
  • 360 RPM
  • 10 milhões de TPM
  • 10.000 RPD
Instruções do sistema Compatível
Modo JSON Compatível
Versão mais recente gemini-1.5-flash-latest
Versão estável mais recente gemini-1.5-flash

Gemini 1.0 Pro

O Gemini 1.0 Pro é um modelo de PLN que processa tarefas como chat de código e texto de vários turnos e geração de código.

O 1.0 Pro é capaz de lidar com tarefas de aprendizado zero, one-shot e few-shot.

Detalhes do modelo

Propriedade Descrição
Código do modelo models/gemini-pro
Entrada Texto
Saída Texto
Métodos de geração com suporte
Python: generate_content
REST: generateContent
Limites de taxa[*]
Sem custo financeiro:
  • 15 RPM
  • 32.000 TPM
  • 1.500 RPD
  • TPD 46.080.000
Pay-as-you-go:
  • 360 RPM
  • 120.000 TPM
  • 30.000 RPD
  • TPD 172.800.000
Instruções do sistema Sem suporte
Modo JSON Sem suporte
Versão mais recente gemini-1.0-pro-latest
Versão estável mais recente gemini-1.0-pro
Versões estáveis gemini-1.0-pro-001
Atualização mais recente fevereiro de 2024

Gemini 1.0 Pro Vision

O Gemini 1.0 Pro Vision é um modelo multimodal otimizado para desempenho que pode realizar tarefas relacionadas a recursos visuais. Por exemplo, o Pro Vision versão 1.0 pode gerar descrições de imagens, identificar objetos presentes nelas, fornecer informações sobre lugares ou objetos presentes em imagens e muito mais.

A Pro Vision 1.0 é capaz de lidar com tarefas zero-shot, one-shot e few-shot.

Detalhes do modelo

Propriedade Descrição
Código do modelo models/gemini-pro-vision
Entradas Texto e imagens
Saída Texto
Métodos de geração com suporte
Python: generate_content
REST: generateContent
Limite de tokens de entrada[*] 12.288
Limite de tokens de saída[*] 4.096
Tamanho máximo da imagem Sem limite
Número máximo de imagens por comando 16
Duração máxima do vídeo 2 minutos
Número máximo de vídeos por comando 1
Segurança de modelos Configurações de segurança aplicadas automaticamente que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes.
Limite de taxa[*] 60 solicitações por minuto
Versão mais recente gemini-1.0-pro-vision-latest
Versão estável mais recente gemini-1.0-pro-vision
Atualização mais recente Dezembro de 2023

Embedding e incorporação de textos

Incorporação de texto

É possível usar o modelo de embedding de texto para gerar embeddings de texto para texto de entrada. Para mais informações sobre o modelo de embedding de texto, acesse a documentação da IA generativa na Vertex AI sobre embeddings de texto.

O modelo de embedding de texto é otimizado para criar embeddings com 768 dimensões de texto de até 2.048 tokens. O Text Embedding oferece tamanhos de embedding elásticos abaixo de 768. É possível usar embeddings elásticos para gerar dimensões de saída menores e economizar custos de computação e armazenamento com pequena perda de desempenho.

Detalhes do modelo
Propriedade Descrição
Código do modelo models/text-embedding-004 (text-embedding-preview-0409 na Vertex AI)
Entrada Texto
Saída Embeddings de textos
Limite de tokens de entrada 2.048
Tamanho da dimensão de saída 768
Métodos de geração com suporte
Python: embed_content
REST: embedContent
Segurança de modelos Não há configurações de segurança ajustáveis.
Limite de taxa[*] 1.500 solicitações por minuto
Atualização mais recente Abril de 2024

Incorporação

É possível usar o modelo de embedding para gerar embeddings de texto para texto de entrada.

O modelo de embedding é otimizado para criar embeddings com 768 dimensões de texto de até 2.048 tokens.

Como incorporar os detalhes do modelo
Propriedade Descrição
Código do modelo models/embedding-001
Entrada Texto
Saída Embeddings de textos
Limite de tokens de entrada 2.048
Tamanho da dimensão de saída 768
Métodos de geração com suporte
Python: embed_content
REST: embedContent
Segurança de modelos Não há configurações de segurança ajustáveis.
Limite de taxa[*] 1.500 solicitações por minuto
Atualização mais recente Dezembro de 2023

AQA

É possível usar o modelo AQA para executar tarefas relacionadas a Respostas a perguntas atribuídas (AQA, na sigla em inglês) em um documento, corpus ou um conjunto de trechos. Esse modelo retorna respostas para perguntas baseadas nas fontes fornecidas, além da estimativa da probabilidade de resposta.

Detalhes do modelo

Propriedade Descrição
Código do modelo models/aqa
Entrada Texto
Saída Texto
Métodos de geração com suporte
Python: GenerateAnswerRequest
REST: generateAnswer
Idiomas disponíveis Inglês
Limite de tokens de entrada[**] 7.168
Limite de tokens de saída[**] 1.024
Segurança de modelos Configurações de segurança aplicadas automaticamente que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes.
Limite de taxa[*] 60 solicitações por minuto
Atualização mais recente Dezembro de 2023

Veja os exemplos para explorar os recursos dessas variações de modelo.

[*] Um token é equivalente a cerca de 4 caracteres para modelos do Gemini. 100 tokens equivalem aproximadamente a 60 a 80 palavras em inglês.

[**] RPM: solicitações por minuto
TPM: tokens por minuto
RPD: solicitações por dia
TPD: tokens por dia

Devido a limitações de capacidade, os limites máximos de taxa especificados não são garantidos.

Padrões de nome da versão do modelo

Gemini estão disponíveis nas versões pré-lançamento ou estável. No seu código, use um dos formatos de nome de modelo a seguir para especificar qual modelo e versão você quer usar.

  • Mais recente:aponta para a versão mais moderna do modelo para uma geração e variação especificadas. O modelo subjacente é atualizado regularmente e pode ser uma versão de pré-lançamento. Somente apps e protótipos de teste exploratório podem usar esse alias.

    Para especificar a versão mais recente, use o seguinte padrão: <model>-<generation>-<variation>-latest. Por exemplo, gemini-1.0-pro-latest.

  • Stable mais recente:indica a versão estável mais recente lançada para a geração e variação de modelo especificadas.

    Para especificar a versão estável mais recente, use o seguinte padrão: <model>-<generation>-<variation>. Por exemplo, gemini-1.0-pro.

  • Stable:aponta para um modelo estável específico. Os modelos estáveis não mudam. A maioria dos apps de produção precisa usar um modelo estável específico.

    Para especificar uma versão estável, use o seguinte padrão: <model>-<generation>-<variation>-<version>. Por exemplo, gemini-1.0-pro-001.