Otimização e inferência da API Gemini

A API Gemini oferece vários mecanismos de otimização para ajudar você a equilibrar velocidade, custo e confiabilidade com base nas necessidades específicas da carga de trabalho. Se você estiver criando bots conversacionais em tempo real ou executando pipelines de processamento de dados off-line pesados, escolher o paradigma certo pode reduzir significativamente os custos ou aumentar a performance.

Recurso Padrão Flex Prioridade Lote Armazenamento em cache
Preços Preço total 50% de desconto 75% a 100% mais do que o padrão 50% de desconto Armazenamento de tokens proporcional
Latência Segundos a minutos Minutos (1 a 15 min de destino) Baixa (segundos) Até 24 horas Tempo até o primeiro token mais rápido
Confiabilidade Alta / média-alta Melhor esforço (descartável) Alta (não descartável) Alta (para capacidade de processamento) N/A
Interface Síncrona Síncrona Síncrona Assíncrona Estado salvo
Melhor caso de uso Fluxos de trabalho de aplicativos gerais Cadeias sequenciais não urgentes Apps de produção voltados ao usuário Conjuntos de dados massivos, avaliações off-line Consultas recorrentes no mesmo arquivo

Níveis de serviço de inferência (síncrono)

É possível alternar entre o tráfego síncrono otimizado para latência e o otimizado para custos transmitindo o parâmetro service_tier nas chamadas de geração padrão.

Inferência padrão (padrão)

O nível padrão é a opção padrão para geração de conteúdo sequencial. Ele oferece tempos de resposta normais sem prêmios extras ou filas pesadas.

  • Latência:segundos a minutos.
  • Preço:preços padrão.
  • Ideal para:a maioria dos aplicativos interativos do dia a dia.

Inferência de prioridade (otimizada para latência)

O processamento deprioridade encaminha suas solicitações para filas de computação de alta criticidade. Esse tráfego é estritamente não descartável (nunca substituído por outros níveis) e oferece a maior confiabilidade. Se você exceder os limites de prioridade dinâmica, o sistema vai fazer o downgrade da solicitação para o processamento padrão em vez de falhar com um erro.

  • Latência:ultrabaixa (milissegundos a segundos).
  • Preço:75% a 100% acima das taxas padrão.
  • Ideal para:chatbots de atendimento ao cliente ao vivo, detecção de fraudes em tempo real e copilotos essenciais para os negócios.

Inferência flexível (otimizada para custos)

A inferência flexível oferece um desconto de 50% em comparação com as taxas padrão, utilizando capacidade de computação oportunista fora do horário de pico. As solicitações são processadas de forma síncrona, o que significa que não é necessário reescrever o código para gerenciar objetos em lote. Como é um tráfego "descartável", as solicitações podem ser substituídas se o sistema tiver picos de tráfego padrão.

  • Latência:não garantida, destino de 1 a 15 minutos.
  • Preço:50% do preço padrão (cobrado por token).
  • Ideal para:fluxos de trabalho de agentes de várias etapas em que a chamada N+1 depende da saída da chamada N, atualizações de CRM em segundo plano e avaliações off-line.

API Batch (em massa, assíncrona)

A API Batch foi projetada para processar grandes volumes de solicitações de forma assíncrona a 50% do custo padrão. É possível enviar solicitações como dicionários inline ou usando um arquivo de entrada JSONL (até 2 GB). Ele processa solicitações usando filas de capacidade de processamento em segundo plano com um tempo de resposta de 24 horas.

  • Latência:alta (até 24 horas).
  • Preço:50% do preço padrão.
  • Ideal para:pré-processamento de conjuntos de dados massivos, execução de conjuntos de testes de regressão periódicos e gerações de imagens ou incorporações de alto volume.

Armazenamento em cache de contexto (economia de entrada)

O armazenamento em cache de contexto é usado quando um contexto inicial substancial é referenciado repetidamente por solicitações mais curtas.

  • Armazenamento em cache implícito:ativado automaticamente no Gemini 2.5 e em modelos mais recentes. O sistema transmite economias de custo se a solicitação atingir caches atuais com base em prefixos de comandos comuns.
  • Armazenamento em cache explícito:é possível criar manualmente um objeto de cache com um tempo de vida (TTL) específico. Depois de criado, você se refere aos tokens armazenados em cache para solicitações subsequentes para evitar a transmissão repetida do mesmo payload de corpus.
  • Preço:cobrado com base na contagem de tokens de cache e na duração do armazenamento (TTL).
  • Ideal para:chatbots com instruções abrangentes do sistema, análise repetitiva de arquivos de vídeo longos ou consultas em grandes conjuntos de documentos.