A API Gemini oferece vários mecanismos de otimização para ajudar você a equilibrar velocidade, custo e confiabilidade com base nas necessidades específicas da carga de trabalho. Se você estiver criando bots conversacionais em tempo real ou executando pipelines de processamento de dados off-line pesados, escolher o paradigma certo pode reduzir significativamente os custos ou aumentar a performance.
| Recurso | Padrão | Flex | Prioridade | Lote | Armazenamento em cache |
|---|---|---|---|---|---|
| Preços | Preço total | 50% de desconto | 75% a 100% mais do que o padrão | 50% de desconto | Armazenamento de tokens proporcional |
| Latência | Segundos a minutos | Minutos (1 a 15 min de destino) | Baixa (segundos) | Até 24 horas | Tempo até o primeiro token mais rápido |
| Confiabilidade | Alta / média-alta | Melhor esforço (descartável) | Alta (não descartável) | Alta (para capacidade de processamento) | N/A |
| Interface | Síncrona | Síncrona | Síncrona | Assíncrona | Estado salvo |
| Melhor caso de uso | Fluxos de trabalho de aplicativos gerais | Cadeias sequenciais não urgentes | Apps de produção voltados ao usuário | Conjuntos de dados massivos, avaliações off-line | Consultas recorrentes no mesmo arquivo |
Níveis de serviço de inferência (síncrono)
É possível alternar entre o tráfego síncrono otimizado para latência e o otimizado para custos transmitindo o parâmetro service_tier nas chamadas de geração padrão.
Inferência padrão (padrão)
O nível padrão é a opção padrão para geração de conteúdo sequencial. Ele oferece tempos de resposta normais sem prêmios extras ou filas pesadas.
- Latência:segundos a minutos.
- Preço:preços padrão.
- Ideal para:a maioria dos aplicativos interativos do dia a dia.
Inferência de prioridade (otimizada para latência)
O processamento deprioridade encaminha suas solicitações para filas de computação de alta criticidade. Esse tráfego é estritamente não descartável (nunca substituído por outros níveis) e oferece a maior confiabilidade. Se você exceder os limites de prioridade dinâmica, o sistema vai fazer o downgrade da solicitação para o processamento padrão em vez de falhar com um erro.
- Latência:ultrabaixa (milissegundos a segundos).
- Preço:75% a 100% acima das taxas padrão.
- Ideal para:chatbots de atendimento ao cliente ao vivo, detecção de fraudes em tempo real e copilotos essenciais para os negócios.
Inferência flexível (otimizada para custos)
A inferência flexível oferece um desconto de 50% em comparação com as taxas padrão, utilizando capacidade de computação oportunista fora do horário de pico. As solicitações são processadas de forma síncrona, o que significa que não é necessário reescrever o código para gerenciar objetos em lote. Como é um tráfego "descartável", as solicitações podem ser substituídas se o sistema tiver picos de tráfego padrão.
- Latência:não garantida, destino de 1 a 15 minutos.
- Preço:50% do preço padrão (cobrado por token).
- Ideal para:fluxos de trabalho de agentes de várias etapas em que a chamada N+1 depende da saída da chamada N, atualizações de CRM em segundo plano e avaliações off-line.
API Batch (em massa, assíncrona)
A API Batch foi projetada para processar grandes volumes de solicitações de forma assíncrona a 50% do custo padrão. É possível enviar solicitações como dicionários inline ou usando um arquivo de entrada JSONL (até 2 GB). Ele processa solicitações usando filas de capacidade de processamento em segundo plano com um tempo de resposta de 24 horas.
- Latência:alta (até 24 horas).
- Preço:50% do preço padrão.
- Ideal para:pré-processamento de conjuntos de dados massivos, execução de conjuntos de testes de regressão periódicos e gerações de imagens ou incorporações de alto volume.
Armazenamento em cache de contexto (economia de entrada)
O armazenamento em cache de contexto é usado quando um contexto inicial substancial é referenciado repetidamente por solicitações mais curtas.
- Armazenamento em cache implícito:ativado automaticamente no Gemini 2.5 e em modelos mais recentes. O sistema transmite economias de custo se a solicitação atingir caches atuais com base em prefixos de comandos comuns.
- Armazenamento em cache explícito:é possível criar manualmente um objeto de cache com um tempo de vida (TTL) específico. Depois de criado, você se refere aos tokens armazenados em cache para solicitações subsequentes para evitar a transmissão repetida do mesmo payload de corpus.
- Preço:cobrado com base na contagem de tokens de cache e na duração do armazenamento (TTL).
- Ideal para:chatbots com instruções abrangentes do sistema, análise repetitiva de arquivos de vídeo longos ou consultas em grandes conjuntos de documentos.