O Deep Research do Gemini já está disponível em pré-lançamento com planejamento colaborativo, visualização, suporte a MCP e muito mais.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Otimização e inferência da API Gemini

A API Gemini oferece vários mecanismos de otimização para ajudar você a equilibrar velocidade, custo e confiabilidade com base nas necessidades específicas da carga de trabalho. Se você estiver criando bots conversacionais em tempo real ou executando pipelines de processamento de dados off-line pesados, escolher o paradigma certo pode reduzir significativamente os custos ou aumentar a performance.

Recurso	Padrão	Flex	Prioridade	Lote	Armazenamento em cache
Preços	Preço total	50% de desconto	75% a 100% a mais do que o padrão	50% de desconto	90% de desconto + armazenamento de tokens proporcional
Latência	Segundos a minutos	Minutos (1 a 15 min de destino)	Segundos	Até 24 horas	Tempo até o primeiro token mais rápido
Confiabilidade	Alta / média-alta	Melhor esforço (descartável)	Alta (não descartável)	Alta (para capacidade de processamento)	N/A
Interface	Síncrona	Síncrona	Síncrona	Assíncrona	Estado salvo
Melhor caso de uso	Fluxos de trabalho de aplicativos gerais	Cadeias sequenciais não urgentes	Apps de produção voltados ao usuário	Conjuntos de dados massivos, avaliações off-line	Consultas recorrentes no mesmo arquivo

Níveis de serviço de inferência (síncrono)

É possível alternar entre o tráfego síncrono otimizado para confiabilidade e o otimizado para custos transmitindo o parâmetro service_tier nas chamadas de geração padrão.

Inferência padrão (padrão)

O nível padrão é a opção padrão para geração de conteúdo sequencial. Ele oferece tempos de resposta normais sem prêmios extras ou filas pesadas.

Confiabilidade:criticidade padrão
Preço:preços padrão.
Ideal para:a maioria dos aplicativos interativos do dia a dia.

Inferência de prioridade (otimizada para latência)

O processamento deprioridade encaminha suas solicitações para filas de computação de alta criticidade. Esse tráfego é estritamente não descartável (nunca substituído por outros níveis) e oferece a maior confiabilidade. Se você exceder os limites de prioridade dinâmica, o sistema vai fazer o downgrade da solicitação para o processamento padrão em vez de falhar com um erro.

Confiabilidade:maior criticidade
Preço:75% a 100% acima das taxas padrão.
Ideal para:chatbots de clientes, detecção de fraudes em tempo real e copilotos essenciais para os negócios.

Inferência flexível (otimizada para custos)

A inferência flexível oferece um desconto de 50% em comparação com as taxas padrão, utilizando capacidade de computação oportunista fora do horário de pico. As solicitações são processadas de forma síncrona, o que significa que não é necessário reescrever o código para gerenciar objetos em lote. Como é um tráfego "descartável", as solicitações podem ser substituídas se o sistema tiver picos de tráfego padrão.

Confiabilidade:criticidade não garantida e descartável
Preço:50% do preço padrão (cobrado por token).
Ideal para:fluxos de trabalho de agentes de várias etapas em que a chamada N+1 depende da saída da chamada N, atualizações de CRM em segundo plano e avaliações off-line.

API Batch (em massa, assíncrona)

A API Batch foi projetada para processar grandes volumes de solicitações de forma assíncrona a 50% do custo padrão. É possível enviar solicitações como dicionários inline ou usando um arquivo de entrada JSONL (até 2 GB). Ele processa solicitações usando filas de capacidade de processamento em segundo plano com um tempo de resposta de 24 horas.

Confiabilidade:descartável, mas com novas tentativas automatizadas de 24 horas e sistema de filas
Preço:50% do preço padrão.
Ideal para:pré-processamento de conjuntos de dados massivos, execução de conjuntos de testes de regressão periódicos e gerações de imagens ou incorporações de alto volume.

Armazenamento em cache de contexto (economia de entrada)

O armazenamento em cache de contexto é usado quando um contexto inicial substancial é referenciado repetidamente por solicitações mais curtas.

Armazenamento em cache implícito:ativado automaticamente no Gemini 2.5 e em modelos mais recentes. O sistema transmite economias de custos se a solicitação atingir caches atuais com base em prefixos de comandos comuns.
Armazenamento em cache explícito:é possível criar manualmente um objeto de cache com um tempo de vida (TTL) específico. Depois de criado, você se refere aos tokens armazenados em cache para solicitações subsequentes para evitar a transmissão repetida do mesmo payload do corpus.
Preço:cobrado com base na contagem de tokens de cache e na duração do armazenamento (TTL).
Ideal para:chatbots com instruções abrangentes do sistema, análise repetitiva de arquivos de vídeo longos ou consultas em grandes conjuntos de documentos.