O Deep Research do Gemini já está disponível em pré-lançamento com planejamento colaborativo, visualização, suporte a MCP e muito mais.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Inferência de prioridade

Observação: esta versão da página aborda a nova API Interactions, que está na versão Beta.
Para implantações de produção estáveis, recomendamos que você continue usando a API generateContent. Use a chave nesta página para alternar entre as versões.

A API Gemini Priority é um nível de inferência premium projetado para cargas de trabalho essenciais para os negócios que exigem menor latência e a maior confiabilidade a um preço premium. O tráfego do nível de prioridade tem prioridade sobre o tráfego da API padrão e do nível Flex.

A inferência de prioridade está disponível em todos os endpoints da API Interactions.

Como usar a prioridade

Para usar o nível de prioridade, defina o campo service_tier na sua solicitação como priority. O nível padrão é "standard" se o campo for omitido.

Python

from google import genai

client = genai.Client()

try:
    interaction = client.interactions.create(
        model="gemini-3-flash-preview",
        input="Triage this critical customer support ticket immediately.",
        service_tier='priority'
    )

    # Validate for graceful downgrade
    # Note: Checking headers might vary by SDK implementation, this is illustrative
    # if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
    #     print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(interaction.steps[-1].content[0].text)

except Exception as e:
    print(f"Error during API call: {e}")

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const interaction = await ai.interactions.create({
          model: "gemini-3-flash-preview",
          input: "Triage this critical customer support ticket immediately.",
          serviceTier: "priority"
      });

      // Validate for graceful downgrade
      // if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
      //     console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      // }

      console.log(interaction.steps.at(-1).content[0].text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3-flash-preview",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

Como funciona a inferência de prioridade

A inferência de prioridade encaminha solicitações para filas de computação de alta criticidade, oferecendo performance rápida e previsível para aplicativos voltados ao usuário. O mecanismo principal é um downgrade suave do lado do servidor para o processamento padrão do tráfego que excede os limites dinâmicos, garantindo a estabilidade do aplicativo em vez de falhar na solicitação.

Recurso	Prioridade	Padrão	Flex	Lote
Preços	75 a 100% mais do que o Standard	Preço total	50% de desconto	50% de desconto
Latência	Segundos	Segundos para minutos	Minutos (meta de 1 a 15 minutos)	Até 24 horas
Confiabilidade	Alta (não descartável)	Alta / Média-alta	Melhor esforço (descartável)	Alta (para capacidade de processamento)
Interface	Síncrona	Síncrona	Síncrona	Assíncrono

Principais vantagens

Baixa latência: projetada para tempos de resposta de segundos em ferramentas de IA interativas voltadas ao usuário.
Alta confiabilidade: o tráfego é tratado com a maior criticidade e é estritamente não descartável.
Degradação gradual: picos de tráfego que excedem os limites dinâmicos são automaticamente rebaixados para o nível Standard para processamento em vez de falhar, evitando interrupções no serviço.
Baixo atrito: usa o mesmo método create síncrono dos níveis Standard e Flex.

Casos de uso

O processamento prioritário é ideal para fluxos de trabalho essenciais para os negócios em que a performance e a confiabilidade são fundamentais.

Aplicativos de IA interativos: chatbots e copilotos de atendimento ao cliente em que os usuários pagam um valor extra e esperam respostas rápidas e consistentes.
Mecanismos de decisão em tempo real: sistemas que exigem resultados altamente confiáveis e de baixa latência, como triagem de tíquetes ao vivo ou detecção de fraudes.
Recursos para clientes Premium: desenvolvedores que precisam garantir objetivos de nível de serviço (SLOs) mais altos para clientes pagantes.

Limites de taxas

O consumo de prioridade tem limites de taxa próprios, mesmo que o consumo seja contado para os limites de taxa de tráfego interativo geral. Os limites de taxa padrão para inferência de prioridade são 0,3 vezes o limite de taxa padrão para modelo / nível.

Lógica de downgrade suave

Se os limites de prioridade forem excedidos devido ao congestionamento, as solicitações de estouro serão rebaixadas automaticamente e sem problemas para o processamento padrão em vez de falhar com um erro 503 ou 429. As solicitações com downgrade são cobradas na taxa padrão, não na taxa premium de prioridade.

Responsabilidade do cliente

Monitoramento de respostas: os desenvolvedores precisam monitorar o cabeçalho x-gemini-service-tier na resposta da API para detectar se as solicitações estão sendo rebaixadas com frequência para standard.
Novas tentativas: os clientes precisam implementar a lógica de novas tentativas/espera exponencial para erros padrão, como DEADLINE_EXCEEDED.

Preços

A inferência de prioridade custa de 75% a 100% mais do que a API padrão e é faturada por token.

Modelos compatíveis

Os seguintes modelos são compatíveis com a inferência de prioridade:

Modelo	Inferência de prioridade
Gemini 3.1 Flash-Lite	✔️
Pré-lançamento do Gemini 3.1 Flash-Lite	✔️
Pré-lançamento do Gemini 3.1 Pro	✔️
Pré-lançamento do Gemini 3 Flash	✔️
Gemini 2.5 Pro	✔️
Gemini 2.5 Flash	✔️
Gemini 2.5 Flash-Lite	✔️

A seguir

Inferência flexível para redução de custos.
Tokens: entenda os tokens.