A API Gemini Priority é um nível de inferência premium projetado para cargas de trabalho essenciais para os negócios que exigem menor latência e a maior confiabilidade a um preço premium. O tráfego do nível de prioridade tem prioridade sobre o tráfego da API padrão e do nível Flex.
A inferência de prioridade está disponível para usuários dos níveis 2 e 3 nos endpoints da API GenerateContent e da API Interactions.
Como usar a prioridade
Para usar o nível de prioridade, defina o campo service_tier no corpo da solicitação como
SERVICE_TIER_PRIORITY. O nível padrão é "standard" se o campo for omitido.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'SERVICE_TIER_PRIORITY'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
Em JavaScript, o downgrade é processado automaticamente pela biblioteca de cliente. Se a capacidade for excedida, um erro será gerado ou o processamento será feito no nível padrão. O objeto de resposta não expõe diretamente os cabeçalhos para verificar o downgrade.
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Go
Em Go, o downgrade é processado automaticamente pela biblioteca de cliente. Se a capacidade for excedida, um erro será gerado ou o processamento será feito no nível padrão. O objeto de resposta não expõe diretamente os cabeçalhos para verificar se houve downgrade.
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
Como funciona a inferência de prioridade
A inferência de prioridade encaminha solicitações para filas de computação de alta criticidade, oferecendo desempenho rápido e previsível para aplicativos voltados ao usuário. O mecanismo principal é um downgrade suave do lado do servidor para o processamento padrão do tráfego que excede os limites dinâmicos, garantindo a estabilidade do aplicativo em vez de falhar na solicitação.
| Recurso | Prioridade | Padrão | Flex | Lote |
|---|---|---|---|---|
| Preços | 75 a 100% mais do que o Standard | Preço total | 50% de desconto | 50% de desconto |
| Latência | Baixo (segundos) | Segundos para minutos | Minutos (meta de 1 a 15 minutos) | Até 24 horas |
| Confiabilidade | Alta (não descartável) | Alta / média-alta | Melhor esforço (descartável) | Alta (para capacidade de processamento) |
| Interface | Síncrona | Síncrona | Síncrona | Assíncrono |
Principais vantagens
- Baixa latência: projetada para tempos de resposta de milissegundos a segundos para ferramentas de IA interativas voltadas ao usuário.
- Alta confiabilidade: o tráfego é tratado com a maior criticidade e é estritamente não descartável.
- Degradação gradual: picos de tráfego que excedem os limites dinâmicos são automaticamente rebaixados para o nível Standard para processamento em vez de falhar, evitando interrupções no serviço.
- Baixa fricção: usa o mesmo método
generateContentsíncrono que os níveis Standard e Flex.
Casos de uso
O processamento prioritário é ideal para fluxos de trabalho essenciais para os negócios em que a performance e a confiabilidade são fundamentais.
- Aplicativos de IA interativos: chatbots e copilotos de atendimento ao cliente em que os usuários pagam um valor extra e esperam respostas rápidas e consistentes.
- Mecanismos de decisão em tempo real: sistemas que exigem resultados altamente confiáveis e de baixa latência, como triagem de tíquetes ao vivo ou detecção de fraudes.
- Recursos para clientes Premium: desenvolvedores que precisam garantir objetivos de nível de serviço (SLOs) mais altos para clientes pagantes.
Limites de taxas
O consumo de prioridade tem limites de taxa próprios, mesmo que o consumo seja contado para os limites de taxa de tráfego interativo geral. Os limites de taxa padrão para inferência de prioridade são 0,3 vezes o limite de taxa padrão para modelo / nível.
Lógica de downgrade suave
Se os limites de prioridade forem excedidos devido ao congestionamento, as solicitações de estouro serão rebaixadas automaticamente e de maneira normal para o processamento padrão em vez de falhar com um erro 503 ou 429. As solicitações com downgrade são cobradas na taxa padrão, não na taxa premium de prioridade.
Responsabilidade do cliente
- Monitoramento de respostas: os desenvolvedores precisam monitorar o valor
service_tierno corpo da resposta da API para detectar se as solicitações estão sendo rebaixadas com frequência parastandard. - Novas tentativas: os clientes precisam implementar a lógica de novas tentativas/espera exponencial para
erros padrão, como
DEADLINE_EXCEEDED.
Preços
A inferência de prioridade custa de 75 a 100% a mais do que a API padrão e é faturada por token.
Modelos compatíveis
Os seguintes modelos são compatíveis com a inferência de prioridade:
| Modelo | Inferência de prioridade |
|---|---|
| Pré-lançamento do Gemini 3.1 Flash-Lite | ✔️ |
| Pré-lançamento do Gemini 3.1 Pro | ✔️ |
| Pré-lançamento do Gemini 3 Flash | ✔️ |
| Pré-lançamento do Gemini 3 Pro Image | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Criação de Imagens do Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
A seguir
Leia sobre outras opções de inferência e otimização do Gemini:
- Inferência flexível para redução de 50% nos custos.
- API Batch para processamento assíncrono em até 24 horas.
- Armazenamento em cache de contexto para reduzir os custos de tokens de entrada.