Inferência de prioridade
A API Gemini Priority é um nível de inferência premium projetado para cargas de trabalho essenciais para os negócios que exigem menor latência e a maior confiabilidade a um preço premium. O tráfego do nível de prioridade tem prioridade sobre o tráfego da API padrão e do nível Flex.
A inferência de prioridade está disponível em todos os endpoints da API Interactions.
Como usar a prioridade
Para usar o nível de prioridade, defina o campo service_tier na sua solicitação como priority. O nível padrão é "standard" se o campo for omitido.
Python
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
# Validate for graceful downgrade
# Note: Checking headers might vary by SDK implementation, this is illustrative
# if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
# print("Warning: Priority limit exceeded, processed at Standard tier.")
print(interaction.steps[-1].content[0].text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: "Triage this critical customer support ticket immediately.",
serviceTier: "priority"
});
// Validate for graceful downgrade
// if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
// console.log("Warning: Priority limit exceeded, processed at Standard tier.");
// }
console.log(interaction.steps.at(-1).content[0].text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
REST
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-d '{
"model": "gemini-3-flash-preview",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
Como funciona a inferência de prioridade
A inferência de prioridade encaminha solicitações para filas de computação de alta criticidade, oferecendo performance rápida e previsível para aplicativos voltados ao usuário. O mecanismo principal é um downgrade suave do lado do servidor para o processamento padrão do tráfego que excede os limites dinâmicos, garantindo a estabilidade do aplicativo em vez de falhar na solicitação.
| Recurso | Prioridade | Padrão | Flex | Lote |
|---|---|---|---|---|
| Preços | 75 a 100% mais do que o Standard | Preço total | 50% de desconto | 50% de desconto |
| Latência | Segundos | Segundos para minutos | Minutos (meta de 1 a 15 minutos) | Até 24 horas |
| Confiabilidade | Alta (não descartável) | Alta / Média-alta | Melhor esforço (descartável) | Alta (para capacidade de processamento) |
| Interface | Síncrona | Síncrona | Síncrona | Assíncrono |
Principais vantagens
- Baixa latência: projetada para tempos de resposta de segundos em ferramentas de IA interativas voltadas ao usuário.
- Alta confiabilidade: o tráfego é tratado com a maior criticidade e é estritamente não descartável.
- Degradação gradual: picos de tráfego que excedem os limites dinâmicos são automaticamente rebaixados para o nível Standard para processamento em vez de falhar, evitando interrupções no serviço.
- Baixo atrito: usa o mesmo método
createsíncrono dos níveis Standard e Flex.
Casos de uso
O processamento prioritário é ideal para fluxos de trabalho essenciais para os negócios em que a performance e a confiabilidade são fundamentais.
- Aplicativos de IA interativos: chatbots e copilotos de atendimento ao cliente em que os usuários pagam um valor extra e esperam respostas rápidas e consistentes.
- Mecanismos de decisão em tempo real: sistemas que exigem resultados altamente confiáveis e de baixa latência, como triagem de tíquetes ao vivo ou detecção de fraudes.
- Recursos para clientes Premium: desenvolvedores que precisam garantir objetivos de nível de serviço (SLOs) mais altos para clientes pagantes.
Limites de taxas
O consumo de prioridade tem limites de taxa próprios, mesmo que o consumo seja contado para os limites de taxa de tráfego interativo geral. Os limites de taxa padrão para inferência de prioridade são 0,3 vezes o limite de taxa padrão para modelo / nível.
Lógica de downgrade suave
Se os limites de prioridade forem excedidos devido ao congestionamento, as solicitações de estouro serão rebaixadas automaticamente e sem problemas para o processamento padrão em vez de falhar com um erro 503 ou 429. As solicitações com downgrade são cobradas na taxa padrão, não na taxa premium de prioridade.
Responsabilidade do cliente
- Monitoramento de respostas: os desenvolvedores precisam monitorar o cabeçalho
x-gemini-service-tierna resposta da API para detectar se as solicitações estão sendo rebaixadas com frequência parastandard. - Novas tentativas: os clientes precisam implementar a lógica de novas tentativas/espera exponencial para
erros padrão, como
DEADLINE_EXCEEDED.
Preços
A inferência de prioridade custa de 75% a 100% mais do que a API padrão e é faturada por token.
Modelos compatíveis
Os seguintes modelos são compatíveis com a inferência de prioridade:
| Modelo | Inferência de prioridade |
|---|---|
| Gemini 3.1 Flash-Lite | ✔️ |
| Pré-lançamento do Gemini 3.1 Flash-Lite | ✔️ |
| Pré-lançamento do Gemini 3.1 Pro | ✔️ |
| Pré-lançamento do Gemini 3 Flash | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
A seguir
- Inferência flexível para redução de custos.
- Tokens: entenda os tokens.