Inferenza della priorità
L'API Gemini Priority è un livello di inferenza premium progettato per workload business-critical che richiedono una latenza inferiore e la massima affidabilità a un prezzo premium. Il traffico del livello di priorità ha la precedenza sul traffico dell'API standard e del livello Flex.
L'inferenza prioritaria è disponibile in tutti gli endpoint dell'API Interactions.
Come utilizzare Priorità
Per utilizzare il livello di priorità, imposta il campo service_tier nella richiesta su priority. Se il campo viene omesso, il livello predefinito è standard.
Python
# This will only work for SDK newer than 2.0.0
from google import genai
client = genai.Client()
try:
interaction = client.interactions.create(
model="gemini-3-flash-preview",
input="Triage this critical customer support ticket immediately.",
service_tier='priority'
)
# Validate for graceful downgrade
# Note: Checking headers might vary by SDK implementation, this is illustrative
# if interaction.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
# print("Warning: Priority limit exceeded, processed at Standard tier.")
print(interaction.steps[-1].content[0].text)
except Exception as e:
print(f"Error during API call: {e}")
JavaScript
// This will only work for SDK newer than 2.0.0
import { GoogleGenAI } from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const interaction = await ai.interactions.create({
model: "gemini-3-flash-preview",
input: "Triage this critical customer support ticket immediately.",
service_tier: "priority"
});
// Validate for graceful downgrade
// if (interaction.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
// console.log("Warning: Priority limit exceeded, processed at Standard tier.");
// }
console.log(interaction.steps.at(-1).content[0].text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
REST
# Specifies the API revision to avoid breaking changes when they become default
curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
-H "Content-Type: application/json" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Api-Revision: 2026-05-20" \
-d '{
"model": "gemini-3-flash-preview",
"input": "Triage this critical customer support ticket immediately.",
"service_tier": "priority"
}'
Come funziona l'inferenza della priorità
L'inferenza con priorità indirizza le richieste a code di calcolo di alta criticità, offrendo prestazioni rapide e prevedibili per le applicazioni rivolte agli utenti. Il suo meccanismo principale è un downgrade lato server controllato all'elaborazione standard per il traffico che supera i limiti dinamici, garantendo la stabilità dell'applicazione anziché non riuscire a soddisfare la richiesta.
| Funzionalità | Priorità | Standard | Flex | Batch |
|---|---|---|---|---|
| Prezzi | 75-100% in più rispetto a Standard | Intero | Sconto del 50% | Sconto del 50% |
| Latenza | Secondi | Da secondi a minuti | Minuti (obiettivo 1-15 minuti) | Fino a 24 ore |
| Affidabilità | Elevata (non eliminabile) | Alta / Medio alta | Best effort (eliminabile) | Elevata (per il throughput) |
| Interfaccia | Sincrona | Sincrona | Sincrona | Asincrona |
Vantaggi principali
- Bassa latenza: progettato per tempi di risposta di un secondo per gli strumenti di AI interattivi rivolti agli utenti.
- Affidabilità elevata: il traffico viene trattato con la massima criticità ed è rigorosamente non eliminabile.
- Riduzione controllata: i picchi di traffico che superano i limiti dinamici vengono declassati automaticamente al livello Standard per l'elaborazione anziché non riuscire, evitando interruzioni del servizio.
- Basso attrito: utilizza lo stesso metodo sincrono
createdei livelli standard e Flex.
Casi d'uso
L'elaborazione con priorità è ideale per i workflow critici per l'attività in cui le prestazioni e l'affidabilità sono fondamentali.
- Applicazioni di AI interattiva: chatbot e copiloti dell'assistenza clienti in cui gli utenti pagano un supplemento e si aspettano risposte rapide e coerenti.
- Motori decisionali in tempo reale: sistemi che richiedono risultati altamente affidabili e a bassa latenza, come il triage dei ticket live o il rilevamento delle frodi.
- Funzionalità per clienti premium: sviluppatori che devono garantire obiettivi del livello di servizio (SLO) più elevati per i clienti paganti.
Limiti di frequenza
Il consumo prioritario ha i propri limiti di frequenza, anche se il consumo viene conteggiato ai fini dei limiti di frequenza complessivi del traffico interattivo. I limiti di frequenza predefiniti per l'inferenza della priorità sono 0,3 volte il limite di frequenza standard per modello / livello
Logica di downgrade controllato
Se i limiti di priorità vengono superati a causa della congestione, le richieste di overflow vengono declassate automaticamente e senza problemi all'elaborazione standard anziché restituire un errore 503 o 429. Le richieste di downgrade vengono fatturate alla tariffa standard, non alla tariffa premium Priority.
Responsabilità del cliente
- Monitoraggio delle risposte: gli sviluppatori devono monitorare l'intestazione
x-gemini-service-tiernella risposta API per rilevare se le richieste vengono declassate frequentemente astandard. - Nuovi tentativi: i client devono implementare la logica di ripetizione/il backoff esponenziale per
gli errori standard, ad esempio
DEADLINE_EXCEEDED.
Prezzi
L'inferenza della priorità ha un prezzo superiore del 75-100% rispetto all'API standard e viene fatturata per token.
Modelli supportati
I seguenti modelli supportano l'inferenza della priorità:
| Modello | Inferenza della priorità |
|---|---|
| Gemini 3.1 Flash-Lite | ✔️ |
| Gemini 3.1 Flash-Lite (anteprima) | ✔️ |
| Anteprima di Gemini 3.1 Pro | ✔️ |
| Gemini 3 Flash (anteprima) | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
Passaggi successivi
- Inferenza flessibile per la riduzione dei costi.
- Token: scopri di più sui token.