L'API Gemini Priority è un livello di inferenza premium progettato per i workload mission critical che richiedono una latenza inferiore e la massima affidabilità a un prezzo premium. Il traffico del livello Priority ha la priorità rispetto al traffico dell'API standard e del livello Flex.
L'inferenza Priority è disponibile per gli utenti di livello 2 e 3 negli endpoint dell'API GenerateContent e dell'API Interactions.
Come utilizzare Priority
Per utilizzare il livello Priority, imposta il campo service_tier nel corpo della richiesta su SERVICE_TIER_PRIORITY. Se il campo viene omesso, il livello predefinito è standard.
Python
from google import genai
client = genai.Client()
try:
response = client.models.generate_content(
model="gemini-3-flash-preview",
contents="Triage this critical customer support ticket immediately.",
config={'service_tier': 'SERVICE_TIER_PRIORITY'},
)
# Validate for graceful downgrade
if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
print("Warning: Priority limit exceeded, processed at Standard tier.")
print(response.text)
except Exception as e:
# Standard error handling (e.g., DEADLINE_EXCEEDED)
print(f"Error during API call: {e}")
JavaScript
In JavaScript, il downgrade viene gestito automaticamente dalla libreria client. Se la capacità viene superata, verrà generato un errore o la richiesta verrà elaborata al livello standard. L'oggetto della risposta non espone direttamente le intestazioni per verificare il downgrade.
import {GoogleGenAI} from '@google/genai';
const ai = new GoogleGenAI({});
async function main() {
try {
const result = await ai.models.generateContent({
model: "gemini-3-flash-preview",
contents: "Triage this critical customer support ticket immediately.",
config: {serviceTier: "priority"},
});
// Validate for graceful downgrade
if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
console.log("Warning: Priority limit exceeded, processed at Standard tier.");
}
console.log(result.text);
} catch (e) {
console.log(`Error during API call: ${e}`);
}
}
await main();
Vai
In Go, il downgrade viene gestito automaticamente dalla libreria client. Se la capacità viene superata, verrà generato un errore o la richiesta verrà elaborata al livello standard. L'oggetto della risposta non espone direttamente le intestazioni per verificare il downgrade.
package main
import (
"context"
"fmt"
"log"
"google.golang.org/genai"
)
func main() {
ctx := context.Background()
client, err := genai.NewClient(ctx, nil)
if err != nil {
log.Fatal(err)
}
defer client.Close()
resp, err := client.Models.GenerateContent(
ctx,
"gemini-3-flash-preview",
genai.Text("Triage this critical customer support ticket immediately."),
&genai.GenerateContentConfig{
ServiceTier: "priority",
},
)
if err != nil {
log.Fatalf("Error during API call: %v", err)
}
// Validate for graceful downgrade
if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
}
fmt.Println(resp.Text())
}
REST
curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
"contents": [{
"parts":[{"text": "Analyze user sentiment in real time"}]
}],
"serviceTier": "PRIORITY"
}'
Come funziona l'inferenza Priority
L'inferenza Priority indirizza le richieste alle code di calcolo ad alta criticità, offrendo prestazioni veloci e prevedibili per le applicazioni rivolte agli utenti. Il suo meccanismo principale è un downgrade lato server controllato all'elaborazione standard per il traffico che supera i limiti dinamici, garantendo la stabilità dell'applicazione anziché la mancata riuscita della richiesta.
| Funzionalità | Priorità | Standard | Flex | Batch |
|---|---|---|---|---|
| Prezzi | 75-100% in più rispetto allo standard | Intero | Sconto del 50% | Sconto del 50% |
| Latenza | Bassa (secondi) | Da secondi a minuti | Minuti (obiettivo 1-15 minuti) | Fino a 24 ore |
| Affidabilità | Alta (non eliminabile) | Alta / medio-alta | Best-effort (eliminabile) | Alta (per la velocità effettiva) |
| Interfaccia | Sincrona | Sincrona | Sincrona | Asincrona |
Vantaggi principali
- Bassa latenza: progettata per tempi di risposta di millisecondi-secondi per gli strumenti di AI interattivi, rivolti agli utenti.
- Elevata affidabilità: il traffico viene trattato con la massima criticità ed è strettamente non eliminabile.
- Riduzione controllata: i picchi di traffico che superano i limiti dinamici vengono automaticamente sottoposti a downgrade al livello Standard per l'elaborazione anziché non riuscire, evitando interruzioni del servizio.
- Basso attrito: utilizza lo stesso metodo sincrono
generateContentdei livelli Standard e Flex.
Casi d'uso
L'elaborazione Priority è ideale per i flussi di lavoro mission critical in cui le prestazioni e l'affidabilità sono fondamentali.
- Applicazioni di AI interattive: chatbot e copiloti dell'assistenza clienti in cui gli utenti pagano un premio e si aspettano risposte rapide e coerenti.
- Motori decisionali in tempo reale: sistemi che richiedono risultati a bassa latenza e altamente affidabili , come il triage dei ticket live o il rilevamento delle frodi.
- Funzionalità premium per i clienti: sviluppatori che devono garantire obiettivi di livello di servizio (SLO) più elevati per i clienti paganti.
Limiti di frequenza
Il consumo Priority ha i propri limiti di frequenza, anche se il consumo viene conteggiato ai fini dei limiti di frequenza del traffico interattivo complessivo. I limiti di frequenza predefiniti per l'inferenza Priority sono 0,3 volte il limite di frequenza standard per modello / livello
Logica di downgrade controllato
Se i limiti Priority vengono superati a causa della congestione, le richieste di overflow vengono sottoposte a downgrade automatico e controllato all'elaborazione Standard anziché non riuscire con un errore 503 o 429. Le richieste sottoposte a downgrade vengono fatturate alla tariffa standard, non alla tariffa premium Priority.
Responsabilità del cliente
- Monitoraggio delle risposte: gli sviluppatori devono monitorare il valore
service_tiernel corpo della risposta dell'API per rilevare se le richieste vengono sottoposte a downgrade frequente astandard. - Nuovi tentativi: i client devono implementare la logica di nuovi tentativi/backoff esponenziale per gli
errori standard, ad esempio
DEADLINE_EXCEEDED.
Prezzi
L'inferenza Priority ha un prezzo superiore del 75-100% rispetto all'API standard e viene fatturata per token.
Modelli supportati
I seguenti modelli supportano l'inferenza Priority:
| Modello | Inferenza Priority |
|---|---|
| Gemini 3.1 Flash-Lite (anteprima) | ✔️ |
| Gemini 3.1 Pro (anteprima) | ✔️ |
| Gemini 3 Flash (anteprima) | ✔️ |
| Gemini 3 Pro Image (anteprima) | ✔️ |
| Gemini 2.5 Pro | ✔️ |
| Gemini 2.5 Flash | ✔️ |
| Gemini 2.5 Flash Image | ✔️ |
| Gemini 2.5 Flash-Lite | ✔️ |
Passaggi successivi
Scopri le altre opzioni di inferenza e ottimizzazione di Gemini:
- Inferenza Flex per una riduzione dei costi del 50%.
- API Batch per l'elaborazione asincrona entro 24 ore.
- Memorizzazione nella cache del contesto per ridurre i costi dei token di input.