Inferenza della priorità

Description: Scopri come ottimizzare la latenza con il livello di inferenza Priority nell'API Interactions

L'API Gemini Priority è un livello di inferenza premium progettato per workload mission critical che richiedono una latenza inferiore e la massima affidabilità a un prezzo premium. Il traffico del livello Priority ha la priorità rispetto al traffico dell'API standard e del livello Flex.

L'inferenza Priority è disponibile negli endpoint dell'API Interactions.

Come utilizzare Priority

Per utilizzare il livello Priority, imposta il campo service_tier nella richiesta su priority. Se il campo viene omesso, il livello predefinito è standard.

Python

from google import genai

client = genai.Client()

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    input="Triage this critical customer support ticket immediately.",
    service_tier='priority'
)
print(interaction.output_text)

JavaScript

import { GoogleGenAI } from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
    const interaction = await ai.interactions.create({
        model: "gemini-3.5-flash",
        input: "Triage this critical customer support ticket immediately.",
        service_tier: "priority"
    });
    console.log(interaction.output_text);
}

await main();

REST

curl -X POST "https://generativelanguage.googleapis.com/v1beta/interactions" \
  -H "Content-Type: application/json" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -d '{
    "model": "gemini-3.5-flash",
    "input": "Triage this critical customer support ticket immediately.",
    "service_tier": "priority"
  }'

Come funziona l'inferenza Priority

L'inferenza Priority indirizza le richieste alle code di calcolo ad alta criticità, offrendo prestazioni veloci e prevedibili per le applicazioni rivolte agli utenti. Il suo meccanismo principale è un downgrade controllato lato server all'elaborazione standard per il traffico che supera i limiti dinamici, garantendo la stabilità dell'applicazione anziché la mancata riuscita della richiesta.

Funzionalità Priorità Standard Flex Batch
Prezzi 75-100% in più rispetto a Standard Intero Sconto del 50% Sconto del 50%
Latenza Secondi Da secondi a minuti Minuti (target 1-15 min) Fino a 24 ore
Affidabilità Elevata (non eliminabile) Elevata / medio-alta Best effort (eliminabile) Elevata (per il throughput)
Interfaccia Sincrona Sincrona Sincrona Asincrona

Vantaggi principali

  • Bassa latenza: progettata per tempi di risposta in secondi per gli strumenti di AI interattivi rivolti agli utenti.
  • Elevata affidabilità: il traffico viene trattato con la massima criticità ed è strettamente non eliminabile.
  • Riduzione controllata: i picchi di traffico che superano i limiti dinamici vengono automaticamente sottoposti a downgrade al livello Standard per l'elaborazione anziché non riuscire, evitando interruzioni del servizio.
  • Basso attrito: utilizza lo stesso metodo sincrono create dei livelli Standard e Flex.

Casi d'uso

L'elaborazione Priority è ideale per i flussi di lavoro mission critical in cui le prestazioni e l'affidabilità sono fondamentali.

  • Applicazioni di AI interattive: chatbot e copiloti per l'assistenza clienti in cui gli utenti pagano un premio e si aspettano risposte rapide e coerenti.
  • Motori decisionali in tempo reale: sistemi che richiedono risultati a bassa latenza e altamente affidabili , come il triage dei ticket live o il rilevamento delle frodi.
  • Funzionalità premium per i clienti: sviluppatori che devono garantire obiettivi di livello di servizio (SLO) più elevati per i clienti paganti.

Limiti di frequenza

Il consumo di Priority ha i propri limiti di frequenza, anche se il consumo viene conteggiato ai fini dei limiti di frequenza del traffico interattivo complessivo. I limiti di frequenza predefiniti per l'inferenza Priority sono 0,3 volte il limite di frequenza standard per modello / livello.

Logica di downgrade controllato

Se i limiti di Priority vengono superati a causa della congestione, le richieste di overflow vengono sottoposte a downgrade automatico e controllato all'elaborazione Standard anziché non riuscire con un errore 503 o 429. Le richieste sottoposte a downgrade vengono fatturate alla tariffa standard, non alla tariffa premium Priority.

Responsabilità del cliente

  • Monitoraggio delle risposte: gli sviluppatori devono monitorare l'x-gemini-service-tier intestazione nella risposta dell'API per rilevare se le richieste vengono sottoposte a downgrade frequente a standard.
  • Nuovi tentativi: i client devono implementare la logica per i nuovi tentativi/il backoff esponenziale per gli errori standard, ad esempio DEADLINE_EXCEEDED.

Prezzi

L'inferenza Priority ha un prezzo superiore del 75-100% rispetto all'API standard e viene fatturata per token.

Modelli supportati

I seguenti modelli supportano l'inferenza Priority:

Modello Inferenza Priority
Gemini 3.5 Flash ✔️
Gemini 3.1 Flash-Lite ✔️
Gemini 3.1 Pro (anteprima) ✔️
Gemini 3 Flash (anteprima) ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash-Lite ✔️

Passaggi successivi