Inferenza della priorità

L'API Gemini Priority è un livello di inferenza premium progettato per workload business-critical che richiedono una latenza inferiore e la massima affidabilità a un prezzo premium. Il traffico del livello di priorità ha la precedenza sul traffico dell'API standard e del livello flessibile.

L'inferenza della priorità è disponibile per gli utenti Tier 2 e Tier 3 negli endpoint API GenerateContent e API Interactions.

Come utilizzare Priorità

Per utilizzare il livello Priorità, imposta il campo service_tier nel corpo della richiesta su priority. Se il campo viene omesso, il livello predefinito è standard.

Python

from google import genai

client = genai.Client()

try:
    response = client.models.generate_content(
        model="gemini-3-flash-preview",
        contents="Triage this critical customer support ticket immediately.",
        config={'service_tier': 'priority'},
    )

    # Validate for graceful downgrade
    if response.sdk_http_response.headers.get("x-gemini-service-tier") == "standard":
        print("Warning: Priority limit exceeded, processed at Standard tier.")

    print(response.text)

except Exception as e:
    # Standard error handling (e.g., DEADLINE_EXCEEDED)
    print(f"Error during API call: {e}")

JavaScript

import {GoogleGenAI} from '@google/genai';

const ai = new GoogleGenAI({});

async function main() {
  try {
      const result = await ai.models.generateContent({
          model: "gemini-3-flash-preview",
          contents: "Triage this critical customer support ticket immediately.",
          config: {serviceTier: "priority"},
      });

      // Validate for graceful downgrade
      if (result.sdkHttpResponse.headers.get("x-gemini-service-tier") === "standard") {
          console.log("Warning: Priority limit exceeded, processed at Standard tier.");
      }

      console.log(result.text);

  } catch (e) {
      console.log(`Error during API call: ${e}`);
  }
}

await main();

Go

package main

import (
    "context"
    "fmt"
    "log"
    "google.golang.org/genai"
)

func main() {
    ctx := context.Background()
    client, err := genai.NewClient(ctx, nil)
    if err != nil {
        log.Fatal(err)
    }
    defer client.Close()

    resp, err := client.Models.GenerateContent(
        ctx,
        "gemini-3-flash-preview",
        genai.Text("Triage this critical customer support ticket immediately."),
        &genai.GenerateContentConfig{
            ServiceTier: "priority",
        },
    )
    if err != nil {
        log.Fatalf("Error during API call: %v", err)
    }

    // Validate for graceful downgrade
    if resp.SDKHTTPResponse.Header.Get("x-gemini-service-tier") == "standard" {
        fmt.Println("Warning: Priority limit exceeded, processed at Standard tier.")
    }

    fmt.Println(resp.Text())
}

REST

curl \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H 'Content-Type: application/json' \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-3-flash-preview:generateContent" \
-d '{
  "contents": [{
    "parts":[{"text": "Analyze user sentiment in real time"}]
  }],
  "serviceTier": "PRIORITY"
}'

Come funziona l'inferenza della priorità

L'inferenza con priorità indirizza le richieste a code di calcolo di alta criticità, offrendo prestazioni rapide e prevedibili per le applicazioni rivolte agli utenti. Il suo meccanismo principale è un downgrade lato server controllato all'elaborazione standard per il traffico che supera i limiti dinamici, garantendo la stabilità dell'applicazione anziché non riuscire a soddisfare la richiesta.

Funzionalità Priorità Standard Flex Batch
Prezzi 75-100% in più rispetto a Standard Intero Sconto del 50% Sconto del 50%
Latenza Secondi Da secondi a minuti Minuti (obiettivo 1-15 minuti) Fino a 24 ore
Affidabilità High (Non-sheddable) Alta / Medio alta Best effort (eliminabile) Alta (per il throughput)
Interfaccia Sincrona Sincrona Sincrona Asincrona

Vantaggi principali

  • Bassa latenza: progettato per tempi di risposta di un secondo per gli strumenti di AI interattivi rivolti agli utenti.
  • Affidabilità elevata: il traffico viene trattato con la massima criticità ed è rigorosamente non eliminabile.
  • Riduzione controllata: i picchi di traffico che superano i limiti dinamici vengono declassati automaticamente al livello Standard per l'elaborazione anziché non riuscire, evitando interruzioni del servizio.
  • Basso attrito: utilizza lo stesso metodo sincrono generateContent dei piani standard e Flex.

Casi d'uso

L'elaborazione con priorità è ideale per i workflow critici per l'attività in cui le prestazioni e l'affidabilità sono fondamentali.

  • Applicazioni di AI interattiva: chatbot e copiloti dell'assistenza clienti in cui gli utenti pagano un supplemento e si aspettano risposte rapide e coerenti.
  • Motori decisionali in tempo reale: sistemi che richiedono risultati altamente affidabili e a bassa latenza, come il triage dei ticket live o il rilevamento delle frodi.
  • Funzionalità per clienti premium: sviluppatori che devono garantire obiettivi del livello di servizio (SLO) più elevati per i clienti paganti.

Limiti di frequenza

Il consumo prioritario ha i propri limiti di frequenza, anche se il consumo viene conteggiato ai fini dei limiti di frequenza complessivi del traffico interattivo. I limiti di frequenza predefiniti per l'inferenza della priorità sono 0,3 volte il limite di frequenza standard per modello / livello

Logica di downgrade controllato

Se i limiti di priorità vengono superati a causa della congestione, le richieste di overflow vengono declassate automaticamente e senza problemi all'elaborazione standard anziché restituire un errore 503 o 429. Le richieste di downgrade vengono fatturate alla tariffa standard, non alla tariffa premium Priority.

Responsabilità del cliente

  • Monitoraggio delle risposte: gli sviluppatori devono monitorare il valore service_tier nel corpo della risposta API per rilevare se le richieste vengono declassate di frequente a standard.
  • Nuovi tentativi: i client devono implementare la logica di ripetizione/il backoff esponenziale per gli errori standard, ad esempio DEADLINE_EXCEEDED.

Prezzi

L'inferenza con priorità ha un prezzo superiore del 75-100% rispetto all'API standard e viene fatturata per token.

Modelli supportati

I seguenti modelli supportano l'inferenza della priorità:

Modello Inferenza della priorità
Anteprima di Gemini 3.1 Flash-Lite ✔️
Anteprima di Gemini 3.1 Pro ✔️
Anteprima di Gemini 3 Flash ✔️
Anteprima di Gemini 3 Pro Image ✔️
Gemini 2.5 Pro ✔️
Gemini 2.5 Flash ✔️
Gemini 2.5 Flash Image ✔️
Gemini 2.5 Flash-Lite ✔️

Passaggi successivi

Scopri le altre opzioni di inferenza e ottimizzazione di Gemini: