Inferenza e ottimizzazione dell'API Gemini

L'API Gemini offre una serie di meccanismi di ottimizzazione per aiutarti a bilanciare velocità, costi e affidabilità in base alle esigenze specifiche del tuo workload. Che tu stia creando bot conversazionali in tempo reale o eseguendo pipeline di elaborazione dei dati offline pesanti, la scelta del paradigma giusto può ridurre significativamente i costi o migliorare le prestazioni.

Funzionalità Standard Flex Priorità Batch Memorizzazione nella cache
Prezzi Prezzo pieno Sconto del 50% Dal 75% al 100% in più rispetto allo standard Sconto del 50% Sconto del 90% + spazio di archiviazione token proporzionale
Latenza Da secondi a minuti Minuti (obiettivo 1-15 minuti) Secondi Fino a 24 ore Tempo al primo token più rapido
Affidabilità Alta / Medio alta Best effort (eliminabile) Elevata (non eliminabile) Alta (per il throughput) N/D
Interfaccia Sincrona Sincrona Sincrona Asincrona Stato salvato
Miglior caso d'uso Workflow generali delle applicazioni Catene sequenziali non urgenti App di produzione rivolte agli utenti Set di dati di grandi dimensioni, valutazioni offline Query ricorrenti sullo stesso file

Livelli di servizio di inferenza (sincroni)

Puoi passare dal traffico sincrono ottimizzato per l'affidabilità a quello ottimizzato per i costi passando il parametro service_tier nelle chiamate di generazione standard.

Inferenza standard (predefinita)

Il livello standard è l'opzione predefinita per la generazione di contenuti sequenziali. Fornisce tempi di risposta normali senza costi aggiuntivi o lunghe code.

  • Affidabilità: criticità standard
  • Prezzo:prezzo standard.
  • Ideale per:le applicazioni più interattive di tutti i giorni.

Inferenza prioritaria (ottimizzata per la latenza)

Il routing prioritario indirizza le tue richieste a code di calcolo di alta criticità. Questo traffico non è assolutamente eliminabile (non viene mai interrotto da altri livelli) e offre la massima affidabilità. Se superi i limiti di priorità dinamica, il sistema eseguirà il downgrade della richiesta all'elaborazione standard anziché restituire un errore.

  • Affidabilità:massima criticità
  • Prezzo: dal 75% al 100% in più rispetto alle tariffe standard.
  • Ideale per:chatbot per i clienti, rilevamento delle frodi in tempo reale e copiloti business-critical.

Inferenza flessibile (ottimizzata per i costi)

Flex Inference offre uno sconto del 50% rispetto alle tariffe standard utilizzando capacità di calcolo opportunistica e non di punta. Le richieste vengono elaborate in modo sincrono, il che significa che non devi riscrivere il codice per gestire gli oggetti batch. Poiché si tratta di traffico "eliminabile", le richieste potrebbero essere interrotte se il sistema registra picchi di traffico standard.

  • Affidabilità:non garantita, criticità eliminabile
  • Prezzo:50% del prezzo standard (fatturato per token).
  • Ideale per: workflow agentici multi-step in cui la chiamata N+1 dipende dall'output della chiamata N, aggiornamenti CRM in background e valutazioni offline.

API batch (bulk, asincrona)

L'API Batch è progettata per elaborare grandi volumi di richieste in modo asincrono al 50% del costo standard. Puoi inviare richieste come dizionari incorporati o utilizzando un file di input JSONL (fino a 2 GB). Elabora le richieste utilizzando le code di throughput in background con un tempo di risposta target di 24 ore.

  • Affidabilità:eliminabile, ma con tentativi automatici e sistema di accodamento 24 ore su 24
  • Prezzo:50% del prezzo standard.
  • Ideale per: pre-elaborare set di dati di grandi dimensioni, eseguire suite di test di regressione periodici e generare un volume elevato di immagini o incorporamenti.

Memorizzazione nella cache del contesto (risparmio di input)

La memorizzazione nella cache del contesto viene utilizzata quando un contesto iniziale sostanziale viene referenziato ripetutamente da richieste più brevi.

  • Memorizzazione implicita nella cache:attivata automaticamente su Gemini 2.5 e modelli successivi. Il sistema trasferisce i risparmi sui costi se la tua richiesta raggiunge le cache esistenti in base ai prefissi dei prompt comuni.
  • Memorizzazione nella cache esplicita:puoi creare manualmente un oggetto cache con un TTL specifico. Una volta creati, fai riferimento ai token memorizzati nella cache per le richieste successive per evitare di trasmettere ripetutamente lo stesso payload del corpus.
  • Prezzo:fatturazione basata sul conteggio dei token della cache e sulla durata dell'archiviazione (TTL).
  • Ideale per: chatbot con istruzioni di sistema estese, analisi ripetitive di file video lunghi o query su grandi set di documenti.