L'API Gemini offre una serie di meccanismi di ottimizzazione per aiutarti a bilanciare velocità, costi e affidabilità in base alle esigenze specifiche del tuo carico di lavoro. Che tu stia creando bot conversazionali in tempo reale o eseguendo pipeline di elaborazione dei dati offline pesanti, la scelta del paradigma giusto può ridurre significativamente i costi o migliorare il rendimento.
| Funzionalità | Standard | Flex | Priorità | Batch | Memorizzazione nella cache |
|---|---|---|---|---|---|
| Prezzi | Prezzo pieno | Sconto del 50% | Dal 75% al 100% in più rispetto allo standard | Sconto del 50% | Sconto del 90% + spazio di archiviazione dei token ripartito proporzionalmente |
| Latenza | Da secondi a minuti | Minuti (target 1-15 min) | Secondi | Fino a 24 ore | Time to first token più rapido |
| Affidabilità | Alta / medio-alta | Best effort (rimovibile) | Alta (non rimovibile) | Alta (per il throughput) | N/D |
| Interfaccia | Sincrona | Sincrona | Sincrona | Asincrona | Stato salvato |
| Caso d'uso ideale | Workflow di applicazioni generiche | Catene sequenziali non urgenti | App di produzione rivolte agli utenti | Set di dati di grandi dimensioni, valutazioni offline | Query ricorrenti sullo stesso file |
Livelli di servizio di inferenza (sincroni)
Puoi passare dal traffico sincrono ottimizzato per l'affidabilità a quello ottimizzato per i costi passando il parametro service_tier nelle chiamate di generazione standard.
Inferenza standard (valore predefinito)
Il livello standard è l'opzione predefinita per la generazione di contenuti sequenziali. Fornisce tempi di risposta normali senza costi aggiuntivi o code pesanti.
- Affidabilità: criticità standard
- Prezzo: prezzi standard.
- Ideale per: la maggior parte delle applicazioni interattive quotidiane.
Inferenza con priorità (ottimizzata per la latenza)
L'elaborazione con priorità indirizza le richieste alle code di calcolo ad alta criticità. Questo traffico è strettamente non rimovibile (non viene mai sostituito da altri livelli) e offre la massima affidabilità. Se superi i limiti di priorità dinamici, il sistema esegue il downgrade della richiesta all'elaborazione standard anziché generare un errore.
- Affidabilità: massima criticità
- Prezzo: dal 75% al 100% in più rispetto alle tariffe standard.
- Ideale per: chatbot per clienti, rilevamento delle frodi in tempo reale e copiloti mission-critical.
Inferenza flessibile (ottimizzata per i costi)
L'inferenza flessibile offre uno sconto del 50% rispetto alle tariffe standard utilizzando la capacità di calcolo opportunistica fuori orario di punta. Le richieste vengono elaborate in modo sincrono, il che significa che non devi riscrivere il codice per gestire gli oggetti batch. Poiché si tratta di traffico "rimovibile", le richieste potrebbero essere sostituite se il sistema registra picchi di traffico standard.
- Affidabilità: criticità non garantita e rimovibile
- Prezzo: 50% del prezzo standard (fatturato per token).
- Ideale per: workflow agentici multi-step in cui la chiamata N+1 dipende dall'output della chiamata N, aggiornamenti CRM in background e valutazioni offline.
API Batch (bulk, asincrona)
L'API Batch è progettata per elaborare grandi volumi di richieste in modo asincrono al 50% del costo standard. Puoi inviare le richieste come dizionari in linea o utilizzando un file di input JSONL (fino a 2 GB). Elabora le richieste utilizzando le code di throughput in background con un tempo di risposta target di 24 ore.
- Affidabilità: rimovibile, ma con tentativi automatici e sistema di accodamento di 24 ore
- Prezzo: 50% del prezzo standard.
- Ideale per: pre-elaborazione di set di dati di grandi dimensioni, esecuzione di suite di test di regressione periodici e generazione di immagini o incorporamenti di grandi dimensioni.
Memorizzazione nella cache del contesto (risparmio di input)
La memorizzazione nella cache del contesto viene utilizzata quando un contesto iniziale sostanziale viene referenziato ripetutamente da richieste più brevi.
- Memorizzazione nella cache implicita: attivata automaticamente sui modelli Gemini 2.5 e versioni successive. Il sistema trasferisce i risparmi sui costi se la richiesta raggiunge le cache esistenti in base ai prefissi di prompt comuni.
- Memorizzazione nella cache esplicita: puoi creare manualmente un oggetto cache con un TTL (Time-To-Live) specifico. Una volta creati, fai riferimento ai token memorizzati nella cache per le richieste successive per evitare di passare ripetutamente lo stesso payload del corpus.
- Prezzo: fatturato in base al conteggio dei token della cache e alla durata di archiviazione (TTL).
- Ideale per: chatbot con istruzioni di sistema estese, analisi ripetitive di file video lunghi o query su set di documenti di grandi dimensioni.