L'API Gemini offre una serie di meccanismi di ottimizzazione per aiutarti a bilanciare velocità, costi e affidabilità in base alle esigenze specifiche del tuo workload. Che tu stia creando bot conversazionali in tempo reale o eseguendo pipeline di elaborazione dei dati offline pesanti, la scelta del paradigma giusto può ridurre significativamente i costi o migliorare le prestazioni.
| Funzionalità | Standard | Flex | Priorità | Batch | Memorizzazione nella cache |
|---|---|---|---|---|---|
| Prezzi | Prezzo pieno | Sconto del 50% | Dal 75% al 100% in più rispetto allo standard | Sconto del 50% | Spazio di archiviazione dei token proporzionale |
| Latenza | Da secondi a minuti | Minuti (obiettivo 1-15 minuti) | Basso (secondi) | Fino a 24 ore | Tempo al primo token più rapido |
| Affidabilità | Alta / Medio alta | Best effort (eliminabile) | High (Non-sheddable) | Alta (per il throughput) | N/D |
| Interfaccia | Sincrona | Sincrona | Sincrona | Asincrona | Stato salvato |
| Miglior caso d'uso | Workflow generali delle applicazioni | Catene sequenziali non urgenti | App di produzione rivolte agli utenti | Set di dati di grandi dimensioni, valutazioni offline | Query ricorrenti sullo stesso file |
Livelli di servizio di inferenza (sincroni)
Puoi passare dal traffico sincrono ottimizzato per la latenza a quello ottimizzato per i costi
passando il parametro service_tier nelle chiamate di generazione standard.
Inferenza standard (predefinita)
Il livello standard è l'opzione predefinita per la generazione di contenuti sequenziali. Fornisce tempi di risposta normali senza costi aggiuntivi o lunghe code.
- Latenza: da secondi a minuti.
- Prezzo:prezzo standard.
- Ideale per:le applicazioni più interattive di tutti i giorni.
Inferenza con priorità (ottimizzata per la latenza)
Il routing prioritario indirizza le tue richieste a code di calcolo di alta criticità. Questo traffico non è assolutamente eliminabile (non viene mai interrotto da altri livelli) e offre la massima affidabilità. Se superi i limiti di priorità dinamica, il sistema eseguirà il downgrade della richiesta all'elaborazione standard anziché restituire un errore.
- Latenza: bassissima (da millisecondi a secondi).
- Prezzo: dal 75% al 100% in più rispetto alle tariffe standard.
- Ideale per:chatbot per clienti live, rilevamento di frodi in tempo reale e copiloti business-critical.
Inferenza flessibile (ottimizzata per i costi)
Flex Inference offre uno sconto del 50% rispetto alle tariffe standard utilizzando capacità di calcolo opportunistica e non di punta. Le richieste vengono elaborate in modo sincrono, il che significa che non devi riscrivere il codice per gestire gli oggetti batch. Poiché si tratta di traffico "eliminabile", le richieste potrebbero essere interrotte se il sistema registra picchi di traffico standard.
- Latenza:non garantita, target da 1 a 15 minuti.
- Prezzo:50% del prezzo standard (fatturato per token).
- Ideale per: workflow multi-step in cui la chiamata N+1 dipende dall'output della chiamata N, aggiornamenti CRM in background e valutazioni offline.
API batch (bulk, asincrona)
L'API Batch è progettata per elaborare grandi volumi di richieste in modo asincrono al 50% del costo standard. Puoi inviare richieste come dizionari incorporati o utilizzando un file di input JSONL (fino a 2 GB). Elabora le richieste utilizzando le code di throughput in background con un tempo di risposta target di 24 ore.
- Latenza:elevata (fino a 24 ore).
- Prezzo:50% del prezzo standard.
- Ideale per: pre-elaborare set di dati di grandi dimensioni, eseguire suite di test di regressione periodici e generare un volume elevato di immagini o incorporamenti.
Memorizzazione nella cache del contesto (risparmio di input)
La memorizzazione nella cache del contesto viene utilizzata quando un contesto iniziale sostanziale viene referenziato ripetutamente da richieste più brevi.
- Memorizzazione implicita nella cache:attivata automaticamente su Gemini 2.5 e modelli successivi. Il sistema trasferisce i risparmi sui costi se la tua richiesta raggiunge le cache esistenti in base ai prefissi dei prompt comuni.
- Memorizzazione nella cache esplicita:puoi creare manualmente un oggetto cache con un TTL specifico. Una volta creati, fai riferimento ai token memorizzati nella cache per le richieste successive per evitare di trasmettere ripetutamente lo stesso payload del corpus.
- Prezzo:fatturazione basata sul conteggio dei token della cache e sulla durata dell'archiviazione (TTL).
- Ideale per: chatbot con istruzioni di sistema estese, analisi ripetitive di file video lunghi o query su grandi set di documenti.