Gemini API menawarkan berbagai mekanisme pengoptimalan untuk membantu Anda menyeimbangkan kecepatan, biaya, dan keandalan berdasarkan kebutuhan workload spesifik Anda. Baik Anda membuat bot percakapan real-time atau menjalankan pipeline pemrosesan data offline yang berat, memilih paradigma yang tepat dapat mengurangi biaya secara signifikan atau meningkatkan performa.
| Fitur | Standar | Lipat | Prioritas | Batch | Menyimpan ke cache |
|---|---|---|---|---|---|
| Harga | Harga Penuh | Diskon 50% | 75% hingga 100% lebih banyak daripada standar | Diskon 50% | Penyimpanan token prorata |
| Latensi | Detik ke menit | Menit (target 1–15 menit) | Rendah (Detik) | Hingga 24 jam | Waktu-hingga-token-pertama yang lebih cepat |
| Keandalan | Tinggi / Sedang-tinggi | Upaya terbaik (Dapat Dihapus) | Tinggi (Tidak rontok) | Tinggi (untuk throughput) | T/A |
| Antarmuka | Sinkron | Sinkron | Sinkron | Asinkron | Status tersimpan |
| Kasus penggunaan terbaik | Alur kerja aplikasi umum | Rantai berurutan tidak mendesak | Aplikasi produksi yang ditampilkan kepada pengguna | Dataset besar, evaluasi offline | Kueri berulang pada file yang sama |
Tingkat layanan inferensi (Sinkron)
Anda dapat beralih antara traffic sinkron yang dioptimalkan untuk latensi dan yang dioptimalkan untuk biaya
dengan meneruskan parameter service_tier dalam panggilan pembuatan standar.
Inferensi standar (Default)
Paket standar adalah opsi default untuk pembuatan konten berurutan. Layanan ini memberikan waktu respons normal tanpa biaya premium tambahan atau antrean yang berat.
- Latensi: Detik hingga menit.
- Harga: Harga standar.
- Paling Cocok Untuk: Aplikasi sehari-hari yang paling interaktif.
Inferensi prioritas (Dioptimalkan untuk latensi)
Rute pemrosesan Prioritas mengarahkan permintaan Anda ke antrean komputasi dengan kritikalitas tinggi. Traffic ini bersifat non-sheddable (tidak pernah didahului oleh tingkat lainnya) dan menawarkan keandalan tertinggi. Jika Anda melebihi batas Prioritas dinamis, sistem akan menurunkan permintaan ke pemrosesan Standar, bukan gagal dengan error.
- Latensi: Sangat rendah (milidetik hingga detik).
- Harga: 75% hingga 100% lebih tinggi dari tarif Standar.
- Paling cocok untuk: Chatbot pelanggan live, deteksi penipuan real-time, dan kopilot penting untuk bisnis.
Inferensi fleksibel (Dioptimalkan untuk biaya)
Inferensi fleksibel menawarkan diskon 50% dibandingkan dengan tarif standar dengan memanfaatkan kapasitas komputasi di luar jam sibuk yang bersifat oportunistik. Permintaan diproses secara sinkron, yang berarti Anda tidak perlu menulis ulang kode untuk mengelola objek batch. Karena merupakan traffic yang "dapat dilepaskan", permintaan dapat didahului jika sistem mengalami lonjakan traffic standar.
- Latensi: Tanpa jaminan, target 1 hingga 15 menit.
- Harga: 50% dari Harga Standar (ditagih per token).
- Terbaik untuk: Alur kerja agentik multi-langkah di mana panggilan N+1 bergantung pada output panggilan N, update CRM di latar belakang, dan evaluasi offline.
Batch API (Massal, asinkron)
Batch API dirancang untuk memproses permintaan dalam volume besar secara asinkron dengan biaya 50% dari biaya standar. Anda dapat mengirimkan permintaan sebagai kamus inline atau menggunakan file input JSONL (hingga 2 GB). Layanan ini memproses permintaan menggunakan antrean throughput latar belakang dengan target waktu penyelesaian 24 jam.
- Latensi: Tinggi (hingga 24 jam).
- Harga: 50% dari harga Standard.
- Paling cocok untuk: Memproses awal set data besar, menjalankan rangkaian pengujian regresi berkala, dan pembuatan gambar atau penyematan bervolume tinggi.
Context caching (Penghematan input)
Context caching digunakan saat konteks awal yang besar dirujuk berulang kali oleh permintaan yang lebih pendek.
- Caching implisit: Diaktifkan secara otomatis di Gemini 2.5 dan model yang lebih baru. Sistem akan meneruskan penghematan biaya jika permintaan Anda cocok dengan cache yang ada berdasarkan awalan perintah umum.
- Caching Eksplisit: Anda dapat membuat objek cache secara manual dengan Time-To-Live (TTL) tertentu. Setelah dibuat, Anda dapat merujuk ke token yang di-cache untuk permintaan berikutnya agar tidak meneruskan payload korpus yang sama berulang kali.
- Harga: Ditagih berdasarkan jumlah token cache dan durasi penyimpanan (TTL).
- Terbaik Untuk: Chatbot dengan petunjuk sistem yang ekstensif, analisis berulang pada file video panjang, atau kueri terhadap set dokumen besar.