Deep Research Gemini kini tersedia dalam pratinjau dengan perencanaan kolaboratif, visualisasi, dukungan MCP, dan lainnya.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Pengoptimalan dan inferensi Gemini API

Gemini API menawarkan berbagai mekanisme pengoptimalan untuk membantu Anda menyeimbangkan kecepatan, biaya, dan keandalan berdasarkan kebutuhan workload tertentu. Baik Anda membuat bot percakapan real-time atau menjalankan pipeline pemrosesan data offline yang berat, memilih paradigma yang tepat dapat mengurangi biaya atau meningkatkan performa secara signifikan.

Fitur	Standar	Fleksibel	Prioritas	Batch	Menyimpan ke cache
Harga	Harga Penuh	Diskon 50%	75% hingga 100% lebih mahal dari standar	Diskon 50%	Diskon 90% + Penyimpanan token prorata
Latensi	Detik hingga menit	Menit (target 1–15 menit)	Detik	Hingga 24 jam	Waktu-hingga-token-pertama (TTFT) lebih cepat
Keandalan	Tinggi / Sedang-tinggi	Upaya terbaik (Dapat dihentikan)	Tinggi (Tidak dapat dihentikan)	Tinggi (untuk throughput)	T/A
Antarmuka	Sinkron	Sinkron	Sinkron	Asinkron	Status tersimpan
Kasus penggunaan terbaik	Alur kerja aplikasi umum	Rantai berurutan yang tidak mendesak	Aplikasi produksi yang ditampilkan kepada pengguna	Set data besar, evaluasi offline	Kueri berulang pada file yang sama

Tingkat layanan inferensi (Sinkron)

Anda dapat beralih antara traffic sinkron yang dioptimalkan untuk keandalan dan yang dioptimalkan untuk biaya dengan meneruskan parameter service_tier dalam panggilan pembuatan standar.

Inferensi standar (Default)

Tingkat standar adalah opsi default untuk pembuatan konten berurutan. Tingkat ini memberikan waktu respons normal tanpa premi tambahan atau antrean yang berat.

Keandalan: Tingkat keparahan standar
Harga: Harga standar.
Terbaik Untuk: Sebagian besar aplikasi interaktif sehari-hari.

Inferensi prioritas (Dioptimalkan untuk latensi)

Pemrosesanprioritas merutekan permintaan Anda ke antrean komputasi dengan tingkat keparahan tinggi. Traffic ini bersifat tidak dapat dihentikan (tidak pernah didahulukan oleh tingkat lainnya) dan menawarkan keandalan tertinggi. Jika Anda melebihi batas Prioritas dinamis, sistem akan menurunkan permintaan ke pemrosesan Standar, bukan gagal dengan error.

Keandalan: Tingkat keparahan tertinggi
Harga: 75% hingga 100% di atas tarif Standar.
Terbaik untuk: Chatbot pelanggan, deteksi penipuan real-time, dan kopilot penting untuk bisnis.

Inferensi fleksibel (Dioptimalkan untuk biaya)

Inferensi fleksibel menawarkan diskon 50% dibandingkan tarif standar dengan memanfaatkan kapasitas komputasi di luar jam sibuk yang oportunistik. Permintaan diproses secara sinkron, yang berarti Anda tidak perlu menulis ulang kode untuk mengelola objek batch. Karena merupakan traffic yang "dapat dihentikan", permintaan dapat didahulukan jika sistem mengalami lonjakan traffic standar.

Keandalan: Tingkat keparahan yang tidak dijamin dan dapat dihentikan
Harga: 50% dari Harga Standar (ditagih per token).
Terbaik untuk: Alur kerja agen multi-langkah yang bergantung pada output panggilan N, update CRM latar belakang, dan evaluasi offline.

Batch API (Massal, asinkron)

Batch API dirancang untuk memproses permintaan dalam jumlah besar secara asinkron dengan biaya 50% dari biaya standar. Anda dapat mengirimkan permintaan sebagai kamus inline atau menggunakan file input JSONL (hingga 2 GB). API ini memproses permintaan menggunakan antrean throughput latar belakang dengan waktu penyelesaian target 24 jam.

Keandalan: Dapat dihentikan, tetapi dengan sistem antrean dan percobaan ulang otomatis 24 jam
Harga: 50% dari harga Standar.
Terbaik untuk: Pra-pemrosesan set data besar, menjalankan rangkaian pengujian regresi berkala, dan pembuatan gambar atau embedding dalam volume tinggi.

Context caching (Penghematan input)

Context caching digunakan saat konteks awal yang substansial dirujuk berulang kali oleh permintaan yang lebih singkat.

Caching implisit: Diaktifkan secara otomatis pada model Gemini 2.5 dan yang lebih baru. Sistem akan memberikan penghematan biaya jika permintaan Anda cocok dengan cache yang ada berdasarkan awalan prompt umum.
Caching Eksplisit: Anda dapat membuat objek cache secara manual dengan Time-To-Live (TTL) tertentu. Setelah dibuat, Anda dapat merujuk ke token yang di-cache untuk permintaan berikutnya agar tidak perlu meneruskan payload korpus yang sama berulang kali.
Harga: Ditagih berdasarkan jumlah token cache dan durasi penyimpanan (TTL).
Terbaik Untuk: Chatbot dengan petunjuk sistem yang ekstensif, analisis berulang pada file video yang panjang, atau kueri terhadap kumpulan dokumen besar.