Deep Research Gemini kini tersedia dalam pratinjau dengan perencanaan kolaboratif, visualisasi, dukungan MCP, dan lainnya.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Context caching

Catatan: Halaman ini membahas Interactions API baru, yang saat ini dalam versi Beta.
Untuk deployment produksi yang stabil, sebaiknya Anda terus menggunakan generateContent API. Anda dapat menggunakan tombol di halaman ini untuk beralih antarversi.

Dalam alur kerja AI biasa, Anda mungkin meneruskan token input yang sama berulang kali ke model. Gemini API menawarkan penyimpanan cache implisit untuk mengoptimalkan performa dan biaya.

Caching implisit

Penyimpanan cache implisit diaktifkan secara default untuk semua model Gemini 2.5 dan yang lebih baru. Kami secara otomatis meneruskan penghematan biaya jika permintaan Anda mencapai cache. Anda tidak perlu melakukan apa pun untuk mengaktifkannya. Jumlah token input minimum untuk penyiapan cache konteks tercantum dalam tabel berikut untuk setiap model:

Model	Batas token minimum
Pratinjau Gemini 3 Flash	1024
Pratinjau Gemini 3 Pro	4096
Gemini 2.5 Flash	1024
Gemini 2.5 Pro	4096

Untuk meningkatkan peluang cache hit implisit:

Coba letakkan konten besar dan umum di awal perintah Anda
Mencoba mengirim permintaan dengan awalan yang serupa dalam waktu singkat

Anda dapat melihat jumlah token yang merupakan hit cache di kolom usage_metadata (Python) atau usageMetadata (JavaScript) objek respons.