Interactions API kini tersedia secara umum. Sebaiknya gunakan API ini untuk mengakses semua fitur dan model terbaru.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Context caching

Dalam alur kerja AI biasa, Anda mungkin meneruskan token input yang sama berulang kali ke model. Gemini API menawarkan penyimpanan cache implisit untuk mengoptimalkan performa dan biaya.

Caching implisit

Penyimpanan cache implisit diaktifkan secara default untuk semua model Gemini 2.5 dan yang lebih baru. Fitur ini didukung untuk mode percakapan stateful (menggunakan previous_interaction_id) dan stateless. Kami secara otomatis meneruskan penghematan biaya jika permintaan Anda mencapai cache. Anda tidak perlu melakukan tindakan apa pun untuk mengaktifkannya. Jumlah token input minimum untuk penyiapan cache konteks tercantum dalam tabel berikut untuk setiap model:

Model	Batas token minimum
Gemini 3.5 Flash	4096
Pratinjau Gemini 3.1 Pro	4096
Gemini 2.5 Flash	2048
Gemini 2.5 Pro	2048

Untuk meningkatkan peluang terjadinya cache hit implisit:

Coba letakkan konten besar dan umum di awal perintah Anda
Mencoba mengirim permintaan dengan awalan yang serupa dalam waktu singkat

Anda dapat melihat jumlah token yang merupakan hit cache di kolom usage.total_cached_tokens (Python dan JavaScript) objek respons.