Context caching

Dalam alur kerja AI yang umum, Anda mungkin akan berulang kali meneruskan token input yang sama ke model. Gemini API menawarkan caching implisit untuk mengoptimalkan performa dan biaya.

Caching implisit

Caching implisit diaktifkan secara default untuk semua model Gemini 2.5 dan yang lebih baru. Kami otomatis meneruskan penghematan biaya jika permintaan Anda cocok dengan cache. Anda tidak perlu melakukan apa pun untuk mengaktifkannya. Jumlah token input minimum untuk caching konteks tercantum dalam tabel berikut untuk setiap model:

Model Batas token minimum
Gemini 3.5 Flash 4096
Pratinjau Gemini 3.1 Pro 4096
Gemini 2.5 Flash 2048
Gemini 2.5 Pro 2048

Untuk meningkatkan peluang kecocokan cache implisit:

  • Coba tempatkan konten besar dan umum di awal perintah Anda
  • Coba kirim permintaan dengan awalan yang serupa dalam waktu singkat

Anda dapat melihat jumlah token yang cocok dengan cache di kolom usage_metadata (Python) atau usageMetadata (JavaScript) objek respons.