Context caching

Dalam alur kerja AI biasa, Anda mungkin meneruskan token input yang sama berulang kali ke model. Gemini API menawarkan penyimpanan cache implisit untuk mengoptimalkan performa dan biaya.

Caching implisit

Penyimpanan cache implisit diaktifkan secara default untuk semua model Gemini 2.5 dan yang lebih baru. Kami secara otomatis meneruskan penghematan biaya jika permintaan Anda mencapai cache. Anda tidak perlu melakukan apa pun untuk mengaktifkannya. Jumlah token input minimum untuk penyiapan cache konteks tercantum dalam tabel berikut untuk setiap model:

Model Batas token minimum
Pratinjau Gemini 3 Flash 1024
Pratinjau Gemini 3 Pro 4096
Gemini 2.5 Flash 1024
Gemini 2.5 Pro 4096

Untuk meningkatkan peluang cache hit implisit:

  • Coba letakkan konten besar dan umum di awal perintah Anda
  • Mencoba mengirim permintaan dengan awalan yang serupa dalam waktu singkat

Anda dapat melihat jumlah token yang merupakan hit cache di kolom usage_metadata (Python) atau usageMetadata (JavaScript) objek respons.