Dalam alur kerja AI yang umum, Anda mungkin akan berulang kali meneruskan token input yang sama ke model. Gemini API menawarkan caching implisit untuk mengoptimalkan performa dan biaya.
Caching implisit
Caching implisit diaktifkan secara default untuk semua model Gemini 2.5 dan yang lebih baru. Kami otomatis meneruskan penghematan biaya jika permintaan Anda cocok dengan cache. Anda tidak perlu melakukan apa pun untuk mengaktifkannya. Jumlah token input minimum untuk caching konteks tercantum dalam tabel berikut untuk setiap model:
Model
Batas token minimum
Gemini 3.5 Flash
4096
Pratinjau Gemini 3.1 Pro
4096
Gemini 2.5 Flash
2048
Gemini 2.5 Pro
2048
Untuk meningkatkan peluang kecocokan cache implisit:
Coba tempatkan konten besar dan umum di awal perintah Anda
Coba kirim permintaan dengan awalan yang serupa dalam waktu singkat
Anda dapat melihat jumlah token yang cocok dengan cache di kolom usage_metadata (Python) atau usageMetadata (JavaScript) objek respons.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Informasi yang saya butuhkan tidak ada","missingTheInformationINeed","thumb-down"],["Terlalu rumit/langkahnya terlalu banyak","tooComplicatedTooManySteps","thumb-down"],["Sudah usang","outOfDate","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Masalah kode / contoh","samplesCodeIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2026-06-22 UTC."],[],[]]