Dalam alur kerja AI biasa, Anda mungkin meneruskan token input yang sama berulang kali ke model. Gemini API menawarkan penyimpanan cache implisit untuk mengoptimalkan performa dan biaya.
Caching implisit
Penyimpanan cache implisit diaktifkan secara default untuk semua model Gemini 2.5 dan yang lebih baru. Kami secara otomatis
meneruskan penghematan biaya jika permintaan Anda mencapai cache. Anda tidak perlu melakukan apa pun untuk mengaktifkannya. Jumlah token input
minimum untuk penyiapan cache konteks tercantum dalam tabel berikut untuk setiap model:
Model
Batas token minimum
Pratinjau Gemini 3 Flash
1024
Pratinjau Gemini 3 Pro
4096
Gemini 2.5 Flash
1024
Gemini 2.5 Pro
4096
Untuk meningkatkan peluang cache hit implisit:
Coba letakkan konten besar dan umum di awal perintah Anda
Mencoba mengirim permintaan dengan awalan yang serupa dalam waktu singkat
Anda dapat melihat jumlah token yang merupakan hit cache di kolom
usage_metadata (Python) atau usageMetadata (JavaScript) objek respons.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Informasi yang saya butuhkan tidak ada","missingTheInformationINeed","thumb-down"],["Terlalu rumit/langkahnya terlalu banyak","tooComplicatedTooManySteps","thumb-down"],["Sudah usang","outOfDate","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Masalah kode / contoh","samplesCodeIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2026-05-07 UTC."],[],[]]