Dalam alur kerja AI yang umum, Anda dapat meneruskan token input yang sama berulang kali ke model. Gemini API menawarkan dua mekanisme caching yang berbeda:
- Caching implisit (diaktifkan secara otomatis pada model Gemini 2.5, tidak ada jaminan penghematan biaya)
- Caching eksplisit (dapat diaktifkan secara manual di sebagian besar model, jaminan penghematan biaya)
Penyimpanan dalam cache eksplisit berguna jika Anda ingin menjamin penghematan biaya, tetapi dengan beberapa pekerjaan developer tambahan.
Caching implisit
Caching implisit diaktifkan secara default untuk semua model Gemini 2.5. Kami secara otomatis meneruskan penghematan biaya jika permintaan Anda mencapai cache. Anda tidak perlu melakukan apa pun untuk mengaktifkannya. Kebijakan ini berlaku mulai 8 Mei 2025. Jumlah token input minimum untuk penyimpanan cache konteks adalah 1.024 untuk 2.5 Flash dan 4.096 untuk 2.5 Pro.
Untuk meningkatkan peluang cache implisit ditemukan:
- Coba letakkan konten yang besar dan umum di awal perintah Anda
- Mencoba mengirim permintaan dengan awalan yang serupa dalam waktu singkat
Anda dapat melihat jumlah token yang merupakan hit cache di kolom usage_metadata
objek respons.
Caching eksplisit
Dengan menggunakan fitur caching eksplisit Gemini API, Anda dapat meneruskan beberapa konten ke model sekali, meng-cache token input, lalu merujuk ke token yang di-cache untuk permintaan berikutnya. Pada volume tertentu, penggunaan token yang di-cache lebih murah daripada meneruskan korpus token yang sama secara berulang.
Saat menyimpan serangkaian token dalam cache, Anda dapat memilih durasi yang diinginkan untuk cache sebelum token dihapus secara otomatis. Durasi penyimpanan dalam cache ini disebut time to live (TTL). Jika tidak disetel, TTL defaultnya adalah 1 jam. Biaya untuk melakukan caching bergantung pada ukuran token input dan durasi yang Anda inginkan untuk token tetap ada.
Bagian ini mengasumsikan bahwa Anda telah menginstal Gemini SDK (atau telah menginstal curl) dan telah mengonfigurasi kunci API, seperti yang ditunjukkan dalam mulai cepat.
Caching eksplisit menggunakan library OpenAI
Jika menggunakan library OpenAI, Anda dapat mengaktifkan
penyimpanan cache eksplisit menggunakan properti cached_content
di
extra_body
.
Kapan harus menggunakan caching eksplisit
Penyimpanan cache konteks sangat cocok untuk skenario saat konteks awal yang besar dirujuk berulang kali oleh permintaan yang lebih pendek. Pertimbangkan untuk menggunakan penyimpanan cache konteks untuk kasus penggunaan seperti:
- Chatbot dengan petunjuk sistem yang ekstensif
- Analisis berulang pada file video panjang
- Kueri berulang terhadap set dokumen besar
- Analisis repositori kode atau perbaikan bug yang sering
Cara caching eksplisit mengurangi biaya
Caching konteks adalah fitur berbayar yang dirancang untuk mengurangi biaya operasional secara keseluruhan. Penagihan didasarkan pada faktor-faktor berikut:
- Jumlah token cache: Jumlah token input yang di-cache, ditagih dengan tarif yang lebih rendah jika disertakan dalam perintah berikutnya.
- Durasi penyimpanan: Jumlah waktu token yang di-cache disimpan (TTL), ditagih berdasarkan durasi TTL jumlah token yang di-cache. Tidak ada batas minimum atau maksimum pada TTL.
- Faktor lain: Biaya lain berlaku, seperti untuk token input dan token output yang tidak di-cache.
Untuk mengetahui detail harga terbaru, lihat halaman harga Gemini API. Untuk mempelajari cara menghitung token, lihat panduan Token.
Pertimbangan tambahan
Perhatikan hal-hal berikut saat menggunakan penayangan cache konteks:
- Jumlah token input minimum untuk penyimpanan dalam cache konteks adalah 1.024 untuk 2.5 Flash dan 2.048 untuk 2.5 Pro. Maksimum sama dengan maksimum untuk model yang diberikan. (Untuk mengetahui informasi selengkapnya tentang menghitung token, lihat Panduan token).
- Model tidak membedakan antara token yang di-cache dan token input reguler. Konten yang di-cache adalah awalan untuk perintah.
- Tidak ada batas penggunaan atau tarif khusus untuk caching konteks; batas tarif standar untuk
GenerateContent
berlaku, dan batas token mencakup token yang di-cache. - Jumlah token yang di-cache ditampilkan di
usage_metadata
dari operasi buat, dapatkan, dan cantumkan layanan cache, serta diGenerateContent
saat menggunakan cache.