Pratinjau Gemini 2.5 Pro kini tersedia untuk penggunaan produksi. Pelajari lebih lanjut

Halaman ini diterjemahkan oleh Cloud Translation API.

Cache konteks

Dalam alur kerja AI standar, Anda dapat meneruskan token input yang sama berulang kali ke model. Dengan menggunakan fitur cache konteks Gemini API, Anda dapat meneruskan beberapa konten ke model satu kali, meng-cache token input, lalu merujuk ke token yang di-cache untuk permintaan berikutnya. Pada volume tertentu, penggunaan token yang di-cache memiliki biaya yang lebih rendah daripada meneruskan korpus token yang sama secara berulang.

Saat meng-cache kumpulan token, Anda dapat memilih berapa lama cache akan disimpan sebelum token dihapus secara otomatis. Durasi penyimpanan dalam cache ini disebut time to live (TTL). Jika tidak disetel, TTL akan ditetapkan secara default ke 1 jam. Biaya untuk penyimpanan dalam cache bergantung pada ukuran token input dan berapa lama Anda ingin token tetap ada.

Penyimpanan dalam cache konteks didukung dengan seri model stabil Gemini 1.5 dan 2.0.

Kapan harus menggunakan cache konteks

Cache konteks sangat cocok untuk skenario saat konteks awal yang substansial dirujuk berulang kali oleh permintaan yang lebih singkat. Pertimbangkan untuk menggunakan cache konteks untuk kasus penggunaan seperti:

Chatbot dengan petunjuk sistem yang lengkap
Analisis berulang pada file video yang panjang
Kueri berulang terhadap set dokumen besar
Analisis repositori kode atau perbaikan bug yang sering dilakukan

Cara penyimpanan dalam cache mengurangi biaya

Caching konteks adalah fitur berbayar yang dirancang untuk mengurangi biaya operasional secara keseluruhan. Penagihan didasarkan pada faktor-faktor berikut:

Jumlah token cache: Jumlah token input yang di-cache, ditagih dengan tarif yang lebih rendah jika disertakan dalam perintah berikutnya.
Durasi penyimpanan: Jumlah waktu token yang di-cache disimpan (TTL), ditagih berdasarkan durasi TTL jumlah token yang di-cache. Tidak ada batas minimum atau maksimum pada TTL.
Faktor lainnya: Biaya lain berlaku, seperti untuk token input dan token output yang tidak di-cache.

Untuk mengetahui detail harga terbaru, lihat halaman harga Gemini API. Untuk mempelajari cara menghitung token, lihat Panduan token.

Cara menggunakan cache konteks

Bagian ini mengasumsikan bahwa Anda telah menginstal Gemini SDK (atau telah menginstal curl) dan telah mengonfigurasi kunci API, seperti yang ditunjukkan dalam mulai cepat.

Pertimbangan tambahan

Perhatikan pertimbangan berikut saat menggunakan penyimpanan dalam cache konteks:

Jumlah token input minimum untuk penyimpanan dalam cache konteks adalah 32.768, dan maksimum sama dengan maksimum untuk model tertentu. (Untuk mengetahui informasi selengkapnya tentang menghitung token, lihat Panduan token).
Model ini tidak membedakan antara token yang di-cache dan token input reguler. Konten yang di-cache hanyalah awalan untuk perintah.
Tidak ada batas kapasitas atau penggunaan khusus pada penyimpanan dalam cache konteks; batas kapasitas standar untuk GenerateContent berlaku, dan batas token mencakup token yang disimpan dalam cache.
Jumlah token yang di-cache ditampilkan di usage_metadata dari operasi pembuatan, pengambilan, dan listingan layanan cache, dan juga di GenerateContent saat menggunakan cache.