Pembuatan cache konteks

Dalam alur kerja AI standar, Anda mungkin meneruskan token input yang sama berulang kali ke model. Dengan menggunakan fitur penyimpanan cache konteks Gemini API, Anda dapat meneruskan beberapa konten ke model sekali, meng-cache token input, lalu merujuk ke token yang di-cache untuk permintaan berikutnya. Pada volume tertentu, penggunaan token yang di-cache lebih rendah (dan bisa menjadi latensi lebih rendah) daripada meneruskan korpus token yang sama berulang kali.

Saat menyimpan kumpulan token dalam cache, Anda dapat memilih berapa lama Anda ingin cache tersebut ada sebelum token tersebut otomatis dihapus. Durasi penyimpanan dalam cache ini disebut time to live (TTL). Biaya untuk penyimpanan cache bergantung pada ukuran token input dan berapa lama Anda ingin token tersebut dipertahankan.

Cache konteks mendukung Gemini 1.5 Pro dan Gemini 1.5 Flash.

Kapan harus menggunakan cache konteks

Cache konteks sangat cocok untuk skenario ketika konteks awal yang substansial dirujuk berulang kali oleh permintaan yang lebih singkat. Pertimbangkan untuk menggunakan cache konteks untuk kasus penggunaan seperti:

  • Chatbot dengan petunjuk sistem yang lengkap
  • Analisis berulang terhadap file video yang panjang
  • Kueri berulang pada kumpulan dokumen berukuran besar
  • Analisis repositori kode yang sering atau perbaikan bug

Bagaimana penyimpanan dalam cache dapat mengurangi biaya

Penyimpanan cache konteks adalah fitur berbayar yang dirancang untuk mengurangi biaya operasional secara keseluruhan. Penagihan didasarkan pada faktor-faktor berikut:

  1. Jumlah token cache: Jumlah token input yang di-cache, yang ditagih dengan tarif lebih rendah saat disertakan dalam perintah berikutnya.
  2. Durasi penyimpanan: Jumlah waktu token yang di-cache disimpan (TTL), ditagih per jam. Tidak ada batas minimum atau maksimum pada TTL.
  3. Faktor lain: Biaya lain berlaku, seperti untuk token input yang tidak di-cache dan token output.

Untuk mengetahui detail harga terbaru, lihat halaman harga Gemini API. Untuk mempelajari cara menghitung token, lihat Panduan token.

Cara menggunakan cache konteks

Bagian ini mengasumsikan bahwa Anda telah menginstal Gemini SDK dan mengonfigurasi kunci API, seperti yang ditunjukkan dalam quickstart.

Pertimbangan lainnya

Ingatlah selalu hal-hal berikut saat menggunakan penyimpanan dalam cache konteks:

  • Jumlah token input minimum untuk cache konteks adalah 32.768, dan maksimum sama dengan jumlah maksimum untuk model yang diberikan. (Untuk informasi selengkapnya tentang penghitungan token, lihat Panduan token).
  • Anda dapat menetapkan time to live (TTL) cache Anda, seperti yang ditunjukkan pada kode contoh. Jika tidak disetel, TTL secara default ditetapkan ke 1 jam.
  • Model ini tidak membuat perbedaan antara token yang di-cache dan token input reguler. Konten yang di-cache hanyalah awalan pada perintah.
  • Layanan penyimpanan cache menyediakan operasi penghapusan untuk menghapus konten dari cache secara manual. Untuk mengetahui detailnya, lihat dokumentasi untuk SDK pilihan Anda.
  • Untuk paket berbayar, tidak ada tarif khusus atau batas penggunaan pada penyimpanan dalam cache konteks. Batas kapasitas standar untuk GenerateContent berlaku, dan batas token mencakup token yang di-cache. Untuk paket tanpa biaya, ada batas penyimpanan sebesar 1 juta token untuk Gemini 1.5 Flash, dan penyimpanan cache tidak tersedia untuk Gemini 1.5 Pro.
  • Konten yang di-cache tidak dapat diambil atau dilihat, tetapi Anda dapat mengambil metadata (name, display_name, model, serta waktu pembuatan, update, dan masa berakhir).
  • Anda dapat menyetel ttl atau expire_time baru. Mengubah hal lain pada konten yang di-cache tidak didukung.
  • Jumlah token yang di-cache ditampilkan dalam usage_metadata dari operasi pembuatan, perolehan, dan daftar layanan cache, dan juga di GenerateContent saat menggunakan cache.