Bağlamı önbelleğe alma

Tipik bir yapay zeka iş akışında, bir modele aynı giriş jetonlarını tekrar tekrar iletebilirsiniz. Gemini API bağlam önbelleğe alma özelliğini kullanarak bazı içerikleri modele bir kez aktarabilir, giriş jetonlarını önbelleğe alabilir ve ardından sonraki istekler için önbelleğe alınan jetonlara başvurabilirsiniz. Belirli hacimlerde, önbelleğe alınmış jetonları kullanmak aynı jeton grubunu tekrar tekrar iletmek yerine daha düşük maliyetlidir.

Bir jeton grubunu önbelleğe aldığınızda, jetonlar otomatik olarak silinmeden önce önbelleğin ne kadar süre boyunca mevcut olmasını istediğinizi seçebilirsiniz. Bu önbelleğe alma süresine geçerlilik süresi (TTL) denir. Politika ayarlanmazsa TTL varsayılan olarak 1 saattir. Önbelleğe alma maliyeti, giriş jetonu boyutuna ve jetonların ne kadar süre kalmasını istediğinize bağlıdır.

Bağlam önbelleğe alma hem Gemini 1.5 Pro hem de Gemini 1.5 Flash'ı destekler.

Bağlam önbelleğe alma ne zaman kullanılır?

Bağlam önbelleğe alma, özellikle önemli bir başlangıç bağlamının daha kısa istekler tarafından tekrar tekrar referans verildiği senaryolara uygundur. Aşağıdaki gibi kullanım alanları için bağlama dayalı önbelleğe alma özelliğini kullanabilirsiniz:

  • Kapsamlı sistem talimatları içeren chatbot'lar
  • Uzun video dosyalarının yinelenen analizi
  • Büyük doküman kümelerine yönelik yinelenen sorgular
  • Sık sık kod deposu analizi veya hata düzeltme

Önbelleğe alma maliyetleri nasıl azaltır?

Bağlam önbelleğe alma, genel operasyon maliyetlerini azaltmak için tasarlanmış ücretli bir özelliktir. Faturalandırma aşağıdaki faktörlere göre yapılır:

  1. Önbelleğe alınan jeton sayısı: Sonraki istemlere dahil edildiğinde daha düşük bir oranda faturalandırılan, önbelleğe alınan giriş jetonlarının sayısı.
  2. Depolama süresi: Önbelleğe alınan jetonların depolandığı süre (TTL). Önbelleğe alınan jeton sayısının TTL süresine göre faturalandırılır. TTL için minimum veya maksimum sınır yoktur.
  3. Diğer faktörler: Önbelleğe alınmamış giriş jetonları ve çıkış jetonları gibi diğer ücretler geçerlidir.

Güncel fiyatlandırma bilgileri için Gemini API fiyatlandırma sayfasına göz atın. Jetonları nasıl sayacağınızı öğrenmek için Jeton kılavuzuna göz atın.

Bağlam önbelleğe alma özelliğini kullanma

Bu bölümde, Gemini SDK'sını yüklediğiniz (veya curl'ü yüklediğiniz) ve hızlı başlangıç kılavuzunda gösterildiği gibi bir API anahtarı yapılandırdığınız varsayılır.

Önbelleği kullanarak içerik oluşturma

Aşağıdaki örnekte, önbelleğe alınmış bir sistem talimatı ve video dosyası kullanılarak nasıl içerik oluşturulacağı gösterilmektedir.

import { GoogleGenerativeAI } from '@google/generative-ai';
import {
  FileState,
  GoogleAICacheManager,
  GoogleAIFileManager,
} from '@google/generative-ai/server';

// A helper function that uploads the video to be cached.
async function uploadMp4Video(filePath, displayName) {
  const fileManager = new GoogleAIFileManager(process.env.API_KEY);
  const fileResult = await fileManager.uploadFile(filePath, {
    displayName,
    mimeType: 'video/mp4',
  });

  const { name, uri } = fileResult.file;

  // Poll getFile() on a set interval (2 seconds here) to check file state.
  let file = await fileManager.getFile(name);
  while (file.state === FileState.PROCESSING) {
    console.log('Waiting for video to be processed.');
    // Sleep for 2 seconds
    await new Promise((resolve) => setTimeout(resolve, 2_000));
    file = await fileManager.getFile(name);
  }

  console.log(`Video processing complete: ${uri}`);

  return fileResult;
}

// Download video file
// curl -O https://storage.googleapis.com/generativeai-downloads/data/Sherlock_Jr_FullMovie.mp4
const pathToVideoFile = 'Sherlock_Jr_FullMovie.mp4';

// Upload the video.
const fileResult = await uploadMp4Video(pathToVideoFile, 'Sherlock Jr. video');

// Construct a GoogleAICacheManager using your API key.
const cacheManager = new GoogleAICacheManager(process.env.API_KEY);

// Create a cache with a 5 minute TTL.
const displayName = 'sherlock jr movie';
const model = 'models/gemini-1.5-flash-001';
const systemInstruction =
  'You are an expert video analyzer, and your job is to answer ' +
  "the user's query based on the video file you have access to.";
let ttlSeconds = 300;
const cache = await cacheManager.create({
  model,
  displayName,
  systemInstruction,
  contents: [
    {
      role: 'user',
      parts: [
        {
          fileData: {
            mimeType: fileResult.file.mimeType,
            fileUri: fileResult.file.uri,
          },
        },
      ],
    },
  ],
  ttlSeconds,
});

// Get your API key from https://aistudio.google.com/app/apikey
// Access your API key as an environment variable.
const genAI = new GoogleGenerativeAI(process.env.API_KEY);

// Construct a `GenerativeModel` which uses the cache object.
const genModel = genAI.getGenerativeModelFromCachedContent(cache);

// Query the model.
const result = await genModel.generateContent({
  contents: [
    {
      role: 'user',
      parts: [
        {
          text:
            'Introduce different characters in the movie by describing ' +
            'their personality, looks, and names. Also list the ' +
            'timestamps they were introduced for the first time.',
        },
      ],
    },
  ],
});

console.log(result.response.usageMetadata);

// The output should look something like this:
//
// {
//   promptTokenCount: 696220,
//   candidatesTokenCount: 270,
//   totalTokenCount: 696490,
//   cachedContentTokenCount: 696191
// }

console.log(result.response.text());

Önbellekleri listele

Önbelleğe alınan içeriği almak veya görüntülemek mümkün değildir ancak önbellek meta verilerini (name, model, displayName, usageMetadata, createTime, updateTime ve expireTime) alabilirsiniz.

Yüklenen tüm önbelleklerin meta verilerini listelemek için GoogleAICacheManager.list() komutunu kullanın:

const listResult = await cacheManager.list();
listResult.cachedContents.forEach((cache) => {
  console.log(cache);
});

Önbelleği güncelleme

Önbellek için yeni bir ttl veya expireTime ayarlayabilirsiniz. Önbellekle ilgili başka bir değişiklik yapmak desteklenmez.

Aşağıdaki örnekte, GoogleAICacheManager.update() kullanılarak bir önbelleğin ttl değerinin nasıl güncelleneceği gösterilmektedir.

const ttlSeconds = 2 * 60 * 60;
const updateParams = { cachedContent: { ttlSeconds } };
const updatedCache = await cacheManager.update(cacheName, updateParams);

Önbelleği silme

Önbelleğe alma hizmeti, içeriği önbellekten manuel olarak kaldırmak için bir silme işlemi sağlar. Aşağıdaki örnekte, GoogleAICacheManager.delete() kullanılarak bir önbelleğin nasıl silineceği gösterilmektedir.

await cacheManager.delete(cacheName);

Göz önünde bulundurulacak diğer noktalar

Bağlam önbelleğe alma özelliğini kullanırken aşağıdaki noktaları göz önünde bulundurun:

  • Bağlam önbelleğe alma için minimum giriş jetonu sayısı 32.768'dir ve maksimum sayı, belirli bir modelin maksimum sayıyla aynıdır. (Jeton sayma hakkında daha fazla bilgi için Jeton rehberine bakın).
  • Model, önbelleğe alınmış jetonlar ile normal giriş jetonları arasında herhangi bir ayrım yapmaz. Önbelleğe alınan içerik, istem için bir ön ektir.
  • Bağlam önbelleğe alma işleminde özel bir ücret veya kullanım sınırı yoktur. GenerateContent için standart ücret sınırları geçerlidir ve jeton sınırları, önbelleğe alınmış jetonları içerir.
  • Önbelleğe alınan jetonların sayısı, önbelleğe alma hizmetinin oluşturma, alma ve listeleme işlemlerinden usage_metadata içinde ve önbelleğe alma işlemi sırasında GenerateContent içinde döndürülür.