Memorizzazione nella cache del contesto

In un tipico flusso di lavoro IA, potresti passare sempre gli stessi token di input a un modello. Utilizzando la funzionalità di memorizzazione nella cache del contesto dell'API Gemini, puoi passare alcuni contenuti al modello una volta, memorizzare nella cache i token di input e poi fare riferimento ai token memorizzati nella cache per le richieste successive. A determinati volumi, l'utilizzo di token memorizzati nella cache ha un costo inferiore rispetto al passaggio ripetuto dello stesso corpus di token.

Quando memorizzi nella cache un insieme di token, puoi scegliere la durata della cache prima che i token vengano eliminati automaticamente. Questa durata della memorizzazione nella cache è denominata time to live (TTL). Se non viene impostato, il valore predefinito del TTL è 1 ora. Il costo della memorizzazione nella cache dipende dalle dimensioni del token di input e dal tempo di permanenza dei token.

La memorizzazione nella cache del contesto supporta sia Gemini 1.5 Pro che Gemini 1.5 Flash.

Quando utilizzare la memorizzazione nella cache di contesto

La memorizzazione nella cache del contesto è particolarmente adatta a scenari in cui un contesto iniziale sostanziale viene fatto riferimento ripetutamente da richieste più brevi. Valuta la possibilità di utilizzare la memorizzazione nella cache del contesto per casi d'uso come:

Chatbot con istruzioni di sistema esaustive
Analisi ripetitiva di file video di lunga durata
Query ricorrenti su set di documenti di grandi dimensioni
Analisi frequenti del repository di codice o correzione di bug

In che modo la memorizzazione nella cache riduce i costi

La memorizzazione nella cache del contesto è una funzionalità a pagamento progettata per ridurre i costi operativi complessivi. La fatturazione si basa sui seguenti fattori:

Conteggio token cache: il numero di token di input memorizzati nella cache, fatturati a una tariffa ridotta quando inclusi nei prompt successivi.
Durata dell'archiviazione: la quantità di tempo di archiviazione (TTL) dei token memorizzati nella cache, fatturata in base alla durata TTL del conteggio dei token memorizzati nella cache. Non sono previsti limiti minimi o massimi per il TTL.
Altri fattori: vengono applicati altri addebiti, ad esempio per i token di input e di output non memorizzati nella cache.

Per i dettagli aggiornati sui prezzi, consulta la pagina dei prezzi dell'API Gemini. Per informazioni su come contare i token, consulta la Guida ai token.

Come utilizzare la memorizzazione nella cache di contesto

Questa sezione presuppone che tu abbia installato un SDK Gemini (o curl) e che tu abbia configurato una chiave API, come mostrato nella guida rapida.

Generare contenuti utilizzando una cache

L'esempio seguente mostra come generare contenuti utilizzando un file video e un'istruzione di sistema memorizzati nella cache.

import { GoogleGenerativeAI } from '@google/generative-ai';
import {
  FileState,
  GoogleAICacheManager,
  GoogleAIFileManager,
} from '@google/generative-ai/server';

// A helper function that uploads the video to be cached.
async function uploadMp4Video(filePath, displayName) {
  const fileManager = new GoogleAIFileManager(process.env.API_KEY);
  const fileResult = await fileManager.uploadFile(filePath, {
    displayName,
    mimeType: 'video/mp4',
  });

  const { name, uri } = fileResult.file;

  // Poll getFile() on a set interval (2 seconds here) to check file state.
  let file = await fileManager.getFile(name);
  while (file.state === FileState.PROCESSING) {
    console.log('Waiting for video to be processed.');
    // Sleep for 2 seconds
    await new Promise((resolve) => setTimeout(resolve, 2_000));
    file = await fileManager.getFile(name);
  }

  console.log(`Video processing complete: ${uri}`);

  return fileResult;
}

// Download video file
// curl -O https://storage.googleapis.com/generativeai-downloads/data/Sherlock_Jr_FullMovie.mp4
const pathToVideoFile = 'Sherlock_Jr_FullMovie.mp4';

// Upload the video.
const fileResult = await uploadMp4Video(pathToVideoFile, 'Sherlock Jr. video');

// Construct a GoogleAICacheManager using your API key.
const cacheManager = new GoogleAICacheManager(process.env.API_KEY);

// Create a cache with a 5 minute TTL.
const displayName = 'sherlock jr movie';
const model = 'models/gemini-1.5-flash-001';
const systemInstruction =
  'You are an expert video analyzer, and your job is to answer ' +
  "the user's query based on the video file you have access to.";
let ttlSeconds = 300;
const cache = await cacheManager.create({
  model,
  displayName,
  systemInstruction,
  contents: [
    {
      role: 'user',
      parts: [
        {
          fileData: {
            mimeType: fileResult.file.mimeType,
            fileUri: fileResult.file.uri,
          },
        },
      ],
    },
  ],
  ttlSeconds,
});

// Get your API key from https://aistudio.google.com/app/apikey
// Access your API key as an environment variable.
const genAI = new GoogleGenerativeAI(process.env.API_KEY);

// Construct a `GenerativeModel` which uses the cache object.
const genModel = genAI.getGenerativeModelFromCachedContent(cache);

// Query the model.
const result = await genModel.generateContent({
  contents: [
    {
      role: 'user',
      parts: [
        {
          text:
            'Introduce different characters in the movie by describing ' +
            'their personality, looks, and names. Also list the ' +
            'timestamps they were introduced for the first time.',
        },
      ],
    },
  ],
});

console.log(result.response.usageMetadata);

// The output should look something like this:
//
// {
//   promptTokenCount: 696220,
//   candidatesTokenCount: 270,
//   totalTokenCount: 696490,
//   cachedContentTokenCount: 696191
// }

console.log(result.response.text());

Elenca le cache

Non è possibile recuperare o visualizzare i contenuti memorizzati nella cache, ma puoi recuperare i metadati della cache (name, model, displayName, usageMetadata, createTime, updateTime e expireTime).

Per elencare i metadati per tutte le cache caricate, utilizza GoogleAICacheManager.list():

const listResult = await cacheManager.list();
listResult.cachedContents.forEach((cache) => {
  console.log(cache);
});

Aggiornare una cache

Puoi impostare un nuovo ttl o expireTime per una cache. La modifica di qualsiasi altro elemento della cache non è supportata.

L'esempio seguente mostra come aggiornare ttl di una cache utilizzando GoogleAICacheManager.update().

const ttlSeconds = 2 * 60 * 60;
const updateParams = { cachedContent: { ttlSeconds } };
const updatedCache = await cacheManager.update(cacheName, updateParams);

Eliminare una cache

Il servizio di memorizzazione nella cache fornisce un'operazione di eliminazione per rimuovere manualmente i contenuti dalla cache. L'esempio seguente mostra come eliminare una cache utilizzando GoogleAICacheManager.delete().

await cacheManager.delete(cacheName);

Considerazioni aggiuntive

Quando utilizzi la memorizzazione nella cache di contesto, tieni presente le seguenti considerazioni:

Il numero minimo di token di input per la memorizzazione nella cache del contesto è pari a 32.768 e il massimo è uguale al numero massimo per il modello specificato. Per ulteriori informazioni sul conteggio dei token, consulta la guida ai token.
Il modello non fa distinzione tra token memorizzati nella cache e token di input regolari. I contenuti memorizzati nella cache sono semplicemente un prefisso del prompt.
Non sono previsti limiti di frequenza o di utilizzo speciali per la memorizzazione nella cache del contesto. Si applicano i limiti di frequenza standard per GenerateContent e i limiti di token includono i token memorizzati nella cache.
Il numero di token memorizzati nella cache viene restituito in usage_metadata dalle operazioni di creazione, recupero e elenco del servizio cache e anche in GenerateContent quando si utilizza la cache.