שמירה במטמון של הקשר

בתהליך עבודה טיפוסי של AI, יכול להיות שתעבירו את אותם אסימוני קלט שוב ושוב למודל. ‫Gemini API מציע שמירה מובלעת במטמון כדי לשפר את הביצועים ולהוזיל עלויות.

שמירה מרומזת במטמון

האפשרות 'שמירת נתונים במטמון באופן מרומז' מופעלת כברירת מחדל בכל המודלים של Gemini מגרסה 2.5 ואילך. אם הבקשה שלכם מגיעה למטמון, אנחנו מעבירים לכם באופן אוטומטי את החיסכון בעלויות. לא צריך לעשות שום דבר כדי להפעיל את התכונה הזו. בטבלה הבאה מפורט מספר האסימונים המינימלי של הקלט לכל מודל לצורך שמירת מטמון של ההקשר:

דגם מגבלת טוקנים מינימלית
‫Gemini 3 Flash Preview 1024
‫Gemini 3 Pro Preview 4096
Gemini ‎2.5 Flash 1024
Gemini ‎2.5 Pro 4096

כדי להגדיל את הסיכוי לפגיעה במטמון משתמע:

  • כדאי לנסות להוסיף תוכן גדול ונפוץ בתחילת ההנחיה
  • ניסיון לשלוח בקשות עם קידומת דומה בפרק זמן קצר

אפשר לראות את מספר הטוקנים שהיו פגיעות במטמון בשדה usage_metadata (Python) או usageMetadata (JavaScript) של אובייקט התגובה.