שמירת הקשר במטמון

בתהליך עבודה טיפוסי של AI, יכול להיות שתעבירו שוב ושוב את אותם אסימוני קלט למודל. ב-Gemini API יש שני מנגנוני מטמון שונים:

  • אחסון במטמון סמוי (אוטומטי, ללא התחייבות לחיסכון בעלויות)
  • אחסון במטמון באופן מפורש (ידני, עם התחייבות לחיסכון בעלויות)

שמירת נתונים במטמון משתמעת מופעלת כברירת מחדל במודלים של Gemini 2.5. אם בקשה מכילה תוכן שנמצא במטמון, אנחנו מעבירים לכם באופן אוטומטי את החיסכון בעלויות.

שמירת נתונים במטמון באופן מפורש שימושית במקרים שבהם רוצים להבטיח חיסכון בעלויות, אבל עם קצת עבודה נוספת של המפתחים.

שמירה במטמון מרומזת

שמירת נתונים במטמון משתמעת מופעלת כברירת מחדל בכל המודלים של Gemini 2.5. אנחנו מעבירים באופן אוטומטי את החיסכון בעלויות אם הבקשה שלכם נמצאת במטמון. לא צריך לעשות שום דבר כדי להפעיל את התכונה הזו. המדיניות תיכנס לתוקף ב-8 במאי 2025. מספר האסימונים המינימלי להזנת מטמון ההקשר הוא 1,024 בגרסה 2.5 Flash ו-2,048 בגרסה 2.5 Pro.

כדי להגביר את הסיכוי להיט מטמון סמוי:

  • כדאי להציב תוכן גדול ונפוץ בתחילת ההנחיה
  • ניסיון לשלוח בקשות עם קידומת דומה בפרק זמן קצר

אפשר לראות את מספר האסימונים שהיו היטים במטמון בשדה usage_metadata של אובייקט התגובה.

שמירה מפורשת במטמון

באמצעות התכונה של Gemini API לשמירת נתונים במטמון באופן מפורש, אפשר להעביר תוכן מסוים למודל פעם אחת, לשמור במטמון את אסימוני הקלט ואז להפנות לאסימונים ששמורים במטמון בבקשות הבאות. בנפח מסוים, השימוש באסימונים ששמורים במטמון זול יותר מהעברה חוזרת של אותו גוף של אסימונים.

כששומרים במטמון קבוצה של אסימונים, אפשר לבחור את משך הזמן שבו המטמון יהיה קיים לפני שהאסימונים יימחקו באופן אוטומטי. משך הזמן הזה ששמור במטמון נקרא אורך החיים (TTL). אם לא מגדירים את ערך ה-TTL, ברירת המחדל היא שעה אחת. העלות של שמירת האסימונים במטמון תלויה בגודל אסימון הקלט ובמשך הזמן שבו רוצים לשמור את האסימונים.

בסעיף הזה נניח שכבר התקנתם את Gemini SDK (או ש-curl מותקן אצלכם) ושהגדרתם מפתח API, כפי שמתואר במדריך למתחילים.

מתי כדאי להשתמש בשמירת נתונים במטמון באופן מפורש

שמירת הקשר במטמון מתאימה במיוחד לתרחישים שבהם הקשר ראשוני משמעותי מופיע שוב ושוב בבקשות קצרות יותר. כדאי להשתמש בשמירה במטמון לפי הקשר בתרחישים לדוגמה כמו:

  • צ'אט בוטים עם הוראות מערכת מפורטות
  • ניתוח חוזר של קובצי וידאו ארוכים
  • שאילתות חוזרות על קבוצות גדולות של מסמכים
  • ניתוח תדיר של מאגר הקוד או תיקון באגים

איך אחסון במטמון מפורש מפחית עלויות

שמירת הקשר במטמון היא תכונה בתשלום שנועדה להפחית את העלויות הכוללות של התפעול. החיוב מבוסס על הגורמים הבאים:

  1. מספר האסימונים ששמורים במטמון: מספר האסימונים של הקלט ששמורים במטמון, שעבורם מתבצעת חיוב במחיר מוזל כשהם נכללים בהנחיות הבאות.
  2. משך האחסון: משך הזמן שבו טוקנים נשמרים במטמון (TTL). החיוב מתבצע על סמך משך ה-TTL של מספר הטוקנים שנשמרו במטמון. אין גבולות מינימום או מקסימום ל-TTL.
  3. גורמים אחרים: חלים חיובים אחרים, כמו על אסימוני קלט ואסימוני פלט שלא שמורים במטמון.

פרטי התמחור העדכניים מפורטים בדף התמחור של Gemini API. במאמר מדריך אסימונים מוסבר איך ספקים יכולים לספור אסימונים.

שיקולים נוספים

כשמשתמשים במטמון הקשר, חשוב לזכור את הנקודות הבאות:

  • המספר המינימלי של אסימוני הקלט לשמירת הקשר במטמון הוא 1,024 בגרסה 2.5 Flash ו-2,048 בגרסה 2.5 Pro. הערך של maximum זהה לערך המקסימלי של המודל הנתון. (מידע נוסף על ספירת אסימונים זמין במדריך האסימונים).
  • המודל לא מבדיל בין אסימונים שנשמרו במטמון לבין אסימוני קלט רגילים. תוכן ששמור במטמון הוא קידומת להנחיה.
  • אין מגבלות מיוחדות על קצב או על שימוש בשמירת הקשר במטמון. מגבלות הקצב הרגילות של GenerateContent חלות, ומגבלות האסימונים כוללות אסימונים שנשמרו במטמון.
  • מספר האסימונים שנשמרו במטמון מוחזר ב-usage_metadata מהפעולות create,‏ get ו-list של שירות המטמון, וגם ב-GenerateContent כשמשתמשים במטמון.