שמירת הקשר במטמון

בתהליך עבודה אופייני של AI, אתם עשויים להעביר את אותם אסימוני קלט שוב ושוב כוונון מודל. בעזרת התכונה 'שמירה במטמון ההקשר של Gemini API', אפשר להעביר חלק מהתוכן למודל פעם אחת, לשמור במטמון את אסימוני הקלט ואז לעיין באסימונים שנשמרו במטמון לבקשות הבאות. בנפחים מסוימים, השימוש באסימונים שנשמרו במטמון כרוך בעלות נמוכה יותר מאשר להעביר את אותו קורפוס של אסימונים שוב ושוב.

כששומרים קבוצת אסימונים במטמון, אפשר לבחור כמה זמן לשמור במטמון קיימים לפני שהאסימונים נמחקים באופן אוטומטי. משך השמירה במטמון הוא שנקרא אורך חיים (TTL). אם לא מגדירים את ה-TTL, ברירת המחדל של ה-TTL היא שעה אחת. עלות השמירה במטמון תלויה בגודל אסימון הקלט ובמשך הזמן הרצוי שלא יאבדו.

שמירת הקשר במטמון תומכת גם ב-Gemini 1.5 Pro וגם ב-Flash 1.5 Flash.

מתי כדאי להשתמש בשמירת הקשר במטמון

שמירה במטמון לפי הקשר מתאימה במיוחד לתרחישים שבהם לבקשות קצרות יותר יש הפניה שוב ושוב להקשר הראשוני. כדאי להשתמש שמירת הקשר במטמון לתרחישים לדוגמה כמו:

  • צ'אט בוטים עם הוראות מערכת מקיפות
  • ניתוח חזרתי של קובצי וידאו ארוכים
  • שאילתות חוזרות על קבוצות גדולות של מסמכים
  • ניתוח של מאגרי קוד בתדירות גבוהה או תיקון באגים

איך שמירה במטמון מפחיתה את העלויות

שמירה במטמון לפי הקשר היא תכונה בתשלום שמיועדת לצמצם את עלויות התפעול הכוללות. החיוב מבוסס על הגורמים הבאים:

  1. ספירת אסימוני מטמון: מספר אסימוני הקלט שנשמרו במטמון, שמחויבים לפי בשיעור מופחת כשתכלול אותו בהנחיות הבאות.
  2. משך האחסון: משך הזמן שבו מאוחסנים האסימונים במטמון (TTL), החיוב מתבצע על סמך משך ה-TTL של ספירת האסימונים במטמון. אין דרישות מינימום או גבולות מקסימליים ב-TTL.
  3. גורמים אחרים: יחולו חיובים אחרים, למשל על אסימוני קלט שלא נשמרו במטמון ואסימוני פלט.

במחירון של Gemini API ניתן למצוא פרטי תמחור עדכניים . מידע נוסף על ספירת אסימונים זמין במאמר אסימון guide.

איך משתמשים בשמירה במטמון לפי הקשר

הקטע הזה יוצא מנקודת הנחה שהתקנתם Gemini SDK והגדרתם API המקש, כפי שמוצג במדריך למתחילים.

שיקולים נוספים

כדאי להביא בחשבון את השיקולים הבאים כשמשתמשים בשמירת הקשר במטמון:

  • המספר המינימלי של אסימוני הקלט לשמירה במטמון של הקשר הוא 32,768. הערך max. זהה למספר המקסימלי במודל הנתון. (למידע נוסף על כדי לספור אסימונים, אפשר לעיין במדריך לאסימונים.
  • המודל לא מבחין בין אסימונים שנשמרו במטמון לבין אסימונים רגילים אסימוני קלט. תוכן שנשמר במטמון הוא פשוט קידומת להנחיה.
  • אין הגבלות על קצב השימוש או על השימוש בשמירה במטמון לפי הקשר. הסטנדרטי חלות הגבלות קצב של יצירת קובץ GenerateContent, ומגבלות האסימון כוללות מידע שנשמר במטמון לאסימונים אישיים.
  • מספר האסימונים שנשמרו במטמון מוחזר ב-usage_metadata מ- ליצור, לקבל ולפרט את הפעולות של שירות המטמון, וגם GenerateContent כשמשתמשים במטמון.