שמירת הקשר במטמון

בתהליך עבודה אופייני של AI, ייתכן שאתם מעבירים את אותם אסימוני קלט שוב ושוב למודל. תכונת השמירה במטמון ההקשר של Gemini API מאפשרת להעביר תוכן מסוים למודל פעם אחת, לשמור את אסימוני הקלט במטמון ואז להפנות לאסימונים שנשמרו במטמון לבקשות הבאות. בנפחים מסוימים, השימוש באסימונים במטמון הוא בעלות נמוכה יותר (וזמן האחזור יכול להיות קצר יותר) מאשר העברה באותו אוסף של אסימונים שוב ושוב.

כששומרים קבוצת אסימונים במטמון, אפשר לבחור כמה זמן לשמור במטמון לפני שהאסימונים יימחקו אוטומטית. משך השמירה במטמון נקרא משך החיים (TTL). עלות השמירה במטמון תלויה בגודל של אסימון הקלט ולמשך כמה זמן רוצים שהאסימונים יישמרו.

שמירת הקשר במטמון תומכת גם ב-Gemini 1.5 Pro וגם ב-Flash 1.5 Flash.

מתי כדאי להשתמש בשמירת הקשר במטמון

שמירה במטמון לפי הקשר מתאימה במיוחד לתרחישים שבהם בקשות קצרות יותר מפנות שוב ושוב להקשר ראשוני משמעותי. כדאי להשתמש בשמירה במטמון לפי הקשר לתרחישים לדוגמה כמו:

  • צ'אט בוטים עם הוראות מערכת מקיפות
  • ניתוח חזרתי של קובצי וידאו ארוכים
  • שאילתות חוזרות על קבוצות גדולות של מסמכים
  • ניתוח של מאגרי קוד בתדירות גבוהה או תיקון באגים

איך שמירה במטמון מפחיתה את העלויות

שמירה במטמון לפי הקשר היא תכונה בתשלום שמיועדת לצמצם את עלויות התפעול הכוללות. החיוב מבוסס על הגורמים הבאים:

  1. מספר אסימוני המטמון: מספר אסימוני הקלט שנשמרו במטמון, שמחויבים בתעריף מופחת כשהם נכללים בהנחיות הבאות.
  2. משך האחסון: משך הזמן שבו האסימונים במטמון מאוחסנים (TTL), בחיוב שעתי. אין גבולות מינימום או מקסימום ל-TTL.
  3. גורמים אחרים: יחולו חיובים נוספים, למשל על אסימוני קלט ואסימוני פלט שלא נשמרו במטמון.

מחירים עדכניים זמינים בדף התמחור של Gemini API. במדריך בנושא אסימונים תוכלו לקרוא איך סופרים אסימונים.

איך משתמשים בשמירה במטמון לפי הקשר

הקטע הזה מבוסס על ההנחה שהתקנתם את Gemini SDK והגדרתם מפתח API, כמו שמוסבר בquickstart.

שיקולים נוספים

כדאי להביא בחשבון את השיקולים הבאים כשמשתמשים בשמירת הקשר במטמון:

  • המספר המינימלי של אסימוני הקלט לשמירה במטמון של הקשר הוא 32,768, והערך המקסימלי זהה למספר המקסימלי במודל הנתון. (מידע נוסף על ספירת אסימונים מופיע במדריך האסימונים).
  • תוכלו להגדיר את אורך החיים (TTL) של המטמון, כמו שמוצג בקוד לדוגמה. אם לא מגדירים את ה-TTL, ברירת המחדל של ה-TTL היא שעה אחת.
  • המודל לא מבחין בין אסימונים שנשמרו במטמון לבין אסימוני קלט רגילים. תוכן שנשמר במטמון הוא פשוט קידומת להנחיה.
  • שירות השמירה במטמון מאפשר פעולת מחיקה להסרה ידנית של תוכן מהמטמון. פרטים נוספים זמינים בתיעוד של ה-SDK הרצוי.
  • לרמה בתשלום, אין הגבלות שימוש או תעריפים מיוחדים בשמירה במטמון לפי הקשר. מגבלות הקצב הסטנדרטיות של GenerateContent חלות, ומגבלות האסימונים כוללות אסימונים שנשמרו במטמון. בתוכנית ללא תשלום יש מגבלת אחסון של מיליון אסימונים ל-Gemini 1.5 Flash, ואי אפשר לשמור במטמון את Gemini 1.5 Pro.
  • אי אפשר לאחזר או להציג תוכן שנשמר במטמון, אבל אפשר לאחזר את המטא-נתונים (name, display_name, model ומועדי יצירה, עדכון והתוקף שלהם).
  • אפשר להגדיר ttl או expire_time חדשים. אי אפשר לשנות כל דבר אחר לגבי התוכן שנשמר במטמון.
  • מספר האסימונים שנשמרו במטמון מוחזר ב-usage_metadata מפעולות היצירה, האחזור והרשימה של שירות המטמון, וגם ב-GenerateContent כשמשתמשים במטמון.