בתהליך עבודה טיפוסי של AI, יכול להיות שתעבירו את אותם אסימוני קלט שוב ושוב למודל. Gemini API מציע שמירה מרומזת במטמון כדי לשפר את הביצועים ולצמצם את העלויות.
שמירה מרומזת במטמון
האפשרות 'שמירת נתונים במטמון באופן מרומז' מופעלת כברירת מחדל בכל המודלים של Gemini 2.5 ומעלה. אם הבקשה שלכם מגיעה למטמון, אנחנו מעבירים את החיסכון בעלויות באופן אוטומטי. לא צריך לעשות שום דבר כדי להפעיל את התכונה הזו. בטבלה הבאה מפורט מספר האסימונים המינימלי של הקלט לכל מודל שנדרש כדי להשתמש במטמון ההקשר:
מודל
מגבלת טוקנים מינימלית
Gemini 3.5 Flash
4096
Gemini 3.1 Pro Preview
4096
Gemini 2.5 Flash
2048
Gemini 2.5 Pro
2048
כדי להגדיל את הסיכוי לפגיעה במטמון משתמע:
כדאי לנסות להוסיף בתחילת ההנחיה תוכן גדול ונפוץ
ניסיון לשלוח בקשות עם קידומת דומה בפרק זמן קצר
אפשר לראות את מספר הטוקנים שהיו פגיעות במטמון בשדה usage_metadata (Python) או usageMetadata (JavaScript) של אובייקט התגובה.
[[["התוכן קל להבנה","easyToUnderstand","thumb-up"],["התוכן עזר לי לפתור בעיה","solvedMyProblem","thumb-up"],["סיבה אחרת","otherUp","thumb-up"]],[["חסרים לי מידע או פרטים","missingTheInformationINeed","thumb-down"],["התוכן מורכב מדי או עם יותר מדי שלבים","tooComplicatedTooManySteps","thumb-down"],["התוכן לא עדכני","outOfDate","thumb-down"],["בעיה בתרגום","translationIssue","thumb-down"],["בעיה בדוגמאות/בקוד","samplesCodeIssue","thumb-down"],["סיבה אחרת","otherDown","thumb-down"]],["עדכון אחרון: 2026-06-22 (שעון UTC)."],[],[]]