Gemini API מציע מגוון מנגנוני אופטימיזציה שיעזרו לכם לאזן בין מהירות, עלות ומהימנות בהתאם לצרכים הספציפיים של עומס העבודה שלכם. בין אם אתם בונים בוטים לשיחות בזמן אמת או מפעילים צינורות לעיבוד נתונים אופליין, בחירה של פרדיגמה מתאימה יכולה להוביל לחיסכון משמעותי בעלויות או לשיפור הביצועים.
| תכונה | רגיל | Flex | עדיפות | Batch | שמירה במטמון |
|---|---|---|---|---|---|
| תמחור | מחיר מלא | הנחה של 50% | 75% עד 100% יותר מהרגיל | הנחה של 50% | הנחה של 90% + אחסון יחסי של טוקנים |
| זמן אחזור | שניות לדקות | דקות (יעד של 15-1 דקות) | שניות | עד 24 שעות | זמן מהיר יותר עד לקבלת הטוקן הראשון |
| אמינות | גבוהה / בינונית-גבוהה | האיכות הטובה ביותר (ניתן להפחית את האיכות) | גבוהה (לא נושרת) | גבוהה (לתפוקה) | לא רלוונטי |
| ממשק | סינכרוני | סינכרוני | סינכרוני | אסינכרוני | מצב שמור |
| תרחיש שימוש מומלץ | תהליכי עבודה כלליים באפליקציה | שרשראות עוקבות לא דחופות | אפליקציות שפונות למשתמשים | מערכי נתונים גדולים, בדיקות אופליין | שאילתות חוזרות על אותו קובץ |
רמות שירות של הסקת מסקנות (סינכרוני)
אפשר לעבור בין תנועה סינכרונית שעברה אופטימיזציה לאמינות לבין תנועה סינכרונית שעברה אופטימיזציה לעלות על ידי העברת הפרמטר service_tier בקריאות ליצירת דוחות רגילים.
הסקת מסקנות רגילה (ברירת מחדל)
האפשרות 'רמה רגילה' היא ברירת המחדל ליצירת תוכן רציפה. הוא מספק זמני תגובה רגילים בלי תוספות פרימיום או תורים ארוכים.
- אמינות: קריטיות רגילה
- המחיר: תמחור רגיל.
- מתאים במיוחד: לרוב האפליקציות האינטראקטיביות לשימוש יומיומי.
היקש לפי עדיפות (אופטימיזציה של זמן טעינה)
עדיפות: בקשות שמוגדרות בעדיפות הזו מועברות לתורים של מחשוב ברמת קריטיות גבוהה. התנועה הזו לא ניתנת להעברה (לעולם לא תידחק על ידי רמות אחרות) ומציעה את רמת המהימנות הגבוהה ביותר. אם חורגים ממגבלות העדיפות הדינמית, המערכת תבצע הורדה הדרגתית של הבקשה לעיבוד רגיל במקום לגרום לכשל עם שגיאה.
- אמינות: רמת הקריטיות הגבוהה ביותר
- מחיר: 75% עד 100% מעל התעריפים הרגילים.
- הכי מתאים ל: צ'אטבוטים לשירות לקוחות, זיהוי הונאות בזמן אמת וטייסים וירטואליים שחיוניים לעסק.
הסקת מסקנות גמישה (אופטימיזציה של עלויות)
Flex inference מציע הנחה של 50% בהשוואה לתעריפים הרגילים, באמצעות ניצול קיבולת מחשוב אופורטוניסטית מחוץ לשעות השיא. הבקשות מעובדות באופן סינכרוני, כלומר לא צריך לכתוב מחדש קוד כדי לנהל אובייקטים של אצווה. מכיוון שמדובר בתנועה שניתן להפחית, יכול להיות שהבקשות יידחו אם המערכת תיתקל בעליות חדות בתנועה.
- אמינות: קריטיות לא מובטחת, ניתנת להסרה
- המחיר: 50% מהתמחור הרגיל (החיוב הוא לכל טוקן).
- הבחירה המתאימה ביותר ל: תהליכי עבודה מרובי שלבים שבהם שיחה N+1 תלויה בפלט של שיחה N, עדכוני CRM ברקע והערכות אופליין.
Batch API (בכמות גדולה, אסינכרוני)
Batch API נועד לעבד נפחים גדולים של בקשות באופן אסינכרוני ב-50% מהעלות הרגילה. אפשר לשלוח בקשות כמילונים מוטבעים או באמצעות קובץ קלט JSONL (עד 2GB). הבקשות מעובדות באמצעות תורים של נתונים שמועברים ברקע, עם זמן טיפול משוער של 24 שעות.
- מהימנות: אפשר להסיר את ההרשאות, אבל המערכת תנסה לשלוח את ההודעה שוב באופן אוטומטי כל 24 שעות, והיא תתווסף לתור.
- המחיר: 50% מהמחיר הרגיל.
- הכי מתאים ל: עיבוד מוקדם של מערכי נתונים גדולים, הפעלת חבילות של בדיקות רגרסיה תקופתיות ויצירת תמונות או הטבעות בכמויות גדולות.
שמירת הקשר במטמון (חיסכון בקלט)
שמירת הקשר במטמון משמשת כשבקשות קצרות יותר מפנות שוב ושוב להקשר ראשוני משמעותי.
- שמירה במטמון באופן מרומז: מופעלת אוטומטית ב-Gemini 2.5 ובמודלים חדשים יותר. המערכת מעבירה את החיסכון בעלויות אם הבקשה שלכם מגיעה למטמון קיים על סמך קידומות נפוצות של הנחיות.
- שמירה במטמון באופן מפורש: אפשר ליצור באופן ידני אובייקט מטמון עם משך חיים (TTL) ספציפי. אחרי שיוצרים את האסימונים, מתייחסים לאסימונים שנשמרו במטמון בבקשות הבאות כדי להימנע מהעברת אותה מטען ייעודי חוזרת ונשנית.
- מחיר: החיוב מבוסס על מספר אסימוני המטמון ומשך האחסון (TTL).
- הכי מתאים ל: צ'אטבוטים עם הוראות מערכת מקיפות, ניתוח חוזר של קובצי וידאו ארוכים או שאילתות שמופנות למערכי מסמכים גדולים.