Gemini API מציע מגוון מנגנוני אופטימיזציה שיעזרו לכם לאזן בין מהירות, עלות ומהימנות בהתאם לצרכים הספציפיים של עומס העבודה. לא משנה אם אתם בונים בוטים לשיחות בזמן אמת או מפעילים צינורות לעיבוד נתונים אופליין כבדים, בחירה של פרדיגמה נכונה יכולה להוביל לחיסכון משמעותי בעלויות או לשיפור הביצועים.
| תכונה | רגיל | Flex | עדיפות | Batch | שמירה במטמון |
|---|---|---|---|---|---|
| תמחור | מחיר מלא | הנחה של 50% | 75% עד 100% יותר מהרגיל | הנחה של 50% | הנחה של 90% + אחסון יחסי של טוקנים |
| זמן אחזור | שניות לדקות | דקות (יעד של 15-1 דקות) | שניות | עד 24 שעות | זמן מהיר יותר עד לקבלת הטוקן הראשון |
| אמינות | גבוהה / בינונית-גבוהה | ללא התחייבות (ניתן להשמטה) | גבוהה (לא ניתן להסרה) | גבוהה (לתפוקה) | לא רלוונטי |
| ממשק | סינכרוני | סינכרוני | סינכרוני | אסינכרוני | מצב שמור |
| תרחיש שימוש מומלץ | תהליכי עבודה כלליים באפליקציה | שרשראות עוקבות לא דחופות | אפליקציות שפונות למשתמשים | מערכי נתונים גדולים, בדיקות אופליין | שאילתות חוזרות על אותו קובץ |
רמות שירות של הסקת מסקנות (סינכרוני)
אפשר לעבור בין תנועה סינכרונית שעברה אופטימיזציה לאמינות לבין תנועה סינכרונית שעברה אופטימיזציה לעלות על ידי העברת הפרמטר service_tier בקריאות ליצירת דוחות רגילים.
הסקת מסקנות רגילה (ברירת מחדל)
האפשרות 'רמה רגילה' היא ברירת המחדל ליצירת תוכן רציפה. הוא מספק זמני תגובה רגילים בלי תוספות או תורים ארוכים.
- אמינות: קריטיות רגילה
- המחיר: תמחור רגיל.
- הכי מתאים ל: רוב האפליקציות האינטראקטיביות לשימוש יומיומי.
הסקת מסקנות בעדיפות גבוהה (אופטימיזציה לזמן האחזור)
עדיפות: בקשות שמוגדרות בעדיפות הזו מועברות לתורים של מחשוב ברמת קריטיות גבוהה. אי אפשר להפחית את התנועה הזו (היא אף פעם לא נדחקת על ידי רמות אחרות) והיא מציעה את רמת המהימנות הגבוהה ביותר. אם חורגים ממגבלות העדיפות הדינמית, המערכת תבצע הורדה הדרגתית של הבקשה לעיבוד רגיל במקום להיכשל עם שגיאה.
- אמינות: רמת הקריטיות הגבוהה ביותר
- מחיר: 75% עד 100% מעל התעריפים הרגילים.
- הכי מתאים ל: צ'אטבוטים לשירות לקוחות, זיהוי הונאות בזמן אמת וטייסים וירטואליים שחיוניים לעסק.
הסקת מסקנות גמישה (אופטימיזציה של עלויות)
Flex inference מציע הנחה של 50% בהשוואה לתעריפים הרגילים, באמצעות ניצול קיבולת מחשוב אופורטוניסטית מחוץ לשעות השיא. הבקשות מעובדות באופן סינכרוני, כלומר לא צריך לכתוב מחדש קוד כדי לנהל אובייקטים של אצווה. מכיוון שמדובר בתנועה שניתן להפחית, יכול להיות שהבקשות יידחו אם המערכת תיתקל בעליות חדות בתנועה.
- אמינות: קריטיות לא מובטחת, ניתנת להסרה
- המחיר: 50% מהתמחור הרגיל (החיוב הוא לכל טוקן).
- הבחירה המתאימה ביותר ל: תהליכי עבודה מרובי שלבים שבהם שיחה N+1 תלויה בפלט של שיחה N, עדכוני CRM ברקע והערכות אופליין.
Batch API (בכמות גדולה, אסינכרוני)
Batch API נועד לעבד נפחים גדולים של בקשות באופן אסינכרוני ב-50% מהעלות הרגילה. אפשר לשלוח בקשות כמילונים מוטבעים או באמצעות קובץ קלט JSONL (עד 2GB). הבקשות מעובדות באמצעות תורים של נתונים שמועברים ברקע, עם זמן טיפול משוער של 24 שעות.
- מהימנות: אפשר להסיר את ההרשאות, אבל המערכת תנסה לשלוח את ההודעה שוב באופן אוטומטי כל 24 שעות, והיא תתווסף לתור.
- מחיר: 50% מהמחיר הרגיל.
- הכי מתאים ל: עיבוד מוקדם של מערכי נתונים גדולים, הפעלת חבילות של בדיקות רגרסיה תקופתיות ויצירת תמונות או הטבעות בכמויות גדולות.
שמירת הקשר במטמון (חיסכון בקלט)
שמירת הקשר במטמון משמשת כשבקשות קצרות יותר מפנות שוב ושוב להקשר ראשוני משמעותי.
- שמירה במטמון באופן מרומז: מופעלת אוטומטית ב-Gemini 2.5 ובמודלים חדשים יותר. המערכת מעבירה את החיסכון בעלויות אם הבקשה שלכם מגיעה למטמון קיים על סמך קידומות נפוצות של הנחיות.
- שמירה במטמון באופן מפורש: אפשר ליצור באופן ידני אובייקט מטמון עם משך חיים (TTL) ספציפי. אחרי שיוצרים את האסימונים, מתייחסים לאסימונים שנשמרו במטמון בבקשות הבאות כדי להימנע מהעברת אותה מטען ייעודי חוזרת ונשנית.
- מחיר: החיוב מבוסס על מספר אסימוני המטמון ומשך האחסון (TTL).
- הכי מתאים ל: צ'אטבוטים עם הוראות מערכת מקיפות, ניתוח חוזר של קובצי וידאו ארוכים או שאילתות שמופנות למערכי מסמכים גדולים.