אופטימיזציה והסקת מסקנות ב-Gemini API

‫Gemini API מציע מגוון מנגנוני אופטימיזציה שיעזרו לכם לאזן בין מהירות, עלות ומהימנות בהתאם לצרכים הספציפיים של עומס העבודה. בין אם אתם בונים בוטים לשיחות בזמן אמת או מפעילים צינורות לעיבוד נתונים אופליין, בחירת הפרדיגמה הנכונה יכולה להוביל לחיסכון משמעותי בעלויות או לשיפור הביצועים.

תכונה רגיל Flex עדיפות Batch שמירה במטמון
תמחור מחיר מלא הנחה של 50% ‫75% עד 100% יותר מהרגיל הנחה של 50% אחסון טוקנים יחסי
זמן אחזור שניות לדקות דקות (יעד של 15-1 דקות) נמוך (שניות) עד 24 שעות זמן מהיר יותר עד לקבלת הטוקן הראשון
אמינות גבוהה / בינונית-גבוהה האיכות הטובה ביותר (ניתן להשמטה) גבוהה (לא ניתן להסרה) גבוהה (לתפוקה) לא רלוונטי
ממשק סינכרוני סינכרוני סינכרוני אסינכרוני מצב שמור
תרחיש שימוש מומלץ תהליכי עבודה כלליים באפליקציה שרשראות עוקבות לא דחופות אפליקציות שפונות למשתמשים מערכי נתונים גדולים מאוד, בדיקות אופליין שאילתות חוזרות על אותו קובץ

רמות שירות של הסקת מסקנות (סינכרוני)

אפשר לעבור בין תנועה סינכרונית שעברה אופטימיזציה לזמן אחזור לבין תנועה סינכרונית שעברה אופטימיזציה לעלות, על ידי העברת הפרמטר service_tier בקריאות ליצירת דוחות רגילים.

הסקת מסקנות רגילה (ברירת מחדל)

האפשרות 'רמה רגילה' היא ברירת המחדל ליצירת תוכן רציפה. הוא מספק זמני תגובה רגילים בלי תוספות או תורים ארוכים.

  • זמן האחזור: שניות עד דקות.
  • המחיר: תמחור רגיל.
  • מתאים במיוחד: לרוב האפליקציות האינטראקטיביות לשימוש יומיומי.

היקש לפי עדיפות (אופטימיזציה של זמן טעינה)

עדיפות: בקשות שמוגדרות בעדיפות הזו מועברות לתורים של מחשוב ברמת קריטיות גבוהה. התנועה הזו לא ניתנת להעברה (לעולם לא תידחק על ידי רמות אחרות) ומציעה את רמת המהימנות הגבוהה ביותר. אם חורגים ממגבלות העדיפות הדינמית, המערכת תבצע הורדה הדרגתית של הבקשה לעיבוד רגיל במקום להיכשל עם שגיאה.

  • זמן אחזור: נמוך במיוחד (אלפיות שנייה עד שניות).
  • מחיר: 75% עד 100% מעל התעריפים הרגילים.
  • הכי מתאים ל: צ'אטבוטים חיים של שירות לקוחות, זיהוי הונאות בזמן אמת וטייסים וירטואליים שחיוניים לעסק.

הסקת מסקנות גמישה (אופטימיזציה של עלויות)

Flex inference מציע הנחה של 50% בהשוואה לתעריפים הרגילים, באמצעות ניצול קיבולת מחשוב אופורטוניסטית מחוץ לשעות השיא. הבקשות מעובדות באופן סינכרוני, כלומר לא צריך לכתוב מחדש קוד כדי לנהל אובייקטים של אצווה. מכיוון שמדובר בתנועה שניתן להפחית, יכול להיות שהבקשות יידחו אם המערכת תיתקל בעליות חדות בתנועה.

  • זמן האחזור: לא מובטח, אבל המטרה היא בין דקה ל-15 דקות.
  • המחיר: 50% מהתמחור הרגיל (החיוב הוא לכל טוקן).
  • הבחירה המתאימה ביותר ל: תהליכי עבודה מרובי שלבים שבהם שיחה N+1 תלויה בפלט של שיחה N, עדכוני CRM ברקע והערכות אופליין.

‫Batch API (בכמות גדולה, אסינכרוני)

Batch API מיועד לעיבוד של נפחים גדולים של בקשות באופן אסינכרוני, בעלות של 50% מהעלות הרגילה. אפשר לשלוח בקשות כמילונים מוטבעים או באמצעות קובץ קלט JSONL (עד 2GB). הבקשות מעובדות באמצעות תורים של נתונים שמועברים ברקע, עם זמן טיפול משוער של 24 שעות.

  • זמן האחזור: גבוה (עד 24 שעות).
  • המחיר: 50% מהמחיר הרגיל.
  • הכי מתאים ל: עיבוד מוקדם של מערכי נתונים גדולים, הפעלת חבילות של בדיקות רגרסיה תקופתיות ויצירת תמונות או הטבעות בכמויות גדולות.

שמירת הקשר במטמון (חיסכון בקלט)

שמירת הקשר במטמון משמשת כשבקשות קצרות יותר מפנות שוב ושוב להקשר ראשוני משמעותי.

  • שמירה במטמון באופן מרומז: מופעלת אוטומטית ב-Gemini 2.5 ובמודלים חדשים יותר. המערכת מעבירה את החיסכון בעלויות אם הבקשה שלכם מגיעה למטמון קיים על סמך קידומות נפוצות של הנחיות.
  • שמירה במטמון באופן מפורש: אפשר ליצור באופן ידני אובייקט מטמון עם משך חיים (TTL) ספציפי. אחרי שיוצרים את האסימונים, מתייחסים לאסימונים שנשמרו במטמון בבקשות הבאות כדי להימנע מהעברת אותה מטען ייעודי חוזרת ונשנית.
  • מחיר: החיוב מבוסס על מספר אסימוני המטמון ומשך האחסון (TTL).
  • הכי מתאים ל: צ'אטבוטים עם הוראות מערכת מקיפות, ניתוח חוזר של קובצי וידאו ארוכים או שאילתות שמופנות למערכי מסמכים גדולים.