رابط برنامهنویسی نرمافزار Gemini انواع مکانیسمهای بهینهسازی را ارائه میدهد تا به شما در ایجاد تعادل بین سرعت، هزینه و قابلیت اطمینان بر اساس نیازهای خاص حجم کاریتان کمک کند. چه در حال ساخت رباتهای مکالمهای بلادرنگ باشید و چه در حال اجرای خطوط لوله پردازش دادههای سنگین آفلاین، انتخاب الگوی مناسب میتواند به طور قابل توجهی هزینهها را کاهش یا عملکرد را افزایش دهد.
| ویژگی | استاندارد | فلکس | اولویت | دستهای | ذخیره سازی |
|---|---|---|---|---|---|
| قیمتگذاری | قیمت کامل | ۵۰٪ تخفیف | ۷۵٪ تا ۱۰۰٪ بیشتر از حد استاندارد | ۵۰٪ تخفیف | ذخیرهسازی توکن متناسب |
| تأخیر | ثانیه به دقیقه | دقیقه (هدف ۱ تا ۱۵ دقیقه) | پایین (ثانیه) | تا ۲۴ ساعت | زمان سریعتر برای اولین توکن |
| قابلیت اطمینان | زیاد / متوسط-زیاد | بهترین تلاش (قابل کاهش) | زیاد (غیرقابل ریزش) | بالا (برای توان عملیاتی) | ناموجود |
| رابط | همزمان | همزمان | همزمان | ناهمزمان | وضعیت ذخیره شده |
| بهترین مورد استفاده | گردشهای کاری عمومی برنامه | زنجیرههای متوالی غیر فوری | برنامههای کاربردی و تولیدی | مجموعه دادههای عظیم، ارزیابیهای آفلاین | پرسوجوهای مکرر روی یک فایل |
سطوح سرویس استنتاج (همزمان)
شما میتوانید با ارسال پارامتر service_tier در فراخوانیهای تولید استاندارد خود، بین ترافیک همزمان بهینهشده از نظر تأخیر و ترافیک همزمان بهینهشده از نظر هزینه، جابهجا شوید.
استنتاج استاندارد (پیشفرض)
سطح استاندارد، گزینه پیشفرض برای تولید محتوای ترتیبی است. این سطح، زمان پاسخگویی عادی را بدون هزینههای اضافی یا صفهای طولانی فراهم میکند.
- تأخیر: از ثانیه تا دقیقه.
- قیمت: قیمت استاندارد.
- بهترین برای: اکثر برنامههای کاربردی روزمره که با تعامل بیشتری انجام میشوند.
استنتاج اولویت (بهینهسازیشده از نظر تأخیر)
پردازش اولویتدار ، درخواستهای شما را به صفهای محاسباتی با حساسیت بالا هدایت میکند. این ترافیک کاملاً غیرقابل حذف است (هرگز توسط سایر ردیفها اشغال نمیشود) و بالاترین قابلیت اطمینان را ارائه میدهد. اگر از محدودیتهای اولویت پویا تجاوز کنید، سیستم به جای اینکه درخواست را با خطا مواجه کند، به طرز ماهرانهای آن را به پردازش استاندارد تنزل میدهد.
- تأخیر: بسیار کم (میلی ثانیه تا ثانیه).
- قیمت: ۷۵٪ تا ۱۰۰٪ بالاتر از نرخهای استاندارد.
- بهترین برای: چتباتهای زنده مشتری، تشخیص کلاهبرداری در لحظه و دستیاران خلبانی حیاتی برای کسبوکار.
استنتاج انعطافپذیر (بهینهسازی هزینه)
استنتاج انعطافپذیر با استفاده از ظرفیت محاسباتی فرصتطلبانه و خارج از اوج مصرف، 50٪ تخفیف در مقایسه با نرخهای استاندارد ارائه میدهد. درخواستها به صورت همزمان پردازش میشوند، به این معنی که نیازی به بازنویسی کد برای مدیریت اشیاء دستهای ندارید. از آنجا که ترافیک "قابل حذف" است، در صورت بروز افزایش ناگهانی ترافیک استاندارد در سیستم، میتوان درخواستها را از دسترس خارج کرد.
- تأخیر: تضمین نشده، هدف ۱ تا ۱۵ دقیقه.
- قیمت: ۵۰٪ از قیمت استاندارد (به ازای هر توکن محاسبه میشود).
- بهترین برای: گردشهای کاری چند مرحلهای که در آنها N+1 تماس به خروجی N تماس، بهروزرسانیهای CRM پسزمینه و ارزیابیهای آفلاین بستگی دارد.
API دستهای (انبوه، ناهمزمان)
API دستهای (Batch API) برای پردازش حجم زیادی از درخواستها به صورت غیرهمزمان با ۵۰٪ هزینه استاندارد طراحی شده است. میتوانید درخواستها را یا به صورت دیکشنریهای درونخطی یا با استفاده از یک فایل ورودی JSONL (تا سقف ۲ گیگابایت) ارسال کنید. این API درخواستها را با استفاده از صفهای توان عملیاتی پسزمینه با زمان چرخش هدف ۲۴ ساعت پردازش میکند.
- تأخیر: زیاد (تا 24 ساعت).
- قیمت: ۵۰٪ از قیمت استاندارد.
- بهترین کاربردها: پیشپردازش مجموعه دادههای عظیم، اجرای مجموعههای تست رگرسیون دورهای و تولید تصاویر یا جاسازیهای با حجم بالا.
ذخیره سازی متن (صرفه جویی در ورودی)
ذخیره سازی متن زمانی استفاده میشود که یک متن اولیه قابل توجه بارها توسط درخواستهای کوتاهتر مورد ارجاع قرار گیرد.
- ذخیره سازی ضمنی: به طور خودکار در Gemini 2.5 و مدلهای جدیدتر فعال میشود. اگر درخواست شما بر اساس پیشوندهای اعلان رایج، به حافظههای پنهان موجود برسد، سیستم از صرفهجویی در هزینه جلوگیری میکند.
- ذخیره سازی صریح: شما میتوانید به صورت دستی یک شیء حافظه پنهان با یک زمان ماندگاری (TTL) خاص ایجاد کنید. پس از ایجاد، برای درخواستهای بعدی به توکنهای ذخیره شده مراجعه میکنید تا از ارسال مکرر همان محتوای متنی جلوگیری شود.
- قیمت: بر اساس تعداد توکنهای کش و مدت زمان ذخیرهسازی (TTL) محاسبه میشود.
- مناسب برای: چتباتهایی با دستورالعملهای سیستمی گسترده، تجزیه و تحلیل مکرر فایلهای ویدیویی طولانی یا پرسوجو در مجموعه اسناد بزرگ.