رابط برنامهنویسی نرمافزار Gemini انواع مکانیسمهای بهینهسازی را ارائه میدهد تا به شما در ایجاد تعادل بین سرعت، هزینه و قابلیت اطمینان بر اساس نیازهای خاص حجم کاریتان کمک کند. چه در حال ساخت رباتهای مکالمهای بلادرنگ باشید و چه در حال اجرای خطوط لوله پردازش دادههای سنگین آفلاین، انتخاب الگوی مناسب میتواند به طور قابل توجهی هزینهها را کاهش یا عملکرد را افزایش دهد.
| ویژگی | استاندارد | فلکس | اولویت | دستهای | ذخیره سازی |
|---|---|---|---|---|---|
| قیمتگذاری | قیمت کامل | ۵۰٪ تخفیف | ۷۵٪ تا ۱۰۰٪ بیشتر از حد استاندارد | ۵۰٪ تخفیف | ۹۰٪ تخفیف + فضای ذخیرهسازی توکن متناسب با بودجه |
| تأخیر | ثانیه به دقیقه | دقیقه (هدف ۱ تا ۱۵ دقیقه) | ثانیهها | تا ۲۴ ساعت | زمان سریعتر برای اولین توکن |
| قابلیت اطمینان | زیاد / متوسط-زیاد | بهترین تلاش (قابل کاهش) | زیاد (غیرقابل ریزش) | بالا (برای توان عملیاتی) | ناموجود |
| رابط | همزمان | همزمان | همزمان | ناهمزمان | وضعیت ذخیره شده |
| بهترین مورد استفاده | گردشهای کاری عمومی برنامه | زنجیرههای متوالی غیر فوری | برنامههای کاربردی و کاربرپسند (Production, user-facing apps) | مجموعه دادههای عظیم، ارزیابیهای آفلاین | پرسوجوهای مکرر روی یک فایل |
سطوح سرویس استنتاج (همزمان)
شما میتوانید با ارسال پارامتر service_tier در فراخوانیهای تولید استاندارد خود، بین ترافیک همزمان بهینهشده از نظر قابلیت اطمینان و بهینهشده از نظر هزینه، جابهجا شوید.
استنتاج استاندارد (پیشفرض)
سطح استاندارد، گزینه پیشفرض برای تولید محتوای ترتیبی است. این سطح، زمان پاسخگویی عادی را بدون هزینههای اضافی یا صفهای سنگین فراهم میکند.
- قابلیت اطمینان: حساسیت استاندارد
- قیمت: قیمت استاندارد.
- بهترین برای: اکثر برنامههای کاربردی روزمره که با تعامل بیشتری انجام میشوند.
استنتاج اولویت (بهینهسازیشده از نظر تأخیر)
پردازش اولویتدار ، درخواستهای شما را به صفهای محاسباتی با حساسیت بالا هدایت میکند. این ترافیک کاملاً غیرقابل حذف است (هرگز توسط سایر ردیفها اشغال نمیشود) و بالاترین قابلیت اطمینان را ارائه میدهد. اگر از محدودیتهای اولویت پویا تجاوز کنید، سیستم به جای اینکه درخواست را با خطا مواجه کند، به طرز ماهرانهای آن را به پردازش استاندارد تنزل میدهد.
- قابلیت اطمینان: بالاترین حساسیت
- قیمت: ۷۵٪ تا ۱۰۰٪ بالاتر از نرخهای استاندارد.
- بهترین برای: چتباتهای مشتری، تشخیص کلاهبرداری در لحظه و دستیاران خلبانی حیاتی برای کسبوکار.
استنتاج انعطافپذیر (بهینهسازی هزینه)
استنتاج انعطافپذیر با استفاده از ظرفیت محاسباتی فرصتطلبانه و خارج از اوج مصرف، 50٪ تخفیف در مقایسه با نرخهای استاندارد ارائه میدهد. درخواستها به صورت همزمان پردازش میشوند، به این معنی که نیازی به بازنویسی کد برای مدیریت اشیاء دستهای ندارید. از آنجا که ترافیک "قابل حذف" است، در صورت بروز افزایش ناگهانی ترافیک استاندارد در سیستم، میتوان درخواستها را از دسترس خارج کرد.
- قابلیت اطمینان: بحرانی بودن تضمین نشده، قابل حذف
- قیمت: ۵۰٪ از قیمت استاندارد (به ازای هر توکن محاسبه میشود).
- بهترین برای: گردشهای کاری چند مرحلهای که در آنها N+1 تماس به خروجی N تماس، بهروزرسانیهای CRM پسزمینه و ارزیابیهای آفلاین بستگی دارد.
API دستهای (انبوه، ناهمزمان)
API دستهای (Batch API) برای پردازش حجم زیادی از درخواستها به صورت غیرهمزمان با ۵۰٪ هزینه استاندارد طراحی شده است. میتوانید درخواستها را یا به صورت دیکشنریهای درونخطی یا با استفاده از یک فایل ورودی JSONL (تا سقف ۲ گیگابایت) ارسال کنید. این API درخواستها را با استفاده از صفهای توان عملیاتی پسزمینه با زمان چرخش هدف ۲۴ ساعت پردازش میکند.
- قابلیت اطمینان: قابل حذف اما با تلاش مجدد خودکار 24 ساعته و سیستم صف بندی
- قیمت: ۵۰٪ از قیمت استاندارد.
- بهترین کاربردها: پیشپردازش مجموعه دادههای عظیم، اجرای مجموعههای تست رگرسیون دورهای و تولید تصاویر یا جاسازیهای با حجم بالا.
ذخیره سازی متن (صرفه جویی در ورودی)
ذخیره سازی متن زمانی استفاده میشود که یک متن اولیه قابل توجه بارها توسط درخواستهای کوتاهتر مورد ارجاع قرار گیرد.
- ذخیره سازی ضمنی: به طور خودکار در Gemini 2.5 و مدلهای جدیدتر فعال میشود. اگر درخواست شما بر اساس پیشوندهای اعلان رایج، به حافظههای پنهان موجود برسد، سیستم از صرفهجویی در هزینه جلوگیری میکند.
- ذخیره سازی صریح: شما میتوانید به صورت دستی یک شیء حافظه پنهان با یک زمان ماندگاری (TTL) خاص ایجاد کنید. پس از ایجاد، برای درخواستهای بعدی به توکنهای ذخیره شده مراجعه میکنید تا از ارسال مکرر همان محتوای متنی جلوگیری شود.
- قیمت: بر اساس تعداد توکنهای کش و مدت زمان ذخیرهسازی (TTL) محاسبه میشود.
- بهترین برای: چتباتهایی با دستورالعملهای سیستمی گسترده، تجزیه و تحلیل مکرر فایلهای ویدیویی طولانی یا پرسوجو در مجموعه اسناد بزرگ.