بهینه‌سازی و استنتاج API جمینی

رابط برنامه‌نویسی نرم‌افزار Gemini انواع مکانیسم‌های بهینه‌سازی را ارائه می‌دهد تا به شما در ایجاد تعادل بین سرعت، هزینه و قابلیت اطمینان بر اساس نیازهای خاص حجم کاری‌تان کمک کند. چه در حال ساخت ربات‌های مکالمه‌ای بلادرنگ باشید و چه در حال اجرای خطوط لوله پردازش داده‌های سنگین آفلاین، انتخاب الگوی مناسب می‌تواند به طور قابل توجهی هزینه‌ها را کاهش یا عملکرد را افزایش دهد.

ویژگی استاندارد فلکس اولویت دسته‌ای ذخیره سازی
قیمت‌گذاری قیمت کامل ۵۰٪ تخفیف ۷۵٪ تا ۱۰۰٪ بیشتر از حد استاندارد ۵۰٪ تخفیف ذخیره‌سازی توکن متناسب
تأخیر ثانیه به دقیقه دقیقه (هدف ۱ تا ۱۵ دقیقه) پایین (ثانیه) تا ۲۴ ساعت زمان سریع‌تر برای اولین توکن
قابلیت اطمینان زیاد / متوسط-زیاد بهترین تلاش (قابل کاهش) زیاد (غیرقابل ریزش) بالا (برای توان عملیاتی) ناموجود
رابط همزمان همزمان همزمان ناهمزمان وضعیت ذخیره شده
بهترین مورد استفاده گردش‌های کاری عمومی برنامه زنجیره‌های متوالی غیر فوری برنامه‌های کاربردی و تولیدی مجموعه داده‌های عظیم، ارزیابی‌های آفلاین پرس‌وجوهای مکرر روی یک فایل

سطوح سرویس استنتاج (همزمان)

شما می‌توانید با ارسال پارامتر service_tier در فراخوانی‌های تولید استاندارد خود، بین ترافیک همزمان بهینه‌شده از نظر تأخیر و ترافیک همزمان بهینه‌شده از نظر هزینه، جابه‌جا شوید.

استنتاج استاندارد (پیش‌فرض)

سطح استاندارد، گزینه پیش‌فرض برای تولید محتوای ترتیبی است. این سطح، زمان پاسخگویی عادی را بدون هزینه‌های اضافی یا صف‌های طولانی فراهم می‌کند.

  • تأخیر: از ثانیه تا دقیقه.
  • قیمت: قیمت استاندارد.
  • بهترین برای: اکثر برنامه‌های کاربردی روزمره که با تعامل بیشتری انجام می‌شوند.

استنتاج اولویت (بهینه‌سازی‌شده از نظر تأخیر)

پردازش اولویت‌دار ، درخواست‌های شما را به صف‌های محاسباتی با حساسیت بالا هدایت می‌کند. این ترافیک کاملاً غیرقابل حذف است (هرگز توسط سایر ردیف‌ها اشغال نمی‌شود) و بالاترین قابلیت اطمینان را ارائه می‌دهد. اگر از محدودیت‌های اولویت پویا تجاوز کنید، سیستم به جای اینکه درخواست را با خطا مواجه کند، به طرز ماهرانه‌ای آن را به پردازش استاندارد تنزل می‌دهد.

  • تأخیر: بسیار کم (میلی ثانیه تا ثانیه).
  • قیمت: ۷۵٪ تا ۱۰۰٪ بالاتر از نرخ‌های استاندارد.
  • بهترین برای: چت‌بات‌های زنده مشتری، تشخیص کلاهبرداری در لحظه و دستیاران خلبانی حیاتی برای کسب‌وکار.

استنتاج انعطاف‌پذیر (بهینه‌سازی هزینه)

استنتاج انعطاف‌پذیر با استفاده از ظرفیت محاسباتی فرصت‌طلبانه و خارج از اوج مصرف، 50٪ تخفیف در مقایسه با نرخ‌های استاندارد ارائه می‌دهد. درخواست‌ها به صورت همزمان پردازش می‌شوند، به این معنی که نیازی به بازنویسی کد برای مدیریت اشیاء دسته‌ای ندارید. از آنجا که ترافیک "قابل حذف" است، در صورت بروز افزایش ناگهانی ترافیک استاندارد در سیستم، می‌توان درخواست‌ها را از دسترس خارج کرد.

  • تأخیر: تضمین نشده، هدف ۱ تا ۱۵ دقیقه.
  • قیمت: ۵۰٪ از قیمت استاندارد (به ازای هر توکن محاسبه می‌شود).
  • بهترین برای: گردش‌های کاری چند مرحله‌ای که در آن‌ها N+1 تماس به خروجی N تماس، به‌روزرسانی‌های CRM پس‌زمینه و ارزیابی‌های آفلاین بستگی دارد.

API دسته‌ای (انبوه، ناهمزمان)

API دسته‌ای (Batch API) برای پردازش حجم زیادی از درخواست‌ها به صورت غیرهمزمان با ۵۰٪ هزینه استاندارد طراحی شده است. می‌توانید درخواست‌ها را یا به صورت دیکشنری‌های درون‌خطی یا با استفاده از یک فایل ورودی JSONL (تا سقف ۲ گیگابایت) ارسال کنید. این API درخواست‌ها را با استفاده از صف‌های توان عملیاتی پس‌زمینه با زمان چرخش هدف ۲۴ ساعت پردازش می‌کند.

  • تأخیر: زیاد (تا 24 ساعت).
  • قیمت: ۵۰٪ از قیمت استاندارد.
  • بهترین کاربردها: پیش‌پردازش مجموعه داده‌های عظیم، اجرای مجموعه‌های تست رگرسیون دوره‌ای و تولید تصاویر یا جاسازی‌های با حجم بالا.

ذخیره سازی متن (صرفه جویی در ورودی)

ذخیره سازی متن زمانی استفاده می‌شود که یک متن اولیه قابل توجه بارها توسط درخواست‌های کوتاه‌تر مورد ارجاع قرار گیرد.

  • ذخیره سازی ضمنی: به طور خودکار در Gemini 2.5 و مدل‌های جدیدتر فعال می‌شود. اگر درخواست شما بر اساس پیشوندهای اعلان رایج، به حافظه‌های پنهان موجود برسد، سیستم از صرفه‌جویی در هزینه جلوگیری می‌کند.
  • ذخیره سازی صریح: شما می‌توانید به صورت دستی یک شیء حافظه پنهان با یک زمان ماندگاری (TTL) خاص ایجاد کنید. پس از ایجاد، برای درخواست‌های بعدی به توکن‌های ذخیره شده مراجعه می‌کنید تا از ارسال مکرر همان محتوای متنی جلوگیری شود.
  • قیمت: بر اساس تعداد توکن‌های کش و مدت زمان ذخیره‌سازی (TTL) محاسبه می‌شود.
  • مناسب برای: چت‌بات‌هایی با دستورالعمل‌های سیستمی گسترده، تجزیه و تحلیل مکرر فایل‌های ویدیویی طولانی یا پرس‌وجو در مجموعه اسناد بزرگ.