ذخیره سازی متن

در یک گردش کار معمولی هوش مصنوعی، ممکن است توکن‌های ورودی یکسانی را بارها و بارها به یک مدل ارسال کنید. API Gemini برای بهینه‌سازی عملکرد و هزینه‌ها، ذخیره‌سازی ضمنی (implicit caching) را ارائه می‌دهد.

ذخیره سازی ضمنی

ذخیره‌سازی ضمنی (implicit caching) به طور پیش‌فرض برای همه مدل‌های Gemini 2.5 و جدیدتر فعال است. اگر درخواست شما به حافظه‌های پنهان (cache) برسد، ما به طور خودکار صرفه‌جویی در هزینه را اعمال می‌کنیم. برای فعال کردن این قابلیت، نیازی به انجام کاری از سوی شما نیست. حداقل تعداد توکن ورودی برای ذخیره‌سازی زمینه (context caching) برای هر مدل در جدول زیر ذکر شده است:

مدل حداقل محدودیت توکن
پیش‌نمایش فلش جمینی ۳ ۱۰۲۴ عدد
پیش‌نمایش جمینی ۳ پرو ۴۰۹۶ عدد
فلش جمینی ۲.۵ ۱۰۲۴ عدد
جمینی ۲.۵ پرو ۴۰۹۶ عدد

برای افزایش احتمال برخورد با حافظه پنهان ضمنی:

  • سعی کنید مطالب بزرگ و رایج را در ابتدای درخواست خود قرار دهید.
  • سعی کنید درخواست‌هایی با پیشوند مشابه را در مدت زمان کوتاهی ارسال کنید

می‌توانید تعداد توکن‌هایی که در حافظه پنهان (cache hits) بوده‌اند را در فیلد usage_metadata (پایتون) یا usageMetadata (جاوااسکریپت) شیء پاسخ مشاهده کنید.