API تعاملات اکنون به طور عمومی در دسترس است. توصیه می‌کنیم برای دسترسی به جدیدترین ویژگی‌ها و مدل‌ها از این API استفاده کنید.

این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

ذخیره‌سازی متن، ذخیره‌سازی متن

در یک گردش کار معمولی هوش مصنوعی، ممکن است توکن‌های ورودی یکسانی را بارها و بارها به یک مدل ارسال کنید. API Gemini برای بهینه‌سازی عملکرد و هزینه‌ها، ذخیره‌سازی ضمنی (implicit caching) را ارائه می‌دهد.

ذخیره سازی ضمنی

ذخیره‌سازی ضمنی (implicit caching) به طور پیش‌فرض برای همه مدل‌های Gemini 2.5 و جدیدتر فعال است. این قابلیت برای هر دو حالت مکالمه با وضعیت ( stateful ) (با استفاده از previous_interaction_id ) و بدون وضعیت (stateless ) پشتیبانی می‌شود. اگر درخواست شما به حافظه‌های پنهان (cache) برسد، ما به طور خودکار از صرفه‌جویی در هزینه جلوگیری می‌کنیم. برای فعال کردن این قابلیت، نیازی به انجام کاری نیست. حداقل تعداد توکن ورودی برای ذخیره‌سازی زمینه (context caching) برای هر مدل در جدول زیر ذکر شده است:

مدل	حداقل محدودیت توکن
فلش جمینی ۳.۵	۴۰۹۶ عدد
پیش‌نمایش Gemini 3.1 Pro	۴۰۹۶ عدد
فلش جمینی ۲.۵	۲۰۴۸
جمینی ۲.۵ پرو	۲۰۴۸

برای افزایش احتمال برخورد با حافظه پنهان ضمنی:

سعی کنید مطالب بزرگ و رایج را در ابتدای درخواست خود قرار دهید.
سعی کنید درخواست‌هایی با پیشوند مشابه را در مدت زمان کوتاهی ارسال کنید

می‌توانید تعداد توکن‌هایی که در حافظه پنهان ذخیره شده‌اند را در فیلد usage.total_cached_tokens (پایتون و جاوا اسکریپت) شیء پاسخ مشاهده کنید.