در یک گردش کاری معمولی هوش مصنوعی، ممکن است همان توکن های ورودی را بارها و بارها به یک مدل ارسال کنید. Gemini API دو مکانیسم کش متفاوت ارائه می دهد:
- کش ضمنی (خودکار، بدون ضمانت صرفه جویی در هزینه)
- ذخیره صریح (دستی، ضمانت صرفه جویی در هزینه)
کش ضمنی در مدل های Gemini 2.5 به طور پیش فرض فعال است. اگر درخواستی حاوی محتوایی باشد که در حافظه پنهان است، ما بهطور خودکار هزینههای صرفهجویی را به شما پس میدهیم.
ذخیره سازی آشکار در مواردی مفید است که می خواهید صرفه جویی در هزینه را تضمین کنید، اما با برخی کار توسعه دهنده اضافه شده است.
ذخیره سازی ضمنی
کش ضمنی به طور پیش فرض برای همه مدل های Gemini 2.5 فعال است. اگر درخواست شما به حافظه پنهان برسد، ما به طور خودکار در هزینه صرفه جویی می کنیم. برای فعال کردن این کار نیازی به انجام کاری نیست. از 8 مه 2025 قابل اجرا است. حداقل تعداد توکن ورودی برای ذخیره متنی 1024 برای 2.5 Flash و 2048 برای 2.5 Pro است.
برای افزایش احتمال ضربه پنهان ضمنی:
- سعی کنید مطالب بزرگ و رایج را در ابتدای درخواست خود قرار دهید
- سعی کنید در مدت زمان کوتاهی درخواست هایی با پیشوند مشابه ارسال کنید
میتوانید تعداد نشانههایی را که در حافظه پنهان بازدید کردهاند را در قسمت usage_metadata
شی پاسخ ببینید.
ذخیره سازی آشکار
با استفاده از ویژگی cache صریح Gemini API، میتوانید یک بار مقداری از محتوا را به مدل ارسال کنید، نشانههای ورودی را در حافظه پنهان نگه دارید و سپس برای درخواستهای بعدی به نشانههای کش شده مراجعه کنید. در حجمهای معین، استفاده از توکنهای ذخیرهسازی شده هزینه کمتری نسبت به ارسال مکرر در یک مجموعه توکنها دارد.
هنگامی که مجموعه ای از نشانه ها را در حافظه پنهان ذخیره می کنید، می توانید انتخاب کنید که چه مدت می خواهید کش وجود داشته باشد قبل از اینکه نشانه ها به طور خودکار حذف شوند. این مدت زمان ذخیره سازی، زمان زندگی (TTL) نامیده می شود. اگر تنظیم نشود، TTL به طور پیش فرض روی 1 ساعت است. هزینه ذخیره سازی به اندازه توکن ورودی و مدت زمانی که می خواهید توکن ها باقی بمانند بستگی دارد.
این بخش فرض میکند که Gemini SDK را نصب کردهاید (یا curl را نصب کردهاید) و یک کلید API را پیکربندی کردهاید، همانطور که در شروع سریع نشان داده شده است.
با استفاده از حافظه پنهان محتوا تولید کنید
مثال زیر نحوه تولید محتوا با استفاده از یک دستورالعمل سیستم کش و یک فایل متنی را نشان می دهد.
import {
GoogleGenAI,
createUserContent,
createPartFromUri,
} from "@google/genai";
const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });
async function main() {
const doc = await ai.files.upload({
file: "path/to/file.txt",
config: { mimeType: "text/plain" },
});
console.log("Uploaded file name:", doc.name);
const modelName = "gemini-2.0-flash-001";
const cache = await ai.caches.create({
model: modelName,
config: {
contents: createUserContent(createPartFromUri(doc.uri, doc.mimeType)),
systemInstruction: "You are an expert analyzing transcripts.",
},
});
console.log("Cache created:", cache);
const response = await ai.models.generateContent({
model: modelName,
contents: "Please summarize this transcript",
config: { cachedContent: cache.name },
});
console.log("Response text:", response.text);
}
await main();
فهرست کش ها
امکان بازیابی یا مشاهده محتوای ذخیره شده در حافظه پنهان وجود ندارد، اما می توانید ابرداده های حافظه پنهان ( name
، model
، displayName
، usageMetadata
، createTime
، updateTime
، و expireTime
) را بازیابی کنید.
برای فهرست کردن متادیتا برای همه کش های آپلود شده، از GoogleGenAI.caches.list()
استفاده کنید:
console.log("My caches:");
const pager = await ai.caches.list({ config: { pageSize: 10 } });
let page = pager.page;
while (true) {
for (const c of page) {
console.log(" ", c.name);
}
if (!pager.hasNextPage()) break;
page = await pager.nextPage();
}
یک کش را به روز کنید
می توانید یک ttl
یا expireTime
جدید برای کش تنظیم کنید. تغییر هر چیز دیگری در مورد حافظه پنهان پشتیبانی نمی شود.
مثال زیر نحوه به روز رسانی ttl
یک کش را با استفاده از GoogleGenAI.caches.update()
نشان می دهد.
const ttl = `${2 * 3600}s`; // 2 hours in seconds
const updatedCache = await ai.caches.update({
name: cache.name,
config: { ttl },
});
console.log("After update (TTL):", updatedCache);
یک کش را حذف کنید
سرویس کش عملیات حذف را برای حذف دستی محتوا از کش ارائه می دهد. مثال زیر نحوه حذف کش با استفاده از GoogleGenAI.caches.delete()
را نشان می دهد.
await ai.caches.delete({ name: cache.name });
زمان استفاده از کش صریح
ذخیره سازی متن به ویژه برای سناریوهایی که در آن یک زمینه اولیه قابل توجه به طور مکرر توسط درخواست های کوتاهتر ارجاع داده می شود، مناسب است. استفاده از کش زمینه برای موارد استفاده مانند:
- چت بات ها با دستورالعمل های سیستمی گسترده
- تجزیه و تحلیل مکرر فایل های ویدئویی طولانی
- پرس و جوهای تکراری در برابر مجموعه اسناد بزرگ
- تجزیه و تحلیل مکرر مخزن کد یا رفع اشکال
چگونه ذخیره صریح هزینه ها را کاهش می دهد
ذخیره سازی متن یک ویژگی پولی است که برای کاهش هزینه های عملیاتی کلی طراحی شده است. صورتحساب بر اساس عوامل زیر است:
- تعداد نشانههای حافظه پنهان: تعداد نشانههای ورودی ذخیرهشده در حافظه پنهان که در صورت درج در درخواستهای بعدی با نرخ کاهشیافته صورتحساب میشوند.
- مدت زمان ذخیره سازی: مقدار زمانی که توکن های ذخیره شده در حافظه پنهان ذخیره می شوند (TTL) که بر اساس مدت زمان TTL تعداد توکن های ذخیره شده صورتحساب می شود. هیچ محدودیتی برای حداقل یا حداکثر در TTL وجود ندارد.
- عوامل دیگر: هزینههای دیگری اعمال میشود، مانند نشانههای ورودی و نشانههای خروجی غیر ذخیرهسازی شده در حافظه پنهان.
برای جزئیات قیمت به روز، به صفحه قیمت گذاری Gemini API مراجعه کنید. برای یادگیری نحوه شمارش نشانهها، راهنمای توکن را ببینید.
ملاحظات اضافی
هنگام استفاده از کش زمینه، ملاحظات زیر را در نظر داشته باشید:
- حداقل تعداد توکن ورودی برای کش متنی 1024 برای 2.5 Flash و 2048 برای 2.5 Pro است. حداکثر همان حداکثر برای مدل داده شده است. (برای اطلاعات بیشتر در مورد شمارش نشانه ها، به راهنمای توکن مراجعه کنید).
- این مدل هیچ تمایزی بین نشانههای حافظه پنهان و نشانههای ورودی معمولی قائل نمیشود. محتوای ذخیره شده در حافظه پنهان پیشوندی برای درخواست است.
- هیچ محدودیت یا نرخ خاصی برای ذخیره سازی متن وجود ندارد. محدودیتهای نرخ استاندارد برای
GenerateContent
اعمال میشود و محدودیتهای رمز شامل توکنهای ذخیرهشده نیز میشود. - تعداد توکنهای ذخیرهشده در
usage_metadata
از عملیات ایجاد، دریافت و فهرست سرویس کش و همچنین درGenerateContent
هنگام استفاده از کش برگردانده میشود.
در یک گردش کاری معمولی هوش مصنوعی، ممکن است همان توکن های ورودی را بارها و بارها به یک مدل ارسال کنید. Gemini API دو مکانیسم کش متفاوت ارائه می دهد:
- کش ضمنی (خودکار، بدون ضمانت صرفه جویی در هزینه)
- ذخیره صریح (دستی، ضمانت صرفه جویی در هزینه)
کش ضمنی در مدل های Gemini 2.5 به طور پیش فرض فعال است. اگر درخواستی حاوی محتوایی باشد که در حافظه پنهان است، ما بهطور خودکار هزینههای صرفهجویی را به شما پس میدهیم.
ذخیره سازی آشکار در مواردی مفید است که می خواهید صرفه جویی در هزینه را تضمین کنید، اما با برخی کار توسعه دهنده اضافه شده است.
ذخیره سازی ضمنی
کش ضمنی به طور پیش فرض برای همه مدل های Gemini 2.5 فعال است. اگر درخواست شما به حافظه پنهان برسد، ما به طور خودکار در هزینه صرفه جویی می کنیم. برای فعال کردن این کار نیازی به انجام کاری نیست. از 8 مه 2025 قابل اجرا است. حداقل تعداد توکن ورودی برای ذخیره متنی 1024 برای 2.5 Flash و 2048 برای 2.5 Pro است.
برای افزایش احتمال ضربه پنهان ضمنی:
- سعی کنید مطالب بزرگ و رایج را در ابتدای درخواست خود قرار دهید
- سعی کنید در مدت زمان کوتاهی درخواست هایی با پیشوند مشابه ارسال کنید
میتوانید تعداد نشانههایی را که در حافظه پنهان بازدید کردهاند را در قسمت usage_metadata
شی پاسخ ببینید.
ذخیره سازی آشکار
با استفاده از ویژگی cache صریح Gemini API، میتوانید یک بار مقداری از محتوا را به مدل ارسال کنید، نشانههای ورودی را در حافظه پنهان نگه دارید و سپس برای درخواستهای بعدی به نشانههای کش شده مراجعه کنید. در حجمهای معین، استفاده از توکنهای ذخیرهسازی شده هزینه کمتری نسبت به ارسال مکرر در یک مجموعه توکنها دارد.
هنگامی که مجموعه ای از نشانه ها را در حافظه پنهان ذخیره می کنید، می توانید انتخاب کنید که چه مدت می خواهید کش وجود داشته باشد قبل از اینکه نشانه ها به طور خودکار حذف شوند. این مدت زمان ذخیره سازی، زمان زندگی (TTL) نامیده می شود. اگر تنظیم نشود، TTL به طور پیش فرض روی 1 ساعت است. هزینه ذخیره سازی به اندازه توکن ورودی و مدت زمانی که می خواهید توکن ها باقی بمانند بستگی دارد.
این بخش فرض میکند که Gemini SDK را نصب کردهاید (یا curl را نصب کردهاید) و یک کلید API را پیکربندی کردهاید، همانطور که در شروع سریع نشان داده شده است.
با استفاده از حافظه پنهان محتوا تولید کنید
مثال زیر نحوه تولید محتوا با استفاده از یک دستورالعمل سیستم کش و یک فایل متنی را نشان می دهد.
import {
GoogleGenAI,
createUserContent,
createPartFromUri,
} from "@google/genai";
const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });
async function main() {
const doc = await ai.files.upload({
file: "path/to/file.txt",
config: { mimeType: "text/plain" },
});
console.log("Uploaded file name:", doc.name);
const modelName = "gemini-2.0-flash-001";
const cache = await ai.caches.create({
model: modelName,
config: {
contents: createUserContent(createPartFromUri(doc.uri, doc.mimeType)),
systemInstruction: "You are an expert analyzing transcripts.",
},
});
console.log("Cache created:", cache);
const response = await ai.models.generateContent({
model: modelName,
contents: "Please summarize this transcript",
config: { cachedContent: cache.name },
});
console.log("Response text:", response.text);
}
await main();
فهرست کش ها
امکان بازیابی یا مشاهده محتوای ذخیره شده در حافظه پنهان وجود ندارد، اما می توانید ابرداده های حافظه پنهان ( name
، model
، displayName
، usageMetadata
، createTime
، updateTime
، و expireTime
) را بازیابی کنید.
برای فهرست کردن متادیتا برای همه کش های آپلود شده، از GoogleGenAI.caches.list()
استفاده کنید:
console.log("My caches:");
const pager = await ai.caches.list({ config: { pageSize: 10 } });
let page = pager.page;
while (true) {
for (const c of page) {
console.log(" ", c.name);
}
if (!pager.hasNextPage()) break;
page = await pager.nextPage();
}
یک کش را به روز کنید
می توانید یک ttl
یا expireTime
جدید برای کش تنظیم کنید. تغییر هر چیز دیگری در مورد حافظه پنهان پشتیبانی نمی شود.
مثال زیر نحوه به روز رسانی ttl
یک کش را با استفاده از GoogleGenAI.caches.update()
نشان می دهد.
const ttl = `${2 * 3600}s`; // 2 hours in seconds
const updatedCache = await ai.caches.update({
name: cache.name,
config: { ttl },
});
console.log("After update (TTL):", updatedCache);
یک کش را حذف کنید
سرویس کش عملیات حذف را برای حذف دستی محتوا از کش ارائه می دهد. مثال زیر نحوه حذف کش با استفاده از GoogleGenAI.caches.delete()
را نشان می دهد.
await ai.caches.delete({ name: cache.name });
زمان استفاده از کش صریح
ذخیره سازی متن به ویژه برای سناریوهایی که در آن یک زمینه اولیه قابل توجه به طور مکرر توسط درخواست های کوتاهتر ارجاع داده می شود، مناسب است. استفاده از کش زمینه برای موارد استفاده مانند:
- چت بات ها با دستورالعمل های سیستمی گسترده
- تجزیه و تحلیل مکرر فایل های ویدئویی طولانی
- پرس و جوهای تکراری در برابر مجموعه اسناد بزرگ
- تجزیه و تحلیل مکرر مخزن کد یا رفع اشکال
چگونه ذخیره صریح هزینه ها را کاهش می دهد
ذخیره سازی متن یک ویژگی پولی است که برای کاهش هزینه های عملیاتی کلی طراحی شده است. صورتحساب بر اساس عوامل زیر است:
- تعداد نشانههای حافظه پنهان: تعداد نشانههای ورودی ذخیرهشده در حافظه پنهان که در صورت درج در درخواستهای بعدی با نرخ کاهشیافته صورتحساب میشوند.
- مدت زمان ذخیره سازی: مقدار زمانی که توکن های ذخیره شده در حافظه پنهان ذخیره می شوند (TTL) که بر اساس مدت زمان TTL تعداد توکن های ذخیره شده صورتحساب می شود. هیچ محدودیتی برای حداقل یا حداکثر در TTL وجود ندارد.
- عوامل دیگر: هزینههای دیگری اعمال میشود، مانند نشانههای ورودی و نشانههای خروجی غیر ذخیرهسازی شده در حافظه پنهان.
برای جزئیات قیمت به روز، به صفحه قیمت گذاری Gemini API مراجعه کنید. برای یادگیری نحوه شمارش نشانهها، راهنمای توکن را ببینید.
ملاحظات اضافی
هنگام استفاده از کش زمینه، ملاحظات زیر را در نظر داشته باشید:
- حداقل تعداد توکن ورودی برای کش متنی 1024 برای 2.5 Flash و 2048 برای 2.5 Pro است. حداکثر همان حداکثر برای مدل داده شده است. (برای اطلاعات بیشتر در مورد شمارش نشانه ها، به راهنمای توکن مراجعه کنید).
- این مدل هیچ تمایزی بین نشانههای حافظه پنهان و نشانههای ورودی معمولی قائل نمیشود. محتوای ذخیره شده در حافظه پنهان پیشوندی برای درخواست است.
- هیچ محدودیت یا نرخ خاصی برای ذخیره سازی متن وجود ندارد. محدودیتهای نرخ استاندارد برای
GenerateContent
اعمال میشود و محدودیتهای رمز شامل توکنهای ذخیرهشده نیز میشود. - تعداد توکنهای ذخیرهشده در
usage_metadata
از عملیات ایجاد، دریافت و فهرست سرویس کش و همچنین درGenerateContent
هنگام استفاده از کش برگردانده میشود.
در یک گردش کاری معمولی هوش مصنوعی، ممکن است همان توکن های ورودی را بارها و بارها به یک مدل ارسال کنید. Gemini API دو مکانیسم کش متفاوت ارائه می دهد:
- کش ضمنی (خودکار، بدون ضمانت صرفه جویی در هزینه)
- ذخیره صریح (دستی، ضمانت صرفه جویی در هزینه)
کش ضمنی در مدل های Gemini 2.5 به طور پیش فرض فعال است. اگر درخواستی حاوی محتوایی باشد که در حافظه پنهان است، ما بهطور خودکار هزینههای صرفهجویی را به شما پس میدهیم.
ذخیره سازی آشکار در مواردی مفید است که می خواهید صرفه جویی در هزینه را تضمین کنید، اما با برخی کار توسعه دهنده اضافه شده است.
ذخیره سازی ضمنی
کش ضمنی به طور پیش فرض برای همه مدل های Gemini 2.5 فعال است. اگر درخواست شما به حافظه پنهان برسد، ما به طور خودکار در هزینه صرفه جویی می کنیم. برای فعال کردن این کار نیازی به انجام کاری نیست. از 8 مه 2025 قابل اجرا است. حداقل تعداد توکن ورودی برای ذخیره متنی 1024 برای 2.5 Flash و 2048 برای 2.5 Pro است.
برای افزایش احتمال ضربه پنهان ضمنی:
- سعی کنید مطالب بزرگ و رایج را در ابتدای درخواست خود قرار دهید
- سعی کنید در مدت زمان کوتاهی درخواست هایی با پیشوند مشابه ارسال کنید
میتوانید تعداد نشانههایی را که در حافظه پنهان بازدید کردهاند را در قسمت usage_metadata
شی پاسخ ببینید.
ذخیره سازی آشکار
با استفاده از ویژگی cache صریح Gemini API، میتوانید یک بار مقداری از محتوا را به مدل ارسال کنید، نشانههای ورودی را در حافظه پنهان نگه دارید و سپس برای درخواستهای بعدی به نشانههای کش شده مراجعه کنید. در حجمهای معین، استفاده از توکنهای ذخیرهسازی شده هزینه کمتری نسبت به ارسال مکرر در یک مجموعه توکنها دارد.
هنگامی که مجموعه ای از نشانه ها را در حافظه پنهان ذخیره می کنید، می توانید انتخاب کنید که چه مدت می خواهید کش وجود داشته باشد قبل از اینکه نشانه ها به طور خودکار حذف شوند. این مدت زمان ذخیره سازی، زمان زندگی (TTL) نامیده می شود. اگر تنظیم نشود، TTL به طور پیش فرض روی 1 ساعت است. هزینه ذخیره سازی به اندازه توکن ورودی و مدت زمانی که می خواهید توکن ها باقی بمانند بستگی دارد.
این بخش فرض میکند که Gemini SDK را نصب کردهاید (یا curl را نصب کردهاید) و یک کلید API را پیکربندی کردهاید، همانطور که در شروع سریع نشان داده شده است.
با استفاده از حافظه پنهان محتوا تولید کنید
مثال زیر نحوه تولید محتوا با استفاده از یک دستورالعمل سیستم کش و یک فایل متنی را نشان می دهد.
import {
GoogleGenAI,
createUserContent,
createPartFromUri,
} from "@google/genai";
const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });
async function main() {
const doc = await ai.files.upload({
file: "path/to/file.txt",
config: { mimeType: "text/plain" },
});
console.log("Uploaded file name:", doc.name);
const modelName = "gemini-2.0-flash-001";
const cache = await ai.caches.create({
model: modelName,
config: {
contents: createUserContent(createPartFromUri(doc.uri, doc.mimeType)),
systemInstruction: "You are an expert analyzing transcripts.",
},
});
console.log("Cache created:", cache);
const response = await ai.models.generateContent({
model: modelName,
contents: "Please summarize this transcript",
config: { cachedContent: cache.name },
});
console.log("Response text:", response.text);
}
await main();
فهرست کش ها
امکان بازیابی یا مشاهده محتوای ذخیره شده در حافظه پنهان وجود ندارد، اما می توانید ابرداده های حافظه پنهان ( name
، model
، displayName
، usageMetadata
، createTime
، updateTime
، و expireTime
) را بازیابی کنید.
برای فهرست کردن متادیتا برای همه کش های آپلود شده، از GoogleGenAI.caches.list()
استفاده کنید:
console.log("My caches:");
const pager = await ai.caches.list({ config: { pageSize: 10 } });
let page = pager.page;
while (true) {
for (const c of page) {
console.log(" ", c.name);
}
if (!pager.hasNextPage()) break;
page = await pager.nextPage();
}
یک کش را به روز کنید
می توانید یک ttl
یا expireTime
جدید برای کش تنظیم کنید. تغییر هر چیز دیگری در مورد حافظه پنهان پشتیبانی نمی شود.
مثال زیر نحوه به روز رسانی ttl
یک کش را با استفاده از GoogleGenAI.caches.update()
نشان می دهد.
const ttl = `${2 * 3600}s`; // 2 hours in seconds
const updatedCache = await ai.caches.update({
name: cache.name,
config: { ttl },
});
console.log("After update (TTL):", updatedCache);
یک کش را حذف کنید
سرویس کش عملیات حذف را برای حذف دستی محتوا از کش ارائه می دهد. مثال زیر نحوه حذف کش با استفاده از GoogleGenAI.caches.delete()
را نشان می دهد.
await ai.caches.delete({ name: cache.name });
زمان استفاده از کش صریح
ذخیره سازی متن به ویژه برای سناریوهایی که در آن یک زمینه اولیه قابل توجه به طور مکرر توسط درخواست های کوتاهتر ارجاع داده می شود، مناسب است. استفاده از کش زمینه برای موارد استفاده مانند:
- چت بات ها با دستورالعمل های سیستمی گسترده
- تجزیه و تحلیل مکرر فایل های ویدئویی طولانی
- پرس و جوهای تکراری در برابر مجموعه اسناد بزرگ
- تجزیه و تحلیل مکرر مخزن کد یا رفع اشکال
چگونه ذخیره صریح هزینه ها را کاهش می دهد
ذخیره سازی متن یک ویژگی پولی است که برای کاهش هزینه های عملیاتی کلی طراحی شده است. صورتحساب بر اساس عوامل زیر است:
- تعداد نشانههای حافظه پنهان: تعداد نشانههای ورودی ذخیرهشده در حافظه پنهان که در صورت درج در درخواستهای بعدی با نرخ کاهشیافته صورتحساب میشوند.
- مدت زمان ذخیره سازی: مقدار زمانی که توکن های ذخیره شده در حافظه پنهان ذخیره می شوند (TTL) که بر اساس مدت زمان TTL تعداد توکن های ذخیره شده صورتحساب می شود. هیچ محدودیتی برای حداقل یا حداکثر در TTL وجود ندارد.
- عوامل دیگر: هزینههای دیگری اعمال میشود، مانند نشانههای ورودی و نشانههای خروجی غیر ذخیرهسازی شده در حافظه پنهان.
برای جزئیات قیمت به روز، به صفحه قیمت گذاری Gemini API مراجعه کنید. برای یادگیری نحوه شمارش نشانهها، راهنمای توکن را ببینید.
ملاحظات اضافی
هنگام استفاده از کش زمینه، ملاحظات زیر را در نظر داشته باشید:
- حداقل تعداد توکن ورودی برای کش متنی 1024 برای 2.5 Flash و 2048 برای 2.5 Pro است. حداکثر همان حداکثر برای مدل داده شده است. (برای اطلاعات بیشتر در مورد شمارش نشانه ها، به راهنمای توکن مراجعه کنید).
- این مدل هیچ تمایزی بین نشانههای حافظه پنهان و نشانههای ورودی معمولی قائل نمیشود. محتوای ذخیره شده در حافظه پنهان پیشوندی برای درخواست است.
- هیچ محدودیت یا نرخ خاصی برای ذخیره سازی متن وجود ندارد. محدودیتهای نرخ استاندارد برای
GenerateContent
اعمال میشود و محدودیتهای رمز شامل توکنهای ذخیرهشده نیز میشود. - تعداد توکنهای ذخیرهشده در
usage_metadata
از عملیات ایجاد، دریافت و فهرست سرویس کش و همچنین درGenerateContent
هنگام استفاده از کش برگردانده میشود.
در یک گردش کاری معمولی هوش مصنوعی، ممکن است همان توکن های ورودی را بارها و بارها به یک مدل ارسال کنید. Gemini API دو مکانیسم کش متفاوت ارائه می دهد:
- کش ضمنی (خودکار، بدون ضمانت صرفه جویی در هزینه)
- ذخیره صریح (دستی، ضمانت صرفه جویی در هزینه)
کش ضمنی در مدل های Gemini 2.5 به طور پیش فرض فعال است. اگر درخواستی حاوی محتوایی باشد که در حافظه پنهان است، ما بهطور خودکار هزینههای صرفهجویی را به شما پس میدهیم.
ذخیره سازی آشکار در مواردی مفید است که می خواهید صرفه جویی در هزینه را تضمین کنید، اما با برخی کار توسعه دهنده اضافه شده است.
ذخیره سازی ضمنی
کش ضمنی به طور پیش فرض برای همه مدل های Gemini 2.5 فعال است. اگر درخواست شما به حافظه پنهان برسد، ما به طور خودکار در هزینه صرفه جویی می کنیم. برای فعال کردن این کار نیازی به انجام کاری نیست. از 8 مه 2025 قابل اجرا است. حداقل تعداد توکن ورودی برای ذخیره متنی 1024 برای 2.5 Flash و 2048 برای 2.5 Pro است.
برای افزایش احتمال ضربه پنهان ضمنی:
- سعی کنید مطالب بزرگ و رایج را در ابتدای درخواست خود قرار دهید
- سعی کنید در مدت زمان کوتاهی درخواست هایی با پیشوند مشابه ارسال کنید
میتوانید تعداد نشانههایی را که در حافظه پنهان بازدید کردهاند را در قسمت usage_metadata
شی پاسخ ببینید.
ذخیره سازی آشکار
با استفاده از ویژگی cache صریح Gemini API، میتوانید یک بار مقداری از محتوا را به مدل ارسال کنید، نشانههای ورودی را در حافظه پنهان نگه دارید و سپس برای درخواستهای بعدی به نشانههای کش شده مراجعه کنید. در حجمهای معین، استفاده از توکنهای ذخیرهسازی شده هزینه کمتری نسبت به ارسال مکرر در یک مجموعه توکنها دارد.
هنگامی که مجموعه ای از نشانه ها را در حافظه پنهان ذخیره می کنید، می توانید انتخاب کنید که چه مدت می خواهید کش وجود داشته باشد قبل از اینکه نشانه ها به طور خودکار حذف شوند. این مدت زمان ذخیره سازی، زمان زندگی (TTL) نامیده می شود. اگر تنظیم نشود، TTL به طور پیش فرض روی 1 ساعت است. هزینه ذخیره سازی به اندازه توکن ورودی و مدت زمانی که می خواهید توکن ها باقی بمانند بستگی دارد.
این بخش فرض میکند که Gemini SDK را نصب کردهاید (یا curl را نصب کردهاید) و یک کلید API را پیکربندی کردهاید، همانطور که در شروع سریع نشان داده شده است.
با استفاده از حافظه پنهان محتوا تولید کنید
مثال زیر نحوه تولید محتوا با استفاده از یک دستورالعمل سیستم کش و یک فایل متنی را نشان می دهد.
import {
GoogleGenAI,
createUserContent,
createPartFromUri,
} from "@google/genai";
const ai = new GoogleGenAI({ apiKey: "GEMINI_API_KEY" });
async function main() {
const doc = await ai.files.upload({
file: "path/to/file.txt",
config: { mimeType: "text/plain" },
});
console.log("Uploaded file name:", doc.name);
const modelName = "gemini-2.0-flash-001";
const cache = await ai.caches.create({
model: modelName,
config: {
contents: createUserContent(createPartFromUri(doc.uri, doc.mimeType)),
systemInstruction: "You are an expert analyzing transcripts.",
},
});
console.log("Cache created:", cache);
const response = await ai.models.generateContent({
model: modelName,
contents: "Please summarize this transcript",
config: { cachedContent: cache.name },
});
console.log("Response text:", response.text);
}
await main();
فهرست کش ها
امکان بازیابی یا مشاهده محتوای ذخیره شده در حافظه پنهان وجود ندارد، اما می توانید ابرداده های حافظه پنهان ( name
، model
، displayName
، usageMetadata
، createTime
، updateTime
، و expireTime
) را بازیابی کنید.
برای فهرست کردن متادیتا برای همه کش های آپلود شده، از GoogleGenAI.caches.list()
استفاده کنید:
console.log("My caches:");
const pager = await ai.caches.list({ config: { pageSize: 10 } });
let page = pager.page;
while (true) {
for (const c of page) {
console.log(" ", c.name);
}
if (!pager.hasNextPage()) break;
page = await pager.nextPage();
}
یک کش را به روز کنید
می توانید یک ttl
یا expireTime
جدید برای کش تنظیم کنید. تغییر هر چیز دیگری در مورد حافظه پنهان پشتیبانی نمی شود.
مثال زیر نحوه به روز رسانی ttl
یک کش را با استفاده از GoogleGenAI.caches.update()
نشان می دهد.
const ttl = `${2 * 3600}s`; // 2 hours in seconds
const updatedCache = await ai.caches.update({
name: cache.name,
config: { ttl },
});
console.log("After update (TTL):", updatedCache);
یک کش را حذف کنید
سرویس کش عملیات حذف را برای حذف دستی محتوا از کش ارائه می دهد. مثال زیر نحوه حذف کش با استفاده از GoogleGenAI.caches.delete()
را نشان می دهد.
await ai.caches.delete({ name: cache.name });
زمان استفاده از کش صریح
ذخیره سازی متن به ویژه برای سناریوهایی که در آن یک زمینه اولیه قابل توجه به طور مکرر توسط درخواست های کوتاهتر ارجاع داده می شود، مناسب است. استفاده از کش زمینه برای موارد استفاده مانند:
- چت بات ها با دستورالعمل های سیستمی گسترده
- تجزیه و تحلیل مکرر فایل های ویدئویی طولانی
- پرس و جوهای تکراری در برابر مجموعه اسناد بزرگ
- تجزیه و تحلیل مکرر مخزن کد یا رفع اشکال
چگونه ذخیره صریح هزینه ها را کاهش می دهد
ذخیره سازی متن یک ویژگی پولی است که برای کاهش هزینه های عملیاتی کلی طراحی شده است. صورتحساب بر اساس عوامل زیر است:
- تعداد نشانههای حافظه پنهان: تعداد نشانههای ورودی ذخیرهشده در حافظه پنهان که در صورت درج در درخواستهای بعدی با نرخ کاهشیافته صورتحساب میشوند.
- مدت زمان ذخیره سازی: مقدار زمانی که توکن های ذخیره شده در حافظه پنهان ذخیره می شوند (TTL) که بر اساس مدت زمان TTL تعداد توکن های ذخیره شده صورتحساب می شود. هیچ محدودیتی برای حداقل یا حداکثر در TTL وجود ندارد.
- عوامل دیگر: هزینههای دیگری اعمال میشود، مانند نشانههای ورودی و نشانههای خروجی غیر ذخیرهسازی شده در حافظه پنهان.
برای جزئیات قیمت به روز، به صفحه قیمت گذاری Gemini API مراجعه کنید. برای یادگیری نحوه شمارش نشانهها، راهنمای توکن را ببینید.
ملاحظات اضافی
هنگام استفاده از کش زمینه، ملاحظات زیر را در نظر داشته باشید:
- حداقل تعداد توکن ورودی برای کش متنی 1024 برای 2.5 Flash و 2048 برای 2.5 Pro است. حداکثر همان حداکثر برای مدل داده شده است. (برای اطلاعات بیشتر در مورد شمارش نشانه ها، به راهنمای توکن مراجعه کنید).
- این مدل هیچ تمایزی بین نشانههای حافظه پنهان و نشانههای ورودی معمولی قائل نمیشود. محتوای ذخیره شده در حافظه پنهان پیشوندی برای درخواست است.
- هیچ محدودیت یا نرخ خاصی برای ذخیره سازی متن وجود ندارد. محدودیتهای نرخ استاندارد برای
GenerateContent
اعمال میشود و محدودیتهای رمز شامل توکنهای ذخیرهشده نیز میشود. - تعداد توکنهای ذخیرهشده در
usage_metadata
از عملیات ایجاد، دریافت و فهرست سرویس کش و همچنین درGenerateContent
هنگام استفاده از کش برگردانده میشود.