ذخیره‌سازی متن، ذخیره‌سازی متن

در یک گردش کاری معمولی هوش مصنوعی، ممکن است همان توکن های ورودی را بارها و بارها به یک مدل ارسال کنید. با استفاده از ویژگی ذخیره‌سازی متنی Gemini API، می‌توانید یک بار مقداری از محتوا را به مدل ارسال کنید، نشانه‌های ورودی را در حافظه پنهان نگه دارید و سپس برای درخواست‌های بعدی به نشانه‌های کش‌شده مراجعه کنید. در حجم‌های معین، استفاده از توکن‌های ذخیره‌سازی شده هزینه کمتری نسبت به ارسال مکرر در یک مجموعه توکن‌ها دارد.

هنگامی که مجموعه ای از نشانه ها را در حافظه پنهان ذخیره می کنید، می توانید انتخاب کنید که چه مدت می خواهید کش وجود داشته باشد قبل از اینکه نشانه ها به طور خودکار حذف شوند. این مدت زمان ذخیره سازی، زمان زندگی (TTL) نامیده می شود. اگر تنظیم نشود، TTL به طور پیش فرض روی 1 ساعت است. هزینه ذخیره سازی به اندازه توکن ورودی و مدت زمانی که می خواهید توکن ها باقی بمانند بستگی دارد.

حافظه پنهان متنی از فلش Gemini 1.5 Pro و Gemini 1.5 پشتیبانی می کند.

زمان استفاده از کش زمینه

ذخیره سازی متن به ویژه برای سناریوهایی که در آن یک زمینه اولیه قابل توجه به طور مکرر توسط درخواست های کوتاهتر ارجاع داده می شود، مناسب است. استفاده از کش زمینه برای موارد استفاده مانند:

  • چت بات ها با دستورالعمل های سیستمی گسترده
  • تجزیه و تحلیل مکرر فایل های ویدئویی طولانی
  • پرس و جوهای تکراری در برابر مجموعه اسناد بزرگ
  • تجزیه و تحلیل مکرر مخزن کد یا رفع اشکال

چگونه کش هزینه ها را کاهش می دهد

ذخیره سازی متن یک ویژگی پولی است که برای کاهش هزینه های عملیاتی کلی طراحی شده است. صورتحساب بر اساس عوامل زیر است:

  1. تعداد نشانه‌های حافظه پنهان: تعداد نشانه‌های ورودی ذخیره‌شده در حافظه پنهان که در صورت درج در درخواست‌های بعدی با نرخ کاهش‌یافته صورت‌حساب می‌شوند.
  2. مدت زمان ذخیره سازی: مقدار زمانی که توکن های ذخیره شده در حافظه پنهان ذخیره می شوند (TTL) که بر اساس مدت زمان TTL تعداد توکن های ذخیره شده صورتحساب می شود. هیچ محدودیتی برای حداقل یا حداکثر در TTL وجود ندارد.
  3. عوامل دیگر: هزینه‌های دیگری اعمال می‌شود، مانند نشانه‌های ورودی و نشانه‌های خروجی غیر ذخیره‌سازی شده در حافظه پنهان.

برای جزئیات قیمت به روز، به صفحه قیمت گذاری Gemini API مراجعه کنید. برای یادگیری نحوه شمارش نشانه‌ها، راهنمای توکن را ببینید.

نحوه استفاده از کش زمینه

این بخش فرض می‌کند که Gemini SDK را نصب کرده‌اید (یا curl را نصب کرده‌اید) و یک کلید API را پیکربندی کرده‌اید، همانطور که در شروع سریع نشان داده شده است.

با استفاده از حافظه پنهان محتوا تولید کنید

مثال زیر نحوه تولید محتوا با استفاده از یک دستورالعمل سیستم و فایل ویدئویی ذخیره شده را نشان می دهد.

import os
import google.generativeai as genai
from google.generativeai import caching
import datetime
import time

# Get your API key from https://aistudio.google.com/app/apikey
# and access your API key as an environment variable.
# To authenticate from a Colab, see
# https://github.com/google-gemini/cookbook/blob/main/quickstarts/Authentication.ipynb
genai.configure(api_key=os.environ['API_KEY'])

# Download video file
# curl -O https://storage.googleapis.com/generativeai-downloads/data/Sherlock_Jr_FullMovie.mp4

path_to_video_file = 'Sherlock_Jr_FullMovie.mp4'

# Upload the video using the Files API
video_file = genai.upload_file(path=path_to_video_file)

# Wait for the file to finish processing
while video_file.state.name == 'PROCESSING':
  print('Waiting for video to be processed.')
  time.sleep(2)
  video_file = genai.get_file(video_file.name)

print(f'Video processing complete: {video_file.uri}')

# Create a cache with a 5 minute TTL
cache = caching.CachedContent.create(
    model='models/gemini-1.5-flash-001',
    display_name='sherlock jr movie', # used to identify the cache
    system_instruction=(
        'You are an expert video analyzer, and your job is to answer '
        'the user\'s query based on the video file you have access to.'
    ),
    contents=[video_file],
    ttl=datetime.timedelta(minutes=5),
)

# Construct a GenerativeModel which uses the created cache.
model = genai.GenerativeModel.from_cached_content(cached_content=cache)

# Query the model
response = model.generate_content([(
    'Introduce different characters in the movie by describing '
    'their personality, looks, and names. Also list the timestamps '
    'they were introduced for the first time.')])

print(response.usage_metadata)

# The output should look something like this:
#
# prompt_token_count: 696219
# cached_content_token_count: 696190
# candidates_token_count: 214
# total_token_count: 696433

print(response.text)

فهرست کش ها

امکان بازیابی یا مشاهده محتوای ذخیره شده در حافظه پنهان وجود ندارد، اما می توانید ابرداده های حافظه پنهان ( name ، model ، display_name ، usage_metadata ، create_time ، update_time ، و expire_time ) را بازیابی کنید.

برای فهرست کردن متادیتا برای تمام کش های آپلود شده، از CachedContent.list() استفاده کنید:

for c in caching.CachedContent.list():
  print(c)

یک کش را به روز کنید

می توانید یک ttl یا expire_time جدید برای کش تنظیم کنید. تغییر هر چیز دیگری در مورد حافظه پنهان پشتیبانی نمی شود.

مثال زیر نحوه به روز رسانی ttl یک کش را با استفاده از CachedContent.update() نشان می دهد.

import datetime

cache.update(ttl=datetime.timedelta(hours=2))

یک کش را حذف کنید

سرویس کش عملیات حذف را برای حذف دستی محتوا از کش ارائه می دهد. مثال زیر نحوه حذف کش با استفاده از CachedContent.delete() را نشان می دهد.

cache.delete()

ملاحظات اضافی

هنگام استفاده از کش زمینه، ملاحظات زیر را در نظر داشته باشید:

  • حداقل تعداد توکن ورودی برای ذخیره سازی متن 32768 است و حداکثر همان حداکثر برای مدل داده شده است. (برای اطلاعات بیشتر در مورد شمارش نشانه ها، به راهنمای توکن مراجعه کنید).
  • این مدل هیچ تمایزی بین نشانه‌های حافظه پنهان و نشانه‌های ورودی معمولی قائل نمی‌شود. محتوای ذخیره شده در حافظه پنهان به سادگی یک پیشوند برای درخواست است.
  • هیچ محدودیت یا نرخ خاصی برای ذخیره سازی متن وجود ندارد. محدودیت‌های نرخ استاندارد برای GenerateContent اعمال می‌شود و محدودیت‌های رمز شامل توکن‌های ذخیره‌شده نیز می‌شود.
  • تعداد توکن‌های ذخیره‌شده در usage_metadata از عملیات ایجاد، دریافت و فهرست سرویس کش و همچنین در GenerateContent هنگام استفاده از کش برگردانده می‌شود.
،

در یک گردش کاری معمولی هوش مصنوعی، ممکن است همان توکن های ورودی را بارها و بارها به یک مدل ارسال کنید. با استفاده از ویژگی ذخیره‌سازی متنی Gemini API، می‌توانید یک بار مقداری از محتوا را به مدل ارسال کنید، نشانه‌های ورودی را در حافظه پنهان نگه دارید و سپس برای درخواست‌های بعدی به نشانه‌های کش‌شده مراجعه کنید. در حجم‌های معین، استفاده از توکن‌های ذخیره‌سازی شده هزینه کمتری نسبت به ارسال مکرر در یک مجموعه توکن‌ها دارد.

هنگامی که مجموعه ای از نشانه ها را در حافظه پنهان ذخیره می کنید، می توانید انتخاب کنید که چه مدت می خواهید کش وجود داشته باشد قبل از اینکه نشانه ها به طور خودکار حذف شوند. این مدت زمان ذخیره سازی، زمان زندگی (TTL) نامیده می شود. اگر تنظیم نشود، TTL به طور پیش فرض روی 1 ساعت است. هزینه ذخیره سازی به اندازه توکن ورودی و مدت زمانی که می خواهید توکن ها باقی بمانند بستگی دارد.

حافظه پنهان متنی از فلش Gemini 1.5 Pro و Gemini 1.5 پشتیبانی می کند.

زمان استفاده از کش زمینه

ذخیره سازی متن به ویژه برای سناریوهایی که در آن یک زمینه اولیه قابل توجه به طور مکرر توسط درخواست های کوتاهتر ارجاع داده می شود، مناسب است. استفاده از کش زمینه برای موارد استفاده مانند:

  • چت بات ها با دستورالعمل های سیستمی گسترده
  • تجزیه و تحلیل مکرر فایل های ویدئویی طولانی
  • پرس و جوهای تکراری در برابر مجموعه اسناد بزرگ
  • تجزیه و تحلیل مکرر مخزن کد یا رفع اشکال

چگونه کش هزینه ها را کاهش می دهد

ذخیره سازی متن یک ویژگی پولی است که برای کاهش هزینه های عملیاتی کلی طراحی شده است. صورتحساب بر اساس عوامل زیر است:

  1. تعداد نشانه‌های حافظه پنهان: تعداد نشانه‌های ورودی ذخیره‌شده در حافظه پنهان که در صورت درج در درخواست‌های بعدی با نرخ کاهش‌یافته صورت‌حساب می‌شوند.
  2. مدت زمان ذخیره سازی: مقدار زمانی که توکن های ذخیره شده در حافظه پنهان ذخیره می شوند (TTL) که بر اساس مدت زمان TTL تعداد توکن های ذخیره شده صورتحساب می شود. هیچ محدودیتی برای حداقل یا حداکثر در TTL وجود ندارد.
  3. عوامل دیگر: هزینه‌های دیگری اعمال می‌شود، مانند نشانه‌های ورودی و نشانه‌های خروجی غیر ذخیره‌سازی شده در حافظه پنهان.

برای جزئیات قیمت به روز، به صفحه قیمت گذاری Gemini API مراجعه کنید. برای یادگیری نحوه شمارش نشانه‌ها، راهنمای توکن را ببینید.

نحوه استفاده از کش زمینه

این بخش فرض می‌کند که Gemini SDK را نصب کرده‌اید (یا curl را نصب کرده‌اید) و یک کلید API را پیکربندی کرده‌اید، همانطور که در شروع سریع نشان داده شده است.

با استفاده از حافظه پنهان محتوا تولید کنید

مثال زیر نحوه تولید محتوا با استفاده از یک دستورالعمل سیستم و فایل ویدئویی ذخیره شده را نشان می دهد.

import os
import google.generativeai as genai
from google.generativeai import caching
import datetime
import time

# Get your API key from https://aistudio.google.com/app/apikey
# and access your API key as an environment variable.
# To authenticate from a Colab, see
# https://github.com/google-gemini/cookbook/blob/main/quickstarts/Authentication.ipynb
genai.configure(api_key=os.environ['API_KEY'])

# Download video file
# curl -O https://storage.googleapis.com/generativeai-downloads/data/Sherlock_Jr_FullMovie.mp4

path_to_video_file = 'Sherlock_Jr_FullMovie.mp4'

# Upload the video using the Files API
video_file = genai.upload_file(path=path_to_video_file)

# Wait for the file to finish processing
while video_file.state.name == 'PROCESSING':
  print('Waiting for video to be processed.')
  time.sleep(2)
  video_file = genai.get_file(video_file.name)

print(f'Video processing complete: {video_file.uri}')

# Create a cache with a 5 minute TTL
cache = caching.CachedContent.create(
    model='models/gemini-1.5-flash-001',
    display_name='sherlock jr movie', # used to identify the cache
    system_instruction=(
        'You are an expert video analyzer, and your job is to answer '
        'the user\'s query based on the video file you have access to.'
    ),
    contents=[video_file],
    ttl=datetime.timedelta(minutes=5),
)

# Construct a GenerativeModel which uses the created cache.
model = genai.GenerativeModel.from_cached_content(cached_content=cache)

# Query the model
response = model.generate_content([(
    'Introduce different characters in the movie by describing '
    'their personality, looks, and names. Also list the timestamps '
    'they were introduced for the first time.')])

print(response.usage_metadata)

# The output should look something like this:
#
# prompt_token_count: 696219
# cached_content_token_count: 696190
# candidates_token_count: 214
# total_token_count: 696433

print(response.text)

فهرست کش ها

امکان بازیابی یا مشاهده محتوای ذخیره شده در حافظه پنهان وجود ندارد، اما می توانید ابرداده های حافظه پنهان ( name ، model ، display_name ، usage_metadata ، create_time ، update_time ، و expire_time ) را بازیابی کنید.

برای فهرست کردن متادیتا برای تمام کش های آپلود شده، از CachedContent.list() استفاده کنید:

for c in caching.CachedContent.list():
  print(c)

یک کش را به روز کنید

می توانید یک ttl یا expire_time جدید برای کش تنظیم کنید. تغییر هر چیز دیگری در مورد حافظه پنهان پشتیبانی نمی شود.

مثال زیر نحوه به روز رسانی ttl یک کش را با استفاده از CachedContent.update() نشان می دهد.

import datetime

cache.update(ttl=datetime.timedelta(hours=2))

یک کش را حذف کنید

سرویس کش عملیات حذف را برای حذف دستی محتوا از کش ارائه می دهد. مثال زیر نحوه حذف کش با استفاده از CachedContent.delete() را نشان می دهد.

cache.delete()

ملاحظات اضافی

هنگام استفاده از کش زمینه، ملاحظات زیر را در نظر داشته باشید:

  • حداقل تعداد توکن ورودی برای ذخیره سازی متن 32768 است و حداکثر همان حداکثر برای مدل داده شده است. (برای اطلاعات بیشتر در مورد شمارش نشانه ها، به راهنمای توکن مراجعه کنید).
  • این مدل هیچ تمایزی بین نشانه‌های حافظه پنهان و نشانه‌های ورودی معمولی قائل نمی‌شود. محتوای ذخیره شده در حافظه پنهان به سادگی یک پیشوند برای درخواست است.
  • هیچ محدودیت یا نرخ خاصی برای ذخیره سازی متن وجود ندارد. محدودیت‌های نرخ استاندارد برای GenerateContent اعمال می‌شود و محدودیت‌های رمز شامل توکن‌های ذخیره‌شده نیز می‌شود.
  • تعداد توکن‌های ذخیره‌شده در usage_metadata از عملیات ایجاد، دریافت و فهرست سرویس کش و همچنین در GenerateContent هنگام استفاده از کش برگردانده می‌شود.
،

در یک گردش کاری معمولی هوش مصنوعی، ممکن است همان توکن های ورودی را بارها و بارها به یک مدل ارسال کنید. با استفاده از ویژگی ذخیره‌سازی متنی Gemini API، می‌توانید یک بار مقداری از محتوا را به مدل ارسال کنید، نشانه‌های ورودی را در حافظه پنهان نگه دارید و سپس برای درخواست‌های بعدی به نشانه‌های کش‌شده مراجعه کنید. در حجم‌های معین، استفاده از توکن‌های ذخیره‌سازی شده هزینه کمتری نسبت به ارسال مکرر در یک مجموعه توکن‌ها دارد.

هنگامی که مجموعه ای از نشانه ها را در حافظه پنهان ذخیره می کنید، می توانید انتخاب کنید که چه مدت می خواهید کش وجود داشته باشد قبل از اینکه نشانه ها به طور خودکار حذف شوند. این مدت زمان ذخیره سازی، زمان زندگی (TTL) نامیده می شود. اگر تنظیم نشود، TTL به طور پیش فرض روی 1 ساعت است. هزینه ذخیره سازی به اندازه توکن ورودی و مدت زمانی که می خواهید توکن ها باقی بمانند بستگی دارد.

حافظه پنهان متنی از فلش Gemini 1.5 Pro و Gemini 1.5 پشتیبانی می کند.

زمان استفاده از کش زمینه

ذخیره سازی متن به ویژه برای سناریوهایی که در آن یک زمینه اولیه قابل توجه به طور مکرر توسط درخواست های کوتاهتر ارجاع داده می شود، مناسب است. استفاده از کش زمینه برای موارد استفاده مانند:

  • چت بات ها با دستورالعمل های سیستمی گسترده
  • تجزیه و تحلیل مکرر فایل های ویدئویی طولانی
  • پرس و جوهای تکراری در برابر مجموعه اسناد بزرگ
  • تجزیه و تحلیل مکرر مخزن کد یا رفع اشکال

چگونه کش هزینه ها را کاهش می دهد

ذخیره سازی متن یک ویژگی پولی است که برای کاهش هزینه های عملیاتی کلی طراحی شده است. صورتحساب بر اساس عوامل زیر است:

  1. تعداد نشانه‌های حافظه پنهان: تعداد نشانه‌های ورودی ذخیره‌شده در حافظه پنهان که در صورت درج در درخواست‌های بعدی با نرخ کاهش‌یافته صورت‌حساب می‌شوند.
  2. مدت زمان ذخیره سازی: مقدار زمانی که توکن های ذخیره شده در حافظه پنهان ذخیره می شوند (TTL) که بر اساس مدت زمان TTL تعداد توکن های ذخیره شده صورتحساب می شود. هیچ محدودیتی برای حداقل یا حداکثر در TTL وجود ندارد.
  3. عوامل دیگر: هزینه‌های دیگری اعمال می‌شود، مانند نشانه‌های ورودی و نشانه‌های خروجی غیر ذخیره‌سازی شده در حافظه پنهان.

برای جزئیات قیمت به روز، به صفحه قیمت گذاری Gemini API مراجعه کنید. برای یادگیری نحوه شمارش نشانه‌ها، راهنمای توکن را ببینید.

نحوه استفاده از کش زمینه

این بخش فرض می‌کند که Gemini SDK را نصب کرده‌اید (یا curl را نصب کرده‌اید) و یک کلید API را پیکربندی کرده‌اید، همانطور که در شروع سریع نشان داده شده است.

با استفاده از حافظه پنهان محتوا تولید کنید

مثال زیر نحوه تولید محتوا با استفاده از یک دستورالعمل سیستم و فایل ویدئویی ذخیره شده را نشان می دهد.

import os
import google.generativeai as genai
from google.generativeai import caching
import datetime
import time

# Get your API key from https://aistudio.google.com/app/apikey
# and access your API key as an environment variable.
# To authenticate from a Colab, see
# https://github.com/google-gemini/cookbook/blob/main/quickstarts/Authentication.ipynb
genai.configure(api_key=os.environ['API_KEY'])

# Download video file
# curl -O https://storage.googleapis.com/generativeai-downloads/data/Sherlock_Jr_FullMovie.mp4

path_to_video_file = 'Sherlock_Jr_FullMovie.mp4'

# Upload the video using the Files API
video_file = genai.upload_file(path=path_to_video_file)

# Wait for the file to finish processing
while video_file.state.name == 'PROCESSING':
  print('Waiting for video to be processed.')
  time.sleep(2)
  video_file = genai.get_file(video_file.name)

print(f'Video processing complete: {video_file.uri}')

# Create a cache with a 5 minute TTL
cache = caching.CachedContent.create(
    model='models/gemini-1.5-flash-001',
    display_name='sherlock jr movie', # used to identify the cache
    system_instruction=(
        'You are an expert video analyzer, and your job is to answer '
        'the user\'s query based on the video file you have access to.'
    ),
    contents=[video_file],
    ttl=datetime.timedelta(minutes=5),
)

# Construct a GenerativeModel which uses the created cache.
model = genai.GenerativeModel.from_cached_content(cached_content=cache)

# Query the model
response = model.generate_content([(
    'Introduce different characters in the movie by describing '
    'their personality, looks, and names. Also list the timestamps '
    'they were introduced for the first time.')])

print(response.usage_metadata)

# The output should look something like this:
#
# prompt_token_count: 696219
# cached_content_token_count: 696190
# candidates_token_count: 214
# total_token_count: 696433

print(response.text)

فهرست کش ها

امکان بازیابی یا مشاهده محتوای ذخیره شده در حافظه پنهان وجود ندارد، اما می توانید ابرداده های حافظه پنهان ( name ، model ، display_name ، usage_metadata ، create_time ، update_time ، و expire_time ) را بازیابی کنید.

برای فهرست کردن متادیتا برای تمام کش های آپلود شده، از CachedContent.list() استفاده کنید:

for c in caching.CachedContent.list():
  print(c)

یک کش را به روز کنید

می توانید یک ttl یا expire_time جدید برای کش تنظیم کنید. تغییر هر چیز دیگری در مورد حافظه پنهان پشتیبانی نمی شود.

مثال زیر نحوه به روز رسانی ttl یک کش را با استفاده از CachedContent.update() نشان می دهد.

import datetime

cache.update(ttl=datetime.timedelta(hours=2))

یک کش را حذف کنید

سرویس کش عملیات حذف را برای حذف دستی محتوا از کش ارائه می دهد. مثال زیر نحوه حذف کش با استفاده از CachedContent.delete() را نشان می دهد.

cache.delete()

ملاحظات اضافی

هنگام استفاده از کش زمینه، ملاحظات زیر را در نظر داشته باشید:

  • حداقل تعداد توکن ورودی برای ذخیره سازی متن 32768 است و حداکثر همان حداکثر برای مدل داده شده است. (برای اطلاعات بیشتر در مورد شمارش نشانه ها، به راهنمای توکن مراجعه کنید).
  • این مدل هیچ تمایزی بین نشانه‌های حافظه پنهان و نشانه‌های ورودی معمولی قائل نمی‌شود. محتوای ذخیره شده در حافظه پنهان به سادگی یک پیشوند برای درخواست است.
  • هیچ محدودیت یا نرخ خاصی برای ذخیره سازی متن وجود ندارد. محدودیت‌های نرخ استاندارد برای GenerateContent اعمال می‌شود و محدودیت‌های رمز شامل توکن‌های ذخیره‌شده نیز می‌شود.
  • تعداد توکن‌های ذخیره‌شده در usage_metadata از عملیات ایجاد، دریافت و فهرست سرویس کش و همچنین در GenerateContent هنگام استفاده از کش برگردانده می‌شود.
،

در یک گردش کاری معمولی هوش مصنوعی، ممکن است همان توکن های ورودی را بارها و بارها به یک مدل ارسال کنید. با استفاده از ویژگی ذخیره‌سازی متنی Gemini API، می‌توانید یک بار مقداری از محتوا را به مدل ارسال کنید، نشانه‌های ورودی را در حافظه پنهان نگه دارید و سپس برای درخواست‌های بعدی به نشانه‌های کش‌شده مراجعه کنید. در حجم‌های معین، استفاده از توکن‌های ذخیره‌سازی شده هزینه کمتری نسبت به ارسال مکرر در یک مجموعه توکن‌ها دارد.

هنگامی که مجموعه ای از نشانه ها را در حافظه پنهان ذخیره می کنید، می توانید انتخاب کنید که چه مدت می خواهید کش وجود داشته باشد قبل از اینکه نشانه ها به طور خودکار حذف شوند. این مدت زمان ذخیره سازی، زمان زندگی (TTL) نامیده می شود. اگر تنظیم نشود، TTL به طور پیش فرض روی 1 ساعت است. هزینه ذخیره سازی به اندازه توکن ورودی و مدت زمانی که می خواهید توکن ها باقی بمانند بستگی دارد.

حافظه پنهان متنی از فلش Gemini 1.5 Pro و Gemini 1.5 پشتیبانی می کند.

زمان استفاده از کش زمینه

ذخیره سازی متن به ویژه برای سناریوهایی که در آن یک زمینه اولیه قابل توجه به طور مکرر توسط درخواست های کوتاهتر ارجاع داده می شود، مناسب است. استفاده از کش زمینه برای موارد استفاده مانند:

  • چت بات ها با دستورالعمل های سیستمی گسترده
  • تجزیه و تحلیل مکرر فایل های ویدئویی طولانی
  • پرس و جوهای تکراری در برابر مجموعه اسناد بزرگ
  • تجزیه و تحلیل مکرر مخزن کد یا رفع اشکال

چگونه کش هزینه ها را کاهش می دهد

ذخیره سازی متن یک ویژگی پولی است که برای کاهش هزینه های عملیاتی کلی طراحی شده است. صورتحساب بر اساس عوامل زیر است:

  1. تعداد نشانه‌های حافظه پنهان: تعداد نشانه‌های ورودی ذخیره‌شده در حافظه پنهان که در صورت درج در درخواست‌های بعدی با نرخ کاهش‌یافته صورت‌حساب می‌شوند.
  2. مدت زمان ذخیره سازی: مقدار زمانی که توکن های ذخیره شده در حافظه پنهان ذخیره می شوند (TTL) که بر اساس مدت زمان TTL تعداد توکن های ذخیره شده صورتحساب می شود. هیچ محدودیتی برای حداقل یا حداکثر در TTL وجود ندارد.
  3. عوامل دیگر: هزینه‌های دیگری اعمال می‌شود، مانند نشانه‌های ورودی و نشانه‌های خروجی غیر ذخیره‌سازی شده در حافظه پنهان.

برای جزئیات قیمت به روز، به صفحه قیمت گذاری Gemini API مراجعه کنید. برای یادگیری نحوه شمارش نشانه‌ها، راهنمای توکن را ببینید.

نحوه استفاده از کش زمینه

این بخش فرض می‌کند که Gemini SDK را نصب کرده‌اید (یا curl را نصب کرده‌اید) و یک کلید API را پیکربندی کرده‌اید، همانطور که در شروع سریع نشان داده شده است.

با استفاده از حافظه پنهان محتوا تولید کنید

مثال زیر نحوه تولید محتوا با استفاده از یک دستورالعمل سیستم و فایل ویدئویی ذخیره شده را نشان می دهد.

import os
import google.generativeai as genai
from google.generativeai import caching
import datetime
import time

# Get your API key from https://aistudio.google.com/app/apikey
# and access your API key as an environment variable.
# To authenticate from a Colab, see
# https://github.com/google-gemini/cookbook/blob/main/quickstarts/Authentication.ipynb
genai.configure(api_key=os.environ['API_KEY'])

# Download video file
# curl -O https://storage.googleapis.com/generativeai-downloads/data/Sherlock_Jr_FullMovie.mp4

path_to_video_file = 'Sherlock_Jr_FullMovie.mp4'

# Upload the video using the Files API
video_file = genai.upload_file(path=path_to_video_file)

# Wait for the file to finish processing
while video_file.state.name == 'PROCESSING':
  print('Waiting for video to be processed.')
  time.sleep(2)
  video_file = genai.get_file(video_file.name)

print(f'Video processing complete: {video_file.uri}')

# Create a cache with a 5 minute TTL
cache = caching.CachedContent.create(
    model='models/gemini-1.5-flash-001',
    display_name='sherlock jr movie', # used to identify the cache
    system_instruction=(
        'You are an expert video analyzer, and your job is to answer '
        'the user\'s query based on the video file you have access to.'
    ),
    contents=[video_file],
    ttl=datetime.timedelta(minutes=5),
)

# Construct a GenerativeModel which uses the created cache.
model = genai.GenerativeModel.from_cached_content(cached_content=cache)

# Query the model
response = model.generate_content([(
    'Introduce different characters in the movie by describing '
    'their personality, looks, and names. Also list the timestamps '
    'they were introduced for the first time.')])

print(response.usage_metadata)

# The output should look something like this:
#
# prompt_token_count: 696219
# cached_content_token_count: 696190
# candidates_token_count: 214
# total_token_count: 696433

print(response.text)

فهرست کش ها

امکان بازیابی یا مشاهده محتوای ذخیره شده در حافظه پنهان وجود ندارد، اما می توانید ابرداده های حافظه پنهان ( name ، model ، display_name ، usage_metadata ، create_time ، update_time ، و expire_time ) را بازیابی کنید.

برای فهرست کردن متادیتا برای تمام کش های آپلود شده، از CachedContent.list() استفاده کنید:

for c in caching.CachedContent.list():
  print(c)

یک کش را به روز کنید

می توانید یک ttl یا expire_time جدید برای کش تنظیم کنید. تغییر هر چیز دیگری در مورد حافظه پنهان پشتیبانی نمی شود.

مثال زیر نحوه به روز رسانی ttl یک کش را با استفاده از CachedContent.update() نشان می دهد.

import datetime

cache.update(ttl=datetime.timedelta(hours=2))

یک کش را حذف کنید

سرویس کش عملیات حذف را برای حذف دستی محتوا از کش ارائه می دهد. مثال زیر نحوه حذف کش با استفاده از CachedContent.delete() را نشان می دهد.

cache.delete()

ملاحظات اضافی

هنگام استفاده از کش زمینه، ملاحظات زیر را در نظر داشته باشید:

  • حداقل تعداد توکن ورودی برای ذخیره سازی متن 32768 است و حداکثر همان حداکثر برای مدل داده شده است. (برای اطلاعات بیشتر در مورد شمارش نشانه ها، به راهنمای توکن مراجعه کنید).
  • این مدل هیچ تمایزی بین نشانه‌های حافظه پنهان و نشانه‌های ورودی معمولی قائل نمی‌شود. محتوای ذخیره شده در حافظه پنهان به سادگی یک پیشوند برای درخواست است.
  • هیچ محدودیت یا نرخ خاصی برای ذخیره سازی متن وجود ندارد. محدودیت‌های نرخ استاندارد برای GenerateContent اعمال می‌شود و محدودیت‌های رمز شامل توکن‌های ذخیره‌شده نیز می‌شود.
  • تعداد توکن‌های ذخیره‌شده در usage_metadata از عملیات ایجاد، دریافت و فهرست سرویس کش و همچنین در GenerateContent هنگام استفاده از کش برگردانده می‌شود.