درخواست با فایل های رسانه ای


Gemini API از داده‌های متنی، تصویری، صوتی و ویدیویی پشتیبانی می‌کند که به عنوان درخواست چندوجهی نیز شناخته می‌شود، به این معنی که می‌توانید آن نوع فایل‌های رسانه‌ای را در درخواست‌های خود قرار دهید. برای فایل‌های کوچک، می‌توانید هنگام ارائه درخواست، مدل Gemini را مستقیماً به یک فایل محلی اشاره کنید. فایل‌های بزرگ‌تر را با File API بارگذاری کنید قبل از اینکه آنها را در درخواست‌ها قرار دهید.

File API به شما امکان می دهد تا حداکثر 20 گیگابایت فایل را در هر پروژه ذخیره کنید و حجم هر فایل از 2 گیگابایت بیشتر نباشد. فایل‌ها به مدت 48 ساعت ذخیره می‌شوند و با کلید API شما برای تولید در آن بازه زمانی قابل دسترسی هستند و نمی‌توانند از API دانلود شوند. Files API بدون هیچ هزینه ای در همه مناطقی که Gemini API در دسترس است در دسترس است.

File API ورودی هایی را کنترل می کند که می توانند برای تولید محتوا با model.generateContent یا model.streamGenerateContent استفاده شوند. برای اطلاعات در مورد فرمت های فایل معتبر (انواع MIME) و مدل های پشتیبانی شده، به فرمت های فایل پشتیبانی شده مراجعه کنید.

این راهنما نحوه استفاده از File API برای آپلود فایل های رسانه ای و گنجاندن آنها در یک تماس GenerateContent به Gemini API را نشان می دهد. برای اطلاعات بیشتر به نمونه کدها مراجعه کنید.

فرمت های فایل پشتیبانی شده

مدل‌های Gemini از درخواست با چندین فرمت فایل پشتیبانی می‌کنند. این بخش ملاحظات استفاده از فرمت های رسانه ای عمومی را برای درخواست، به ویژه فایل های تصویری، صوتی، ویدئویی و متنی ساده توضیح می دهد. همانطور که در جدول زیر نشان داده شده است، می توانید از فایل های رسانه ای برای درخواست فقط با نسخه های مدل خاص استفاده کنید.

مدل تصاویر سمعی ویدئو متن ساده
Gemini 1.5 Pro (انتشار 008 به بعد) ✔ (حداکثر 3600 فایل تصویری)
جمینی پرو ویژن ✔ (حداکثر 16 فایل تصویری)

فرمت های تصویر

می‌توانید از داده‌های تصویر برای درخواست با مدل‌های gemini-pro-vision و gemini-1.5-pro استفاده کنید. هنگامی که از تصاویر برای درخواست استفاده می کنید، آنها مشمول محدودیت ها و الزامات زیر هستند:

  • تصاویر باید در یکی از انواع داده های تصویری MIME زیر باشند:
    • PNG - تصویر/png
    • JPEG - تصویر/jpeg
    • WEBP - تصویر/وب
    • HEIC - تصویر/هیک
    • HEIF - تصویر / heif
  • حداکثر 16 تصویر جداگانه برای gemini-pro-vision و 3600 تصویر برای gemini-1.5-pro
  • هیچ محدودیت خاصی برای تعداد پیکسل های یک تصویر وجود ندارد. با این حال، تصاویر بزرگ‌تر برای داشتن حداکثر وضوح 3072 در 3072 در حالی که نسبت تصویر اصلی خود را حفظ می‌کنند، کوچک می‌شوند.

فرمت های صوتی

با مدل gemini-1.5-pro می توانید از داده های صوتی برای درخواست استفاده کنید. هنگامی که از صدا برای درخواست استفاده می کنید، آنها مشمول محدودیت ها و الزامات زیر هستند:

  • داده های صوتی در انواع فرمت های صوتی رایج MIME زیر پشتیبانی می شوند:
    • WAV - صدا / موج
    • MP3 - صوتی/mp3
    • AIFF - صوتی/aiff
    • AAC - صوتی/aac
    • OGG Vorbis - صدا/ogg
    • FLAC - صوتی/flac
  • حداکثر طول پشتیبانی از داده های صوتی در یک فرمان 9.5 ساعت است.
  • فایل های صوتی با وضوح داده 16 کیلوبیت در ثانیه نمونه برداری می شوند و چندین کانال صوتی در یک کانال واحد ترکیب می شوند.
  • هیچ محدودیت خاصی برای تعداد فایل های صوتی در یک اعلان وجود ندارد. با این حال، مجموع طول کل فایل های صوتی در یک فرمان نمی تواند از 9.5 ساعت تجاوز کند.

فرمت های ویدیویی

با مدل gemini-1.5-pro می توانید از داده های ویدئویی برای درخواست استفاده کنید.

  • داده های ویدئویی در انواع فرمت های ویدئویی رایج MIME زیر پشتیبانی می شوند:

    • ویدئو/mp4
    • ویدئو/MPEG
    • ویدئو/فیلم
    • ویدئو/آوی
    • ویدئو/x-flv
    • ویدئو/mpg
    • ویدئو/وب
    • ویدئو/wmv
    • ویدئو/3gpp
  • سرویس File API ویدیوها را با سرعت 1 فریم در ثانیه (FPS) در تصاویر نمونه می‌کند و ممکن است برای ارائه بهترین کیفیت استنتاج تغییر کند. تصاویر جداگانه بدون در نظر گرفتن وضوح و کیفیت، 258 توکن را اشغال می کنند.

فرمت های متن ساده

File API از آپلود فایل های متنی ساده با انواع MIME زیر پشتیبانی می کند:

  • متن/ساده
  • متن/html
  • متن/css
  • متن/جاوا اسکریپت
  • برنامه/x-javascript
  • text/x-typescript
  • برنامه/x-typescript
  • text/csv
  • متن / علامت گذاری
  • متن/x-python
  • برنامه/x-python-code
  • application/json
  • متن/xml
  • برنامه/rtf
  • متن/rtf

برای فایل‌های متنی ساده با نوع MIME که در لیست نیستند، می‌توانید یکی از انواع MIME بالا را به صورت دستی تعیین کنید.