الطلب باستخدام ملفات الوسائط


العرض على ai.google.dev التشغيل في Google Colab الاطّلاع على المصدر على GitHub

تتيح واجهة Gemini API تقديم الطلبات باستخدام بيانات النصوص والصور والصوت والفيديو، والمعروفة أيضًا باسم الطلبات متعددة الوسائط، ما يعني أنّه يمكنك تضمين هذه الأنواع من ملفات الوسائط في طلباتك. بالنسبة إلى الملفات الصغيرة، يمكنك توجيه نموذج Gemini مباشرةً إلى ملف محلي عند تقديم طلب. يمكنك تحميل ملفات أكبر حجمًا باستخدام File API قبل تضمينها في الطلبات.

تتيح لك File API تخزين ما يصل إلى 20 غيغابايت من الملفات لكل مشروع، على ألا يتجاوز حجم كل ملف 2 غيغابايت. يتم تخزين الملفات لمدة 48 ساعة ويمكن الوصول إليها باستخدام مفتاح واجهة برمجة التطبيقات لإنشائها خلال تلك الفترة الزمنية ولا يمكن تنزيلها من واجهة برمجة التطبيقات. تتوفّر Files API بدون تكلفة في جميع المناطق التي تتوفّر فيها Gemini API.

تتعامل واجهة File API مع الإدخالات التي يمكن استخدامها لإنشاء محتوى باستخدام model.generateContent أو model.streamGenerateContent. ولمزيد من المعلومات حول تنسيقات الملفات الصالحة (أنواع MIME) والنماذج المتوافقة، يُرجى الاطّلاع على تنسيقات الملفات المتوافقة.

يوضِّح هذا الدليل كيفية استخدام File API لتحميل ملفات الوسائط وتضمينها في طلب GenerateContent بواجهة Gemini API. لمزيد من المعلومات، يمكنك الاطّلاع على عيّنات التعليمات البرمجية.

تنسيقات الملفات المعتمدة

تتيح نماذج Gemini إرسال الطلبات بتنسيقات ملفات متعدّدة. يشرح هذا القسم الاعتبارات المتعلّقة باستخدام تنسيقات الوسائط العامة لتقديم الطلبات، لا سيما ملفات الصور والصوت والفيديو والملفات النصية العادية. يمكنك استخدام ملفات الوسائط للطلب فقط من خلال إصدارات طراز معينة، كما هو موضح في الجدول التالي.

الطراز الصور الصوت الفيديو نص عادي
Gemini 1.5 Pro (الإصدار 008 والإصدارات الأحدث) ✔ (ملفات صور بحدّ أقصى 3600)
Gemini Pro Vision ✔ (16 ملف صور كحدّ أقصى)

الأشكال المصوّرة

ويمكنك استخدام بيانات الصورة لإرسال طلبات باستخدام نموذجَي gemini-pro-vision وgemini-1.5-pro. وعند استخدام الصور لتقديم طلب، تخضع للقيود والمتطلبات التالية:

  • يجب أن تكون الصور بأحد بيانات الصور التالية أنواع MIME:
    • PNG - image/png
    • JPEG - صورة/jpeg
    • WebP - صورة/ويب
    • HEIC - صورة/heic
    • HEIF - صورة/heif
  • الحد الأقصى هو 16 صورة فردية للصور gemini-pro-vision والصور بزاوية 3600 لـ gemini-1.5-pro
  • لا توجد حدود محددة لعدد وحدات البكسل في الصورة، ولكن يتم تصغير حجم الصور الأكبر حجمًا لتلائم الحد الأقصى لدرجة الدقة 3072 × 3072 مع الحفاظ على نسبة العرض إلى الارتفاع الأصلية.

تنسيقات الصوت

ويمكنك استخدام البيانات الصوتية لإرسال الطلبات من خلال النموذج "gemini-1.5-pro". وعند استخدام المحتوى الصوتي لتقديم طلب، تخضع للقيود والمتطلبات التالية:

  • تتوافق بيانات الصوت مع تنسيقات الصوت الشائعة التالية أنواع MIME:
    • WAV - صوت/wav
    • MP3 - صوت/mp3
    • AIFF - محتوى صوتي/aiff
    • الترميز المتقدّم للصوت - صوت/ملف Aac
    • OGG Vorbis - صوت/ogg
    • FLAC - صوت/تنسيق flac
  • إنّ الحد الأقصى المسموح به لطول البيانات الصوتية في طلب واحد هو 9.5 ساعات.
  • تتم إعادة تشكيل الملفات الصوتية بدقة تصل إلى 16 كيلوبت في الثانية، ويتم دمج قنوات صوتية متعددة في قناة واحدة.
  • ما من حدّ أقصى لعدد الملفات الصوتية في طلب واحد، ولكن لا يمكن أن يتجاوز إجمالي مدة كل الملفات الصوتية في طلب واحد 9.5 ساعات.

أشكال إعلانات الفيديو

يمكنك استخدام بيانات الفيديو لتقديم طلبات باستخدام النموذج gemini-1.5-pro.

  • يتم دعم بيانات الفيديو بأنواع MIME الشائعة التالية للفيديو:

    • الفيديو/mp4
    • فيديو/mpeg
    • فيديو/نقل
    • فيديو/AV
    • video/x-flv
    • فيديو/ميل في الغالون
    • فيديو/webm
    • فيديو/wmv
    • فيديو/3gpp
  • تعمل خدمة File API على أخذ عينات من الفيديوهات إلى صور بمعدّل إطار واحد في الثانية (FPS)، وقد تخضع للتغيير لتقديم أفضل جودة للاستنتاج. تشغل الصور الفردية 258 رمزًا مميزًا بغض النظر عن درجة الدقة والجودة.

تنسيقات النص العادي

تتيح File API تحميل ملفات النص العادي باستخدام أنواع MIME التالية:

  • نص/عادي
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • text/x-typescript
  • Application/x-typescript
  • نص/ملف csv
  • نص/علامة تبويب
  • text/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • Application/rtf
  • نص/rtf

بالنسبة إلى الملفات النصية العادية التي تتضمّن نوع MIME غير مدرَج في القائمة، يمكنك محاولة تحديد أحد أنواع MIME المذكورة أعلاه يدويًا.