الطلب باستخدام ملفات الوسائط


العرض على ai.google.dev التنفيذ في Google Colab عرض المصدر على GitHub

تتيح واجهة Gemini API إرسال الطلبات باستخدام بيانات النصوص والصور والمقاطع الصوتية والفيديوهات، والتي تُعرف أيضًا باسم الطلبات المتعددة الوسائط، ما يعني أنّه يمكنك تضمين هذه الأنواع من ملفات الوسائط في طلباتك. بالنسبة إلى الملفات الصغيرة، يمكنك توجيه نموذج Gemini مباشرةً إلى ملف محلي عند إرسال طلب. يمكنك تحميل ملفات أكبر حجمًا باستخدام File API قبل تضمينها في الطلبات.

تتيح لك واجهة برمجة التطبيقات File API تخزين ما يصل إلى 20 غيغابايت من الملفات لكل مشروع، على ألا يتجاوز حجم كل ملف 2 غيغابايت. يتم تخزين الملفات لمدة 48 ساعة ويمكن الوصول إليها باستخدام مفتاح واجهة برمجة التطبيقات لإنشاء خلال هذه الفترة الزمنية ولا يمكن تنزيلها من واجهة برمجة التطبيقات. تتوفّر واجهة برمجة التطبيقات Files API بدون تكلفة في جميع المناطق التي تتوفّر فيها Gemini API.

تعالج واجهة File API مصادر الإدخال التي يمكن استخدامها لإنشاء محتوى باستخدام model.generateContent أو model.streamGenerateContent. للحصول على معلومات عن تنسيقات الملفات الصالحة (أنواع MIME) والنماذج المتوافقة، يُرجى الاطّلاع على تنسيقات الملفات المتوافقة.

يشرح هذا الدليل كيفية استخدام File API لتحميل ملفات الوسائط وتضمينها في استدعاء GenerateContent لواجهة Gemini API. لمزيد من المعلومات، يُرجى الاطّلاع على عيّنات التعليمات البرمجية.

تنسيقات الملفات المعتمدة

تتيح طُرز Gemini الطلبات باستخدام تنسيقات ملفات متعددة. يشرح هذا القسم الاعتبارات المتعلقة باستخدام تنسيقات الوسائط العامة لإرسال الطلبات، وتحديدًا ملفات الصور والصوت والفيديو والنصوص العادية. لا يمكنك استخدام ملفات الوسائط للطلب إلا مع إصدارات طُرز معيّنة، كما هو موضّح في الجدول التالي.

الطراز الصور الصوت الفيديو نص عادي
Gemini 1.5 Pro (الإصدار 008 والإصدارات الأحدث) ✔ (ملف صور بتنسيق 3600 كحد أقصى)

الأشكال المصوّرة

يمكنك استخدام بيانات الصور لإرسال الطلبات باستخدام نماذج Gemini 1.5. عند استخدام صور لإرسال الطلبات، فإنها تخضع للقيود والمتطلبات التالية:

  • يجب أن تكون الصور ضمن أنواع MIME التالية من بيانات الصور:
    • صورة PNG
    • JPEG - صورة/jpeg
    • تنسيق WebP - صورة/webp
    • HEIC - صورة/heic
    • HEIF - صورة/heif
  • صورة 3600 صورة كحدّ أقصى لنماذج Gemini 1.5
  • لا توجد حدود محددة لعدد البكسل في الصورة، ولكن يتم تقليص حجم الصور الأكبر حجمًا لتلائم 3072 × 3072 كحد أقصى مع الحفاظ على نسبة العرض إلى الارتفاع الأصلية.

تنسيقات الملفات الصوتية

يمكنك استخدام البيانات الصوتية لإرسال الطلبات من خلال نماذج Gemini 1.5. عند استخدام الصوت في الطلبات، فهي تخضع للقيود والمتطلبات التالية:

  • يمكن استخدام البيانات الصوتية مع أنواع MIME بتنسيقات الصوت الشائعة التالية:
    • WAV - صوت/wav
    • MP3 - صوت/mp3
    • AIFF - صوت/الذكاء الاصطناعي (AI)
    • الترميز المتقدّم للصوت (AAC)
    • OGG Vorbis - صوت/ogg
    • FLAC - صوت/فلك
  • يبلغ الحد الأقصى المسموح به لطول البيانات الصوتية في طلب واحد 9.5 ساعات.
  • وتتم إعادة تشكيل الملفات الصوتية وصولاً إلى دقة بيانات تبلغ 16 كيلوبت في الثانية، كما يتم دمج عدة قنوات صوتية في قناة واحدة.
  • ليس هناك حدّ معيّن لعدد الملفات الصوتية في الطلب الواحد، إلا أنّ إجمالي مدة كل الملفات الصوتية في الطلب الواحد لا يمكن أن يتجاوز 9.5 ساعات.

أشكال إعلانات الفيديو

يمكنك استخدام بيانات الفيديو لتقديم الطلبات من خلال نماذج Gemini 1.5.

  • يمكن استخدام بيانات الفيديو مع أنواع MIME بتنسيقات الفيديو الشائعة التالية:

    • الفيديو/mp4
    • فيديو/mpeg
    • فيديو/mov
    • فيديو/AV
    • video/x-flv
    • فيديو/mpg
    • فيديو/webm
    • فيديو/wmv
    • فيديو/3gpp
  • تعمل خدمة File API على تحليل عيّنات الفيديوهات إلى صور بمعدّل لقطة واحدة في الثانية (FPS)، وقد تكون قابلة للتغيير لتقديم أفضل جودة استنتاجية. تحتاج الصور الفردية إلى 258 رمزًا مميزًا بغض النظر عن درجة الدقة والجودة.

تنسيقات النص العادي

تتيح واجهة برمجة التطبيقات File API تحميل ملفات النص العادي باستخدام أنواع MIME التالية:

  • نص/عادي
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • نص/ملف csv
  • نص/تخفيض
  • نص/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • تطبيق/rtf
  • نص/rtf

بالنسبة إلى ملفات النص العادي التي لها نوع MIME غير مدرَج في القائمة، يمكنك محاولة تحديد أحد أنواع MIME أعلاه يدويًا.