استكشاف الإمكانات البصرية باستخدام Gemini API

يمكن أن تستنتج Gemini API الصور والفيديوهات التي يتم نقلها إليها. عند اجتياز الاختبار صورة أو سلسلة صور أو فيديو، يمكن لـ Gemini تنفيذ ما يلي:

  • وضّح أسئلة حول المحتوى أو أجِب عنها
  • تلخيص المحتوى
  • الاستنتاج من المحتوى

يشرح هذا الدليل التوجيهي بعض الطرق المحتملة لطلب واجهة برمجة التطبيقات Gemini API باستخدام الصور وإدخال الفيديو. تكون جميع النتائج نصية فقط.

الخطوات التالية

يوضح هذا الدليل كيفية استخدام generateContent و لإنشاء مخرجات نصية من إدخالات الصور والفيديو للمزيد من المعلومات يمكنك الاطّلاع على المراجع التالية:

  • عرض الطلب مع ملفات الوسائط: تتيح واجهة Gemini API أيضًا إرسال الطلبات باستخدام بيانات النصوص والصور والصوت والفيديوهات. المعروف باسم المطالبة متعددة الوسائط.
  • تعليمات النظام: النظام توجيه سلوك النموذج بناءً على احتياجاتهم وحالات الاستخدام الخاصة بهم.
  • إرشادات حول الأمان: يستخدم الذكاء الاصطناعي التوليدي أحيانًا مخرجات غير متوقعة، مثل المخرجات غير الدقيقة، أو متحيزة أو مسيئة. تعد مرحلة ما بعد المعالجة والتقييم البشري ضروريين الحد من مخاطر الضرر الناجم عن هذه المخرجات.