استكشاف الإمكانات البصرية باستخدام Gemini API

يمكن لواجهة برمجة التطبيقات Gemini API معالجة الصور والفيديوهات، ما يتيح العديد من حالات الاستخدام المشوّقة للمطوّرين. تشمل بعض قدرات Gemini في مجال الرؤية إمكانية:

  • إضافة تعليقات توضيحية إلى الصور والإجابة عن أسئلة بشأنها
  • تحويل ملفات PDF إلى نص وتحليلها، بما في ذلك المستندات الطويلة التي تصل إلى مليونَي رمز مميّز يستنِد إلى السياق
  • وصف الفيديوهات وتقسيمها واستخراج المعلومات منها، بما في ذلك الإطارات المرئية والمحتوى الصوتي الذي يصل طوله إلى 90 دقيقة
  • رصد الأجسام في صورة وعرض إحداثيات مربّع الحدود لها

يوضّح هذا الدليل التعليمي بعض الطرق المحتمَلة لطلب Gemini API باستخدام إدخال الصور والفيديوهات، ويقدّم أمثلة على الرموز البرمجية، ويوضّح أفضل الممارسات المتعلّقة بطلبات الرؤية المتعدّدة الوسائط. تكون جميع النتائج نصية فقط.

الخطوات التالية

يوضّح هذا الدليل كيفية تحميل ملفات الصور والفيديوهات باستخدام File API، ثم إنشاء مخرجات نصية من مدخلات الصور والفيديوهات. لمزيد من المعلومات، يُرجى الاطّلاع على المراجع التالية:

  • استراتيجيات طلب الملفات: تتيح واجهة برمجة التطبيقات Gemini API طلب البيانات النصية والمرئية والصوتية والفيديوية، والتي تُعرف أيضًا باسم طلبات البيانات المتعددة الوسائط.
  • تعليمات النظام: تتيح لك تعليمات النظام توجيه سلوك النموذج استنادًا إلى احتياجاتك وحالات الاستخدام المحدّدة.
  • إرشادات السلامة: في بعض الأحيان، تُنتج نماذج الذكاء الاصطناعي التوليدي نتائج غير متوقّعة، مثل النتائج غير الدقيقة أو المُتحيّزة أو المسيئة. إنّ المعالجة اللاحقة والتقييم البشري ضروريان لمحاولة الحد من خطر الضرر الناتج عن هذه النتائج.