فهم المستندات

تتيح Gemini API إدخال ملفات PDF، بما في ذلك المستندات الطويلة (حتى 3600 صفحة). تعالج نماذج Gemini ملفات PDF باستخدام ميزة الرؤية الأصلية، وبالتالي يمكنها فهم محتوى النصوص والصور داخل المستندات. من خلال إتاحة ميزة "الرؤية" لتنسيق PDF بشكلٍ أصلي، يمكن لنماذج Gemini تنفيذ ما يلي:

  • تحليل المخططات البيانية والرسومات البيانية والجداول داخل المستندات
  • استخراج المعلومات إلى تنسيقات نتائج منظَّمة
  • الإجابة عن أسئلة حول المحتوى المرئي والنصوص في المستندات
  • تلخيص المستندات
  • تحويل محتوى المستند إلى نص (مثلاً إلى HTML) مع الحفاظ على التنسيقات والتنسيقات، وذلك لاستخدامها في التطبيقات المعنيّة

يوضّح هذا البرنامج التعليمي بعض الطرق المحتمَلة لاستخدام Gemini API لمعالجة مستندات PDF.

الخطوات التالية

لمزيد من المعلومات، يمكنك الاطّلاع على المراجع التالية:

  • استراتيجيات طلب الملفات: تتيح واجهة برمجة التطبيقات Gemini API طلب البيانات النصية والمرئية والصوتية والفيديوية، والتي تُعرف أيضًا باسم طلبات البيانات المتعددة الوسائط.
  • تعليمات النظام: تتيح لك تعليمات النظام توجيه سلوك النموذج استنادًا إلى احتياجاتك وحالات الاستخدام المحدّدة.