تتيح Gemini API إدخال ملفات PDF، بما في ذلك المستندات الطويلة (حتى 3600 صفحة). تعالج نماذج Gemini ملفات PDF باستخدام ميزة الرؤية الأصلية، وبالتالي يمكنها فهم محتويات النصوص والصور داخل المستندات. من خلال ميزة الرؤية المضمّنة لملفات PDF، يمكن لنماذج Gemini تنفيذ ما يلي:
- تحليل المخططات البيانية والرسومات البيانية والجداول داخل المستندات
- استخراج المعلومات إلى تنسيقات إخراج منظَّمة
- الإجابة عن أسئلة حول المحتوى المرئي والنصي في المستندات
- تلخيص المستندات
- تحويل محتوى المستندات إلى نص (مثلاً إلى HTML) مع الحفاظ على التنسيقات والتنسيقات، لاستخدامها في التطبيقات النهائية (مثل قنوات RAG).
يوضّح هذا البرنامج التعليمي بعض الطرق المحتمَلة لاستخدام Gemini API مع مستندات PDF. تكون جميع النتائج نصية فقط.
الخطوات التالية
يوضِّح هذا الدليل كيفية استخدام
generateContent
و
لإنشاء نُسخ نصية من المستندات التي تمت معالجتها. لمزيد من المعلومات،
يُرجى الاطّلاع على المراجع التالية:
- استراتيجيات طلب الملفات: تتيح واجهة برمجة التطبيقات Gemini API طلب البيانات النصية والمرئية والصوتية والفيديوية، ويُعرف ذلك أيضًا باسم الطلبات المتعدّدة الوسائط.
- تعليمات النظام: تتيح لك تعليمات النظام توجيه سلوك النموذج استنادًا إلى احتياجاتك وحالات الاستخدام المحدّدة.
- إرشادات السلامة: في بعض الأحيان، تُنتج نماذج الذكاء الاصطناعي التوليدي نتائج غير متوقّعة، مثل النتائج غير الدقيقة أو المُتحيّزة أو المسيئة. إنّ المعالجة اللاحقة والتقييم البشري ضروريان لمحاولة الحد من خطر الضرر الناتج عن هذه النتائج.