Gemini API, PDF इनपुट के साथ काम करता है. इसमें 1,000 पेजों तक के लंबे दस्तावेज़ भी शामिल हैं. Gemini मॉडल, नेटिव विज़न की मदद से PDF फ़ाइलों को प्रोसेस करते हैं. इसलिए, वे दस्तावेज़ों में मौजूद टेक्स्ट और इमेज, दोनों तरह के कॉन्टेंट को समझ सकते हैं. PDF के लिए नेटिव विज़न की सुविधा की मदद से, Gemini मॉडल ये काम कर सकते हैं:
- दस्तावेज़ों में मौजूद डायग्राम, चार्ट, और टेबल का विश्लेषण करना
- जानकारी को स्ट्रक्चर्ड आउटपुट फ़ॉर्मैट में निकालना
- दस्तावेज़ों में मौजूद विज़ुअल और टेक्स्ट कॉन्टेंट के बारे में सवालों के जवाब देना
- दस्तावेज़ों की ख़ास जानकारी देना
- दस्तावेज़ के कॉन्टेंट को एचटीएमएल में ट्रांसक्राइब करना. इसमें लेआउट और फ़ॉर्मैटिंग को बनाए रखा जाता है, ताकि इसे डाउनस्ट्रीम ऐप्लिकेशन में इस्तेमाल किया जा सके
इस ट्यूटोरियल में, PDF दस्तावेज़ों को प्रोसेस करने के लिए, Gemini API का इस्तेमाल करने के कुछ संभावित तरीकों के बारे में बताया गया है.
तकनीकी जानकारी
Gemini, ज़्यादा से ज़्यादा 1,000 दस्तावेज़ पेजों के साथ काम करता है. दस्तावेज़ के पेज, टेक्स्ट डेटा के इनमें से किसी एक MIME टाइप में होने चाहिए:
- PDF -
application/pdf
- JavaScript -
application/x-javascript
,text/javascript
- Python -
application/x-python
,text/x-python
- TXT -
text/plain
- एचटीएमएल -
text/html
- सीएसएस -
text/css
- मार्कडाउन -
text/md
- CSV -
text/csv
- एक्सएमएल -
text/xml
- RTF -
text/rtf
दस्तावेज़ का हर पेज 258 टोकन के बराबर होता है.
मॉडल की कॉन्टेक्स्ट विंडो के अलावा, किसी दस्तावेज़ में पिक्सल की संख्या की कोई खास सीमा नहीं होती. हालांकि, बड़े पेजों को 3072x3072 पिक्सल के ज़्यादा से ज़्यादा रिज़ॉल्यूशन तक स्केल किया जाता है. साथ ही, उनके आसपेक्ट रेशियो को बनाए रखा जाता है. वहीं, छोटे पेजों को 768x768 पिक्सल तक स्केल किया जाता है. कम साइज़ वाले पेजों के लिए, बैंडविड्थ के अलावा कोई और शुल्क नहीं लिया जाता. इसके अलावा, ज़्यादा रिज़ॉल्यूशन वाले पेजों की परफ़ॉर्मेंस भी बेहतर नहीं होती.
सर्वोत्तम परिणामों के लिएः
- अपलोड करने से पहले, पेजों को सही ओरिएंटेशन में घुमाएं.
- धुंधले पेजों का इस्तेमाल न करें.
- अगर एक पेज का इस्तेमाल किया जा रहा है, तो टेक्स्ट प्रॉम्प्ट को पेज के बाद रखें.
आगे क्या करना है
ज़्यादा जानने के लिए, ये संसाधन देखें:
- फ़ाइल के लिए प्रॉम्प्ट करने की रणनीतियां: Gemini API, टेक्स्ट, इमेज, ऑडियो, और वीडियो डेटा के साथ प्रॉम्प्ट करने की सुविधा देता है. इसे मल्टीमॉडल प्रॉम्प्ट भी कहा जाता है.
- सिस्टम के निर्देश: सिस्टम के निर्देशों की मदद से, अपनी ज़रूरतों और इस्तेमाल के उदाहरणों के आधार पर, मॉडल के व्यवहार को कंट्रोल किया जा सकता है.