दस्तावेज़ को समझना

Gemini API, PDF इनपुट के साथ काम करता है. इसमें लंबे दस्तावेज़ (3,600 पेज तक) भी शामिल हैं. Gemini मॉडल, नेटिव विज़न की मदद से PDF फ़ाइलों को प्रोसेस करते हैं. इसलिए, ये दस्तावेज़ों में मौजूद टेक्स्ट और इमेज, दोनों तरह के कॉन्टेंट को समझ सकते हैं. नेटिव PDF विज़न की मदद से, Gemini मॉडल ये काम कर सकते हैं:

  • दस्तावेज़ों में मौजूद डायग्राम, चार्ट, और टेबल का विश्लेषण करना
  • जानकारी को स्ट्रक्चर्ड आउटपुट फ़ॉर्मैट में निकालना
  • दस्तावेज़ों में मौजूद विज़ुअल और टेक्स्ट कॉन्टेंट के बारे में सवालों के जवाब देना
  • दस्तावेज़ों की ख़ास जानकारी देना
  • दस्तावेज़ के कॉन्टेंट को एचटीएमएल में ट्रांसक्राइब करना. इसमें लेआउट और फ़ॉर्मैटिंग को बनाए रखा जाता है, ताकि इसे डाउनस्ट्रीम ऐप्लिकेशन में इस्तेमाल किया जा सके

इस ट्यूटोरियल में, PDF दस्तावेज़ों को प्रोसेस करने के लिए, Gemini API का इस्तेमाल करने के कुछ संभावित तरीके दिखाए गए हैं.

आगे क्या करना है

ज़्यादा जानने के लिए, ये संसाधन देखें:

  • फ़ाइल के लिए प्रॉम्प्ट करने की रणनीतियां: Gemini API, टेक्स्ट, इमेज, ऑडियो, और वीडियो डेटा के साथ प्रॉम्प्ट करने की सुविधा देता है. इसे मल्टीमॉडल प्रॉम्प्ट भी कहा जाता है.
  • सिस्टम के निर्देश: सिस्टम के निर्देशों की मदद से, अपनी ज़रूरतों और इस्तेमाल के उदाहरणों के आधार पर, मॉडल के व्यवहार को कंट्रोल किया जा सकता है.