Gemini API, इमेज और वीडियो को प्रोसेस कर सकता है. इससे डेवलपर के लिए, कई दिलचस्प इस्तेमाल के उदाहरण उपलब्ध होते हैं. Gemini के विज़न की कुछ सुविधाओं में ये शामिल हैं:
- इमेज के कैप्शन जोड़ना और उनसे जुड़े सवालों के जवाब देना
- PDF फ़ाइलों को लेख में बदलना और उनमें मौजूद जानकारी के बारे में बताना. इसमें 20 लाख टोकन वाली कॉन्टेक्स्ट विंडो तक के लंबे दस्तावेज़ शामिल हैं
- वीडियो से जानकारी हासिल करना, उसे सेगमेंट में बांटना, और उसके बारे में बताना. इसमें 90 मिनट तक के वीडियो के विज़ुअल फ़्रेम और ऑडियो, दोनों शामिल हैं
- किसी इमेज में मौजूद ऑब्जेक्ट का पता लगाना और उनके लिए बाउंडिंग बॉक्स के निर्देशांक दिखाना
इस ट्यूटोरियल में, इमेज और वीडियो इनपुट की मदद से Gemini API को प्रॉम्प्ट करने के कुछ संभावित तरीकों के बारे में बताया गया है. साथ ही, कोड के उदाहरण दिए गए हैं और कई मोड वाली विज़न सुविधाओं के साथ प्रॉम्प्ट करने के सबसे सही तरीकों के बारे में बताया गया है. पूरा आउटपुट सिर्फ़ टेक्स्ट में होता है.
आगे क्या करना है
इस गाइड में, File API का इस्तेमाल करके इमेज और वीडियो फ़ाइलें अपलोड करने का तरीका बताया गया है. साथ ही, इमेज और वीडियो इनपुट से टेक्स्ट आउटपुट जनरेट करने का तरीका भी बताया गया है. ज़्यादा जानने के लिए, ये संसाधन देखें:
- फ़ाइल के लिए प्रॉम्प्ट करने की रणनीतियां: Gemini API, टेक्स्ट, इमेज, ऑडियो, और वीडियो डेटा के साथ प्रॉम्प्ट करने की सुविधा देता है. इसे मल्टीमॉडल प्रॉम्प्ट भी कहा जाता है.
- सिस्टम के निर्देश: सिस्टम के निर्देशों की मदद से, अपनी ज़रूरतों और इस्तेमाल के उदाहरणों के आधार पर, मॉडल के व्यवहार को कंट्रोल किया जा सकता है.
- सुरक्षा से जुड़े दिशा-निर्देश: कभी-कभी जनरेटिव एआई मॉडल, अनचाहे आउटपुट देते हैं. जैसे, गलत, पक्षपातपूर्ण या आपत्तिजनक आउटपुट. ऐसे आउटपुट से होने वाले नुकसान को कम करने के लिए, पोस्ट-प्रोसेसिंग और मानवीय आकलन ज़रूरी है.