Gemini मॉडल, इमेज और वीडियो को प्रोसेस कर सकते हैं. इससे डेवलपर के लिए कई ऐसे नए इस्तेमाल के उदाहरण उपलब्ध हो पाते हैं जिनके लिए पहले, डोमेन के हिसाब से मॉडल बनाने की ज़रूरत होती थी. Gemini की विज़न की कुछ सुविधाओं में ये शामिल हैं:
- इमेज के कैप्शन जोड़ना और उनसे जुड़े सवालों के जवाब देना
- PDF फ़ाइलों को टेक्स्ट में बदलना और उनमें मौजूद 20 लाख तक टोकन की वजह बताना
- 90 मिनट तक के वीडियो की जानकारी देना, उन्हें सेगमेंट में बांटना, और उनसे जानकारी निकालना
- किसी इमेज में मौजूद ऑब्जेक्ट का पता लगाना और उनके लिए बाउंडिंग बॉक्स के निर्देशांक दिखाना
Gemini को शुरुआत से ही मल्टीमोडल के तौर पर बनाया गया था. हम इसकी नई-नई संभावनाओं को तलाशते रहते हैं.
शुरू करने से पहले
Gemini API को कॉल करने से पहले, पक्का करें कि आपने अपने पसंदीदा एसडीके टूल को इंस्टॉल कर लिया हो. साथ ही, Gemini API पासकोड को कॉन्फ़िगर कर लिया हो और वह इस्तेमाल के लिए तैयार हो.
आगे क्या करना है
इस गाइड में, File API का इस्तेमाल करके इमेज और वीडियो फ़ाइलें अपलोड करने का तरीका बताया गया है. साथ ही, इमेज और वीडियो इनपुट से टेक्स्ट आउटपुट जनरेट करने का तरीका भी बताया गया है. ज़्यादा जानने के लिए, ये संसाधन देखें:
- फ़ाइल के लिए प्रॉम्प्ट करने की रणनीतियां: Gemini API, टेक्स्ट, इमेज, ऑडियो, और वीडियो डेटा के साथ प्रॉम्प्ट करने की सुविधा देता है. इसे मल्टीमॉडल प्रॉम्प्ट भी कहा जाता है.
- सिस्टम के निर्देश: सिस्टम के निर्देशों की मदद से, अपनी ज़रूरतों और इस्तेमाल के उदाहरणों के आधार पर, मॉडल के व्यवहार को कंट्रोल किया जा सकता है.
- सुरक्षा से जुड़े दिशा-निर्देश: कभी-कभी जनरेटिव एआई मॉडल, अनचाहे आउटपुट देते हैं. जैसे, गलत, पक्षपातपूर्ण या आपत्तिजनक आउटपुट. ऐसे आउटपुट से होने वाले नुकसान को कम करने के लिए, पोस्ट-प्रोसेसिंग और मानवीय आकलन ज़रूरी है.