मीडिया फ़ाइलों से सूचना देना


ai.google.dev पर देखें Google Colab में चलाएं GitHub पर सोर्स देखें

Gemini API की मदद से टेक्स्ट, इमेज, ऑडियो, और वीडियो डेटा प्रॉम्प्ट भेजा जा सकता है. इसे मल्टीमोडल प्रॉम्प्ट भी कहा जाता है. इसका मतलब है कि इस तरह की मीडिया फ़ाइलें अपने प्रॉम्प्ट में शामिल की जा सकती हैं. छोटी फ़ाइलों के लिए, प्रॉम्प्ट देते समय Gemini मॉडल को सीधे लोकल फ़ाइल से कनेक्ट किया जा सकता है. बड़ी फ़ाइलों को निर्देशों में शामिल करने से पहले, File API का इस्तेमाल करके अपलोड करें.

File API आपको हर प्रोजेक्ट में 20 जीबी तक की फ़ाइलें सेव करने की सुविधा देता है. ऐसे में, हर फ़ाइल का साइज़ 2 जीबी से ज़्यादा नहीं होना चाहिए. फ़ाइलें 48 घंटों के लिए सेव की जाती हैं और उन्हें उसी समयावधि में जनरेट करने के लिए, आपकी एपीआई कुंजी से ऐक्सेस किया जा सकता है. इन्हें एपीआई से डाउनलोड नहीं किया जा सकता. जिन इलाकों में Gemini API उपलब्ध है वहां Files API बिना किसी शुल्क के उपलब्ध है.

File API, उन इनपुट को हैंडल करता है जिनका इस्तेमाल model.generateContent या model.streamGenerateContent के साथ कॉन्टेंट जनरेट करने के लिए किया जा सकता है. मान्य फ़ाइल फ़ॉर्मैट (MIME टाइप) और इस्तेमाल किए जा सकने वाले मॉडल के बारे में जानकारी के लिए, काम करने वाले फ़ाइल फ़ॉर्मैट देखें.

इस गाइड में मीडिया फ़ाइलों को अपलोड करने और उन्हें Gemini API के GenerateContent कॉल में शामिल करने के लिए, File API इस्तेमाल करने का तरीका बताया गया है. ज़्यादा जानकारी के लिए, कोड सैंपल देखें.

इस्तेमाल किए जा सकने वाले फ़ाइल फ़ॉर्मैट

Gemini मॉडल की सुविधा, एक से ज़्यादा फ़ाइल फ़ॉर्मैट वाले प्रॉम्प्ट के साथ काम करती है. इस सेक्शन में बताया गया है कि प्रॉम्प्ट के लिए, सामान्य मीडिया फ़ॉर्मैट का इस्तेमाल करते समय किन बातों का ध्यान रखना चाहिए. खास तौर पर, इमेज, ऑडियो, वीडियो, और सामान्य टेक्स्ट वाली फ़ाइलों के बारे में बताया गया है. जैसा कि इस टेबल में दिखाया गया है, मीडिया फ़ाइलों का इस्तेमाल सिर्फ़ खास मॉडल वर्शन से निर्देश देने के लिए किया जा सकता है.

मॉडल इमेज ऑडियो वीडियो सामान्य टेक्स्ट
Gemini 1.5 Pro (008 और उसके बाद के वर्शन) ✔ (ज़्यादा से ज़्यादा 3600 इमेज फ़ाइलें)
Gemini Pro विज़न ✔ (ज़्यादा से ज़्यादा 16 इमेज फ़ाइलें)

इमेज फ़ॉर्मैट

gemini-pro-vision और gemini-1.5-pro मॉडल से प्रॉम्प्ट देने के लिए, इमेज डेटा का इस्तेमाल किया जा सकता है. जब किसी इमेज का इस्तेमाल प्रॉम्प्ट भेजने के लिए किया जाता है, तो उस पर ये सीमाएं और ज़रूरी शर्तें लागू होती हैं:

  • इमेज, इनमें से किसी एक इमेज डेटा में होनी चाहिए MIME टाइप:
    • PNG - इमेज/png
    • JPEG - इमेज/jpeg
    • WEBP - इमेज/webp
    • HEIC - इमेज/heic
    • एचईआईएफ़ - इमेज/एचईआई
  • gemini-pro-vision के लिए ज़्यादा से ज़्यादा 16 अलग-अलग इमेज और gemini-1.5-pro के लिए 3600 इमेज
  • किसी इमेज में पिक्सल की संख्या की कोई सीमा नहीं होती. हालांकि, बड़ी इमेज को छोटा करके 3072 x 3072 के रिज़ॉल्यूशन में फ़िट किया जाता है. ऐसा करते हुए, इमेज का मूल आसपेक्ट रेशियो (लंबाई-चौड़ाई का अनुपात) बरकरार रहता है.

ऑडियो फ़ॉर्मैट

gemini-1.5-pro मॉडल की मदद से प्रॉम्प्ट देने के लिए, ऑडियो डेटा का इस्तेमाल किया जा सकता है. निर्देश देने के लिए ऑडियो का इस्तेमाल करने पर, इन सीमाओं और ज़रूरी शर्तों का पालन किया जाता है:

  • ऑडियो डेटा इन सामान्य ऑडियो फ़ॉर्मैट MIME टाइप में काम करता है:
    • WAV - ऑडियो/वेव
    • MP3 - ऑडियो/mp3
    • एआईएफ़एफ़ - ऑडियो/एफ़
    • AAC - audio/aac
    • OGG Vorbis - ऑडियो/ogg
    • FLAC - ऑडियो/flac
  • एक बार में ज़्यादा से ज़्यादा 9.5 घंटे का ऑडियो डेटा अपलोड किया जा सकता है.
  • ऑडियो फ़ाइलों को 16 केबीपीएस डेटा रिज़ॉल्यूशन पर रीसैंपल किया जाता है. साथ ही, ऑडियो के कई चैनलों को एक चैनल में जोड़ दिया जाता है.
  • किसी एक सवाल में कितनी ऑडियो फ़ाइलें भेजी जा सकती हैं, इसकी कोई सीमा नहीं है. हालांकि, एक सवाल में सभी ऑडियो फ़ाइलों की कुल लंबाई 9.5 घंटे से ज़्यादा नहीं हो सकती.

वीडियो फ़ॉर्मैट

gemini-1.5-pro मॉडल की मदद से प्रॉम्प्ट भेजने के लिए, वीडियो डेटा का इस्तेमाल किया जा सकता है.

  • वीडियो का डेटा, MIME टाइप वाले इन सामान्य वीडियो फ़ॉर्मैट में इस्तेमाल किया जा सकता है:

    • video/mp4
    • वीडियो/mpeg
    • वीडियो/मूव
    • वीडियो/एवी
    • video/x-flv
    • वीडियो/mpg
    • वीडियो/webm
    • वीडियो/wmv
    • वीडियो/3जीपीपी
  • File API सेवा, एक फ़्रेम प्रति सेकंड (एफ़पीएस) की मदद से वीडियो को इमेज में सैंपल करती है. साथ ही, इसे बेहतर अनुमान की क्वालिटी देने के लिए, इसमें बदलाव भी किया जा सकता है. हर इमेज का रिज़ॉल्यूशन और क्वालिटी पर ध्यान दिए बिना 258 टोकन इस्तेमाल किए जा सकते हैं.

सादा टेक्स्ट फ़ॉर्मैट

File API यहां दिए गए MIME टाइप वाली सामान्य टेक्स्ट वाली फ़ाइलों को अपलोड करने की सुविधा देता है:

  • टेक्स्ट/सादा
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • टेक्स्ट/x-टाइपस्क्रिप्ट
  • ऐप्लिकेशन/x-typescript
  • टेक्स्ट/csv
  • टेक्स्ट/मार्कडाउन
  • टेक्स्ट/x-Python
  • application/x-python-code
  • application/json
  • text/xml
  • ऐप्लिकेशन/rtf
  • टेक्स्ट/rtf

अगर MIME टाइप वाली सामान्य टेक्स्ट फ़ाइलें सूची में शामिल नहीं हैं, तो उन्हें ऊपर दिए गए MIME टाइप में से किसी एक को मैन्युअल तरीके से बताया जा सकता है.