मीडिया फ़ाइलों से सूचना देना


ai.google.dev पर देखें Google Colab में चलाएं GitHub पर सोर्स देखें

Gemini API के साथ टेक्स्ट, इमेज, ऑडियो, और वीडियो डेटा का इस्तेमाल किया जा सकता है. इसे मल्टीमॉडल प्रॉम्प्ट भी कहा जाता है. इसका मतलब है कि अपने प्रॉम्प्ट में इस तरह की मीडिया फ़ाइलों को शामिल किया जा सकता है. छोटी फ़ाइलों के लिए, प्रॉम्प्ट देते समय Gemini मॉडल को सीधे तौर पर किसी लोकल फ़ाइल पर पॉइंट किया जा सकता है. बड़ी फ़ाइलों को प्रॉम्प्ट में शामिल करने से पहले, उन्हें File API की मदद से अपलोड करें.

File API का इस्तेमाल करके, हर प्रोजेक्ट में 20 जीबी तक फ़ाइलें सेव की जा सकती हैं. हालांकि, हर फ़ाइल का साइज़ 2 जीबी से ज़्यादा नहीं होना चाहिए. फ़ाइलें 48 घंटे तक सेव रहती हैं. इस समयावधि में, फ़ाइलें जनरेट करने के लिए इन्हें एपीआई पासकोड से ऐक्सेस किया जा सकता है. साथ ही, इन्हें एपीआई से डाउनलोड नहीं किया जा सकता. Files API उन सभी देशों/इलाकों में बिना किसी शुल्क के उपलब्ध है जहां Gemini API उपलब्ध है.

File API ऐसे इनपुट मैनेज करता है जिनका इस्तेमाल model.generateContent या model.streamGenerateContent के साथ कॉन्टेंट जनरेट करने के लिए किया जा सकता है. मान्य फ़ाइल फ़ॉर्मैट (MIME टाइप) और इस्तेमाल किए जा सकने वाले मॉडल की जानकारी के लिए, इस्तेमाल किए जा सकने वाले फ़ाइल फ़ॉर्मैट देखें.

इस गाइड में, File API का इस्तेमाल करके मीडिया फ़ाइलों को अपलोड करने और उन्हें Gemini API को GenerateContent कॉल में शामिल करने का तरीका बताया गया है. ज़्यादा जानकारी के लिए, कोड के सैंपल देखें.

इस्तेमाल किए जा सकने वाले फ़ाइल फ़ॉर्मैट

Gemini के मॉडल में, कई फ़ाइल फ़ॉर्मैट वाले प्रॉम्प्ट काम किए जा सकते हैं. इस सेक्शन में प्रॉम्प्ट, खास तौर पर इमेज, ऑडियो, वीडियो, और सामान्य टेक्स्ट वाली फ़ाइलों के लिए, सामान्य मीडिया फ़ॉर्मैट का इस्तेमाल करते समय ध्यान देने वाली बातों के बारे में बताया गया है. मीडिया फ़ाइलों का इस्तेमाल, सिर्फ़ खास मॉडल वर्शन के लिए प्रॉम्प्ट देने के लिए किया जा सकता है. जैसा कि इस टेबल में दिखाया गया है.

मॉडल इमेज ऑडियो वीडियो सामान्य टेक्स्ट
Gemini 1.5 Pro (रिलीज़ 008 और उसके बाद के वर्शन) ✔ (ज़्यादा से ज़्यादा 3,600 इमेज फ़ाइलें)

इमेज फ़ॉर्मैट

Gemini के 1.5 मॉडल से प्रॉम्प्ट देने के लिए, इमेज के डेटा का इस्तेमाल किया जा सकता है. प्रॉम्प्ट के लिए इमेज का इस्तेमाल करते समय, इन सीमाओं और ज़रूरी शर्तों पर निर्भर करता है:

  • इमेज, इनमें से किसी एक इमेज डेटा MIME टाइप में होनी चाहिए:
    • PNG - इमेज/png
    • JPEG - Image/jpeg
    • WebP - इमेज/webp
    • HEIC - इमेज/हीक
    • एचईआईएफ़ - इमेज/हीफ़
  • Gemini के 1.5 मॉडल के लिए, ज़्यादा से ज़्यादा 3,600 इमेज.
  • किसी इमेज में पिक्सल की संख्या के लिए कोई तय सीमा नहीं होती है. हालांकि, बड़ी इमेज का आसपेक्ट रेशियो (लंबाई-चौड़ाई का अनुपात) बनाए रखते हुए, उन्हें 3072 x 3072 के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट करने के लिए छोटा किया जाता है.

ऑडियो फ़ॉर्मैट

Gemini के 1.5 मॉडल से प्रॉम्प्ट देने के लिए, ऑडियो डेटा का इस्तेमाल किया जा सकता है. प्रॉम्प्ट के लिए ऑडियो का इस्तेमाल करते समय, इन सीमाओं और ज़रूरी शर्तों पर निर्भर करता है:

  • ऑडियो डेटा का इस्तेमाल, इन सामान्य ऑडियो फ़ॉर्मैट MIME टाइप में किया जा सकता है:
    • WAV - ऑडियो/wav
    • एमपी3 - ऑडियो/mp3
    • एआईएफ़एफ़ - ऑडियो/आइफ़
    • AAC - ऑडियो/aac
    • OGG वोर्बिस - ऑडियो/ogg
    • FLAC - ऑडियो/flac
  • एक प्रॉम्प्ट में ज़्यादा से ज़्यादा 9.5 घंटे का ऑडियो डेटा इस्तेमाल किया जा सकता है.
  • ऑडियो फ़ाइलों को 16 केबीपीएस डेटा रिज़ॉल्यूशन तक रीसैंपल किया जाता है. साथ ही, ऑडियो के कई चैनलों को एक चैनल में जोड़ दिया जाता है.
  • एक प्रॉम्प्ट में ऑडियो फ़ाइलों की संख्या के लिए कोई तय सीमा नहीं है. हालांकि, एक प्रॉम्प्ट में सभी ऑडियो फ़ाइलों की कुल लंबाई 9.5 घंटे से ज़्यादा नहीं हो सकती.

वीडियो फ़ॉर्मैट

Gemini के 1.5 मॉडल से प्रॉम्प्ट देने के लिए, वीडियो डेटा का इस्तेमाल किया जा सकता है.

  • वीडियो डेटा का इस्तेमाल, इन सामान्य वीडियो फ़ॉर्मैट MIME टाइप में किया जा सकता है:

    • video/mp4
    • वीडियो/एमपीईजी
    • वीडियो/मूव
    • वीडियो/एवी
    • video/x-flv
    • वीडियो/एमपीजी
    • वीडियो/वेबम
    • वीडियो/WMv
    • वीडियो/3gpp
  • File API सेवा, वीडियो के सैंपल को एक फ़्रेम प्रति सेकंड (एफ़पीएस) पर सेट करती है. बेहतरीन क्वालिटी के अनुमान दिखाने के लिए, इनमें बदलाव किए जा सकते हैं. हर इमेज के रिज़ॉल्यूशन और क्वालिटी पर ध्यान दिए बिना 258 टोकन इस्तेमाल किए जाते हैं.

सादे टेक्स्ट के फ़ॉर्मैट

File API इन MIME टाइप वाली सामान्य टेक्स्ट वाली फ़ाइलें अपलोड करने में मदद करता है:

  • टेक्स्ट/सादा
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • टेक्स्ट/x-टाइपस्क्रिप्ट
  • ऐप्स/x-typescript
  • टेक्स्ट/csv
  • टेक्स्ट/मार्कडाउन
  • टेक्स्ट/x-Python
  • application/x-python-code
  • application/json
  • text/xml
  • ऐप्लिकेशन/आरटीएफ़
  • टेक्स्ट/आरटीएफ़

सामान्य टेक्स्ट वाली जिन फ़ाइलों का MIME टाइप सूची में नहीं है उनके लिए ऊपर दिए गए MIME टाइप में से किसी एक को मैन्युअल तरीके से डालकर देखें.