Gemini

Gemini, जनरेटिव एआई मॉडल का एक फ़ैमिली ग्रुप है. इसकी मदद से, डेवलपर कॉन्टेंट जनरेट कर सकते हैं और समस्याओं को हल कर सकते हैं. इन मॉडल को टेक्स्ट और इमेज, दोनों को इनपुट के तौर पर इस्तेमाल करने के लिए डिज़ाइन और ट्रेनिंग दिया गया है. इस गाइड से, मॉडल के हर वैरिएंट के बारे में जानकारी मिलती है. इससे, आपको यह तय करने में मदद मिलती है कि आपके इस्तेमाल के लिए कौनसा वैरिएंट सबसे अच्छा रहेगा.

सुरक्षा और सही इस्तेमाल

जनरेटिव आर्टिफ़िशियल इंटेलिजेंस मॉडल बेहतरीन टूल हैं. हालांकि, ये अपनी सीमाओं के बिना नहीं होते. कई तरह के काम करने की क्षमता और लागू होने की वजह से कभी-कभी ऐसे नतीजे मिल सकते हैं जिनकी उम्मीद नहीं होती है. जैसे, ऐसे आउटपुट जो गलत, पक्षपात वाले या आपत्तिजनक हों. ऐसे आउटपुट से नुकसान के जोखिम को सीमित करने के लिए, पोस्ट-प्रोसेसिंग और सख्त मैन्युअल आकलन ज़रूरी है. सुरक्षित इस्तेमाल के अन्य सुझावों के लिए, सुरक्षा से जुड़ा दिशा-निर्देश देखें.

Gemini API के मॉडल का इस्तेमाल, कई तरह के जनरेटिव एआई और नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) वाले ऐप्लिकेशन के लिए किया जा सकता है. इन फ़ंक्शन का इस्तेमाल सिर्फ़ Gemini API या Google AI Studio के वेब ऐप्लिकेशन से किया जा सकता है. Gemini API का इस्तेमाल, जनरेटिव एआई के इस्तेमाल पर पाबंदी की नीति और Gemini API की सेवा की शर्तों पर भी निर्भर करता है.

मॉडल के वैरिएंट

Gemini API में अलग-अलग मॉडल मौजूद होते हैं. इन्हें इस्तेमाल के खास उदाहरणों के लिए, ऑप्टिमाइज़ किया जाता है. यहां Gemini के उपलब्ध वैरिएंट के बारे में खास जानकारी दी गई है:

मॉडल का वैरिएंट इनपुट आउटपुट इसके लिए ऑप्टिमाइज़ किया गया
Gemini 1.5 Pro (झलक) ऑडियो, इमेज, और टेक्स्ट टेक्स्ट रीज़निंग से जुड़े टास्क, कोड और टेक्स्ट जनरेट करना, टेक्स्ट में बदलाव करना, समस्या हल करना, डेटा निकालना, और जनरेट करना. इसमें इनके अलावा, और भी चीज़ें शामिल हो सकती हैं
Gemini 1.5 Flash (झलक) ऑडियो, इमेज, और टेक्स्ट टेक्स्ट तरह-तरह के टास्क पूरे करने के लिए, तेज़ और शानदार परफ़ॉर्मेंस
Gemini 1.0 Pro टेक्स्ट टेक्स्ट नैचुरल लैंग्वेज से जुड़े टास्क, एक से ज़्यादा बारी-बारी से मैसेज भेजने और कोड चैट करने की सुविधा, और कोड जनरेट करना
Gemini 1.0 Pro Vision इमेज और टेक्स्ट टेक्स्ट विज़ुअल से जुड़े कामों के लिए ऑप्टिमाइज़ की गई परफ़ॉर्मेंस, जैसे कि इमेज के बारे में जानकारी जनरेट करना या इमेज में मौजूद चीज़ों की पहचान करना
टेक्स्ट एम्बेड करना टेक्स्ट टेक्स्ट एम्बेड करना 2,048 टोकन तक के टेक्स्ट के लिए, ज़्यादा से ज़्यादा 768 डाइमेंशन के साथ इलास्टिक टेक्स्ट एम्बेड करने की सुविधा जनरेट करें
एम्बेड करने की सुविधा टेक्स्ट टेक्स्ट एम्बेड करना ज़्यादा से ज़्यादा 2,048 टोकन तक के टेक्स्ट के लिए, 768 डाइमेंशन वाले टेक्स्ट एम्बेडिंग जनरेट करें
एक्यूआई टेक्स्ट टेक्स्ट दिए गए टेक्स्ट की मदद से, एट्रिब्यूट किए गए सवाल-जवाब से जुड़े टास्क पूरे करें

नीचे दी गई टेबल में Gemini मॉडल के एट्रिब्यूट के बारे में बताया गया है. ये एट्रिब्यूट, मॉडल के सभी वैरिएंट के लिए आम तौर पर उपलब्ध होते हैं:

एट्रिब्यूट ब्यौरा
ट्रेनिंग का डेटा Gemini का नॉलेज कटऑफ़, साल 2023 की शुरुआत का है. उस समय के बाद के इवेंट के बारे में जानकारी सीमित है.
किन भाषाओं में यह सुविधा काम करेगी उपलब्ध भाषाएं देखना
कॉन्फ़िगर किए जा सकने वाले मॉडल पैरामीटर
  • टॉप p
  • शीर्ष k
  • तापमान
  • क्रम बंद करें
  • ज़्यादा से ज़्यादा आउटपुट लंबाई
  • जवाब देने वाले उम्मीदवारों की संख्या

इनमें से हर पैरामीटर के बारे में जानकारी के लिए, जनरेटिव मॉडल गाइड का मॉडल पैरामीटर सेक्शन देखें.

Gemini 1.5 Pro (झलक)

Gemini 1.5 Pro एक मिड-साइज़ मल्टीमोडल मॉडल है. इसे तर्क से जुड़े कई तरह के कामों के लिए ऑप्टिमाइज़ किया गया है, जैसे कि:

  • कोड जनरेशन
  • टेक्स्ट जनरेट करना
  • टेक्स्ट में बदलाव की सुविधा
  • समस्या को हल करना
  • सुझाव जनरेट करना
  • जानकारी निकालें
  • डेटा निकालें या जनरेट करें
  • एआई एजेंट बनाना

1.5 Pro एक बार में काफ़ी डेटा प्रोसेस कर सकता है. इसमें एक घंटे का वीडियो, 9.5 घंटे का ऑडियो, 30, 000 से ज़्यादा लाइनों वाले कोड बेस या 7,00,000 से ज़्यादा शब्द शामिल हैं.

1.5 Pro से सीखने के शून्य, एक, और कुछ चरण आसानी से पूरे किए जा सकते हैं.

मॉडल का विवरण

प्रॉपर्टी ब्यौरा
मॉडल कोड models/gemini-1.5-pro-latest
इनपुट ऑडियो, इमेज, और टेक्स्ट
आउटपुट टेक्स्ट
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है generateContent
इनपुट टोकन की सीमा[**] 10,48,576
आउटपुट टोकन की सीमा[**] 8,192
हर सवाल के लिए ज़्यादा से ज़्यादा इमेज की संख्या 3,600
वीडियो की ज़्यादा से ज़्यादा अवधि 1 घंटा
ऑडियो की ज़्यादा से ज़्यादा लंबाई करीब 9.5 घंटे
हर सवाल के लिए ज़्यादा से ज़्यादा ऑडियो फ़ाइलों की संख्या 1
मॉडल सुरक्षा अपने-आप लागू होने वाली सुरक्षा सेटिंग. इन्हें डेवलपर अडजस्ट कर सकते हैं. ज़्यादा जानकारी के लिए, हमारा सुरक्षा सेटिंग के बारे में बताने वाला पेज देखें.
दर की सीमाएं[*]
मुफ़्त:
  • 2 आरपीएम
  • 32,000 टीपीएम
  • 50 आरपीडी
  • 4,60,80,000 टीपीडी
Pay-as-you-go:
  • 360 आरपीएम
  • 1 करोड़ टीपीएम
  • 10,000 आरपीडी
  • 1,44,00,00,000 टीपीडी
20 लाख संदर्भ:
  • 1 आरपीएम
  • 20 लाख टीपीएम
  • 50 आरपीडी
सिस्टम से जुड़े निर्देश इनकी अनुमति है
JSON मोड इनकी अनुमति है
सबसे नया वर्शन gemini-1.5-pro-latest
नया स्टेबल वर्शन gemini-1.5-pro
नया अपडेट अप्रैल 2024

Gemini 1.5 फ़्लैश (झलक)

Gemini 1.5 Flash एक तेज़ और कई तरह की सुविधाओं वाला मल्टीमोडल मॉडल है. इसकी मदद से, कई तरह के कामों को आसानी से किया जा सकता है.

मॉडल का विवरण

प्रॉपर्टी ब्यौरा
मॉडल कोड gemini-1.5-flash
इनपुट ऑडियो, इमेज, और टेक्स्ट
आउटपुट टेक्स्ट
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है generateContent
इनपुट टोकन की सीमा[**] 10,48,576
आउटपुट टोकन की सीमा[**] 8,192
हर सवाल के लिए ज़्यादा से ज़्यादा इमेज की संख्या 3,600
वीडियो की ज़्यादा से ज़्यादा अवधि 1 घंटा
ऑडियो की ज़्यादा से ज़्यादा लंबाई करीब 9.5 घंटे
हर सवाल के लिए ज़्यादा से ज़्यादा ऑडियो फ़ाइलों की संख्या 1
मॉडल सुरक्षा अपने-आप लागू होने वाली सुरक्षा सेटिंग. इन्हें डेवलपर अडजस्ट कर सकते हैं. ज़्यादा जानकारी के लिए, हमारा सुरक्षा सेटिंग के बारे में बताने वाला पेज देखें.
दर की सीमाएं[*]
मुफ़्त:
  • 15 आरपीएम
  • 10 लाख टीपीएम
  • 1,500 आरपीडी
Pay-as-you-go:
  • 360 आरपीएम
  • 1 करोड़ टीपीएम
  • 10,000 आरपीडी
सिस्टम से जुड़े निर्देश इनकी अनुमति है
JSON मोड इनकी अनुमति है
सबसे नया वर्शन gemini-1.5-flash-latest
नया स्टेबल वर्शन gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro एक NLP मॉडल है, जो कई कामों को मैनेज करता है. जैसे, मल्टी-टर्न टेक्स्ट, कोड चैट, और कोड जनरेट करना.

1.0 Pro से सीखने के लिए कोई भी टास्क नहीं किया जा सकता. साथ ही, सिर्फ़ एक बार, और कम समय में ही इस सुविधा का इस्तेमाल किया जा सकता है.

मॉडल का विवरण

प्रॉपर्टी ब्यौरा
मॉडल कोड models/gemini-pro
इनपुट टेक्स्ट
आउटपुट टेक्स्ट
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है
Python: generate_content
आराम करें: generateContent
दर की सीमाएं[*]
मुफ़्त:
  • 15 आरपीएम
  • 32,000 टीपीएम
  • 1,500 आरपीडी
  • 4,60,80,000 टीपीडी
Pay-as-you-go:
  • 360 आरपीएम
  • 1,20,000 टीपीएम
  • 30,000 आरपीडी
  • 1,72,80,000 टीपीडी
सिस्टम से जुड़े निर्देश ऐसे कैमरा डिवाइस जो Google होम पर काम नहीं करते
JSON मोड ऐसे कैमरा डिवाइस जो Google होम पर काम नहीं करते
सबसे नया वर्शन gemini-1.0-pro-latest
नया स्टेबल वर्शन gemini-1.0-pro
स्टेबल वर्शन gemini-1.0-pro-001
नया अपडेट फ़रवरी 2024

Gemini 1.0 Pro विज़न

Gemini 1.0 Pro Vision, परफ़ॉर्मेंस पर आधारित मल्टीमोडल मॉडल है. इसकी मदद से विज़ुअल से जुड़े काम किए जा सकते हैं. उदाहरण के लिए, 1.0 Pro Vision में इमेज की जानकारी जनरेट की जा सकती है, इमेज में मौजूद चीज़ों की पहचान की जा सकती है, इमेज में मौजूद जगहों या चीज़ों के बारे में जानकारी वगैरह दी जा सकती है.

1.0 Pro Vision में शून्य, एक बार, और कुछ ही टास्क पूरे किए जा सकते हैं.

मॉडल का विवरण

प्रॉपर्टी ब्यौरा
मॉडल कोड models/gemini-pro-vision
इनपुट टेक्स्ट और इमेज
आउटपुट टेक्स्ट
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है
Python: generate_content
आराम करें: generateContent
इनपुट टोकन की सीमा[*] 12,288
आउटपुट टोकन की सीमा[*] 4,096
इमेज का ज़्यादा से ज़्यादा साइज़ कोई सीमा नहीं
हर सवाल के लिए ज़्यादा से ज़्यादा इमेज की संख्या 16
वीडियो की ज़्यादा से ज़्यादा अवधि 2 मिनट
हर सवाल के लिए ज़्यादा से ज़्यादा कितने वीडियो अपलोड किए जा सकते हैं 1
मॉडल सुरक्षा अपने-आप लागू होने वाली सुरक्षा सेटिंग. इन्हें डेवलपर अडजस्ट कर सकते हैं. ज़्यादा जानकारी के लिए, हमारा सुरक्षा सेटिंग के बारे में बताने वाला पेज देखें.
अनुरोधों की तय सीमा[*] हर मिनट 60 अनुरोध
सबसे नया वर्शन gemini-1.0-pro-vision-latest
नया स्टेबल वर्शन gemini-1.0-pro-vision
नया अपडेट दिसंबर 2023

टेक्स्ट एम्बेड और एम्बेड करना

टेक्स्ट एम्बेड करना

टेक्स्ट एम्बेड करने वाले मॉडल का इस्तेमाल करके, इनपुट टेक्स्ट के लिए टेक्स्ट एम्बेडिंग जनरेट की जा सकती है. टेक्स्ट एम्बेडिंग मॉडल के बारे में ज़्यादा जानने के लिए, टेक्स्ट एम्बेड करने के बारे में Vertex AI पर जनरेटिव एआई दस्तावेज़ देखें.

टेक्स्ट एम्बेड करने वाले मॉडल को 768 डाइमेंशन के साथ एम्बेड करने की प्रोसेस के लिए ऑप्टिमाइज़ किया गया है. ऐसा ज़्यादा से ज़्यादा 2,048 टोकन के टेक्स्ट के लिए किया जाता है. टेक्स्ट एम्बेड करने की सुविधा से, 768 से कम साइज़ के इलास्टिक एम्बेड किए जा सकते हैं. इलास्टिक एम्बेडिंग का इस्तेमाल करके, छोटे आउटपुट डाइमेंशन जनरेट किए जा सकते हैं. इससे, परफ़ॉर्मेंस में होने वाले मामूली नुकसान के साथ, कंप्यूटिंग और स्टोरेज के खर्च में बचत की जा सकती है.

मॉडल का विवरण
प्रॉपर्टी ब्यौरा
मॉडल कोड models/text-embedding-004 (Vertex AI में text-embedding-preview-0409)
इनपुट टेक्स्ट
आउटपुट टेक्स्ट एम्बेड करना
इनपुट टोकन की सीमा 2,048
आउटपुट डाइमेंशन का साइज़ 768
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है
Python: embed_content
आराम करें: embedContent
मॉडल सुरक्षा सुरक्षा से जुड़ी किसी भी सेटिंग में बदलाव नहीं किया जा सकता.
अनुरोधों की तय सीमा[*] हर मिनट 1,500 अनुरोध
नया अपडेट अप्रैल 2024

एम्बेडिंग

एम्बेडिंग मॉडल का इस्तेमाल करके, इनपुट टेक्स्ट के लिए टेक्स्ट एम्बेडिंग जनरेट की जा सकती है.

एम्बेडिंग मॉडल को 768 डाइमेंशन के साथ एम्बेड करने के लिए ऑप्टिमाइज़ किया गया है. ऐसा ज़्यादा से ज़्यादा 2,048 टोकन के टेक्स्ट के लिए किया गया है.

एम्बेड करने वाले मॉडल की जानकारी
प्रॉपर्टी ब्यौरा
मॉडल कोड models/embedding-001
इनपुट टेक्स्ट
आउटपुट टेक्स्ट एम्बेड करना
इनपुट टोकन की सीमा 2,048
आउटपुट डाइमेंशन का साइज़ 768
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है
Python: embed_content
आराम करें: embedContent
मॉडल सुरक्षा सुरक्षा से जुड़ी किसी भी सेटिंग में बदलाव नहीं किया जा सकता.
अनुरोधों की तय सीमा[*] हर मिनट 1,500 अनुरोध
नया अपडेट दिसंबर 2023

एक्यूआई

किसी दस्तावेज़, कॉर्पस या पैसेज के सेट पर, एट्रिब्यूट किए गए सवाल के जवाब (AQA) से जुड़े टास्क करने के लिए, AQA मॉडल का इस्तेमाल किया जा सकता है. AQA मॉडल, दिए गए सोर्स पर आधारित सवालों के जवाब देता है. साथ ही, जवाब देने की संभावना का अनुमान भी लगाता है.

मॉडल का विवरण

प्रॉपर्टी ब्यौरा
मॉडल कोड models/aqa
इनपुट टेक्स्ट
आउटपुट टेक्स्ट
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है
Python: GenerateAnswerRequest
आराम करें: generateAnswer
किन भाषाओं में यह सुविधा काम करेगी अंग्रेज़ी
इनपुट टोकन की सीमा[**] 7,168
आउटपुट टोकन की सीमा[**] 1,024
मॉडल सुरक्षा अपने-आप लागू होने वाली सुरक्षा सेटिंग. इन्हें डेवलपर अडजस्ट कर सकते हैं. ज़्यादा जानकारी के लिए, हमारा सुरक्षा सेटिंग के बारे में बताने वाला पेज देखें.
अनुरोधों की तय सीमा[*] हर मिनट 60 अनुरोध
नया अपडेट दिसंबर 2023

इन मॉडल के अलग-अलग वैरिएंट की क्षमताओं के बारे में जानने के लिए, उदाहरण देखें.

[*] Gemini मॉडल के लिए टोकन करीब चार वर्णों के बराबर होता है. 100 टोकन में, अंग्रेज़ी के करीब 60 से 80 शब्द होते हैं.

[**] आरपीएम: हर मिनट के लिए अनुरोध
टीपीएम: टोकन प्रति मिनट
आरपीडी: हर दिन मिलने वाले अनुरोध
टीपीडी: हर दिन टोकन

क्षमता की सीमाओं की वजह से, तय की गई ज़्यादा से ज़्यादा दर की सीमाओं की गारंटी नहीं है.

मॉडल के वर्शन के नाम के पैटर्न

Gemini के मॉडल झलक या स्टेबल वर्शन में उपलब्ध हैं. अपने कोड में, यह तय करने के लिए कि आपको कौनसा मॉडल और वर्शन इस्तेमाल करना है, यहां दिए गए मॉडल के नाम वाले फ़ॉर्मैट में से किसी एक का इस्तेमाल करें.

  • सबसे नया: किसी खास जनरेशन और वैरिएशन के लिए मॉडल के सबसे नए वर्शन की जानकारी देता है. मौजूदा मॉडल को समय-समय पर अपडेट किया जाता है और यह झलक दिखाने वाला वर्शन हो सकता है. सिर्फ़ एक्सप्लोरेट्री टेस्टिंग ऐप्लिकेशन और प्रोटोटाइप को इस उपनाम का इस्तेमाल करना चाहिए.

    सबसे नए वर्शन की जानकारी देने के लिए, नीचे दिए गए पैटर्न का इस्तेमाल करें: <model>-<generation>-<variation>-latest. उदाहरण के लिए, gemini-1.0-pro-latest.

  • नया स्टेबल वर्शन: इससे, खास मॉडल जनरेशन और वैरिएशन के लिए रिलीज़ किए गए हाल ही के स्टेबल वर्शन के बारे में जानकारी मिलती है.

    नए स्टेबल वर्शन की जानकारी देने के लिए, नीचे दिए गए पैटर्न का इस्तेमाल करें: <model>-<generation>-<variation>. उदाहरण के लिए, gemini-1.0-pro.

  • स्टेबल: किसी खास स्टेबल मॉडल की जानकारी देता है. स्टेबल मॉडल में बदलाव नहीं होता. ज़्यादातर प्रोडक्शन ऐप्लिकेशन को खास स्टेबल मॉडल का इस्तेमाल करना चाहिए.

    स्टेबल वर्शन के बारे में बताने के लिए, नीचे दिए गए पैटर्न का इस्तेमाल करें: <model>-<generation>-<variation>-<version>. उदाहरण के लिए, gemini-1.0-pro-001.