Gemini API की डेवलपर प्रतियोगिता में शामिल हों! ज़्यादा जानें

इस पेज का अनुवाद Cloud Translation API से किया गया है.

Gemini

Gemini, जनरेटिव एआई मॉडल का एक फ़ैमिली ग्रुप है. इसकी मदद से, डेवलपर कॉन्टेंट जनरेट कर सकते हैं और समस्याओं को हल कर सकते हैं. इन मॉडल को टेक्स्ट और इमेज, दोनों को इनपुट के तौर पर इस्तेमाल करने के लिए डिज़ाइन और ट्रेनिंग दिया गया है. इस गाइड से, मॉडल के हर वैरिएंट के बारे में जानकारी मिलती है. इससे, आपको यह तय करने में मदद मिलती है कि आपके इस्तेमाल के लिए कौनसा वैरिएंट सबसे अच्छा रहेगा.

सुरक्षा और सही इस्तेमाल

जनरेटिव आर्टिफ़िशियल इंटेलिजेंस मॉडल बेहतरीन टूल हैं. हालांकि, ये अपनी सीमाओं के बिना नहीं होते. कई तरह के काम करने की क्षमता और लागू होने की वजह से कभी-कभी ऐसे नतीजे मिल सकते हैं जिनकी उम्मीद नहीं होती है. जैसे, ऐसे आउटपुट जो गलत, पक्षपात वाले या आपत्तिजनक हों. ऐसे आउटपुट से नुकसान के जोखिम को सीमित करने के लिए, पोस्ट-प्रोसेसिंग और सख्त मैन्युअल आकलन ज़रूरी है. सुरक्षित इस्तेमाल के अन्य सुझावों के लिए, सुरक्षा से जुड़ा दिशा-निर्देश देखें.

Gemini API के मॉडल का इस्तेमाल, कई तरह के जनरेटिव एआई और नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) वाले ऐप्लिकेशन के लिए किया जा सकता है. इन फ़ंक्शन का इस्तेमाल सिर्फ़ Gemini API या Google AI Studio के वेब ऐप्लिकेशन से किया जा सकता है. Gemini API का इस्तेमाल, जनरेटिव एआई के इस्तेमाल पर पाबंदी की नीति और Gemini API की सेवा की शर्तों पर भी निर्भर करता है.

मॉडल के वैरिएंट

Gemini API में अलग-अलग मॉडल मौजूद होते हैं. इन्हें इस्तेमाल के खास उदाहरणों के लिए, ऑप्टिमाइज़ किया जाता है. यहां Gemini के उपलब्ध वैरिएंट के बारे में खास जानकारी दी गई है:

मॉडल का वैरिएंट	इनपुट	आउटपुट	इसके लिए ऑप्टिमाइज़ किया गया
Gemini 1.5 Pro (झलक)	ऑडियो, इमेज, और टेक्स्ट	टेक्स्ट	रीज़निंग से जुड़े टास्क, कोड और टेक्स्ट जनरेट करना, टेक्स्ट में बदलाव करना, समस्या हल करना, डेटा निकालना, और जनरेट करना. इसमें इनके अलावा, और भी चीज़ें शामिल हो सकती हैं
Gemini 1.5 Flash (झलक)	ऑडियो, इमेज, और टेक्स्ट	टेक्स्ट	तरह-तरह के टास्क पूरे करने के लिए, तेज़ और शानदार परफ़ॉर्मेंस
Gemini 1.0 Pro	टेक्स्ट	टेक्स्ट	नैचुरल लैंग्वेज से जुड़े टास्क, एक से ज़्यादा बारी-बारी से मैसेज भेजने और कोड चैट करने की सुविधा, और कोड जनरेट करना
Gemini 1.0 Pro Vision	इमेज और टेक्स्ट	टेक्स्ट	विज़ुअल से जुड़े कामों के लिए ऑप्टिमाइज़ की गई परफ़ॉर्मेंस, जैसे कि इमेज के बारे में जानकारी जनरेट करना या इमेज में मौजूद चीज़ों की पहचान करना
टेक्स्ट एम्बेड करना	टेक्स्ट	टेक्स्ट एम्बेड करना	2,048 टोकन तक के टेक्स्ट के लिए, ज़्यादा से ज़्यादा 768 डाइमेंशन के साथ इलास्टिक टेक्स्ट एम्बेड करने की सुविधा जनरेट करें
एम्बेड करने की सुविधा	टेक्स्ट	टेक्स्ट एम्बेड करना	ज़्यादा से ज़्यादा 2,048 टोकन तक के टेक्स्ट के लिए, 768 डाइमेंशन वाले टेक्स्ट एम्बेडिंग जनरेट करें
एक्यूआई	टेक्स्ट	टेक्स्ट	दिए गए टेक्स्ट की मदद से, एट्रिब्यूट किए गए सवाल-जवाब से जुड़े टास्क पूरे करें

नीचे दी गई टेबल में Gemini मॉडल के एट्रिब्यूट के बारे में बताया गया है. ये एट्रिब्यूट, मॉडल के सभी वैरिएंट के लिए आम तौर पर उपलब्ध होते हैं:

एट्रिब्यूट	ब्यौरा
ट्रेनिंग का डेटा	Gemini का नॉलेज कटऑफ़, साल 2023 की शुरुआत का है. उस समय के बाद के इवेंट के बारे में जानकारी सीमित है.
किन भाषाओं में यह सुविधा काम करेगी	उपलब्ध भाषाएं देखना
कॉन्फ़िगर किए जा सकने वाले मॉडल पैरामीटर	टॉप p शीर्ष k तापमान क्रम बंद करें ज़्यादा से ज़्यादा आउटपुट लंबाई जवाब देने वाले उम्मीदवारों की संख्या

इनमें से हर पैरामीटर के बारे में जानकारी के लिए, जनरेटिव मॉडल गाइड का मॉडल पैरामीटर सेक्शन देखें.

Gemini 1.5 Pro (झलक)

Gemini 1.5 Pro एक मिड-साइज़ मल्टीमोडल मॉडल है. इसे तर्क से जुड़े कई तरह के कामों के लिए ऑप्टिमाइज़ किया गया है, जैसे कि:

कोड जनरेशन
टेक्स्ट जनरेट करना
टेक्स्ट में बदलाव की सुविधा
समस्या को हल करना
सुझाव जनरेट करना
जानकारी निकालें
डेटा निकालें या जनरेट करें
एआई एजेंट बनाना

1.5 Pro एक बार में काफ़ी डेटा प्रोसेस कर सकता है. इसमें एक घंटे का वीडियो, 9.5 घंटे का ऑडियो, 30, 000 से ज़्यादा लाइनों वाले कोड बेस या 7,00,000 से ज़्यादा शब्द शामिल हैं.

1.5 Pro से सीखने के शून्य, एक, और कुछ चरण आसानी से पूरे किए जा सकते हैं.

मॉडल का विवरण

प्रॉपर्टी	ब्यौरा
मॉडल कोड	`models/gemini-1.5-pro-latest`
इनपुट	ऑडियो, इमेज, और टेक्स्ट
आउटपुट	टेक्स्ट
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है	`generateContent`
इनपुट टोकन की सीमा^[**]	10,48,576
आउटपुट टोकन की सीमा^[**]	8,192
हर सवाल के लिए ज़्यादा से ज़्यादा इमेज की संख्या	3,600
वीडियो की ज़्यादा से ज़्यादा अवधि	1 घंटा
ऑडियो की ज़्यादा से ज़्यादा लंबाई	करीब 9.5 घंटे
हर सवाल के लिए ज़्यादा से ज़्यादा ऑडियो फ़ाइलों की संख्या	1
मॉडल सुरक्षा	अपने-आप लागू होने वाली सुरक्षा सेटिंग. इन्हें डेवलपर अडजस्ट कर सकते हैं. ज़्यादा जानकारी के लिए, हमारा सुरक्षा सेटिंग के बारे में बताने वाला पेज देखें.
दर की सीमाएं^[*]	मुफ़्त: 2 आरपीएम 32,000 टीपीएम 50 आरपीडी 4,60,80,000 टीपीडी Pay-as-you-go: 360 आरपीएम 1 करोड़ टीपीएम 10,000 आरपीडी 1,44,00,00,000 टीपीडी 20 लाख संदर्भ: 1 आरपीएम 20 लाख टीपीएम 50 आरपीडी
सिस्टम से जुड़े निर्देश	इनकी अनुमति है
JSON मोड	इनकी अनुमति है
सबसे नया वर्शन	`gemini-1.5-pro-latest`
नया स्टेबल वर्शन	`gemini-1.5-pro`
नया अपडेट	अप्रैल 2024

Gemini 1.5 फ़्लैश (झलक)

Gemini 1.5 Flash एक तेज़ और कई तरह की सुविधाओं वाला मल्टीमोडल मॉडल है. इसकी मदद से, कई तरह के कामों को आसानी से किया जा सकता है.

मॉडल का विवरण

प्रॉपर्टी	ब्यौरा
मॉडल कोड	`gemini-1.5-flash`
इनपुट	ऑडियो, इमेज, और टेक्स्ट
आउटपुट	टेक्स्ट
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है	`generateContent`
इनपुट टोकन की सीमा^[**]	10,48,576
आउटपुट टोकन की सीमा^[**]	8,192
हर सवाल के लिए ज़्यादा से ज़्यादा इमेज की संख्या	3,600
वीडियो की ज़्यादा से ज़्यादा अवधि	1 घंटा
ऑडियो की ज़्यादा से ज़्यादा लंबाई	करीब 9.5 घंटे
हर सवाल के लिए ज़्यादा से ज़्यादा ऑडियो फ़ाइलों की संख्या	1
मॉडल सुरक्षा	अपने-आप लागू होने वाली सुरक्षा सेटिंग. इन्हें डेवलपर अडजस्ट कर सकते हैं. ज़्यादा जानकारी के लिए, हमारा सुरक्षा सेटिंग के बारे में बताने वाला पेज देखें.
दर की सीमाएं^[*]	मुफ़्त: 15 आरपीएम 10 लाख टीपीएम 1,500 आरपीडी Pay-as-you-go: 360 आरपीएम 1 करोड़ टीपीएम 10,000 आरपीडी
सिस्टम से जुड़े निर्देश	इनकी अनुमति है
JSON मोड	इनकी अनुमति है
सबसे नया वर्शन	`gemini-1.5-flash-latest`
नया स्टेबल वर्शन	`gemini-1.5-flash`

Gemini 1.0 Pro

Gemini 1.0 Pro एक NLP मॉडल है, जो कई कामों को मैनेज करता है. जैसे, मल्टी-टर्न टेक्स्ट, कोड चैट, और कोड जनरेट करना.

1.0 Pro से सीखने के लिए कोई भी टास्क नहीं किया जा सकता. साथ ही, सिर्फ़ एक बार, और कम समय में ही इस सुविधा का इस्तेमाल किया जा सकता है.

मॉडल का विवरण

प्रॉपर्टी	ब्यौरा
मॉडल कोड	`models/gemini-pro`
इनपुट	टेक्स्ट
आउटपुट	टेक्स्ट
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है	Python: `generate_content` आराम करें: `generateContent`
दर की सीमाएं^[*]	मुफ़्त: 15 आरपीएम 32,000 टीपीएम 1,500 आरपीडी 4,60,80,000 टीपीडी Pay-as-you-go: 360 आरपीएम 1,20,000 टीपीएम 30,000 आरपीडी 1,72,80,000 टीपीडी
सिस्टम से जुड़े निर्देश	ऐसे कैमरा डिवाइस जो Google होम पर काम नहीं करते
JSON मोड	ऐसे कैमरा डिवाइस जो Google होम पर काम नहीं करते
सबसे नया वर्शन	`gemini-1.0-pro-latest`
नया स्टेबल वर्शन	`gemini-1.0-pro`
स्टेबल वर्शन	`gemini-1.0-pro-001`
नया अपडेट	फ़रवरी 2024

ध्यान दें: gemini-pro, gemini-1.0-pro का उपनाम है.

Gemini 1.0 Pro विज़न

Gemini 1.0 Pro Vision, परफ़ॉर्मेंस पर आधारित मल्टीमोडल मॉडल है. इसकी मदद से विज़ुअल से जुड़े काम किए जा सकते हैं. उदाहरण के लिए, 1.0 Pro Vision में इमेज की जानकारी जनरेट की जा सकती है, इमेज में मौजूद चीज़ों की पहचान की जा सकती है, इमेज में मौजूद जगहों या चीज़ों के बारे में जानकारी वगैरह दी जा सकती है.

1.0 Pro Vision में शून्य, एक बार, और कुछ ही टास्क पूरे किए जा सकते हैं.

मॉडल का विवरण

प्रॉपर्टी	ब्यौरा
मॉडल कोड	`models/gemini-pro-vision`
इनपुट	टेक्स्ट और इमेज
आउटपुट	टेक्स्ट
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है	Python: `generate_content` आराम करें: `generateContent`
इनपुट टोकन की सीमा^[*]	12,288
आउटपुट टोकन की सीमा^[*]	4,096
इमेज का ज़्यादा से ज़्यादा साइज़	कोई सीमा नहीं
हर सवाल के लिए ज़्यादा से ज़्यादा इमेज की संख्या	16
वीडियो की ज़्यादा से ज़्यादा अवधि	2 मिनट
हर सवाल के लिए ज़्यादा से ज़्यादा कितने वीडियो अपलोड किए जा सकते हैं	1
मॉडल सुरक्षा	अपने-आप लागू होने वाली सुरक्षा सेटिंग. इन्हें डेवलपर अडजस्ट कर सकते हैं. ज़्यादा जानकारी के लिए, हमारा सुरक्षा सेटिंग के बारे में बताने वाला पेज देखें.
अनुरोधों की तय सीमा^[*]	हर मिनट 60 अनुरोध
सबसे नया वर्शन	`gemini-1.0-pro-vision-latest`
नया स्टेबल वर्शन	`gemini-1.0-pro-vision`
नया अपडेट	दिसंबर 2023

टेक्स्ट एम्बेड और एम्बेड करना

टेक्स्ट एम्बेड करना

टेक्स्ट एम्बेड करने वाले मॉडल का इस्तेमाल करके, इनपुट टेक्स्ट के लिए टेक्स्ट एम्बेडिंग जनरेट की जा सकती है. टेक्स्ट एम्बेडिंग मॉडल के बारे में ज़्यादा जानने के लिए, टेक्स्ट एम्बेड करने के बारे में Vertex AI पर जनरेटिव एआई दस्तावेज़ देखें.

टेक्स्ट एम्बेड करने वाले मॉडल को 768 डाइमेंशन के साथ एम्बेड करने की प्रोसेस के लिए ऑप्टिमाइज़ किया गया है. ऐसा ज़्यादा से ज़्यादा 2,048 टोकन के टेक्स्ट के लिए किया जाता है. टेक्स्ट एम्बेड करने की सुविधा से, 768 से कम साइज़ के इलास्टिक एम्बेड किए जा सकते हैं. इलास्टिक एम्बेडिंग का इस्तेमाल करके, छोटे आउटपुट डाइमेंशन जनरेट किए जा सकते हैं. इससे, परफ़ॉर्मेंस में होने वाले मामूली नुकसान के साथ, कंप्यूटिंग और स्टोरेज के खर्च में बचत की जा सकती है.

मॉडल का विवरण

प्रॉपर्टी	ब्यौरा
मॉडल कोड	`models/text-embedding-004` (Vertex AI में `text-embedding-preview-0409`)
इनपुट	टेक्स्ट
आउटपुट	टेक्स्ट एम्बेड करना
इनपुट टोकन की सीमा	2,048
आउटपुट डाइमेंशन का साइज़	768
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है	Python: `embed_content` आराम करें: `embedContent`
मॉडल सुरक्षा	सुरक्षा से जुड़ी किसी भी सेटिंग में बदलाव नहीं किया जा सकता.
अनुरोधों की तय सीमा^[*]	हर मिनट 1,500 अनुरोध
नया अपडेट	अप्रैल 2024

एम्बेडिंग

एम्बेडिंग मॉडल का इस्तेमाल करके, इनपुट टेक्स्ट के लिए टेक्स्ट एम्बेडिंग जनरेट की जा सकती है.

एम्बेडिंग मॉडल को 768 डाइमेंशन के साथ एम्बेड करने के लिए ऑप्टिमाइज़ किया गया है. ऐसा ज़्यादा से ज़्यादा 2,048 टोकन के टेक्स्ट के लिए किया गया है.

एम्बेड करने वाले मॉडल की जानकारी

प्रॉपर्टी	ब्यौरा
मॉडल कोड	`models/embedding-001`
इनपुट	टेक्स्ट
आउटपुट	टेक्स्ट एम्बेड करना
इनपुट टोकन की सीमा	2,048
आउटपुट डाइमेंशन का साइज़	768
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है	Python: `embed_content` आराम करें: `embedContent`
मॉडल सुरक्षा	सुरक्षा से जुड़ी किसी भी सेटिंग में बदलाव नहीं किया जा सकता.
अनुरोधों की तय सीमा^[*]	हर मिनट 1,500 अनुरोध
नया अपडेट	दिसंबर 2023

एक्यूआई

किसी दस्तावेज़, कॉर्पस या पैसेज के सेट पर, एट्रिब्यूट किए गए सवाल के जवाब (AQA) से जुड़े टास्क करने के लिए, AQA मॉडल का इस्तेमाल किया जा सकता है. AQA मॉडल, दिए गए सोर्स पर आधारित सवालों के जवाब देता है. साथ ही, जवाब देने की संभावना का अनुमान भी लगाता है.

मॉडल का विवरण

प्रॉपर्टी	ब्यौरा
मॉडल कोड	`models/aqa`
इनपुट	टेक्स्ट
आउटपुट	टेक्स्ट
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है	Python: `GenerateAnswerRequest` आराम करें: `generateAnswer`
किन भाषाओं में यह सुविधा काम करेगी	अंग्रेज़ी
इनपुट टोकन की सीमा^[**]	7,168
आउटपुट टोकन की सीमा^[**]	1,024
मॉडल सुरक्षा	अपने-आप लागू होने वाली सुरक्षा सेटिंग. इन्हें डेवलपर अडजस्ट कर सकते हैं. ज़्यादा जानकारी के लिए, हमारा सुरक्षा सेटिंग के बारे में बताने वाला पेज देखें.
अनुरोधों की तय सीमा^[*]	हर मिनट 60 अनुरोध
नया अपडेट	दिसंबर 2023

इन मॉडल के अलग-अलग वैरिएंट की क्षमताओं के बारे में जानने के लिए, उदाहरण देखें.

[*] Gemini मॉडल के लिए टोकन करीब चार वर्णों के बराबर होता है. 100 टोकन में, अंग्रेज़ी के करीब 60 से 80 शब्द होते हैं.

[**] आरपीएम: हर मिनट के लिए अनुरोध
टीपीएम: टोकन प्रति मिनट
आरपीडी: हर दिन मिलने वाले अनुरोध
टीपीडी: हर दिन टोकन

क्षमता की सीमाओं की वजह से, तय की गई ज़्यादा से ज़्यादा दर की सीमाओं की गारंटी नहीं है.

मॉडल के वर्शन के नाम के पैटर्न

Gemini के मॉडल झलक या स्टेबल वर्शन में उपलब्ध हैं. अपने कोड में, यह तय करने के लिए कि आपको कौनसा मॉडल और वर्शन इस्तेमाल करना है, यहां दिए गए मॉडल के नाम वाले फ़ॉर्मैट में से किसी एक का इस्तेमाल करें.

सबसे नया: किसी खास जनरेशन और वैरिएशन के लिए मॉडल के सबसे नए वर्शन की जानकारी देता है. मौजूदा मॉडल को समय-समय पर अपडेट किया जाता है और यह झलक दिखाने वाला वर्शन हो सकता है. सिर्फ़ एक्सप्लोरेट्री टेस्टिंग ऐप्लिकेशन और प्रोटोटाइप को इस उपनाम का इस्तेमाल करना चाहिए.

सबसे नए वर्शन की जानकारी देने के लिए, नीचे दिए गए पैटर्न का इस्तेमाल करें: <model>-<generation>-<variation>-latest. उदाहरण के लिए, gemini-1.0-pro-latest.
नया स्टेबल वर्शन: इससे, खास मॉडल जनरेशन और वैरिएशन के लिए रिलीज़ किए गए हाल ही के स्टेबल वर्शन के बारे में जानकारी मिलती है.

नए स्टेबल वर्शन की जानकारी देने के लिए, नीचे दिए गए पैटर्न का इस्तेमाल करें: <model>-<generation>-<variation>. उदाहरण के लिए, gemini-1.0-pro.
स्टेबल: किसी खास स्टेबल मॉडल की जानकारी देता है. स्टेबल मॉडल में बदलाव नहीं होता. ज़्यादातर प्रोडक्शन ऐप्लिकेशन को खास स्टेबल मॉडल का इस्तेमाल करना चाहिए.

स्टेबल वर्शन के बारे में बताने के लिए, नीचे दिए गए पैटर्न का इस्तेमाल करें: <model>-<generation>-<variation>-<version>. उदाहरण के लिए, gemini-1.0-pro-001.