Gemini, जनरेटिव एआई मॉडल का एक फ़ैमिली ग्रुप है. इसकी मदद से, डेवलपर कॉन्टेंट जनरेट कर सकते हैं और समस्याओं को हल कर सकते हैं. इन मॉडल को टेक्स्ट और इमेज, दोनों को इनपुट के तौर पर इस्तेमाल करने के लिए डिज़ाइन और ट्रेनिंग दिया गया है. इस गाइड से, मॉडल के हर वैरिएंट के बारे में जानकारी मिलती है. इससे, आपको यह तय करने में मदद मिलती है कि आपके इस्तेमाल के लिए कौनसा वैरिएंट सबसे अच्छा रहेगा.
सुरक्षा और सही इस्तेमाल
जनरेटिव आर्टिफ़िशियल इंटेलिजेंस मॉडल बेहतरीन टूल हैं. हालांकि, ये अपनी सीमाओं के बिना नहीं होते. कई तरह के काम करने की क्षमता और लागू होने की वजह से कभी-कभी ऐसे नतीजे मिल सकते हैं जिनकी उम्मीद नहीं होती है. जैसे, ऐसे आउटपुट जो गलत, पक्षपात वाले या आपत्तिजनक हों. ऐसे आउटपुट से नुकसान के जोखिम को सीमित करने के लिए, पोस्ट-प्रोसेसिंग और सख्त मैन्युअल आकलन ज़रूरी है. सुरक्षित इस्तेमाल के अन्य सुझावों के लिए, सुरक्षा से जुड़ा दिशा-निर्देश देखें.
Gemini API के मॉडल का इस्तेमाल, कई तरह के जनरेटिव एआई और नैचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) वाले ऐप्लिकेशन के लिए किया जा सकता है. इन फ़ंक्शन का इस्तेमाल सिर्फ़ Gemini API या Google AI Studio के वेब ऐप्लिकेशन से किया जा सकता है. Gemini API का इस्तेमाल, जनरेटिव एआई के इस्तेमाल पर पाबंदी की नीति और Gemini API की सेवा की शर्तों पर भी निर्भर करता है.
मॉडल के वैरिएंट
Gemini API में अलग-अलग मॉडल मौजूद होते हैं. इन्हें इस्तेमाल के खास उदाहरणों के लिए, ऑप्टिमाइज़ किया जाता है. यहां Gemini के उपलब्ध वैरिएंट के बारे में खास जानकारी दी गई है:
मॉडल का वैरिएंट | इनपुट | आउटपुट | इसके लिए ऑप्टिमाइज़ किया गया |
---|---|---|---|
Gemini 1.5 Pro (झलक) | ऑडियो, इमेज, और टेक्स्ट | टेक्स्ट | रीज़निंग से जुड़े टास्क, कोड और टेक्स्ट जनरेट करना, टेक्स्ट में बदलाव करना, समस्या हल करना, डेटा निकालना, और जनरेट करना. इसमें इनके अलावा, और भी चीज़ें शामिल हो सकती हैं |
Gemini 1.5 Flash (झलक) | ऑडियो, इमेज, और टेक्स्ट | टेक्स्ट | तरह-तरह के टास्क पूरे करने के लिए, तेज़ और शानदार परफ़ॉर्मेंस |
Gemini 1.0 Pro | टेक्स्ट | टेक्स्ट | नैचुरल लैंग्वेज से जुड़े टास्क, एक से ज़्यादा बारी-बारी से मैसेज भेजने और कोड चैट करने की सुविधा, और कोड जनरेट करना |
Gemini 1.0 Pro Vision | इमेज और टेक्स्ट | टेक्स्ट | विज़ुअल से जुड़े कामों के लिए ऑप्टिमाइज़ की गई परफ़ॉर्मेंस, जैसे कि इमेज के बारे में जानकारी जनरेट करना या इमेज में मौजूद चीज़ों की पहचान करना |
टेक्स्ट एम्बेड करना | टेक्स्ट | टेक्स्ट एम्बेड करना | 2,048 टोकन तक के टेक्स्ट के लिए, ज़्यादा से ज़्यादा 768 डाइमेंशन के साथ इलास्टिक टेक्स्ट एम्बेड करने की सुविधा जनरेट करें |
एम्बेड करने की सुविधा | टेक्स्ट | टेक्स्ट एम्बेड करना | ज़्यादा से ज़्यादा 2,048 टोकन तक के टेक्स्ट के लिए, 768 डाइमेंशन वाले टेक्स्ट एम्बेडिंग जनरेट करें |
एक्यूआई | टेक्स्ट | टेक्स्ट | दिए गए टेक्स्ट की मदद से, एट्रिब्यूट किए गए सवाल-जवाब से जुड़े टास्क पूरे करें |
नीचे दी गई टेबल में Gemini मॉडल के एट्रिब्यूट के बारे में बताया गया है. ये एट्रिब्यूट, मॉडल के सभी वैरिएंट के लिए आम तौर पर उपलब्ध होते हैं:
एट्रिब्यूट | ब्यौरा |
---|---|
ट्रेनिंग का डेटा | Gemini का नॉलेज कटऑफ़, साल 2023 की शुरुआत का है. उस समय के बाद के इवेंट के बारे में जानकारी सीमित है. |
किन भाषाओं में यह सुविधा काम करेगी | उपलब्ध भाषाएं देखना |
कॉन्फ़िगर किए जा सकने वाले मॉडल पैरामीटर |
|
इनमें से हर पैरामीटर के बारे में जानकारी के लिए, जनरेटिव मॉडल गाइड का मॉडल पैरामीटर सेक्शन देखें.
Gemini 1.5 Pro (झलक)
Gemini 1.5 Pro एक मिड-साइज़ मल्टीमोडल मॉडल है. इसे तर्क से जुड़े कई तरह के कामों के लिए ऑप्टिमाइज़ किया गया है, जैसे कि:
- कोड जनरेशन
- टेक्स्ट जनरेट करना
- टेक्स्ट में बदलाव की सुविधा
- समस्या को हल करना
- सुझाव जनरेट करना
- जानकारी निकालें
- डेटा निकालें या जनरेट करें
- एआई एजेंट बनाना
1.5 Pro एक बार में काफ़ी डेटा प्रोसेस कर सकता है. इसमें एक घंटे का वीडियो, 9.5 घंटे का ऑडियो, 30, 000 से ज़्यादा लाइनों वाले कोड बेस या 7,00,000 से ज़्यादा शब्द शामिल हैं.
1.5 Pro से सीखने के शून्य, एक, और कुछ चरण आसानी से पूरे किए जा सकते हैं.
मॉडल का विवरण
प्रॉपर्टी | ब्यौरा |
---|---|
मॉडल कोड | models/gemini-1.5-pro-latest |
इनपुट | ऑडियो, इमेज, और टेक्स्ट |
आउटपुट | टेक्स्ट |
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है |
generateContent
|
इनपुट टोकन की सीमा[**] | 10,48,576 |
आउटपुट टोकन की सीमा[**] | 8,192 |
हर सवाल के लिए ज़्यादा से ज़्यादा इमेज की संख्या | 3,600 |
वीडियो की ज़्यादा से ज़्यादा अवधि | 1 घंटा |
ऑडियो की ज़्यादा से ज़्यादा लंबाई | करीब 9.5 घंटे |
हर सवाल के लिए ज़्यादा से ज़्यादा ऑडियो फ़ाइलों की संख्या | 1 |
मॉडल सुरक्षा | अपने-आप लागू होने वाली सुरक्षा सेटिंग. इन्हें डेवलपर अडजस्ट कर सकते हैं. ज़्यादा जानकारी के लिए, हमारा सुरक्षा सेटिंग के बारे में बताने वाला पेज देखें. |
दर की सीमाएं[*] |
|
सिस्टम से जुड़े निर्देश | इनकी अनुमति है |
JSON मोड | इनकी अनुमति है |
सबसे नया वर्शन | gemini-1.5-pro-latest |
नया स्टेबल वर्शन | gemini-1.5-pro |
नया अपडेट | अप्रैल 2024 |
Gemini 1.5 फ़्लैश (झलक)
Gemini 1.5 Flash एक तेज़ और कई तरह की सुविधाओं वाला मल्टीमोडल मॉडल है. इसकी मदद से, कई तरह के कामों को आसानी से किया जा सकता है.
मॉडल का विवरण
प्रॉपर्टी | ब्यौरा |
---|---|
मॉडल कोड | gemini-1.5-flash |
इनपुट | ऑडियो, इमेज, और टेक्स्ट |
आउटपुट | टेक्स्ट |
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है |
generateContent
|
इनपुट टोकन की सीमा[**] | 10,48,576 |
आउटपुट टोकन की सीमा[**] | 8,192 |
हर सवाल के लिए ज़्यादा से ज़्यादा इमेज की संख्या | 3,600 |
वीडियो की ज़्यादा से ज़्यादा अवधि | 1 घंटा |
ऑडियो की ज़्यादा से ज़्यादा लंबाई | करीब 9.5 घंटे |
हर सवाल के लिए ज़्यादा से ज़्यादा ऑडियो फ़ाइलों की संख्या | 1 |
मॉडल सुरक्षा | अपने-आप लागू होने वाली सुरक्षा सेटिंग. इन्हें डेवलपर अडजस्ट कर सकते हैं. ज़्यादा जानकारी के लिए, हमारा सुरक्षा सेटिंग के बारे में बताने वाला पेज देखें. |
दर की सीमाएं[*] |
|
सिस्टम से जुड़े निर्देश | इनकी अनुमति है |
JSON मोड | इनकी अनुमति है |
सबसे नया वर्शन | gemini-1.5-flash-latest |
नया स्टेबल वर्शन | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro एक NLP मॉडल है, जो कई कामों को मैनेज करता है. जैसे, मल्टी-टर्न टेक्स्ट, कोड चैट, और कोड जनरेट करना.
1.0 Pro से सीखने के लिए कोई भी टास्क नहीं किया जा सकता. साथ ही, सिर्फ़ एक बार, और कम समय में ही इस सुविधा का इस्तेमाल किया जा सकता है.
मॉडल का विवरण
प्रॉपर्टी | ब्यौरा |
---|---|
मॉडल कोड | models/gemini-pro |
इनपुट | टेक्स्ट |
आउटपुट | टेक्स्ट |
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है |
generate_content
generateContent
|
दर की सीमाएं[*] |
|
सिस्टम से जुड़े निर्देश | ऐसे कैमरा डिवाइस जो Google होम पर काम नहीं करते |
JSON मोड | ऐसे कैमरा डिवाइस जो Google होम पर काम नहीं करते |
सबसे नया वर्शन | gemini-1.0-pro-latest |
नया स्टेबल वर्शन | gemini-1.0-pro |
स्टेबल वर्शन | gemini-1.0-pro-001 |
नया अपडेट | फ़रवरी 2024 |
Gemini 1.0 Pro विज़न
Gemini 1.0 Pro Vision, परफ़ॉर्मेंस पर आधारित मल्टीमोडल मॉडल है. इसकी मदद से विज़ुअल से जुड़े काम किए जा सकते हैं. उदाहरण के लिए, 1.0 Pro Vision में इमेज की जानकारी जनरेट की जा सकती है, इमेज में मौजूद चीज़ों की पहचान की जा सकती है, इमेज में मौजूद जगहों या चीज़ों के बारे में जानकारी वगैरह दी जा सकती है.
1.0 Pro Vision में शून्य, एक बार, और कुछ ही टास्क पूरे किए जा सकते हैं.
मॉडल का विवरण
प्रॉपर्टी | ब्यौरा |
---|---|
मॉडल कोड | models/gemini-pro-vision |
इनपुट | टेक्स्ट और इमेज |
आउटपुट | टेक्स्ट |
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है |
generate_content
generateContent
|
इनपुट टोकन की सीमा[*] | 12,288 |
आउटपुट टोकन की सीमा[*] | 4,096 |
इमेज का ज़्यादा से ज़्यादा साइज़ | कोई सीमा नहीं |
हर सवाल के लिए ज़्यादा से ज़्यादा इमेज की संख्या | 16 |
वीडियो की ज़्यादा से ज़्यादा अवधि | 2 मिनट |
हर सवाल के लिए ज़्यादा से ज़्यादा कितने वीडियो अपलोड किए जा सकते हैं | 1 |
मॉडल सुरक्षा | अपने-आप लागू होने वाली सुरक्षा सेटिंग. इन्हें डेवलपर अडजस्ट कर सकते हैं. ज़्यादा जानकारी के लिए, हमारा सुरक्षा सेटिंग के बारे में बताने वाला पेज देखें. |
अनुरोधों की तय सीमा[*] | हर मिनट 60 अनुरोध |
सबसे नया वर्शन | gemini-1.0-pro-vision-latest |
नया स्टेबल वर्शन | gemini-1.0-pro-vision |
नया अपडेट | दिसंबर 2023 |
टेक्स्ट एम्बेड और एम्बेड करना
टेक्स्ट एम्बेड करना
टेक्स्ट एम्बेड करने वाले मॉडल का इस्तेमाल करके, इनपुट टेक्स्ट के लिए टेक्स्ट एम्बेडिंग जनरेट की जा सकती है. टेक्स्ट एम्बेडिंग मॉडल के बारे में ज़्यादा जानने के लिए, टेक्स्ट एम्बेड करने के बारे में Vertex AI पर जनरेटिव एआई दस्तावेज़ देखें.
टेक्स्ट एम्बेड करने वाले मॉडल को 768 डाइमेंशन के साथ एम्बेड करने की प्रोसेस के लिए ऑप्टिमाइज़ किया गया है. ऐसा ज़्यादा से ज़्यादा 2,048 टोकन के टेक्स्ट के लिए किया जाता है. टेक्स्ट एम्बेड करने की सुविधा से, 768 से कम साइज़ के इलास्टिक एम्बेड किए जा सकते हैं. इलास्टिक एम्बेडिंग का इस्तेमाल करके, छोटे आउटपुट डाइमेंशन जनरेट किए जा सकते हैं. इससे, परफ़ॉर्मेंस में होने वाले मामूली नुकसान के साथ, कंप्यूटिंग और स्टोरेज के खर्च में बचत की जा सकती है.
मॉडल का विवरण
प्रॉपर्टी | ब्यौरा |
---|---|
मॉडल कोड |
models/text-embedding-004
(Vertex AI में
text-embedding-preview-0409 )
|
इनपुट | टेक्स्ट |
आउटपुट | टेक्स्ट एम्बेड करना |
इनपुट टोकन की सीमा | 2,048 |
आउटपुट डाइमेंशन का साइज़ | 768 |
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है |
embed_content
embedContent
|
मॉडल सुरक्षा | सुरक्षा से जुड़ी किसी भी सेटिंग में बदलाव नहीं किया जा सकता. |
अनुरोधों की तय सीमा[*] | हर मिनट 1,500 अनुरोध |
नया अपडेट | अप्रैल 2024 |
एम्बेडिंग
एम्बेडिंग मॉडल का इस्तेमाल करके, इनपुट टेक्स्ट के लिए टेक्स्ट एम्बेडिंग जनरेट की जा सकती है.
एम्बेडिंग मॉडल को 768 डाइमेंशन के साथ एम्बेड करने के लिए ऑप्टिमाइज़ किया गया है. ऐसा ज़्यादा से ज़्यादा 2,048 टोकन के टेक्स्ट के लिए किया गया है.
एम्बेड करने वाले मॉडल की जानकारी
प्रॉपर्टी | ब्यौरा |
---|---|
मॉडल कोड | models/embedding-001 |
इनपुट | टेक्स्ट |
आउटपुट | टेक्स्ट एम्बेड करना |
इनपुट टोकन की सीमा | 2,048 |
आउटपुट डाइमेंशन का साइज़ | 768 |
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है |
embed_content
embedContent
|
मॉडल सुरक्षा | सुरक्षा से जुड़ी किसी भी सेटिंग में बदलाव नहीं किया जा सकता. |
अनुरोधों की तय सीमा[*] | हर मिनट 1,500 अनुरोध |
नया अपडेट | दिसंबर 2023 |
एक्यूआई
किसी दस्तावेज़, कॉर्पस या पैसेज के सेट पर, एट्रिब्यूट किए गए सवाल के जवाब (AQA) से जुड़े टास्क करने के लिए, AQA मॉडल का इस्तेमाल किया जा सकता है. AQA मॉडल, दिए गए सोर्स पर आधारित सवालों के जवाब देता है. साथ ही, जवाब देने की संभावना का अनुमान भी लगाता है.
मॉडल का विवरण
प्रॉपर्टी | ब्यौरा |
---|---|
मॉडल कोड | models/aqa |
इनपुट | टेक्स्ट |
आउटपुट | टेक्स्ट |
जनरेट करने के ऐसे तरीके जिनका इस्तेमाल किया जा सकता है |
GenerateAnswerRequest
generateAnswer
|
किन भाषाओं में यह सुविधा काम करेगी | अंग्रेज़ी |
इनपुट टोकन की सीमा[**] | 7,168 |
आउटपुट टोकन की सीमा[**] | 1,024 |
मॉडल सुरक्षा | अपने-आप लागू होने वाली सुरक्षा सेटिंग. इन्हें डेवलपर अडजस्ट कर सकते हैं. ज़्यादा जानकारी के लिए, हमारा सुरक्षा सेटिंग के बारे में बताने वाला पेज देखें. |
अनुरोधों की तय सीमा[*] | हर मिनट 60 अनुरोध |
नया अपडेट | दिसंबर 2023 |
इन मॉडल के अलग-अलग वैरिएंट की क्षमताओं के बारे में जानने के लिए, उदाहरण देखें.
[*] Gemini मॉडल के लिए टोकन करीब चार वर्णों के बराबर होता है. 100 टोकन में, अंग्रेज़ी के करीब 60 से 80 शब्द होते हैं.
[**] आरपीएम: हर मिनट के लिए अनुरोध
टीपीएम: टोकन प्रति मिनट
आरपीडी: हर दिन मिलने वाले अनुरोध
टीपीडी: हर दिन टोकन
क्षमता की सीमाओं की वजह से, तय की गई ज़्यादा से ज़्यादा दर की सीमाओं की
गारंटी नहीं है.
मॉडल के वर्शन के नाम के पैटर्न
Gemini के मॉडल झलक या स्टेबल वर्शन में उपलब्ध हैं. अपने कोड में, यह तय करने के लिए कि आपको कौनसा मॉडल और वर्शन इस्तेमाल करना है, यहां दिए गए मॉडल के नाम वाले फ़ॉर्मैट में से किसी एक का इस्तेमाल करें.
सबसे नया: किसी खास जनरेशन और वैरिएशन के लिए मॉडल के सबसे नए वर्शन की जानकारी देता है. मौजूदा मॉडल को समय-समय पर अपडेट किया जाता है और यह झलक दिखाने वाला वर्शन हो सकता है. सिर्फ़ एक्सप्लोरेट्री टेस्टिंग ऐप्लिकेशन और प्रोटोटाइप को इस उपनाम का इस्तेमाल करना चाहिए.
सबसे नए वर्शन की जानकारी देने के लिए, नीचे दिए गए पैटर्न का इस्तेमाल करें:
<model>-<generation>-<variation>-latest
. उदाहरण के लिए,gemini-1.0-pro-latest
.नया स्टेबल वर्शन: इससे, खास मॉडल जनरेशन और वैरिएशन के लिए रिलीज़ किए गए हाल ही के स्टेबल वर्शन के बारे में जानकारी मिलती है.
नए स्टेबल वर्शन की जानकारी देने के लिए, नीचे दिए गए पैटर्न का इस्तेमाल करें:
<model>-<generation>-<variation>
. उदाहरण के लिए,gemini-1.0-pro
.स्टेबल: किसी खास स्टेबल मॉडल की जानकारी देता है. स्टेबल मॉडल में बदलाव नहीं होता. ज़्यादातर प्रोडक्शन ऐप्लिकेशन को खास स्टेबल मॉडल का इस्तेमाल करना चाहिए.
स्टेबल वर्शन के बारे में बताने के लिए, नीचे दिए गए पैटर्न का इस्तेमाल करें:
<model>-<generation>-<variation>-<version>
. उदाहरण के लिए,gemini-1.0-pro-001
.