Gemini, जनरेटिव एआई मॉडल की एक फ़ैमिली है. इसकी मदद से, डेवलपर कॉन्टेंट जनरेट कर सकते हैं और समस्याओं को हल कर सकते हैं. इन मॉडल को इनपुट के तौर पर टेक्स्ट और इमेज, दोनों को हैंडल करने के लिए डिज़ाइन और ट्रेनिंग दी गई है. इस गाइड में हर मॉडल के वैरिएंट के बारे में जानकारी दी गई है. इससे आपको यह तय करने में मदद मिलेगी कि आपके लिए, मॉडल का कौनसा वैरिएंट सबसे सही रहेगा.
उपलब्ध भाषाएँ
Gemini के मॉडल को इन भाषाओं में काम करने की ट्रेनिंग दी गई है: ऐरेबिक (ar
),
बांग्ला 2/} (bn
), बुल्गारियाई (bg
), चाइनीज़ (cs
), डेनिश (cs
), डेनिश (da
), डच (nl
), अंग्रेज़ी (en
),
एस्टोनियन (et
), जर्मन (fi
), फ़्रेंच (fr
), जर्मन (de
), हिन्दी (fr
), और इन भाषाओं में काम करने की ट्रेनिंगzh
hr
el
iw
hi
hu
id
it
ja
ko
lv
lt
no
pl
pt
ro
ru
sr
sk
sl
es
sw
sv
th
tr
uk
vi
PaLM मॉडल, सिर्फ़ अंग्रेज़ी में ठीक से काम करते हैं. दूसरी भाषाओं का इस्तेमाल करने पर, ऐसे नतीजे मिल सकते हैं जिनकी उम्मीद नहीं होती.
मॉडल के वैरिएंट
Gemini API में ऐसे अलग-अलग मॉडल उपलब्ध हैं जिन्हें इस्तेमाल के खास उदाहरणों के हिसाब से ऑप्टिमाइज़ किया गया है. Gemini के उपलब्ध वैरिएंट के बारे में खास जानकारी यहां दी गई है:
मॉडल का वैरिएंट | इनपुट | आउटपुट | इसके लिए ऑप्टिमाइज़ किया गया |
---|---|---|---|
Gemini 1.5 Pro (झलक) | ऑडियो, इमेज, वीडियो, और टेक्स्ट | टेक्स्ट | तर्क वाले टास्क, जिनमें कोड और टेक्स्ट जनरेट करना, टेक्स्ट एडिट करना, समस्या हल करना, डेटा निकालना, और जनरेट करना शामिल हैं. इसमें इनके अलावा, और भी चीज़ें शामिल हो सकती हैं |
Gemini 1.5 Flash (झलक) | ऑडियो, इमेज, वीडियो, और टेक्स्ट | टेक्स्ट | कई तरह के टास्क के लिए तेज़ और शानदार परफ़ॉर्मेंस |
Gemini 1.0 Pro | टेक्स्ट | टेक्स्ट | सामान्य भाषा से जुड़े टास्क, बार-बार होने वाले टेक्स्ट और कोड चैट, और कोड जनरेट करना |
Gemini 1.0 Pro विज़न | इमेज, वीडियो, और टेक्स्ट | टेक्स्ट | विज़ुअल से जुड़े कामों के लिए परफ़ॉर्मेंस को ऑप्टिमाइज़ किया गया है. जैसे, इमेज के बारे में जानकारी जनरेट करना या इमेज में मौजूद चीज़ों की पहचान करना |
टेक्स्ट एम्बेड करना | टेक्स्ट | टेक्स्ट एम्बेड करना | ज़्यादा से ज़्यादा 2,048 टोकन वाले टेक्स्ट के लिए, 768 डाइमेंशन तक इलास्टिक टेक्स्ट एम्बेड करने की सुविधा जनरेट करें |
एम्बेड करने की सुविधा | टेक्स्ट | टेक्स्ट एम्बेड करना | 2,048 टोकन तक के टेक्स्ट के लिए, 768 डाइमेंशन के साथ टेक्स्ट एम्बेडिंग जनरेट करें |
एक्यूए | टेक्स्ट | टेक्स्ट | दिए गए टेक्स्ट की जगह एट्रिब्यूट किए गए सवालों के जवाब देना–से जुड़े काम करना |
यहां दी गई टेबल में, Gemini के अलग-अलग मॉडल के एट्रिब्यूट के बारे में बताया गया है. ये एट्रिब्यूट, मॉडल के सभी वैरिएंट के लिए आम तौर पर इस्तेमाल किए जाते हैं:
एट्रिब्यूट | जानकारी |
---|---|
ट्रेनिंग का डेटा | Gemini का नॉलेज कटऑफ़ समय 2023 की शुरुआत में है. उस समय के बाद के इवेंट के बारे में सीमित जानकारी होती है. |
Gemini का मोबाइल ऐप्लिकेशन इन भाषाओं में काम करता है | उपलब्ध भाषाएं देखें |
कॉन्फ़िगर किए जा सकने वाले मॉडल पैरामीटर |
|
इनमें से हर पैरामीटर के बारे में जानकारी के लिए, जनरेटिव मॉडल गाइड का मॉडल पैरामीटर सेक्शन देखें.
Gemini 1.5 Pro (झलक)
Gemini 1.5 Pro एक मीडियम साइज़ का मल्टीमॉडल मॉडल है. इसे कई तरह के रीज़निंग से जुड़े टास्क के लिए ऑप्टिमाइज़ किया गया है. जैसे:
- कोड जनरेशन
- टेक्स्ट जनरेट करें
- टेक्स्ट में बदलाव की सुविधा
- समस्या हल करना
- सुझाव जनरेट करना
- जानकारी निकालना
- डेटा निकालना या जनरेशन
- एआई एजेंट बनाना
1.5 Pro एक बार में बहुत ज़्यादा डेटा को प्रोसेस कर सकता है. इसमें एक घंटे का वीडियो, 9.5 घंटे का ऑडियो, 30, 000 से ज़्यादा लाइनों वाले कोड बेस या 7,00,000 से ज़्यादा शब्द शामिल हैं.
1.5 Pro की मदद से, ज़ीरो, वन, और कम शॉट में सीखने वाले टास्क पूरे किए जा सकते हैं.
मॉडल का विवरण
प्रॉपर्टी | जानकारी |
---|---|
मॉडल कोड | models/gemini-1.5-pro-latest |
इनपुट | ऑडियो, इमेज, वीडियो, और टेक्स्ट |
आउटपुट | टेक्स्ट |
जनरेट करने के लिए इस्तेमाल किए जा सकने वाले तरीके |
generateContent
|
इनपुट टोकन की सीमा[**] | 10,48,576 |
आउटपुट टोकन की सीमा[**] | 8,192 |
हर प्रॉम्प्ट में ज़्यादा से ज़्यादा इमेज की संख्या | 3,600 |
वीडियो की ज़्यादा से ज़्यादा लंबाई | 1 घंटे में |
ऑडियो कितना लंबा हो सकता है | करीब 9.5 घंटे |
हर प्रॉम्प्ट में ज़्यादा से ज़्यादा ऑडियो फ़ाइलों की संख्या | 1 |
मॉडल की सुरक्षा | अपने-आप लागू होने वाली सुरक्षा सेटिंग, जिनमें डेवलपर बदलाव कर सकते हैं. ज़्यादा जानकारी के लिए, सुरक्षा सेटिंग के बारे में जानकारी देने वाला पेज देखें. |
रेट की सीमाएं[*] |
|
सिस्टम के लिए निर्देश | इनकी अनुमति है |
JSON मोड | इनकी अनुमति है |
सबसे नया वर्शन | gemini-1.5-pro-latest |
नया स्टेबल वर्शन | gemini-1.5-pro |
नया अपडेट | अप्रैल 2024 |
Gemini 1.5 Flash (झलक)
Gemini 1.5 Flash, तेज़ और कई तरह से काम करने वाला मल्टीमोडल मॉडल है. इसकी मदद से, अलग-अलग तरह के टास्क पूरे किए जा सकते हैं.
मॉडल का विवरण
प्रॉपर्टी | जानकारी |
---|---|
मॉडल कोड | gemini-1.5-flash-latest |
इनपुट | ऑडियो, इमेज, वीडियो, और टेक्स्ट |
आउटपुट | टेक्स्ट |
जनरेट करने के लिए इस्तेमाल किए जा सकने वाले तरीके |
generateContent
|
इनपुट टोकन की सीमा[**] | 10,48,576 |
आउटपुट टोकन की सीमा[**] | 8,192 |
हर प्रॉम्प्ट में ज़्यादा से ज़्यादा इमेज की संख्या | 3,600 |
वीडियो की ज़्यादा से ज़्यादा लंबाई | 1 घंटे में |
ऑडियो कितना लंबा हो सकता है | करीब 9.5 घंटे |
हर प्रॉम्प्ट में ज़्यादा से ज़्यादा ऑडियो फ़ाइलों की संख्या | 1 |
मॉडल की सुरक्षा | अपने-आप लागू होने वाली सुरक्षा सेटिंग, जिनमें डेवलपर बदलाव कर सकते हैं. ज़्यादा जानकारी के लिए, सुरक्षा सेटिंग के बारे में जानकारी देने वाला पेज देखें. |
रेट की सीमाएं[*] |
|
सिस्टम के लिए निर्देश | इनकी अनुमति है |
JSON मोड | इनकी अनुमति है |
सबसे नया वर्शन | gemini-1.5-flash-latest |
नया स्टेबल वर्शन | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro एक एनएलपी मॉडल है. यह एक साथ कई काम करने वाले टेक्स्ट, कोड चैट, और कोड जनरेट करने जैसे काम करता है.
1.0 Pro की मदद से, ज़ीरो, वन, और कम शॉट में सीखने वाले टास्क पूरे किए जा सकते हैं.
मॉडल का विवरण
प्रॉपर्टी | जानकारी |
---|---|
मॉडल कोड | models/gemini-pro |
इनपुट | टेक्स्ट |
आउटपुट | टेक्स्ट |
जनरेट करने के लिए इस्तेमाल किए जा सकने वाले तरीके |
generate_content
generateContent
|
रेट की सीमाएं[*] |
|
सिस्टम के लिए निर्देश | ऐसे कैमरा डिवाइस जो Google होम पर काम नहीं करते |
JSON मोड | ऐसे कैमरा डिवाइस जो Google होम पर काम नहीं करते |
सबसे नया वर्शन | gemini-1.0-pro-latest |
नया स्टेबल वर्शन | gemini-1.0-pro |
स्टेबल वर्शन | gemini-1.0-pro-001 |
नया अपडेट | फ़रवरी 2024 |
Gemini 1.0 Pro विज़न
Gemini 1.0 Pro Vision, परफ़ॉर्मेंस के हिसाब से ऑप्टिमाइज़ किया गया एक मल्टीमॉडल मॉडल है. यह विज़ुअल से जुड़े टास्क कर सकता है. उदाहरण के लिए, 1.0 Pro Vision की मदद से, इमेज की जानकारी जनरेट की जा सकती है, इमेज में मौजूद चीज़ों की पहचान की जा सकती है, इमेज में मौजूद जगहों या चीज़ों के बारे में जानकारी दी जा सकती है. इसके अलावा, ऐसे और भी कई काम किए जा सकते हैं.
1.0 Pro Vision की मदद से, ज़ीरो, एक, और कुछ शॉट को आसानी से पूरा किया जा सकता है.
मॉडल का विवरण
प्रॉपर्टी | जानकारी |
---|---|
मॉडल कोड | models/gemini-pro-vision |
इनपुट | टेक्स्ट, वीडियो, और इमेज |
आउटपुट | टेक्स्ट |
जनरेट करने के लिए इस्तेमाल किए जा सकने वाले तरीके |
generate_content
generateContent
|
इनपुट टोकन की सीमा[*] | 12,288 |
आउटपुट टोकन की सीमा[*] | 4,096 |
इमेज का ज़्यादा से ज़्यादा साइज़ | कोई सीमा नहीं |
हर प्रॉम्प्ट में ज़्यादा से ज़्यादा इमेज की संख्या | 16 |
वीडियो की ज़्यादा से ज़्यादा लंबाई | 2 मिनट |
हर प्रॉम्प्ट में ज़्यादा से ज़्यादा वीडियो की संख्या | 1 |
मॉडल की सुरक्षा | अपने-आप लागू होने वाली सुरक्षा सेटिंग, जिनमें डेवलपर बदलाव कर सकते हैं. ज़्यादा जानकारी के लिए, सुरक्षा सेटिंग के बारे में जानकारी देने वाला पेज देखें. |
रेट लिमिट[*] | हर मिनट 60 अनुरोध |
सबसे नया वर्शन | gemini-1.0-pro-vision-latest |
नया स्टेबल वर्शन | gemini-1.0-pro-vision |
नया अपडेट | दिसंबर 2023 |
टेक्स्ट एम्बेड और एम्बेड करना
लेख एम्बेड करना
टेक्स्ट एम्बेड करने के मॉडल का इस्तेमाल करके, टेक्स्ट एम्बेड करने की सुविधा जनरेट की जा सकती है. टेक्स्ट एम्बेड करने वाले मॉडल के बारे में ज़्यादा जानकारी के लिए, टेक्स्ट एम्बेड करने से जुड़े Vertex AI के लिए जनरेटिव एआई से जुड़ा दस्तावेज़ देखें.
टेक्स्ट एम्बेड करने वाले मॉडल को 768 डाइमेंशन के साथ एम्बेड करने की प्रोसेस के लिए ऑप्टिमाइज़ किया गया है. ऐसा, 2,048 टोकन वाले टेक्स्ट के लिए किया जा सकता है. टेक्स्ट एम्बेड करने की सुविधा, 768 से कम साइज़ के इलास्टिक एम्बेड करने की सुविधा देती है. इलास्टिक एम्बेड करने की सुविधा का इस्तेमाल करके, आउटपुट के छोटे डाइमेंशन जनरेट किए जा सकते हैं. साथ ही, परफ़ॉर्मेंस में होने वाले मामूली नुकसान के साथ, कंप्यूटिंग और स्टोरेज की लागत में भी बचत की जा सकती है.
मॉडल का विवरण
प्रॉपर्टी | जानकारी |
---|---|
मॉडल कोड |
models/text-embedding-004
(Vertex AI में
text-embedding-preview-0409 )
|
इनपुट | टेक्स्ट |
आउटपुट | टेक्स्ट एम्बेड करना |
इनपुट टोकन की सीमा | 2,048 |
आउटपुट डाइमेंशन का साइज़ | 768 |
जनरेट करने के लिए इस्तेमाल किए जा सकने वाले तरीके |
embed_content
embedContent
|
मॉडल की सुरक्षा | सुरक्षा की सेटिंग में बदलाव नहीं किया जा सकता. |
रेट लिमिट[*] | हर मिनट 1,500 अनुरोध |
नया अपडेट | अप्रैल 2024 |
एम्बेडिंग
अगर आपको इनपुट टेक्स्ट के लिए, टेक्स्ट एम्बेड करने की सुविधा जनरेट करनी है, तो एम्बेड करने के मॉडल का इस्तेमाल किया जा सकता है.
एम्बेड करने वाले मॉडल को, 768 डाइमेंशन वाले एम्बेड करने के लिए ऑप्टिमाइज़ किया गया है. इससे, ज़्यादा से ज़्यादा 2,048 टोकन वाले टेक्स्ट के लिए, एम्बेड किए जा सकेंगे.
एम्बेड करने वाले मॉडल की जानकारी
प्रॉपर्टी | जानकारी |
---|---|
मॉडल कोड | models/embedding-001 |
इनपुट | टेक्स्ट |
आउटपुट | टेक्स्ट एम्बेड करना |
इनपुट टोकन की सीमा | 2,048 |
आउटपुट डाइमेंशन का साइज़ | 768 |
जनरेट करने के लिए इस्तेमाल किए जा सकने वाले तरीके |
embed_content
embedContent
|
मॉडल की सुरक्षा | सुरक्षा की सेटिंग में बदलाव नहीं किया जा सकता. |
रेट लिमिट[*] | हर मिनट 1,500 अनुरोध |
नया अपडेट | दिसंबर 2023 |
एक्यूए
एक्यूआई मॉडल का इस्तेमाल, एट्रिब्यूट किए गए सवालों के जवाब (एक्यूए) से जुड़े टास्क करने के लिए किया जा सकता है. इन टास्क को किसी दस्तावेज़, कॉर्पस या पैसेज के सेट के साथ किया जा सकता है. एक्यूए मॉडल से, दिए गए सोर्स पर आधारित सवालों के जवाब मिलते हैं. साथ ही, इससे मिलने वाले जवाब की संभावना का अनुमान भी लगाया जाता है.
मॉडल का विवरण
प्रॉपर्टी | जानकारी |
---|---|
मॉडल कोड | models/aqa |
इनपुट | टेक्स्ट |
आउटपुट | टेक्स्ट |
जनरेट करने के लिए इस्तेमाल किए जा सकने वाले तरीके |
GenerateAnswerRequest
generateAnswer
|
Gemini का मोबाइल ऐप्लिकेशन इन भाषाओं में काम करता है | अंग्रेज़ी |
इनपुट टोकन की सीमा[**] | 7,168 |
आउटपुट टोकन की सीमा[**] | 1,024 |
मॉडल की सुरक्षा | अपने-आप लागू होने वाली सुरक्षा सेटिंग, जिनमें डेवलपर बदलाव कर सकते हैं. ज़्यादा जानकारी के लिए, सुरक्षा सेटिंग के बारे में जानकारी देने वाला पेज देखें. |
रेट लिमिट[*] | हर मिनट 60 अनुरोध |
नया अपडेट | दिसंबर 2023 |
मॉडल के अलग-अलग वैरिएंट की क्षमताओं के बारे में जानने के लिए, उदाहरण देखें.
[*] एक टोकन, Gemini मॉडल के लिए करीब 4 वर्णों के बराबर होता है. 100 टोकन, करीब 60 से 80 अंग्रेज़ी शब्दों के होते हैं.
[**] आरपीएम: हर मिनट मिलने वाले अनुरोध
टीपीएम: टोकन प्रति मिनट
आरपीडी: हर दिन मिलने वाले अनुरोध
टीपीडी: टोकन हर दिन
क्षमता की सीमाओं की वजह से, तय की गई ज़्यादा से ज़्यादा रेट लिमिट की गारंटी नहीं है.
मॉडल के वर्शन के नाम के पैटर्न
Gemini के मॉडल, झलक या स्टेबल वर्शन में उपलब्ध हैं. अपने कोड में, आपको मॉडल के नाम वाले इन फ़ॉर्मैट में से किसी एक का इस्तेमाल करके, यह तय करने की सुविधा मिलती है कि आपको किस मॉडल और वर्शन का इस्तेमाल करना है.
सबसे नया: किसी खास जनरेशन और वैरिएशन के लिए, मॉडल के सबसे नए वर्शन पर ले जाता है. दिया गया मॉडल नियमित रूप से अपडेट किया जाता है और यह झलक वाला वर्शन हो सकता है. इस उपनाम का इस्तेमाल, सिर्फ़ एक्सप्लोरेट्री टेस्टिंग ऐप्लिकेशन और प्रोटोटाइप में किया जाना चाहिए.
नया वर्शन तय करने के लिए, इस पैटर्न का इस्तेमाल करें:
<model>-<generation>-<variation>-latest
. उदाहरण के लिए,gemini-1.0-pro-latest
.नए स्टेबल वर्शन: चुनिंदा मॉडल जनरेशन और वैरिएशन के लिए, हाल ही में रिलीज़ हुए स्टेबल वर्शन पर ले जाता है.
नए स्टेबल वर्शन की जानकारी देने के लिए, इस पैटर्न का इस्तेमाल करें:
<model>-<generation>-<variation>
. उदाहरण के लिए,gemini-1.0-pro
.स्टेबल: किसी खास स्टेबल मॉडल पर ले जाता है. स्थिर मॉडल में कोई बदलाव नहीं होता. ज़्यादातर प्रोडक्शन ऐप्लिकेशन को, किसी खास स्टेबल मॉडल का इस्तेमाल करना चाहिए.
स्टेबल वर्शन तय करने के लिए, इस पैटर्न का इस्तेमाल करें:
<model>-<generation>-<variation>-<version>
. उदाहरण के लिए,gemini-1.0-pro-001
.