Gemini

Gemini, जनरेटिव एआई मॉडल की एक फ़ैमिली है. इसकी मदद से, डेवलपर कॉन्टेंट जनरेट कर सकते हैं और समस्याओं को हल कर सकते हैं. इन मॉडल को इनपुट के तौर पर टेक्स्ट और इमेज, दोनों को हैंडल करने के लिए डिज़ाइन और ट्रेनिंग दी गई है. इस गाइड में हर मॉडल के वैरिएंट के बारे में जानकारी दी गई है. इससे आपको यह तय करने में मदद मिलेगी कि आपके लिए, मॉडल का कौनसा वैरिएंट सबसे सही रहेगा.

उपलब्ध भाषाएँ

Gemini के मॉडल को इन भाषाओं में काम करने की ट्रेनिंग दी गई है: ऐरेबिक (ar), बांग्ला 2/} (bn), बुल्गारियाई (bg), चाइनीज़ (cs), डेनिश (cs), डेनिश (da), डच (nl), अंग्रेज़ी (en), एस्टोनियन (et), जर्मन (fi), फ़्रेंच (fr), जर्मन (de), हिन्दी (fr), और इन भाषाओं में काम करने की ट्रेनिंगzhhreliwhihuiditjakolvltnoplptrorusrskslesswsvthtrukvi

PaLM मॉडल, सिर्फ़ अंग्रेज़ी में ठीक से काम करते हैं. दूसरी भाषाओं का इस्तेमाल करने पर, ऐसे नतीजे मिल सकते हैं जिनकी उम्मीद नहीं होती.

मॉडल के वैरिएंट

Gemini API में ऐसे अलग-अलग मॉडल उपलब्ध हैं जिन्हें इस्तेमाल के खास उदाहरणों के हिसाब से ऑप्टिमाइज़ किया गया है. Gemini के उपलब्ध वैरिएंट के बारे में खास जानकारी यहां दी गई है:

मॉडल का वैरिएंट इनपुट आउटपुट इसके लिए ऑप्टिमाइज़ किया गया
Gemini 1.5 Pro (झलक) ऑडियो, इमेज, वीडियो, और टेक्स्ट टेक्स्ट तर्क वाले टास्क, जिनमें कोड और टेक्स्ट जनरेट करना, टेक्स्ट एडिट करना, समस्या हल करना, डेटा निकालना, और जनरेट करना शामिल हैं. इसमें इनके अलावा, और भी चीज़ें शामिल हो सकती हैं
Gemini 1.5 Flash (झलक) ऑडियो, इमेज, वीडियो, और टेक्स्ट टेक्स्ट कई तरह के टास्क के लिए तेज़ और शानदार परफ़ॉर्मेंस
Gemini 1.0 Pro टेक्स्ट टेक्स्ट सामान्य भाषा से जुड़े टास्क, बार-बार होने वाले टेक्स्ट और कोड चैट, और कोड जनरेट करना
Gemini 1.0 Pro विज़न इमेज, वीडियो, और टेक्स्ट टेक्स्ट विज़ुअल से जुड़े कामों के लिए परफ़ॉर्मेंस को ऑप्टिमाइज़ किया गया है. जैसे, इमेज के बारे में जानकारी जनरेट करना या इमेज में मौजूद चीज़ों की पहचान करना
टेक्स्ट एम्बेड करना टेक्स्ट टेक्स्ट एम्बेड करना ज़्यादा से ज़्यादा 2,048 टोकन वाले टेक्स्ट के लिए, 768 डाइमेंशन तक इलास्टिक टेक्स्ट एम्बेड करने की सुविधा जनरेट करें
एम्बेड करने की सुविधा टेक्स्ट टेक्स्ट एम्बेड करना 2,048 टोकन तक के टेक्स्ट के लिए, 768 डाइमेंशन के साथ टेक्स्ट एम्बेडिंग जनरेट करें
एक्यूए टेक्स्ट टेक्स्ट दिए गए टेक्स्ट की जगह एट्रिब्यूट किए गए सवालों के जवाब देना–से जुड़े काम करना

यहां दी गई टेबल में, Gemini के अलग-अलग मॉडल के एट्रिब्यूट के बारे में बताया गया है. ये एट्रिब्यूट, मॉडल के सभी वैरिएंट के लिए आम तौर पर इस्तेमाल किए जाते हैं:

एट्रिब्यूट जानकारी
ट्रेनिंग का डेटा Gemini का नॉलेज कटऑफ़ समय 2023 की शुरुआत में है. उस समय के बाद के इवेंट के बारे में सीमित जानकारी होती है.
Gemini का मोबाइल ऐप्लिकेशन इन भाषाओं में काम करता है उपलब्ध भाषाएं देखें
कॉन्फ़िगर किए जा सकने वाले मॉडल पैरामीटर
  • सबसे ऊपर p
  • टॉप के
  • तापमान
  • स्टॉप का क्रम
  • आउटपुट की ज़्यादा से ज़्यादा लंबाई
  • जवाब देने वाले उम्मीदवारों की संख्या

इनमें से हर पैरामीटर के बारे में जानकारी के लिए, जनरेटिव मॉडल गाइड का मॉडल पैरामीटर सेक्शन देखें.

Gemini 1.5 Pro (झलक)

Gemini 1.5 Pro एक मीडियम साइज़ का मल्टीमॉडल मॉडल है. इसे कई तरह के रीज़निंग से जुड़े टास्क के लिए ऑप्टिमाइज़ किया गया है. जैसे:

  • कोड जनरेशन
  • टेक्स्ट जनरेट करें
  • टेक्स्ट में बदलाव की सुविधा
  • समस्या हल करना
  • सुझाव जनरेट करना
  • जानकारी निकालना
  • डेटा निकालना या जनरेशन
  • एआई एजेंट बनाना

1.5 Pro एक बार में बहुत ज़्यादा डेटा को प्रोसेस कर सकता है. इसमें एक घंटे का वीडियो, 9.5 घंटे का ऑडियो, 30, 000 से ज़्यादा लाइनों वाले कोड बेस या 7,00,000 से ज़्यादा शब्द शामिल हैं.

1.5 Pro की मदद से, ज़ीरो, वन, और कम शॉट में सीखने वाले टास्क पूरे किए जा सकते हैं.

मॉडल का विवरण

प्रॉपर्टी जानकारी
मॉडल कोड models/gemini-1.5-pro-latest
इनपुट ऑडियो, इमेज, वीडियो, और टेक्स्ट
आउटपुट टेक्स्ट
जनरेट करने के लिए इस्तेमाल किए जा सकने वाले तरीके generateContent
इनपुट टोकन की सीमा[**] 10,48,576
आउटपुट टोकन की सीमा[**] 8,192
हर प्रॉम्प्ट में ज़्यादा से ज़्यादा इमेज की संख्या 3,600
वीडियो की ज़्यादा से ज़्यादा लंबाई 1 घंटे में
ऑडियो कितना लंबा हो सकता है करीब 9.5 घंटे
हर प्रॉम्प्ट में ज़्यादा से ज़्यादा ऑडियो फ़ाइलों की संख्या 1
मॉडल की सुरक्षा अपने-आप लागू होने वाली सुरक्षा सेटिंग, जिनमें डेवलपर बदलाव कर सकते हैं. ज़्यादा जानकारी के लिए, सुरक्षा सेटिंग के बारे में जानकारी देने वाला पेज देखें.
रेट की सीमाएं[*]
मुफ़्त:
  • 2 आरपीएम
  • 32,000 टीपीएम
  • 50 आरपीडी
  • 4,60,80,000 टीपीडी
Pay-as-you-go:
  • 360 आरपीएम
  • 1 करोड़ टीपीएम
  • 10,000 आरपीडी
  • 1,44,00,00,000 टीपीडी
20 लाख संदर्भ:
  • 1 आरपीएम
  • 20 लाख टीपीएम
  • 50 आरपीडी
सिस्टम के लिए निर्देश इनकी अनुमति है
JSON मोड इनकी अनुमति है
सबसे नया वर्शन gemini-1.5-pro-latest
नया स्टेबल वर्शन gemini-1.5-pro
नया अपडेट अप्रैल 2024

Gemini 1.5 Flash (झलक)

Gemini 1.5 Flash, तेज़ और कई तरह से काम करने वाला मल्टीमोडल मॉडल है. इसकी मदद से, अलग-अलग तरह के टास्क पूरे किए जा सकते हैं.

मॉडल का विवरण

प्रॉपर्टी जानकारी
मॉडल कोड gemini-1.5-flash-latest
इनपुट ऑडियो, इमेज, वीडियो, और टेक्स्ट
आउटपुट टेक्स्ट
जनरेट करने के लिए इस्तेमाल किए जा सकने वाले तरीके generateContent
इनपुट टोकन की सीमा[**] 10,48,576
आउटपुट टोकन की सीमा[**] 8,192
हर प्रॉम्प्ट में ज़्यादा से ज़्यादा इमेज की संख्या 3,600
वीडियो की ज़्यादा से ज़्यादा लंबाई 1 घंटे में
ऑडियो कितना लंबा हो सकता है करीब 9.5 घंटे
हर प्रॉम्प्ट में ज़्यादा से ज़्यादा ऑडियो फ़ाइलों की संख्या 1
मॉडल की सुरक्षा अपने-आप लागू होने वाली सुरक्षा सेटिंग, जिनमें डेवलपर बदलाव कर सकते हैं. ज़्यादा जानकारी के लिए, सुरक्षा सेटिंग के बारे में जानकारी देने वाला पेज देखें.
रेट की सीमाएं[*]
मुफ़्त:
  • 15 आरपीएम
  • 10 लाख टीपीएम
  • 1,500 आरपीडी
Pay-as-you-go:
  • 360 आरपीएम
  • 1 करोड़ टीपीएम
  • 10,000 आरपीडी
सिस्टम के लिए निर्देश इनकी अनुमति है
JSON मोड इनकी अनुमति है
सबसे नया वर्शन gemini-1.5-flash-latest
नया स्टेबल वर्शन gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro एक एनएलपी मॉडल है. यह एक साथ कई काम करने वाले टेक्स्ट, कोड चैट, और कोड जनरेट करने जैसे काम करता है.

1.0 Pro की मदद से, ज़ीरो, वन, और कम शॉट में सीखने वाले टास्क पूरे किए जा सकते हैं.

मॉडल का विवरण

प्रॉपर्टी जानकारी
मॉडल कोड models/gemini-pro
इनपुट टेक्स्ट
आउटपुट टेक्स्ट
जनरेट करने के लिए इस्तेमाल किए जा सकने वाले तरीके
Python: generate_content
REST: generateContent
रेट की सीमाएं[*]
मुफ़्त:
  • 15 आरपीएम
  • 32,000 टीपीएम
  • 1,500 आरपीडी
  • 4,60,80,000 टीपीडी
Pay-as-you-go:
  • 360 आरपीएम
  • 1,20,000 टीपीएम
  • 30,000 आरपीडी
  • 1,72,80,00,000 टीपीडी
सिस्टम के लिए निर्देश ऐसे कैमरा डिवाइस जो Google होम पर काम नहीं करते
JSON मोड ऐसे कैमरा डिवाइस जो Google होम पर काम नहीं करते
सबसे नया वर्शन gemini-1.0-pro-latest
नया स्टेबल वर्शन gemini-1.0-pro
स्टेबल वर्शन gemini-1.0-pro-001
नया अपडेट फ़रवरी 2024

Gemini 1.0 Pro विज़न

Gemini 1.0 Pro Vision, परफ़ॉर्मेंस के हिसाब से ऑप्टिमाइज़ किया गया एक मल्टीमॉडल मॉडल है. यह विज़ुअल से जुड़े टास्क कर सकता है. उदाहरण के लिए, 1.0 Pro Vision की मदद से, इमेज की जानकारी जनरेट की जा सकती है, इमेज में मौजूद चीज़ों की पहचान की जा सकती है, इमेज में मौजूद जगहों या चीज़ों के बारे में जानकारी दी जा सकती है. इसके अलावा, ऐसे और भी कई काम किए जा सकते हैं.

1.0 Pro Vision की मदद से, ज़ीरो, एक, और कुछ शॉट को आसानी से पूरा किया जा सकता है.

मॉडल का विवरण

प्रॉपर्टी जानकारी
मॉडल कोड models/gemini-pro-vision
इनपुट टेक्स्ट, वीडियो, और इमेज
आउटपुट टेक्स्ट
जनरेट करने के लिए इस्तेमाल किए जा सकने वाले तरीके
Python: generate_content
REST: generateContent
इनपुट टोकन की सीमा[*] 12,288
आउटपुट टोकन की सीमा[*] 4,096
इमेज का ज़्यादा से ज़्यादा साइज़ कोई सीमा नहीं
हर प्रॉम्प्ट में ज़्यादा से ज़्यादा इमेज की संख्या 16
वीडियो की ज़्यादा से ज़्यादा लंबाई 2 मिनट
हर प्रॉम्प्ट में ज़्यादा से ज़्यादा वीडियो की संख्या 1
मॉडल की सुरक्षा अपने-आप लागू होने वाली सुरक्षा सेटिंग, जिनमें डेवलपर बदलाव कर सकते हैं. ज़्यादा जानकारी के लिए, सुरक्षा सेटिंग के बारे में जानकारी देने वाला पेज देखें.
रेट लिमिट[*] हर मिनट 60 अनुरोध
सबसे नया वर्शन gemini-1.0-pro-vision-latest
नया स्टेबल वर्शन gemini-1.0-pro-vision
नया अपडेट दिसंबर 2023

टेक्स्ट एम्बेड और एम्बेड करना

लेख एम्बेड करना

टेक्स्ट एम्बेड करने के मॉडल का इस्तेमाल करके, टेक्स्ट एम्बेड करने की सुविधा जनरेट की जा सकती है. टेक्स्ट एम्बेड करने वाले मॉडल के बारे में ज़्यादा जानकारी के लिए, टेक्स्ट एम्बेड करने से जुड़े Vertex AI के लिए जनरेटिव एआई से जुड़ा दस्तावेज़ देखें.

टेक्स्ट एम्बेड करने वाले मॉडल को 768 डाइमेंशन के साथ एम्बेड करने की प्रोसेस के लिए ऑप्टिमाइज़ किया गया है. ऐसा, 2,048 टोकन वाले टेक्स्ट के लिए किया जा सकता है. टेक्स्ट एम्बेड करने की सुविधा, 768 से कम साइज़ के इलास्टिक एम्बेड करने की सुविधा देती है. इलास्टिक एम्बेड करने की सुविधा का इस्तेमाल करके, आउटपुट के छोटे डाइमेंशन जनरेट किए जा सकते हैं. साथ ही, परफ़ॉर्मेंस में होने वाले मामूली नुकसान के साथ, कंप्यूटिंग और स्टोरेज की लागत में भी बचत की जा सकती है.

मॉडल का विवरण
प्रॉपर्टी जानकारी
मॉडल कोड models/text-embedding-004 (Vertex AI में text-embedding-preview-0409)
इनपुट टेक्स्ट
आउटपुट टेक्स्ट एम्बेड करना
इनपुट टोकन की सीमा 2,048
आउटपुट डाइमेंशन का साइज़ 768
जनरेट करने के लिए इस्तेमाल किए जा सकने वाले तरीके
Python: embed_content
REST: embedContent
मॉडल की सुरक्षा सुरक्षा की सेटिंग में बदलाव नहीं किया जा सकता.
रेट लिमिट[*] हर मिनट 1,500 अनुरोध
नया अपडेट अप्रैल 2024

एम्बेडिंग

अगर आपको इनपुट टेक्स्ट के लिए, टेक्स्ट एम्बेड करने की सुविधा जनरेट करनी है, तो एम्बेड करने के मॉडल का इस्तेमाल किया जा सकता है.

एम्बेड करने वाले मॉडल को, 768 डाइमेंशन वाले एम्बेड करने के लिए ऑप्टिमाइज़ किया गया है. इससे, ज़्यादा से ज़्यादा 2,048 टोकन वाले टेक्स्ट के लिए, एम्बेड किए जा सकेंगे.

एम्बेड करने वाले मॉडल की जानकारी
प्रॉपर्टी जानकारी
मॉडल कोड models/embedding-001
इनपुट टेक्स्ट
आउटपुट टेक्स्ट एम्बेड करना
इनपुट टोकन की सीमा 2,048
आउटपुट डाइमेंशन का साइज़ 768
जनरेट करने के लिए इस्तेमाल किए जा सकने वाले तरीके
Python: embed_content
REST: embedContent
मॉडल की सुरक्षा सुरक्षा की सेटिंग में बदलाव नहीं किया जा सकता.
रेट लिमिट[*] हर मिनट 1,500 अनुरोध
नया अपडेट दिसंबर 2023

एक्यूए

एक्यूआई मॉडल का इस्तेमाल, एट्रिब्यूट किए गए सवालों के जवाब (एक्यूए) से जुड़े टास्क करने के लिए किया जा सकता है. इन टास्क को किसी दस्तावेज़, कॉर्पस या पैसेज के सेट के साथ किया जा सकता है. एक्यूए मॉडल से, दिए गए सोर्स पर आधारित सवालों के जवाब मिलते हैं. साथ ही, इससे मिलने वाले जवाब की संभावना का अनुमान भी लगाया जाता है.

मॉडल का विवरण

प्रॉपर्टी जानकारी
मॉडल कोड models/aqa
इनपुट टेक्स्ट
आउटपुट टेक्स्ट
जनरेट करने के लिए इस्तेमाल किए जा सकने वाले तरीके
Python: GenerateAnswerRequest
REST: generateAnswer
Gemini का मोबाइल ऐप्लिकेशन इन भाषाओं में काम करता है अंग्रेज़ी
इनपुट टोकन की सीमा[**] 7,168
आउटपुट टोकन की सीमा[**] 1,024
मॉडल की सुरक्षा अपने-आप लागू होने वाली सुरक्षा सेटिंग, जिनमें डेवलपर बदलाव कर सकते हैं. ज़्यादा जानकारी के लिए, सुरक्षा सेटिंग के बारे में जानकारी देने वाला पेज देखें.
रेट लिमिट[*] हर मिनट 60 अनुरोध
नया अपडेट दिसंबर 2023

मॉडल के अलग-अलग वैरिएंट की क्षमताओं के बारे में जानने के लिए, उदाहरण देखें.

[*] एक टोकन, Gemini मॉडल के लिए करीब 4 वर्णों के बराबर होता है. 100 टोकन, करीब 60 से 80 अंग्रेज़ी शब्दों के होते हैं.

[**] आरपीएम: हर मिनट मिलने वाले अनुरोध
टीपीएम: टोकन प्रति मिनट
आरपीडी: हर दिन मिलने वाले अनुरोध
टीपीडी: टोकन हर दिन

क्षमता की सीमाओं की वजह से, तय की गई ज़्यादा से ज़्यादा रेट लिमिट की गारंटी नहीं है.

मॉडल के वर्शन के नाम के पैटर्न

Gemini के मॉडल, झलक या स्टेबल वर्शन में उपलब्ध हैं. अपने कोड में, आपको मॉडल के नाम वाले इन फ़ॉर्मैट में से किसी एक का इस्तेमाल करके, यह तय करने की सुविधा मिलती है कि आपको किस मॉडल और वर्शन का इस्तेमाल करना है.

  • सबसे नया: किसी खास जनरेशन और वैरिएशन के लिए, मॉडल के सबसे नए वर्शन पर ले जाता है. दिया गया मॉडल नियमित रूप से अपडेट किया जाता है और यह झलक वाला वर्शन हो सकता है. इस उपनाम का इस्तेमाल, सिर्फ़ एक्सप्लोरेट्री टेस्टिंग ऐप्लिकेशन और प्रोटोटाइप में किया जाना चाहिए.

    नया वर्शन तय करने के लिए, इस पैटर्न का इस्तेमाल करें: <model>-<generation>-<variation>-latest. उदाहरण के लिए, gemini-1.0-pro-latest.

  • नए स्टेबल वर्शन: चुनिंदा मॉडल जनरेशन और वैरिएशन के लिए, हाल ही में रिलीज़ हुए स्टेबल वर्शन पर ले जाता है.

    नए स्टेबल वर्शन की जानकारी देने के लिए, इस पैटर्न का इस्तेमाल करें: <model>-<generation>-<variation>. उदाहरण के लिए, gemini-1.0-pro.

  • स्टेबल: किसी खास स्टेबल मॉडल पर ले जाता है. स्थिर मॉडल में कोई बदलाव नहीं होता. ज़्यादातर प्रोडक्शन ऐप्लिकेशन को, किसी खास स्टेबल मॉडल का इस्तेमाल करना चाहिए.

    स्टेबल वर्शन तय करने के लिए, इस पैटर्न का इस्तेमाल करें: <model>-<generation>-<variation>-<version>. उदाहरण के लिए, gemini-1.0-pro-001.