टूल, Gemini मॉडल की क्षमताओं को बढ़ाते हैं. इससे, ये मॉडल दुनिया में कार्रवाई कर पाते हैं, रीयल-टाइम में जानकारी ऐक्सेस कर पाते हैं, और मुश्किल कैलकुलेशन वाले काम कर पाते हैं. मॉडल, Live API के ज़रिए, अनुरोध-जवाब के स्टैंडर्ड इंटरैक्शन और रीयल-टाइम स्ट्रीमिंग सेशन, दोनों में टूल का इस्तेमाल कर सकते हैं.
Gemini API, पूरी तरह से मैनेज किए जाने वाले, पहले से मौजूद टूल का एक सुइट उपलब्ध कराता है. इन्हें Gemini मॉडल के लिए ऑप्टिमाइज़ किया गया है. इसके अलावा, फ़ंक्शन कॉलिंग का इस्तेमाल करके, कस्टम टूल तय किए जा सकते हैं.
पहले से मौजूद टूल
| टूल | ब्यौरा | उपयोग के उदाहरण |
|---|---|---|
| Google Search | जवाबों में, हाल की घटनाओं और वेब पर मौजूद तथ्यों के बारे में जानकारी शामिल करना, ताकि गलत जानकारी देने की समस्या कम हो सके. | - हाल के इवेंट के बारे में सवालों के जवाब देना - अलग-अलग सोर्स से तथ्यों की पुष्टि करना |
| Google Maps | जगह की जानकारी देने वाली ऐसी Assistant बनाएं जो जगहें ढूंढ सके, दिशाओं के लिए निर्देश दे सके, और स्थानीय संदर्भ के बारे में ज़्यादा जानकारी दे सके. | - एक से ज़्यादा स्टॉप वाली यात्रा की योजना बनाना - उपयोगकर्ता की शर्तों के आधार पर स्थानीय कारोबारों को ढूंढना |
| कोड चलाने की सुविधा | मॉडल को गणित की समस्याओं को हल करने या डेटा को सटीक तरीके से प्रोसेस करने के लिए, Python कोड लिखने और चलाने की अनुमति दें. | - मुश्किल गणितीय समीकरण हल करना - टेक्स्ट डेटा को सटीक तरीके से प्रोसेस और उसका विश्लेषण करना |
| यूआरएल का कॉन्टेक्स्ट | मॉडल को किसी वेब पेज या दस्तावेज़ से कॉन्टेंट पढ़ने और उसका विश्लेषण करने का निर्देश दें. | - किसी यूआरएल या दस्तावेज़ के आधार पर सवालों के जवाब देना - अलग-अलग वेब पेजों से जानकारी पाना |
| कंप्यूटर का इस्तेमाल (झलक) | इस कुकी से Gemini को स्क्रीन देखने और वेब ब्राउज़र के यूज़र इंटरफ़ेस (क्लाइंट-साइड एक्ज़ीक्यूशन) के साथ इंटरैक्ट करने के लिए कार्रवाइयां जनरेट करने की अनुमति मिलती है. | - वेब पर बार-बार किए जाने वाले वर्कफ़्लो को अपने-आप पूरा करना - वेब ऐप्लिकेशन के यूज़र इंटरफ़ेस की जांच करना |
| फ़ाइल खोजना | Retrieval Augmented Generation (RAG) को चालू करने के लिए, अपने दस्तावेज़ों को इंडेक्स करें और उनमें खोज करें. | - तकनीकी मैनुअल खोजना - मालिकाना हक वाले डेटा के आधार पर सवालों के जवाब देना |
किसी टूल से जुड़ी लागत के बारे में जानने के लिए, कीमत की जानकारी देने वाला पेज देखें.
टूल के इस्तेमाल की सुविधा कैसे काम करती है
टूल की मदद से मॉडल, बातचीत के दौरान कार्रवाइयों का अनुरोध कर सकता है. यह इस बात पर निर्भर करता है कि टूल, Google की ओर से मैनेज किया जा रहा है या आपके हिसाब से बनाया गया है.
पहले से मौजूद टूल फ़्लो
Google Search या कोड एक्ज़ीक्यूशन जैसे बिल्ट-इन टूल के लिए, पूरी प्रोसेस एक एपीआई कॉल में होती है:
- आपने यह प्रॉम्प्ट भेजा: "GOOG के शेयर की मौजूदा कीमत का वर्गमूल क्या है?"
- Gemini यह तय करता है कि उसे टूल की ज़रूरत है या नहीं.इसके बाद, वह Google के सर्वर पर उन टूल को इस्तेमाल करता है. उदाहरण के लिए, शेयर की कीमत खोजना और फिर वर्गमूल का हिसाब लगाने के लिए Python कोड चलाना.
- Gemini, टूल के नतीजों के आधार पर फ़ाइनल जवाब भेजता है.
कस्टम टूल फ़्लो (फ़ंक्शन कॉल करना)
कस्टम टूल और कंप्यूटर के इस्तेमाल के लिए, आपका ऐप्लिकेशन एक्ज़ीक्यूशन को मैनेज करता है:
- आप फ़ंक्शन (टूल) के एलान के साथ एक प्रॉम्प्ट भेजते हैं.
- Gemini, किसी फ़ंक्शन (उदाहरण के लिए,
{"name": "get_order_status", "args": {"order_id": "123"}}) को कॉल करने के लिए, स्ट्रक्चर्ड JSON वापस भेज सकता है. - आप अपने ऐप्लिकेशन या एनवायरमेंट में फ़ंक्शन को लागू करते हैं.
- आपको फ़ंक्शन के नतीजे, Gemini को वापस भेजने होते हैं.
- Gemini, नतीजों का इस्तेमाल करके फ़ाइनल जवाब जनरेट करता है या किसी दूसरे टूल को कॉल करता है.
ज़्यादा जानकारी के लिए, फ़ंक्शन कॉल करने से जुड़ी गाइड पढ़ें.
स्ट्रक्चर्ड आउटपुट बनाम फ़ंक्शन कॉल करने की सुविधा
Gemini, स्ट्रक्चर्ड आउटपुट जनरेट करने के लिए दो तरीके उपलब्ध कराता है. फ़ंक्शन कॉलिंग का इस्तेमाल तब करें, जब मॉडल को आपके टूल या डेटा सिस्टम से कनेक्ट करके कोई इंटरमीडिएट चरण पूरा करना हो. अगर आपको मॉडल के फ़ाइनल जवाब को किसी खास स्कीमा के मुताबिक बनाना है, तो स्ट्रक्चर्ड आउटपुट का इस्तेमाल करें. जैसे, कस्टम यूज़र इंटरफ़ेस (यूआई) रेंडर करने के लिए.
बिल्डिंग एजेंट
एजेंट ऐसे सिस्टम होते हैं जो कई चरणों वाले टास्क पूरे करने के लिए, मॉडल और टूल का इस्तेमाल करते हैं. Gemini में, जवाब देने की क्षमता ("दिमाग़") और ज़रूरी टूल ("हाथ") उपलब्ध होते हैं. हालांकि, एजेंट की मेमोरी को मैनेज करने, प्लान लूप बनाने, और जटिल टूल चेनिंग करने के लिए, आपको अक्सर ऑर्केस्ट्रेशन फ़्रेमवर्क की ज़रूरत होती है.
Gemini को ओपन-सोर्स एजेंट फ़्रेमवर्क के साथ इंटिग्रेट किया जा सकता है:
- LangChain / LangGraph: ग्राफ़ स्ट्रक्चर का इस्तेमाल करके, स्टेटफ़ुल, मुश्किल ऐप्लिकेशन फ़्लो, और मल्टी-एजेंट सिस्टम बनाएं.
- LlamaIndex: RAG की सुविधा वाले बेहतर वर्कफ़्लो के लिए, Gemini एजेंट को अपने निजी डेटा से कनेक्ट करें.
- CrewAI: यह एक ऐसा फ़्रेमवर्क है जो ऑटोनॉमस एआई एजेंट को अलग-अलग भूमिकाएँ निभाने और मिलकर काम करने की सुविधा देता है.
- Vercel AI SDK: JavaScript/TypeScript में, एआई की मदद से काम करने वाले यूज़र इंटरफ़ेस और एजेंट बनाएं.
- Google ADK: यह एक ओपन-सोर्स फ़्रेमवर्क है. इसका इस्तेमाल, अलग-अलग प्लैटफ़ॉर्म पर काम करने वाले एआई एजेंट बनाने और उन्हें मैनेज करने के लिए किया जाता है.