Gemini API के साथ टूल इस्तेमाल करना

टूल, Gemini मॉडल की क्षमताओं को बढ़ाते हैं. इससे, ये मॉडल दुनिया में कार्रवाई कर पाते हैं, रीयल-टाइम में जानकारी ऐक्सेस कर पाते हैं, और मुश्किल कैलकुलेशन वाले काम कर पाते हैं. मॉडल, Live API के ज़रिए, स्टैंडर्ड अनुरोध-जवाब इंटरैक्शन और रीयल-टाइम स्ट्रीमिंग सेशन, दोनों में टूल का इस्तेमाल कर सकते हैं.

Gemini API, पूरी तरह से मैनेज किए गए, पहले से मौजूद टूल का एक सुइट उपलब्ध कराता है. इन्हें Gemini मॉडल के लिए ऑप्टिमाइज़ किया गया है. इसके अलावा, फ़ंक्शन कॉलिंग का इस्तेमाल करके, कस्टम टूल तय किए जा सकते हैं.

पहले से मौजूद टूल

टूल	ब्यौरा	उपयोग के उदाहरण
Google Search	जवाबों में, हाल की घटनाओं और वेब पर मौजूद तथ्यों के बारे में जानकारी शामिल करना, ताकि जवाबों में गलत जानकारी कम से कम हो.	- हाल के इवेंट के बारे में सवालों के जवाब देना - अलग-अलग सोर्स से तथ्यों की पुष्टि करना
Google Maps	जगह की जानकारी देने वाली ऐसी Assistant बनाएं जो जगहें ढूंढ सके, दिशाओं के लिए निर्देश दे सके, और स्थानीय संदर्भ के बारे में ज़्यादा जानकारी दे सके.	- एक से ज़्यादा स्टॉप वाली यात्रा की योजना बनाना - उपयोगकर्ता की शर्तों के आधार पर स्थानीय कारोबारों को ढूंढना
कोड चलाने की सुविधा	मॉडल को गणित की समस्याओं को हल करने या डेटा को सटीक तरीके से प्रोसेस करने के लिए, Python कोड लिखने और चलाने की अनुमति दें.	- मुश्किल गणितीय समीकरण हल करना - टेक्स्ट डेटा को सटीक तरीके से प्रोसेस और उसका विश्लेषण करना
यूआरएल का कॉन्टेक्स्ट	मॉडल को किसी वेब पेज या दस्तावेज़ से कॉन्टेंट पढ़ने और उसका विश्लेषण करने का निर्देश दें.	- किसी यूआरएल या दस्तावेज़ के आधार पर सवालों के जवाब देना - अलग-अलग वेब पेजों से जानकारी पाना
कंप्यूटर का इस्तेमाल (झलक)	इस कुकी का इस्तेमाल, Gemini को स्क्रीन देखने और वेब ब्राउज़र के यूज़र इंटरफ़ेस (क्लाइंट-साइड एक्ज़ीक्यूशन) के साथ इंटरैक्ट करने के लिए कार्रवाइयां जनरेट करने की अनुमति देने के लिए किया जाता है.	- बार-बार किए जाने वाले वेब-आधारित वर्कफ़्लो को अपने-आप पूरा करना - वेब ऐप्लिकेशन के यूज़र इंटरफ़ेस की जांच करना
फ़ाइल खोजना	Retrieval Augmented Generation (RAG) को चालू करने के लिए, अपने दस्तावेज़ों को इंडेक्स करें और उनमें खोज करें.	- तकनीकी मैन्युअल खोजना - मालिकाना हक वाले डेटा के आधार पर सवालों के जवाब देना

किसी टूल से जुड़ी लागतों के बारे में जानने के लिए, कीमत की जानकारी देने वाला पेज देखें.

टूल के इस्तेमाल की सुविधा कैसे काम करती है

टूल की मदद से मॉडल, बातचीत के दौरान कार्रवाइयों का अनुरोध कर सकता है. यह इस बात पर निर्भर करता है कि टूल, Google की ओर से मैनेज किया जा रहा है या आपके हिसाब से बनाया गया है.

पहले से मौजूद टूल फ़्लो

Google Search या कोड एक्ज़ीक्यूशन जैसे बिल्ट-इन टूल के लिए, पूरी प्रोसेस एक एपीआई कॉल में होती है:

आपने यह प्रॉम्प्ट भेजा: "GOOG के शेयर की मौजूदा कीमत का वर्गमूल क्या है?"
Gemini यह तय करता है कि उसे टूल की ज़रूरत है या नहीं.इसके बाद, वह Google के सर्वर पर टूल का इस्तेमाल करता है. उदाहरण के लिए, शेयर की कीमत खोजना और फिर वर्गमूल का हिसाब लगाने के लिए Python कोड चलाना.
Gemini, टूल के नतीजों के आधार पर फ़ाइनल जवाब भेजता है.

कस्टम टूल फ़्लो (फ़ंक्शन कॉल करना)

कस्टम टूल और कंप्यूटर के इस्तेमाल के लिए, आपका ऐप्लिकेशन ही प्रोसेस को पूरा करता है:

आपको फ़ंक्शन (टूल) के एलान के साथ एक प्रॉम्प्ट भेजना होगा.
Gemini, किसी फ़ंक्शन (उदाहरण के लिए, {"name": "get_order_status", "args": {"order_id": "123"}}) को कॉल करने के लिए, स्ट्रक्चर्ड JSON भेज सकता है.
आप अपने ऐप्लिकेशन या एनवायरमेंट में फ़ंक्शन को लागू करते हैं.
आपको फ़ंक्शन के नतीजे Gemini को वापस भेजने होते हैं.
Gemini, नतीजों का इस्तेमाल करके फ़ाइनल जवाब जनरेट करता है या किसी दूसरे टूल को कॉल करता है.

ज़्यादा जानकारी के लिए, फ़ंक्शन कॉल करने से जुड़ी गाइड पढ़ें.

स्ट्रक्चर्ड आउटपुट बनाम फ़ंक्शन कॉल करने की सुविधा

Gemini, स्ट्रक्चर्ड आउटपुट जनरेट करने के लिए दो तरीके उपलब्ध कराता है. फ़ंक्शन कॉलिंग का इस्तेमाल तब करें, जब मॉडल को आपके टूल या डेटा सिस्टम से कनेक्ट करके कोई इंटरमीडिएट चरण पूरा करना हो. अगर आपको मॉडल के फ़ाइनल जवाब को किसी खास स्कीमा के मुताबिक बनाना है, तो स्ट्रक्चर्ड आउटपुट का इस्तेमाल करें. जैसे, कस्टम यूज़र इंटरफ़ेस (यूआई) रेंडर करने के लिए.

टूल की मदद से स्ट्रक्चर्ड आउटपुट जनरेट करना

स्ट्रक्चर्ड आउटपुट को पहले से मौजूद टूल के साथ जोड़ा जा सकता है. इससे यह पक्का किया जा सकता है कि बाहरी डेटा या कंप्यूटेशन पर आधारित मॉडल के जवाब, अब भी स्ट्रिक्ट स्कीमा का पालन करते हों.

कोड के उदाहरणों के लिए, टूल की मदद से स्ट्रक्चर्ड आउटपुट जनरेट करना लेख पढ़ें.

बिल्डिंग एजेंट

एजेंट ऐसे सिस्टम होते हैं जो कई चरणों वाले टास्क पूरे करने के लिए, मॉडल और टूल का इस्तेमाल करते हैं. Gemini में, जवाब देने की क्षमता ("दिमाग़") और ज़रूरी टूल ("हाथ") उपलब्ध होते हैं. हालांकि, एजेंट की मेमोरी को मैनेज करने, प्लान लूप बनाने, और जटिल टूल चेनिंग करने के लिए, अक्सर आपको ऑर्केस्ट्रेशन फ़्रेमवर्क की ज़रूरत होती है.

एक से ज़्यादा चरणों वाले वर्कफ़्लो में, भरोसेमंद तरीके से काम करने के लिए, आपको ऐसे निर्देश देने चाहिए जिनसे यह तय हो सके कि मॉडल किस तरह से तर्क देगा और प्लान बनाएगा. Gemini, सामान्य तौर पर तर्क के साथ जवाब देता है. हालांकि, मुश्किल एजेंट के लिए ऐसे प्रॉम्प्ट फ़ायदेमंद होते हैं जिनसे कुछ खास व्यवहार लागू होते हैं. जैसे, समस्याओं के बावजूद काम जारी रखना, जोखिम का आकलन करना, और पहले से ही प्लान बनाना.

इन प्रॉम्प्ट को डिज़ाइन करने की रणनीतियों के लिए, एजेंटिक वर्कफ़्लो देखें. यहां सिस्टम के निर्देश का एक उदाहरण दिया गया है. इससे, एजेंट के तौर पर काम करने वाले कई बेंचमार्क पर परफ़ॉर्मेंस में करीब 5% का सुधार हुआ है.

एजेंट फ़्रेमवर्क

Gemini, ओपन-सोर्स एजेंट फ़्रेमवर्क के साथ इंटिग्रेट होता है. जैसे:

LangChain / LangGraph: ग्राफ़ स्ट्रक्चर का इस्तेमाल करके, स्टेटफ़ुल, मुश्किल ऐप्लिकेशन फ़्लो, और मल्टी-एजेंट सिस्टम बनाएं.
LlamaIndex: RAG की सुविधा वाले वर्कफ़्लो के लिए, Gemini एजेंट को अपने निजी डेटा से कनेक्ट करें.
CrewAI: यह एक ऐसा फ़्रेमवर्क है जो ऑटोनॉमस एआई एजेंट को एक साथ काम करने और भूमिका निभाने की सुविधा देता है.
Vercel AI SDK: JavaScript/TypeScript में, एआई की मदद से काम करने वाले यूज़र इंटरफ़ेस और एजेंट बनाएं.
Google ADK: यह एक ओपन-सोर्स फ़्रेमवर्क है. इसका इस्तेमाल, अलग-अलग प्लैटफ़ॉर्म पर काम करने वाले एआई एजेंट बनाने और उन्हें मैनेज करने के लिए किया जाता है.