एजेंट, ऐसे सिस्टम होते हैं जो Gemini मॉडल, टूल के सेट, और तर्क करने की क्षमताओं का इस्तेमाल करके, मुश्किल और कई चरणों वाले टास्क पूरे करते हैं. साथ ही, खास लक्ष्यों को हासिल करते हैं. किसी एक मॉडल कॉल के उलट, एजेंट किसी उपयोगकर्ता की ज़रूरत को पूरा करने के लिए, प्लान बना सकता है, कार्रवाइयों की सीरीज़ को पूरा कर सकता है, एक्सटर्नल सिस्टम के साथ इंटरैक्ट कर सकता है, और जानकारी को सिंथेसाइज़ कर सकता है.
Gemini API की मदद से, इन सुविधाओं का इस्तेमाल करके दमदार एजेंट बनाए जा सकते हैं:
- Gemini मॉडल: ये कोर इंटेलिजेंस हैं, जो तर्क करने और भाषा को समझने की क्षमता देते हैं.
- टूल: ये ऐसी क्षमताएं हैं जो मॉडल को असल दुनिया की जानकारी और कार्रवाइयों से कनेक्ट करती हैं. ये बिल्ट-इन टूल (जैसे, Google Search, Maps, कोड एक्ज़ीक्यूशन) या कस्टम टूल हो सकते हैं.
- फ़ंक्शन कॉलिंग: यह Gemini मॉडल के साथ, अपने कस्टम टूल और एपीआई को तय करने और कनेक्ट करने का तरीका है.
- सूझ-बूझ वाला: यह ऐसी सुविधाएं हैं जो मुश्किल टास्क के लिए, मॉडल की तर्क करने और प्लान बनाने की क्षमता को बेहतर बनाती हैं.
- लॉन्ग कॉन्टेक्स्ट: इससे एजेंट, लंबे समय तक होने वाले इंटरैक्शन के दौरान, स्टेट और जानकारी को बनाए रख पाते हैं.
उपलब्ध एजेंट
- डीप रिसर्च एजेंट: यह एक ऑटोनॉमस एजेंट है, जो मार्केट एनालिसिस, ड्यू डिलिजेंस, और लिटरेचर रिव्यू जैसे इस्तेमाल के उदाहरणों के लिए, कई चरणों वाले रिसर्च टास्क की योजना बनाता है, उन्हें पूरा करता है, और सिंथेसाइज़ करता है.
एजेंट बनाना
एजेंट, कई चरणों वाले टास्क पूरे करने के लिए मॉडल और टूल का इस्तेमाल करते हैं. Gemini, तर्क करने की क्षमता ("दिमाग") और ज़रूरी टूल ("हाथ") उपलब्ध कराता है. हालांकि, एजेंट की मेमोरी को मैनेज करने, लूप की योजना बनाने, और मुश्किल टूल चेनिंग करने के लिए, आपको अक्सर ऑर्केस्ट्रेशन फ़्रेमवर्क की ज़रूरत होती है.
कई चरणों वाले वर्कफ़्लो में भरोसेमंद तरीके से काम करने के लिए, आपको ऐसे निर्देश बनाने चाहिए जिनसे यह साफ़ तौर पर कंट्रोल किया जा सके कि मॉडल कैसे तर्क करता है और प्लान बनाता है. Gemini, सामान्य तौर पर तर्क करने की मज़बूत क्षमता उपलब्ध कराता है. हालांकि, मुश्किल एजेंट को ऐसे प्रॉम्प्ट से फ़ायदा मिलता है जो खास व्यवहार लागू करते हैं. जैसे, समस्याओं के बावजूद काम जारी रखना, जोखिम का आकलन करना, और पहले से प्लानिंग करना.
इन प्रॉम्प्ट को डिज़ाइन करने की रणनीतियों के लिए, एजेंटिक वर्कफ़्लो देखें. यहां, सिस्टम के निर्देश का एक उदाहरण दिया गया है. इससे कई एजेंटिक बेंचमार्क पर परफ़ॉर्मेंस में करीब 5% का सुधार हुआ है.
एजेंट फ़्रेमवर्क
Gemini, ओपन-सोर्स एजेंट फ़्रेमवर्क के साथ इंटिग्रेट होता है. जैसे:
- LangChain / LangGraph: ग्राफ़ स्ट्रक्चर का इस्तेमाल करके, स्टेटफ़ुल, मुश्किल ऐप्लिकेशन फ़्लो, और मल्टी-एजेंट सिस्टम बनाएं.
- LlamaIndex: RAG-बेहतर वर्कफ़्लो के लिए, Gemini एजेंट को अपने निजी डेटा से कनेक्ट करें.
- CrewAI: सहयोगी, रोल-प्लेइंग ऑटोनॉमस एआई एजेंट को ऑर्केस्ट्रेट करें.
- Vercel AI SDK: JavaScript/TypeScript में, एआई से चलने वाले यूज़र इंटरफ़ेस और एजेंट बनाएं.
- Google ADK: यह एक ओपन-सोर्स फ़्रेमवर्क है. इसकी मदद से, इंटरऑपरेबल एआई एजेंट बनाए और ऑर्केस्ट्रेट किए जा सकते हैं.