Gemini की Deep Research की सुविधा अब झलक के तौर पर उपलब्ध है. इसमें साथ मिलकर प्लान बनाने, विज़ुअलाइज़ेशन, एमसीपी के साथ काम करने की सुविधा वगैरह शामिल है.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

एजेंट की खास जानकारी

एजेंट, ऐसे सिस्टम होते हैं जो Gemini मॉडल, टूल के सेट, और तर्क करने की क्षमताओं का इस्तेमाल करके, मुश्किल और कई चरणों वाले टास्क पूरे करते हैं. साथ ही, खास लक्ष्यों को हासिल करते हैं. किसी एक मॉडल कॉल के उलट, एजेंट किसी उपयोगकर्ता की ज़रूरत को पूरा करने के लिए, प्लान बना सकता है, कार्रवाइयों की सीरीज़ को पूरा कर सकता है, एक्सटर्नल सिस्टम के साथ इंटरैक्ट कर सकता है, और जानकारी को सिंथेसाइज़ कर सकता है.

Gemini API की मदद से, इन सुविधाओं का इस्तेमाल करके दमदार एजेंट बनाए जा सकते हैं:

Gemini मॉडल: ये कोर इंटेलिजेंस हैं, जो तर्क करने और भाषा को समझने की क्षमता देते हैं.
टूल: ये ऐसी क्षमताएं हैं जो मॉडल को असल दुनिया की जानकारी और कार्रवाइयों से कनेक्ट करती हैं. ये बिल्ट-इन टूल (जैसे, Google Search, Maps, कोड एक्ज़ीक्यूशन) या कस्टम टूल हो सकते हैं.
फ़ंक्शन कॉलिंग: यह Gemini मॉडल के साथ, अपने कस्टम टूल और एपीआई को तय करने और कनेक्ट करने का तरीका है.
सूझ-बूझ वाला: यह ऐसी सुविधाएं हैं जो मुश्किल टास्क के लिए, मॉडल की तर्क करने और प्लान बनाने की क्षमता को बेहतर बनाती हैं.
लॉन्ग कॉन्टेक्स्ट: इससे एजेंट, लंबे समय तक होने वाले इंटरैक्शन के दौरान, स्टेट और जानकारी को बनाए रख पाते हैं.

उपलब्ध एजेंट

डीप रिसर्च एजेंट: यह एक ऑटोनॉमस एजेंट है, जो मार्केट एनालिसिस, ड्यू डिलिजेंस, और लिटरेचर रिव्यू जैसे इस्तेमाल के उदाहरणों के लिए, कई चरणों वाले रिसर्च टास्क की योजना बनाता है, उन्हें पूरा करता है, और सिंथेसाइज़ करता है.

एजेंट बनाना

एजेंट, कई चरणों वाले टास्क पूरे करने के लिए मॉडल और टूल का इस्तेमाल करते हैं. Gemini, तर्क करने की क्षमता ("दिमाग") और ज़रूरी टूल ("हाथ") उपलब्ध कराता है. हालांकि, एजेंट की मेमोरी को मैनेज करने, लूप की योजना बनाने, और मुश्किल टूल चेनिंग करने के लिए, आपको अक्सर ऑर्केस्ट्रेशन फ़्रेमवर्क की ज़रूरत होती है.

कई चरणों वाले वर्कफ़्लो में भरोसेमंद तरीके से काम करने के लिए, आपको ऐसे निर्देश बनाने चाहिए जिनसे यह साफ़ तौर पर कंट्रोल किया जा सके कि मॉडल कैसे तर्क करता है और प्लान बनाता है. Gemini, सामान्य तौर पर तर्क करने की मज़बूत क्षमता उपलब्ध कराता है. हालांकि, मुश्किल एजेंट को ऐसे प्रॉम्प्ट से फ़ायदा मिलता है जो खास व्यवहार लागू करते हैं. जैसे, समस्याओं के बावजूद काम जारी रखना, जोखिम का आकलन करना, और पहले से प्लानिंग करना.

इन प्रॉम्प्ट को डिज़ाइन करने की रणनीतियों के लिए, एजेंटिक वर्कफ़्लो देखें. यहां, सिस्टम के निर्देश का एक उदाहरण दिया गया है. इससे कई एजेंटिक बेंचमार्क पर परफ़ॉर्मेंस में करीब 5% का सुधार हुआ है.

एजेंट फ़्रेमवर्क

Gemini, ओपन-सोर्स एजेंट फ़्रेमवर्क के साथ इंटिग्रेट होता है. जैसे:

LangChain / LangGraph: ग्राफ़ स्ट्रक्चर का इस्तेमाल करके, स्टेटफ़ुल, मुश्किल ऐप्लिकेशन फ़्लो, और मल्टी-एजेंट सिस्टम बनाएं.
LlamaIndex: RAG-बेहतर वर्कफ़्लो के लिए, Gemini एजेंट को अपने निजी डेटा से कनेक्ट करें.
CrewAI: सहयोगी, रोल-प्लेइंग ऑटोनॉमस एआई एजेंट को ऑर्केस्ट्रेट करें.
Vercel AI SDK: JavaScript/TypeScript में, एआई से चलने वाले यूज़र इंटरफ़ेस और एजेंट बनाएं.
Google ADK: यह एक ओपन-सोर्स फ़्रेमवर्क है. इसकी मदद से, इंटरऑपरेबल एआई एजेंट बनाए और ऑर्केस्ट्रेट किए जा सकते हैं.