एजेंट की खास जानकारी

एजेंट ऐसे सिस्टम होते हैं जो Gemini मॉडल, टूल के सेट, और तर्क करने की क्षमताओं का इस्तेमाल करते हैं. इससे वे मुश्किल और कई चरणों वाले टास्क पूरे करते हैं और खास लक्ष्यों को हासिल करते हैं. किसी एक मॉडल कॉल के उलट, एजेंट किसी उपयोगकर्ता के अनुरोध को पूरा करने के लिए, कई कार्रवाइयों की योजना बना सकता है, उन्हें लागू कर सकता है, बाहरी सिस्टम के साथ इंटरैक्ट कर सकता है, और जानकारी को व्यवस्थित कर सकता है.

Gemini API की मदद से, इन सुविधाओं का इस्तेमाल करके बेहतर एजेंट बनाए जा सकते हैं:

  • Gemini मॉडल: ये मुख्य इंटेलिजेंस हैं. इनसे तर्क करने और भाषा को समझने में मदद मिलती है.
  • टूल: ये ऐसी सुविधाएं होती हैं जो मॉडल को असल दुनिया की जानकारी और कार्रवाइयों से जोड़ती हैं. ये टूल, पहले से मौजूद टूल (जैसे कि Google Search, Maps, Code Execution) या कस्टम टूल हो सकते हैं.
  • फ़ंक्शन कॉलिंग: यह एक ऐसा तरीका है जिससे Gemini मॉडल के लिए, अपने कस्टम टूल और एपीआई तय किए जा सकते हैं और उन्हें कनेक्ट किया जा सकता है.
  • सोचने-समझने की क्षमता: ये ऐसी सुविधाएं हैं जो मॉडल की सोचने-समझने की क्षमता को बेहतर बनाती हैं. साथ ही, मुश्किल टास्क के लिए प्लान बनाने में मदद करती हैं.
  • लंबे कॉन्टेक्स्ट को याद रखने की सुविधा: इससे एजेंट, लंबे समय तक होने वाले इंटरैक्शन के दौरान स्थिति और जानकारी को बनाए रख पाते हैं.

उपलब्ध एजेंट

  • डीप रिसर्च एजेंट: यह एक ऐसा एजेंट है जो अपने-आप काम करता है. यह मार्केट का विश्लेषण, ज़रूरी जांच, और साहित्य की समीक्षा जैसे इस्तेमाल के उदाहरणों के लिए, कई चरणों वाले रिसर्च टास्क की योजना बनाता है, उन्हें पूरा करता है, और उन्हें एक साथ जोड़ता है.

बिल्डिंग एजेंट

एजेंट, एक से ज़्यादा चरणों वाले टास्क पूरे करने के लिए मॉडल और टूल का इस्तेमाल करते हैं. Gemini में तर्क करने की क्षमता ("दिमाग") और ज़रूरी टूल ("हाथ") उपलब्ध होते हैं. हालांकि, एजेंट की मेमोरी को मैनेज करने, प्लान लूप बनाने, और जटिल टूल चेनिंग करने के लिए, आपको अक्सर ऑर्केस्ट्रेशन फ़्रेमवर्क की ज़रूरत होती है.

एक से ज़्यादा चरणों वाले वर्कफ़्लो में, भरोसेमंद नतीजे पाने के लिए आपको ऐसे निर्देश देने चाहिए जिनसे यह तय हो सके कि मॉडल किस तरह से तर्क देगा और प्लान बनाएगा. Gemini, सामान्य तौर पर तर्क के साथ जवाब देता है. हालांकि, मुश्किल एजेंट के लिए ऐसे प्रॉम्प्ट फ़ायदेमंद होते हैं जिनसे कुछ खास व्यवहार लागू होते हैं. जैसे, समस्याओं के बावजूद काम जारी रखना, जोखिम का आकलन करना, और पहले से ही प्लान बनाना.

इन प्रॉम्प्ट को डिज़ाइन करने की रणनीतियों के लिए, एजेंटिक वर्कफ़्लो देखें. यहां सिस्टम के निर्देश का एक उदाहरण दिया गया है. इससे, एजेंट के तौर पर काम करने वाले कई एआई मॉडल की परफ़ॉर्मेंस में करीब 5% का सुधार हुआ.

एजेंट फ़्रेमवर्क

Gemini, ओपन-सोर्स एजेंट फ़्रेमवर्क के साथ इंटिग्रेट होता है. जैसे:

  • LangChain / LangGraph: ग्राफ़ स्ट्रक्चर का इस्तेमाल करके, स्टेटफ़ुल, मुश्किल ऐप्लिकेशन फ़्लो, और मल्टी-एजेंट सिस्टम बनाएं.
  • LlamaIndex: Gemini एजेंट को अपने निजी डेटा से कनेक्ट करें, ताकि RAG की मदद से बेहतर वर्कफ़्लो बनाए जा सकें.
  • CrewAI: यह ऑटोनॉमस एआई एजेंट के साथ मिलकर काम करने और भूमिका निभाने में मदद करता है.
  • Vercel AI SDK: JavaScript/TypeScript में, एआई की मदद से काम करने वाले यूज़र इंटरफ़ेस और एजेंट बनाएं.
  • Google ADK: यह एक ओपन-सोर्स फ़्रेमवर्क है. इसका इस्तेमाल, अलग-अलग प्लैटफ़ॉर्म पर काम करने वाले एआई एजेंट बनाने और उन्हें व्यवस्थित करने के लिए किया जाता है.