12 दिसंबर, 2025
Ava: Gemini 2.5 Flash और Live API की मदद से, एजेंट के तौर पर काम करने वाले वर्कफ़्लो बनाना
Ava, “एआई की मदद से काम करने वाला फ़ैमिली ऑपरेटिंग सिस्टम” है. इसे परिवार की ज़रूरतों का अनुमान लगाकर, टास्क को अपने-आप पूरा करने के लिए डिज़ाइन किया गया है. इससे परिवार के सदस्यों को अपनी ज़िंदगी को बेहतर तरीके से मैनेज करने में मदद मिलती है.
माता-पिता के पास मौजूद जानकारी अक्सर व्यवस्थित नहीं होती. यह जानकारी उन्हें स्कूल से मिलने वाले ईमेल, फ़्लायर के स्क्रीनशॉट, PDF अटैचमेंट, WhatsApp पर लंबी बातचीत, और वॉइस नोट के ज़रिए मिलती है. Ava को कॉन्टेक्स्ट समझना चाहिए और बाहरी सेवाओं के साथ आसानी से इंटरैक्ट करना चाहिए.
असल दुनिया से मिलने वाले इनपुट, व्यवस्थित नहीं होते हैं. इन्हें मैनेज करने के लिए, Ava की टीम ने टायर्ड आर्किटेक्चर लागू किया. इसके लिए, उन्होंने एजेंटिक पाइपलाइन के अलग-अलग चरणों के लिए Gemini 2.5 Flash मॉडल का इस्तेमाल किया. साथ ही, बातचीत वाला इंटरफ़ेस उपलब्ध कराने के लिए Live API का इस्तेमाल किया.
परफ़ॉर्मेंस और बेहतर तरीके से काम करने की क्षमता को ऑप्टिमाइज़ करना
आने वाले अनुरोधों को सबसे पहले एक लाइटवेट एजेंट राउटर मिलता है, ताकि उपयोगकर्ता को तुरंत जवाब मिल सके. यह राउटर, ट्राइएज सिस्टम के तौर पर काम करता है. यह इनपुट की प्राथमिकता तय करता है, मुख्य स्लॉट (कौन, कब, कहां) निकालता है, और यह तय करता है कि किस खास टूल या अगले मॉडल की ज़रूरत है.
Ava के सह-संस्थापक और सीटीओ, जो एलिकाटा के मुताबिक, “Gemini 2.5 Flash-Lite, बहुत कम समय में जवाब देने के लिए सबसे अच्छा मॉडल है.” यह मॉडल, जवाब देने में एक सेकंड से भी कम समय लेता है. साथ ही, यह क्वेरी के मकसद का पता लगाने और कम शब्दों में जवाब देने में भी मदद करता है.
जटिल प्लानिंग और एक्ज़ीक्यूशन को मैनेज करना
इरादा तय हो जाने के बाद, अक्सर कामों के लिए ज़्यादा तर्क की ज़रूरत होती है. उदाहरण के लिए, स्कूल के कैलेंडर को पार्स करने, तारीखों को एक जैसा करने, और सही इवेंट का सुझाव देने के लिए, बारीकी से समझने की ज़रूरत होती है. Gemini 2.5 Flash की मदद से, Ava को “घर के सीओओ” के तौर पर इस्तेमाल किया जा सकता है. इसके लिए, उसे तकनीकी ज़रूरतों को पूरा करना होगा:
- टेक्स्ट, इमेज, और ऑडियो को एक साथ प्रोसेस करना
- अस्पष्ट जानकारी को ज़्यादा सटीक तरीके से समझना: स्कूल से मिली अलग-अलग जानकारी को सही तरीके से समझना
- फ़ंक्शन को भरोसेमंद तरीके से कॉल करना: यह पक्का करना कि Gmail और Calendar API को कॉल करने जैसी कार्रवाइयों में, स्ट्रक्चर्ड और भरोसेमंद डेटा का इस्तेमाल किया जाए
परिवार के सदस्य, Live API की मदद से बोलकर, घर के सभी काम मैनेज कर सकते हैं. एलिकाटा ने बताया कि उन्हें “ऑडियो के लिए नेटिव भाषा का इस्तेमाल करना ज़रूरी है”. इसलिए, उन्हें लगता है कि Ava एक नैचुरल टूल है.
एजेंट की तरह काम करने वाले सिस्टम बनाने का बेहतर तरीका
टीम ने डेवलपमेंट के दौरान, Google AI Studio का बड़े पैमाने पर इस्तेमाल किया. इससे, प्रॉम्प्ट और टूल स्कीमा को तेज़ी से दोहराने के साथ-साथ, कैंडिडेट मॉडल का A/B टेस्ट करने में मदद मिली. साथ ही, आइडिया से लेकर टेस्ट तक के लूप को दिनों से घंटों तक कम किया जा सका.
नतीजों से पता चला कि मल्टी-मॉडल अप्रोच कितना असरदार है. उन्होंने देखा कि ईमेल थ्रेड और फ़्लायर की फ़ोटो जैसे नॉइज़ी इनपुट पर, पहले पास में ज़्यादा सटीक नतीजे मिले. अल्फ़ा स्प्रिंट के दौरान, Ava के 80% उपयोगकर्ता हर दिन सक्रिय थे. साथ ही, हज़ारों इवेंट की पुष्टि करके उन्हें कैलेंडर में जोड़ा गया.
तेज़ी से पढ़ने के लिए, ज़्यादा असरदार मॉडल का इस्तेमाल किया जाता है. साथ ही, मुश्किल विश्लेषण के लिए, ज़्यादा रिसोर्स का इस्तेमाल करने वाले मॉडल को रिज़र्व किया जाता है. इस तरह, एजेंटिक सिस्टम, असल ज़िंदगी की स्पीड से काम कर सकते हैं.
Gemini मॉडल और Live API की मदद से, एजेंट के काम करने के तरीके को बेहतर बनाने के बारे में जानने के लिए, हमारा एपीआई दस्तावेज़ पढ़ें.