शेयर करें

12 दिसंबर, 2025

Ava: Building agentic workflows with Gemini 2.5 Flash and the Live API

जो एलिकाटा

को-फ़ाउंडर और सीटीओ, Ava

विशाल धर्माधिकारी

डेवलपर सॉल्यूशंस इंजीनियर

Ava की शोकेस हीरो इमेज

Ava, “एआई की मदद से काम करने वाला फ़ैमिली ऑपरेटिंग सिस्टम” है. इसे परिवार की ज़रूरतों का अनुमान लगाकर और टास्क को अपने-आप पूरा करके, परिवार की लॉजिस्टिक्स को मैनेज करने के लिए डिज़ाइन किया गया है.

माता-पिता के पास मौजूद जानकारी अक्सर व्यवस्थित नहीं होती. यह जानकारी उन्हें स्कूल से मिलने वाले ईमेल, फ़्लायर के स्क्रीनशॉट, PDF अटैचमेंट, WhatsApp पर लंबी बातचीत, और वॉइस नोट के ज़रिए मिलती है. आवा को कॉन्टेक्स्ट समझना चाहिए और बाहरी सेवाओं के साथ आसानी से इंटरैक्ट करना चाहिए.

असल दुनिया से मिलने वाले मुश्किल और बिना किसी स्ट्रक्चर वाले इनपुट को मैनेज करने के लिए, Ava की टीम ने टायर्ड आर्किटेक्चर लागू किया. इसमें, एजेंटिक पाइपलाइन के अलग-अलग चरणों के लिए Gemini 2.5 Flash मॉडल का इस्तेमाल किया गया. साथ ही, बातचीत वाला इंटरफ़ेस उपलब्ध कराने के लिए Live API का इस्तेमाल किया गया.

एवा का शोकेस

परफ़ॉर्मेंस और बेहतर तरीके से काम करने की क्षमता को ऑप्टिमाइज़ करना

आने वाले अनुरोधों को सबसे पहले एक लाइटवेट एजेंट राउटर मिलता है, ताकि उपयोगकर्ता को रिस्पॉन्सिव अनुभव मिल सके. यह राउटर, ट्राइएज सिस्टम के तौर पर काम करता है. यह इनपुट की प्राथमिकता तय करता है, मुख्य स्लॉट (कौन, कब, कहां) निकालता है, और यह तय करता है कि किस खास टूल या अगले मॉडल की ज़रूरत है.

Ava के सह-संस्थापक और सीटीओ, जो एलिकाटा के मुताबिक, “Gemini 2.5 Flash-Lite, बहुत कम समय में जवाब देने के लिए सबसे अच्छा मॉडल है.” यह मॉडल, जवाब देने में एक सेकंड से भी कम समय लेता है. साथ ही, यह क्वेरी के मकसद का पता लगाने और कम शब्दों में जवाब देने में भी मदद करता है.

जटिल प्लानिंग और एक्ज़ीक्यूशन को मैनेज करना

इरादे का पता चलने के बाद, टास्क को पूरा करने के लिए ज़्यादा सोच-विचार करने की ज़रूरत होती है. उदाहरण के लिए, स्कूल के कैलेंडर को पार्स करने, तारीखों को एक जैसा करने, और सही इवेंट का सुझाव देने के लिए, बारीकी से समझने की ज़रूरत होती है. Gemini 2.5 Flash की मदद से, Ava को “घर के सीओओ” के तौर पर इस्तेमाल किया जा सकता है. इसके लिए, उसे तकनीकी ज़रूरतों को पूरा करना होगा:

  • टेक्स्ट, इमेज, और ऑडियो को एक साथ प्रोसेस करना
  • अस्पष्ट जानकारी को ज़्यादा सटीक तरीके से समझना: स्कूल से मिली अलग-अलग जानकारी को सही तरीके से समझना
  • फ़ंक्शन कॉलिंग की सुविधा भरोसेमंद तरीके से काम करती है: यह पक्का करना कि Gmail और Calendar API को कॉल करने जैसी कार्रवाइयों में, स्ट्रक्चर्ड और भरोसेमंद डेटा का इस्तेमाल किया जाए


परिवार के सदस्य, Live API की मदद से बोलकर, घर के सभी काम मैनेज कर सकते हैं. एलिकाटा ने बताया कि उन्हें “ऑडियो को मूल भाषा में तैयार करने की ज़रूरत है”. इसलिए, उन्हें लगता है कि Ava एक नैचुरल टूल है.

एजेंट की तरह काम करने वाले सिस्टम बनाने का बेहतर तरीका

टीम ने डेवलपमेंट के दौरान, Google AI Studio का बड़े पैमाने पर इस्तेमाल किया. इससे, प्रॉम्प्ट और टूल स्कीमा को तेज़ी से दोहराने के साथ-साथ, कैंडिडेट मॉडल का A/B टेस्ट करने में मदद मिली. साथ ही, आइडिया से लेकर टेस्ट तक की प्रोसेस को कुछ दिनों से घटाकर कुछ घंटों में पूरा किया जा सका.

नतीजों से पता चला कि मल्टी-मॉडल अप्रोच काफ़ी असरदार है. उन्होंने देखा कि ईमेल थ्रेड और फ़्लायर की फ़ोटो जैसे नॉइज़ी इनपुट पर, पहले पास में ज़्यादा सटीक नतीजे मिले. अल्फ़ा स्प्रिंट के दौरान, Ava के 80% उपयोगकर्ता हर दिन सक्रिय थे. साथ ही, हज़ारों इवेंट की पुष्टि करके उन्हें कैलेंडर में जोड़ा गया.

तेज़ी से पढ़ने के लिए, ज़्यादा असरदार मॉडल का इस्तेमाल किया जाता है. साथ ही, मुश्किल विश्लेषण के लिए ज़्यादा संसाधन इस्तेमाल करने वाले मॉडल को रिज़र्व किया जाता है. इस तरह, एजेंटिक सिस्टम, असल ज़िंदगी की स्पीड से काम कर सकते हैं.

Gemini मॉडल और Live API की मदद से, एजेंट के काम करने के तरीके को कैसे बेहतर बनाया जा सकता है, यह जानने के लिए एपीआई से जुड़ा हमारा दस्तावेज़ पढ़ें.