Pomo

किसी भी चीज़ को इंसान की तरह दिखाना - अपने पालतू जानवरों, पेंटिंग वगैरह से बात करना

यह क्या करता है

हमें Google Project Astra के प्रॉडक्ट डेमो से प्रेरणा मिली, लेकिन हम सिस्टम के प्रॉम्प्ट को बदलना चाहते थे, ताकि नए और मज़ेदार इस्तेमाल के उदाहरण आज़माए जा सकें. माफ़ करें, Astra को अब तक रिलीज़ नहीं किया गया है. साथ ही, इसमें सिस्टम प्रॉम्प्ट में बदलाव करने वाला एपीआई भी नहीं होगा. इसलिए, हमने अपना ओपन सोर्स वर्शन बनाने का फ़ैसला लिया है.

इस्तेमाल के शुरुआती उदाहरण के लिए, हम एआई मॉडल की सीरीज़ का इस्तेमाल करते हैं. इससे, उपयोगकर्ता अपने आस-पास के माहौल के साथ नए और मज़ेदार तरीकों से इंटरैक्ट कर पाते हैं! खास तौर पर, वे अपने पालतू कुत्ते/बिल्ली से लेकर दीवार पर लगी पेंटिंग और पीने वाली कॉफ़ी तक, किसी भी चीज़ को मानवीय रूप दे सकती हैं. उपयोगकर्ता किसी ऑब्जेक्ट पर क्लिक करता है. इसके बाद, हम TensorFlow मॉडल का इस्तेमाल करके उस पर मास्क बनाते हैं. साथ ही, ऑब्जेक्ट के कटआउट को बैकग्राउंड के साथ दो इमेज के तौर पर Gemini Flash को भेजते हैं. ज़्यादा जानकारी के लिए, https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter पर जाएं. Gemini, ऑब्जेक्ट की पहचान करता है और हम एक नई Gemini स्ट्रीम चैट शुरू करते हैं.इसमें सिस्टम प्रॉम्प्ट, Gemini को उसकी नई भूमिका के बारे में बताता है. जैसे, दीवार पर लगी पेंटिंग. इसके बाद, उपयोगकर्ता इस नए ऑब्जेक्ट / जानवर के साथ बातचीत कर सकता है.

हम उपयोगकर्ता के बोलने के समय की पहचान करने के लिए, वॉइस-ऐक्टिविटी-डिटेक्शन (वीएडी) का इस्तेमाल करते हैं. साथ ही, 1.3 सेकंड तक कोई आवाज़ न आने पर, बातचीत जारी रखने के लिए, हम Gemini को ऑडियो के साथ-साथ उसके कैमरे का नया स्क्रीन कैप्चर भेजते हैं. जब Gemini जवाब देता है, तो ElevenLabs के टेक्स्ट-टू-स्पीच स्ट्रीमिंग एपीआई का इस्तेमाल करके, टेक्स्ट को बोली में बदला जाता है. हम अपनी पाइपलाइन में छह एआई मॉडल का इस्तेमाल करते हैं. इनमें Google इमेज सेगमेंटर, ऑप्टिकल फ़्लो, Gemini फ़्लैश (दो बार), वीएडी, और टेक्स्ट-टू-स्पीच शामिल हैं.

- समीर और टिम

इनकी मदद से बनाया गया

  • वेब/Chrome
  • Google का इंटरैक्टिव सेगमेंटर

टीम

इन्होंने बदलाव किया है

Pomo

इन्होंने भेजा

अमेरिका