Gemini ह्यूमनॉइड रोबोट
Gemini की मदद से काम करने वाला रोबोट, ज़्यादा नैचुरल और दिलचस्प अनुभव दे रहा है.
यह क्या करता है
इंटिग्रेशन में कई मुख्य कॉम्पोनेंट शामिल होते हैं: चैटबॉट सेवा, चैटबॉट ब्रिज, बोली की पहचान करने वाला मॉड्यूल, और डायलॉग मॉड्यूल. चैटबॉट सेवा, बातचीत के पूरे इतिहास को मैनेज करने और Gemini मॉडल का इस्तेमाल करके, पिछली बातचीत के आधार पर जवाब जनरेट करने में अहम भूमिका निभाती है. खास तौर पर, जवाब जनरेट करने के लिए Gemini-pro मॉडल का इस्तेमाल किया जाता है. अलग-अलग प्रोग्रामिंग एनवायरमेंट के बीच कम्यूनिकेशन गैप को कम करने के लिए, चैटबॉट ब्रिज, ZeroMQ का इस्तेमाल करता है. इस कॉम्पोनेंट की मदद से, चैटबॉट सेवा और NaoQi एक्सटेंशन मॉड्यूल के बीच आसानी से कम्यूनिकेशन किया जा सकता है. स्पीच रिकॉग्निशन मॉड्यूल, NaoQi ALAudioDevice का इस्तेमाल करके रोबोट के माइक्रोफ़ोन से ऑडियो इनपुट कैप्चर करता है. ऑडियो रिकॉर्डिंग को वॉल्यूम थ्रेशोल्ड के हिसाब से सेगमेंट में बांटा जाता है. इसके बाद, इन सेगमेंट वाली रिकॉर्डिंग को बोली को लेख में बदलने के विश्लेषण के लिए, Google की क्लाउड सेवा पर भेजा जाता है. अगर बोली को पहचान लिया जाता है, तो उससे जनरेट हुए टेक्स्ट को चैटबॉट ब्रिज पर भेजा जाता है.
बातचीत मॉड्यूल, NaoQi ALAnimatedSpeech का इस्तेमाल करके, Gemini से जनरेट किए गए टेक्स्ट के जवाबों को बोली में बदल देता है. यह मॉड्यूल, बोली पहचानने वाले मॉड्यूल के साथ भी काम करता है, ताकि रोबोट के बोलने के दौरान ऑडियो रिकॉर्डिंग रोकी जा सके. इससे, बारी-बारी से बातचीत करने वाले सिस्टम को पक्का किया जा सकता है, जिसमें रोबोट बारी-बारी से सुनता और जवाब देता है.
इनकी मदद से बनाया गया
- ह्यूमनॉइड रोबोट
टीम
इन्होंने भेजा
यूके