सिमॉन

मल्टीमोडल टॉय रोबोट, जो जनरेट किए गए व्यवहारों को फ़ंक्शन-कॉल करता है

यह क्या करता है

सिमॉन, "सिमॉन ने कहा" जैसे गेम में, इंसानों की नकल करने की कोशिश करता है. सबसे पहले, कोई व्यक्ति टचस्क्रीन डिसप्ले पर Chrome Gradio Python ऐप्लिकेशन की मदद से, कोई छोटा वीडियो, इमेज या ऑडियो रिकॉर्ड करेगा. Gemini API, इस मीडिया इनपुट को अपलोड करता है और सीन और उसमें मौजूद लोगों के बारे में टेक्स्ट में जानकारी पाता है. इसके बाद, टेक्स्ट के ब्यौरे को प्रॉम्प्ट के हिसाब से तैयार किया जाता है, ताकि Gemini फ़ंक्शन-कॉल करने पर, रोबोट के व्यवहार से जुड़े कुछ दर्जन विकल्पों में से सबसे अच्छा विकल्प चुना जा सके. रोबोट के व्यवहार के फ़ंक्शन, मैन्युअल तरीके से बनाए जाते हैं. हालांकि, स्क्रिप्ट का इस्तेमाल करके Gemini (कोड जनरेशन) की मदद से, नए व्यवहार भी जनरेट किए जा सकते हैं. हमने YouTube पर एक लाइव स्ट्रीम की थी. इसमें हमने डेवलपर को बताया था कि वे रोबोट के व्यवहार से जुड़े फ़ंक्शन कैसे बना सकते हैं. सिमॉन को फ़ोम, मोजे, और टेप से बनाया गया है. यह Raspberry Pi पर काम करता है. इसमें एक कैमरा, यूएसबी माइक्रोफ़ोन, स्पीकर, तीन हॉबी सर्वो, दो एलईडी आंखें, और टचस्क्रीन डिसप्ले है. सभी कोड ओपन सोर्स हैं. साथ ही, हम इंस्टॉल करने के निर्देशों और बीओएम के साथ पूरी बिल्ड गाइड उपलब्ध कराते हैं. हम एक हेल्पर स्क्रिप्ट उपलब्ध कराते हैं. इसकी मदद से, डेवलपर Gemini चैट इंस्टेंस में, सिमॉन के बारे में सवाल पूछ सकते हैं. साथ ही, इससे उन्हें काम के कॉन्टेक्स्ट के साथ सवालों के जवाब पहले से मिल जाते हैं. पूरा कोड Python में लिखा गया है. साथ ही, हम व्यवहार फ़ंक्शन और Gemini एपीआई कॉल को एक साथ चलाने के लिए, async मॉड्यूल का इस्तेमाल करते हैं. कोड का डिज़ाइन मॉड्यूलर है, ताकि इसे आसानी से पसंद के मुताबिक बनाया जा सके और इसमें नई सुविधाएं जोड़ी जा सकें. हमें उम्मीद है कि डेवलपर, Gemini API का इस्तेमाल करके रोबोटिक्स प्रोजेक्ट बनाने के लिए, Simón को लॉन्चिंग पॉइंट के तौर पर इस्तेमाल कर पाएंगे.

इनकी मदद से बनाया गया

  • वेब/Chrome

टीम

इन्होंने बदलाव किया है

hu-po

इन्होंने भेजा

अमेरिका