رمزي
روبوت لعبة متعدد الوسائط يستدعي سلوكيات تم إنشاؤها من خلال وظائف
وظيفتها
يحاول "سيمون" تقليد سلوك البشر، مثل لعبة "سيمون يقول". أولاً، سيُسجّل أحد الأشخاص فيديو قصيرًا أو صورة أو صوتًا عبر تطبيق Chrome Gradio Python على شاشة تعمل باللمس. تحمِّل Gemini API إدخال الوسائط هذا وتحصل على وصف نصي للمشهد وأي أشخاص. بعد ذلك، يتمّ تصميم الوصف النصي من خلال طلب من أجل أن يختار Gemini أفضل وظيفة ممكنة لسلوك الروبوت من بين بضعة عشرات من المرشحين. يتم إنشاء دوال سلوك الروبوت يدويًا، ولكن يمكن أيضًا إنشاء سلوكيات جديدة باستخدام Gemini (إنشاء الرموز البرمجية) باستخدام نص برمجي. استضفنا بثًا مباشرًا على YouTube لتعليم المطوّرين كيفية إنشاء دوال سلوك الروبوتات الخاصة بهم. تم صنع "سيمون" من الرغوة والجوارب والشريط اللاصق، وهو يعمل على جهاز Raspberry Pi مزوّد بكاميرا وميكروفون USB وسماعات وثلاثة محركات تحكم صغيرة وعينَين من مصابيح LED وشاشة تعمل باللمس. جميع الرموز مفتوحة المصدر، ونحن نقدّم دليل إنشاء كاملاً يتضمّن تعليمات التثبيت وقائمة مواد التصنيع. نوفّر نصًا مساعدًا يتيح للمطوّرين طرح أسئلة حول "سيمون" على إحدى جلسات محادثة Gemini، مع تعبئتها مسبقًا بالسياق ذي الصلة. تتم كتابة كل الرموز البرمجية بلغة Python، ونستخدم وحدة async لتشغيل دوال السلوك وطلبات Gemini API بشكل موازٍ. تم تصميم الرمز البرمجي على شكل وحدات لتسهيل إمكانية تخصيصه وتوسيع نطاقه. نأمل أن يتمكّن المطوّرون من استخدام Simón كنقطة انطلاق لإنشاء مشاريعهم الخاصة باستخدام الروبوتات التي تستخدم واجهة برمجة التطبيقات Gemini API.
مصمَّم بالاستناد إلى
- الويب/Chrome
الفريق
من
hu-po
من
الولايات المتحدة