پومو
هر چیزی را انسانسازی کنید - با حیوانات خانگی، نقاشیها و موارد دیگر صحبت کنید
کاری که انجام می دهد
ما از نسخه نمایشی محصول Google Project Astra الهام گرفتیم اما میخواستیم اعلان سیستم را تغییر دهیم تا موارد استفاده جدید و سرگرمکننده را امتحان کنیم. متأسفانه، Astra هنوز منتشر نشده است و همچنین دارای یک API با دستکاری سریع سیستم نیست، بنابراین ما تصمیم گرفتیم نسخه منبع باز خود را ایجاد کنیم.
برای استفاده اولیه، ما از یک سری مدلهای هوش مصنوعی استفاده میکنیم تا کاربران بتوانند با محیط اطراف خود به روشهای جدید و سرگرمکننده تعامل داشته باشند! به طور خاص، آنها میتوانند هر چیزی را انسانسازی کنند، از سگ/گربه خانگیشان، نقاشی روی دیوار، قهوهای که مینوشند. کاربر روی شی ای کلیک می کند که ما با استفاده از مدل های TensorFlow روی آن ماسک ایجاد می کنیم و برش آن را به همراه پس زمینه به عنوان دو تصویر به Gemini Flash می فرستیم (به https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter مراجعه کنید). Gemini شی را شناسایی میکند و ما یک گفتگوی جریانی جدید Gemini را شروع میکنیم که در آن فرمان سیستم به Gemini از نقش جدید آن (مثلاً نقاشی روی دیوار) اطلاع میدهد. سپس کاربر می تواند با این شیء/حیوان انسانی جدید صحبت کند.
ما از تشخیص فعالیت صوتی (VAD) برای شناسایی زمانی که کاربر در حال صحبت است استفاده می کنیم و پس از 1.3 ثانیه سکوت، آخرین تصویربرداری از صفحه نمایش دوربین او را به همراه صدا برای ادامه مکالمه برای Gemini ارسال می کنیم. وقتی Gemini پاسخ میدهد، متن با استفاده از API جریان متن به گفتار ElevenLabs به گفتار تبدیل میشود. بین قطعهساز تصویر Google، جریان نوری، فلش جمینی (دو بار)، VAD و تبدیل متن به گفتار، ما از ۶ مدل هوش مصنوعی در خط لوله خود استفاده میکنیم.
- سام و تیم
ساخته شده با
- وب/کروم
- قطعهساز تعاملی توسط Google
تیم
توسط
پومو
از
ایالات متحده