پومو

هر چیزی را انسان‌سازی کنید - با حیوانات خانگی، نقاشی‌ها و موارد دیگر صحبت کنید

کاری که انجام می دهد

ما از نسخه نمایشی محصول Google Project Astra الهام گرفتیم اما می‌خواستیم اعلان سیستم را تغییر دهیم تا موارد استفاده جدید و سرگرم‌کننده را امتحان کنیم. متأسفانه، Astra هنوز منتشر نشده است و همچنین دارای یک API با دستکاری سریع سیستم نیست، بنابراین ما تصمیم گرفتیم نسخه منبع باز خود را ایجاد کنیم.

برای استفاده اولیه، ما از یک سری مدل‌های هوش مصنوعی استفاده می‌کنیم تا کاربران بتوانند با محیط اطراف خود به روش‌های جدید و سرگرم‌کننده تعامل داشته باشند! به طور خاص، آن‌ها می‌توانند هر چیزی را انسان‌سازی کنند، از سگ/گربه خانگی‌شان، نقاشی روی دیوار، قهوه‌ای که می‌نوشند. کاربر روی شی ای کلیک می کند که ما با استفاده از مدل های TensorFlow روی آن ماسک ایجاد می کنیم و برش آن را به همراه پس زمینه به عنوان دو تصویر به Gemini Flash می فرستیم (به https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter مراجعه کنید). Gemini شی را شناسایی می‌کند و ما یک گفتگوی جریانی جدید Gemini را شروع می‌کنیم که در آن فرمان سیستم به Gemini از نقش جدید آن (مثلاً نقاشی روی دیوار) اطلاع می‌دهد. سپس کاربر می تواند با این شیء/حیوان انسانی جدید صحبت کند.

ما از تشخیص فعالیت صوتی (VAD) برای شناسایی زمانی که کاربر در حال صحبت است استفاده می کنیم و پس از 1.3 ثانیه سکوت، آخرین تصویربرداری از صفحه نمایش دوربین او را به همراه صدا برای ادامه مکالمه برای Gemini ارسال می کنیم. وقتی Gemini پاسخ می‌دهد، متن با استفاده از API جریان متن به گفتار ElevenLabs به گفتار تبدیل می‌شود. بین قطعه‌ساز تصویر Google، جریان نوری، فلش جمینی (دو بار)، VAD و تبدیل متن به گفتار، ما از ۶ مدل هوش مصنوعی در خط لوله خود استفاده می‌کنیم.

- سام و تیم

ساخته شده با

  • وب/کروم
  • قطعه‌ساز تعاملی توسط Google

تیم

توسط

پومو

از

ایالات متحده