Pomo
إضفاء سمات بشرية على أي شيء: التحدّث مع حيواناتك الأليفة ولوحاتك الفنية وغير ذلك
وظيفتها
لقد استوحينا من العرض التقديمي لمشروع Google Astra، ولكن أردنا تغيير طلب النظام لتجربة حالات استخدام جديدة وممتعة. لم يتم إطلاق Astra بعد، ولن تتوفّر له واجهة برمجة تطبيقات تتيح التلاعب بطلبات النظام، لذا بدأنا في إنشاء نسخة مفتوحة المصدر من Astra.
في مثال الاستخدام الأوّلي، نستخدم سلسلة من نماذج الذكاء الاصطناعي للسماح للمستخدمين بالتفاعل مع محيطهم بطرق جديدة ومسلية. على وجه التحديد، يمكنهم إضفاء سمات بشرية على أي شيء، بدءًا من كلب/قطة أليفَين، وصولاً إلى لوحة على الحائط، أو فنجان القهوة الذي يشربونه. ينقر المستخدم على جسم ننشئ قناعًا عليه باستخدام نماذج TensorFlow، ونرسل الجزء المقتطع من الجسم مع الخلفية كصورتَين إلى Gemini Flash (راجِع https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter). يحدِّد Gemini الجسم ونبدأ محادثة جديدة مع Gemini في البث المباشر حيث يُعلمه النظام بدوره الجديد (مثل اللوحة على الحائط). ويمكن للمستخدم بعد ذلك التحدث مع هذا الجسم أو الحيوان الجديدَين المُجسّمَين.
نستخدم تقنية "رصد النشاط الصوتي" (VAD) لتحديد الحالات التي يتحدث فيها المستخدم، وبعد مرور 1.3 ثانية من الصمت، نرسل أحدث لقطة شاشة من الكاميرا مع الصوت إلى Gemini لمواصلة المحادثة. عندما يردّ Gemini، يتم تحويل النص إلى كلام باستخدام واجهة برمجة التطبيقات ElevenLabs لبث تحويل النص إلى كلام. نستخدم 6 نماذج للذكاء الاصطناعي في عملية المعالجة، وهي أدوات تقسيم الصور من Google، وتقنية "التدفق البصري"، وميزة Gemini Flash (مرّتين)، وميزة "توقّف الصوت والصورة"، وميزة تحويل النصوص إلى كلام.
- سام وتيم
مصمَّم بالاستناد إلى
- الويب/Chrome
- أداة تقسيم الجمهور التفاعلية من Google
الفريق
من
Pomo
من
الولايات المتحدة