Pomo
Memberi sifat manusia pada apa pun - berbicara dengan hewan peliharaan, lukisan, dan lainnya
Fungsinya
Kami terinspirasi oleh demo produk Google Project Astra, tetapi ingin mengubah perintah sistem untuk mencoba kasus penggunaan baru dan menyenangkan. Sayangnya, Astra belum dirilis dan tidak akan memiliki API dengan manipulasi perintah sistem sehingga kami memutuskan untuk membuat versi open source kami sendiri.
Untuk kasus penggunaan awal, kami menggunakan serangkaian model AI agar pengguna dapat berinteraksi dengan lingkungan mereka dengan cara baru dan menghibur. Secara khusus, mereka dapat mengatribusikan sifat manusia ke apa pun, mulai dari/kucing peliharaan, lukisan di dinding, hingga kopi yang mereka minum. Pengguna mengklik objek yang kami buat mask-nya menggunakan model TensorFlow dan mengirim potongan objek beserta latar belakang sebagai dua gambar ke Gemini Flash (lihat https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter). Gemini mengidentifikasi objek dan kita memulai chat streaming Gemini baru tempat perintah sistem memberi tahu Gemini tentang peran barunya (misalnya, lukisan di dinding). Pengguna kemudian dapat berkomunikasi dengan objek / hewan antropomorfik baru ini.
Kami menggunakan deteksi aktivitas suara (VAD) untuk mengidentifikasi kapan pengguna berbicara dan, setelah 1,3 detik tanpa suara, kami mengirim screenshot terbaru dari kamera mereka beserta audio ke Gemini untuk melanjutkan percakapan. Saat Gemini merespons, teks akan dikonversi menjadi ucapan menggunakan API streaming text-to-speech ElevenLabs. Antara pemisah gambar Google, aliran optik, Gemini Flash (dua kali), VAD, dan text-to-speech, kami menggunakan 6 model AI dalam pipeline kami.
- Sam & Tim
Dibuat dengan
- Web/Chrome
- interactive segmenter by Google
Tim
Oleh
Pomo
From
Amerika Serikat