Pomo

พูดกับสิ่งต่างๆ ราวกับเป็นมนุษย์ เช่น พูดกับสัตว์เลี้ยง ภาพวาด และอื่นๆ

การทำงาน

เราได้รับแรงบันดาลใจจากการสาธิตผลิตภัณฑ์ Google Project Astra แต่ต้องการเปลี่ยนข้อความแจ้งของระบบเพื่อลองใช้ Use Case ใหม่ๆ ที่น่าสนใจ แต่ Astra ยังไม่เปิดตัวและไม่มี API ที่มีการจัดการพรอมต์ของระบบ เราจึงเริ่มสร้างเวอร์ชันโอเพนซอร์สของเราเอง

สำหรับกรณีการใช้งานเริ่มต้น เราใช้ชุดโมเดล AI เพื่อช่วยให้ผู้ใช้โต้ตอบกับสิ่งรอบตัวด้วยวิธีใหม่ๆ ที่น่าสนใจ กล่าวโดยละเอียดคือ ผู้ใช้สามารถทำให้สิ่งต่างๆ มีลักษณะเหมือนมนุษย์ได้ ตั้งแต่สุนัข/แมวเลี้ยง ไปจนถึงภาพวาดบนผนัง หรือแม้แต่กาแฟที่ดื่มอยู่ ผู้ใช้คลิกวัตถุที่เราสร้างหน้ากากโดยใช้โมเดล TensorFlow และส่งวัตถุที่ตัดออกพร้อมกับพื้นหลังเป็น 2 รูปภาพไปยัง Gemini Flash (ดู https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter) Gemini จะระบุวัตถุและเราจะเริ่มแชทสตรีม Gemini ใหม่ ซึ่งระบบจะแจ้งให้ Gemini ทราบถึงบทบาทใหม่ (เช่น ภาพวาดบนผนัง) จากนั้นผู้ใช้จะสนทนากับวัตถุ / สัตว์รูปแบบใหม่นี้

เราใช้การตรวจจับกิจกรรมเสียง (VAD) เพื่อระบุเวลาที่ผู้ใช้กำลังพูด และหลังจากไม่มีเสียงพูดเป็นเวลา 1.3 วินาที เราจะส่งภาพหน้าจอล่าสุดจากกล้องพร้อมกับเสียงไปยัง Gemini เพื่อสนทนาต่อ เมื่อ Gemini ตอบกลับ ระบบจะแปลงข้อความเป็นเสียงโดยใช้ ElevenLabs Text-to-Speech Streaming API เราใช้โมเดล AI 6 รายการในไปป์ไลน์ของเรา ได้แก่ ตัวแบ่งส่วนรูปภาพของ Google, Optical Flow, Gemini Flash (2 ครั้ง), VAD และ Text-to-Speech

- Sam และ Tim

สร้างขึ้นด้วย

เว็บ/Chrome
เครื่องมือแบ่งกลุ่มแบบอินเทอร์แอกทีฟของ Google

ทีม

โดย

Pomo

จาก

สหรัฐอเมริกา