Pomo

הפיכת דברים לאנושיים – אפשר לדבר עם חיות המחמד, עם ציורים ועוד

תיאור

קיבלנו השראה מהדגמת המוצר של Project Astra של Google, אבל רצינו לשנות את ההנחיה של המערכת כדי לנסות תרחישים לדוגמה חדשים ומהנים. לצערנו, Astra עדיין לא פורסמה ולא תהיה לה ממשק API עם מניפולציה של הנחיות המערכת, לכן החלטנו ליצור גרסה משלו בקוד פתוח.

לדוגמה, אנחנו משתמשים בסדרה של מודלים של AI כדי לאפשר למשתמשים לקיים אינטראקציה עם הסביבה שלהם בדרכים חדשות ומבדרות. באופן ספציפי, הם יכולים להעניק תכונות אנושיות לכל דבר, החל מהכלב או החתול שלהם, דרך ציור על הקיר ועד לקפה שהם שותים. המשתמש לוחץ על אובייקט, אנחנו יוצרים לו מסכה באמצעות מודלים של TensorFlow ושולחים את החלק החתוך של האובייקט יחד עם הרקע כשתי תמונות ל-Gemini Flash (מידע נוסף זמין בכתובת https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter). Gemini מזהה את האובייקט ואנחנו מתחילים שיחת סטרימינג חדשה עם Gemini, שבה ההנחיה של המערכת מעדכנת את Gemini לגבי התפקיד החדש שלו (למשל, הציור על הקיר). לאחר מכן, המשתמש יכול לנהל שיחה עם האובייקט או עם החיה האנושיים החדשים.

אנחנו משתמשים בזיהוי פעילות קול (VAD) כדי לזהות מתי המשתמש מדבר, ואחרי 1.3 שניות של שקט אנחנו שולחים את צילום המסך האחרון של המצלמה שלו יחד עם האודיו ל-Gemini כדי להמשיך את השיחה. כש-Gemini משיב, הטקסט מומר לדיבור באמצעות ElevenLabs text-to-speech streaming API. אנחנו משתמשים ב-6 מודלים של AI בצינור עיבוד הנתונים שלנו: פילוח תמונות של Google, זרימת אור, Gemini Flash (פעמיים), זיהוי דיבור ו-Text-to-speech.

- Sam ו-Tim

מבוסס על

  • אינטרנט/Chrome
  • כלי אינטראקטיבי ליצירת פלחים של Google

קבוצה

על ידי

Pomo

מאת

ארצות הברית