Pomo

Alles anthropomorphisieren – mit Haustieren, Gemälden und mehr sprechen

Funktion

Wir haben uns von der Produktdemo von Google Project Astra inspirieren lassen, wollten aber den Systemvorschlag ändern, um neue und unterhaltsame Anwendungsfälle zu testen. Leider ist Astra noch nicht veröffentlicht und es gibt auch keine API mit Manipulation von Systemprompts. Deshalb haben wir uns entschlossen, eine eigene Open-Source-Version zu erstellen.

Als ersten Anwendungsfall verwenden wir eine Reihe von KI-Modellen, mit denen Nutzer auf neue und unterhaltsame Weise mit ihrer Umgebung interagieren können. Insbesondere können sie alles anthropomorphisieren, von ihrem Hund oder ihrer Katze über ein Gemälde an der Wand bis hin zu ihrem Kaffee. Der Nutzer klickt auf ein Objekt, für das wir mithilfe von TensorFlow-Modellen eine Maske erstellen. Der Ausschnitt des Objekts wird dann zusammen mit dem Hintergrund als zwei Bilder an Gemini Flash gesendet (siehe https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter). Gemini identifiziert das Objekt und wir starten einen neuen Gemini-Stream-Chat, in dem das System Gemini über seine neue Rolle informiert (z.B. das Gemälde an der Wand). Der Nutzer kann dann mit diesem neuen anthropomorphisierten Objekt / Tier sprechen.

Wir verwenden die Sprachaktivitätserkennung (VAD), um zu erkennen, wann der Nutzer spricht.Nach 1,3 Sekunden Stille senden wir den letzten Screenshot der Kamera zusammen mit dem Audiosignal an Gemini, um das Gespräch fortzusetzen. Wenn Gemini antwortet, wird der Text mit der Text-to-Speech-Streaming API von ElevenLabs in Sprache umgewandelt. Wir verwenden in unserer Pipeline sechs KI-Modelle: den Google-Bildsegmenter, den optischen Fluss, Gemini Flash (zweimal), die Spracherkennung und die Text-zu-Sprach-Technologie.

– Sam und Tim

Basis

Web/Chrome
Interaktive Segmentierung von Google

Team

Von

Pomo

Von

USA