Pomo
Przekształcanie obiektów w osoby – rozmawiaj ze swoimi zwierzętami, obrazami i innymi obiektami.
Działanie
Zainspirował nas pokaz demonstracyjny projektu Astra od Google, ale chcieliśmy zmienić prompt systemu, aby wypróbować nowe i ciekawe przypadki użycia. Niestety Astra nie została jeszcze wydana i nie ma interfejsu API umożliwiającego manipulowanie promptami systemowymi, więc postanowiliśmy stworzyć własną wersję typu open source.
Na potrzeby początkowego zastosowania używamy serii modeli AI, aby umożliwić użytkownikom interakcję z otoczeniem w nowy i ciekawy sposób. Mogą uosobić wszystko, od psa lub kota po obraz na ścianie czy kawę, którą piją. Użytkownik klika obiekt, dla którego tworzymy maskę za pomocą modeli TensorFlow, a następnie wysyłamy wycięty obiekt wraz z tłem jako 2 obrazy do Gemini Flash (patrz https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter). Gemini identyfikuje obiekt i rozpoczyna nowy czat z Gemini, w którym prompt systemu informuje Gemini o nowej roli (np. obraz na ścianie). Użytkownik może wtedy rozmawiać z tym antropomorficznym obiektem lub zwierzęciem.
Używamy wykrywania aktywności głosowej (VAD), aby określić, kiedy użytkownik mówi.Po 1,3 sekundy ciszy wysyłamy do Gemini najnowszy zrzut ekranu z kamery wraz z dźwiękiem, aby kontynuować rozmowę. Gdy Gemini odpowiada, tekst jest konwertowany na mowę za pomocą interfejsu ElevenLabs Text-to-Speech Streaming API. W naszym systemie używamy 6 modeli AI: segmentera obrazu Google, przepływu optycznego, Gemini Flash (2 razy), VAD i konwersji tekstu na mowę.
- Sam & Tim
Utworzone za pomocą
- Sieć/Chrome
- segmenter interaktywny Google
Zespół
Autor:
Pomo
Od
Stany Zjednoczone