Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Pomo

Przekształcanie obiektów w osoby – rozmawiaj ze swoimi zwierzętami, obrazami i innymi obiektami.

Działanie

Zainspirował nas pokaz demonstracyjny projektu Astra od Google, ale chcieliśmy zmienić prompt systemu, aby wypróbować nowe i ciekawe przypadki użycia. Niestety Astra nie została jeszcze wydana i nie ma interfejsu API umożliwiającego manipulowanie promptami systemowymi, więc postanowiliśmy stworzyć własną wersję typu open source.

Na potrzeby początkowego zastosowania używamy serii modeli AI, aby umożliwić użytkownikom interakcję z otoczeniem w nowy i ciekawy sposób. Mogą uosobić wszystko, od psa lub kota po obraz na ścianie czy kawę, którą piją. Użytkownik klika obiekt, dla którego tworzymy maskę za pomocą modeli TensorFlow, a następnie wysyłamy wycięty obiekt wraz z tłem jako 2 obrazy do Gemini Flash (patrz https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter). Gemini identyfikuje obiekt i rozpoczyna nowy czat z Gemini, w którym prompt systemu informuje Gemini o nowej roli (np. obraz na ścianie). Użytkownik może wtedy rozmawiać z tym antropomorficznym obiektem lub zwierzęciem.

Używamy wykrywania aktywności głosowej (VAD), aby określić, kiedy użytkownik mówi.Po 1,3 sekundy ciszy wysyłamy do Gemini najnowszy zrzut ekranu z kamery wraz z dźwiękiem, aby kontynuować rozmowę. Gdy Gemini odpowiada, tekst jest konwertowany na mowę za pomocą interfejsu ElevenLabs Text-to-Speech Streaming API. W naszym systemie używamy 6 modeli AI: segmentera obrazu Google, przepływu optycznego, Gemini Flash (2 razy), VAD i konwersji tekstu na mowę.

- Sam & Tim

Utworzone za pomocą

Sieć/Chrome
segmenter interaktywny Google

Zespół

Autor:

Pomo

Stany Zjednoczone