Gemini Humanoid Robot

Robot z Gemini, który zapewnia bardziej naturalne i angażujące wrażenia.

Działanie

Integracja obejmuje kilka kluczowych komponentów: usługę chatbota, moduł chatbota, moduł rozpoznawania mowy i moduł dialogu. Usługa czatbota odgrywa kluczową rolę, zarządzając całą historią dialogu i generując odpowiedzi na podstawie wcześniejszych interakcji z użyciem modelu Gemini. Konkretnie do generowania odpowiedzi służy model Gemini Pro. Aby wypełnić lukę w komunikacji między różnymi środowiskami programowania, usługa Chatbot Bridge korzysta z ZeroMQ. Ten komponent umożliwia bezproblemową komunikację między usługą chatbota a modułami rozszerzenia NaoQi. Moduł rozpoznawania mowy odpowiada za rejestrowanie sygnału audio z mikrofonu robota za pomocą urządzenia NaoQi ALAudioDevice. Nagrania dźwiękowe są dzielone na segmenty na podstawie progu głośności. Następnie te podzielone nagrania są wysyłane do usługi w chmurze Google w celu przeprowadzenia analizy mowy na tekst. Jeśli uda się rozpoznać mowę, uzyskany tekst zostanie przekazany do modułu Chatbot Bridge.
Moduł Dialog przekształca odpowiedzi tekstowe wygenerowane przez Gemini w mowę mówioną za pomocą modułu NaoQi ALAnimatedSpeech. Ten moduł współpracuje też z Modułem rozpoznawania mowy, aby wstrzymywać nagrywanie dźwięku, gdy robot mówi. Dzięki temu robot może prowadzić dialog, w którym naprzemiennie słucha i odpowiada.

Utworzone za pomocą

  • Robot humanoidalny

Zespół

Od

Wielka Brytania