Simón

Robot multimodalny, który reaguje na wywołania funkcji

Działanie

Simón próbuje naśladować ludzi, jak w grze „Simon mówi”. Najpierw osoba nagrywa krótki film, obraz lub dźwięk za pomocą aplikacji Python Gradio w Chrome na ekranie dotykowym. Interfejs Gemini API przesyła ten plik multimedialny i otrzymuje tekstowy opis sceny oraz wszystkich ludzi. Opis tekstowy jest następnie konstruowany w taki sposób, że wywołanie funkcji przez Gemini wybiera spośród kilkudziesięciu kandydatów najlepszą funkcję zachowania robota. Funkcje zachowania robota są tworzone ręcznie, ale nowe, nowatorskie zachowania można też generować za pomocą Gemini (generowania kodu) za pomocą skryptu. Przeprowadziliśmy transmisję na żywo w YouTube, w której instruktorzy opowiedzieli deweloperom, jak tworzyć własne funkcje zachowania robota. Simón jest wykonany z pianki, skarpetek i taśmy. Działa na Raspberry Pi z kamerą, mikrofonem USB i głośnikami, 3 serwomechanizmem, 2 oczy LED i ekranem dotykowym. Cały kod jest udostępniany na zasadach open source. Udostępniamy pełny przewodnik po kompilacji z instrukcjami instalacji i specyfikacją. Udostępniamy skrypt pomocniczy, który pozwala deweloperom zadawać pytania o Simóna w czacie Gemini, wypełniając je wstępnie odpowiednim kontekstem. Cały kod jest napisany w Pythonie, a do równoległego wykonywania funkcji zachowania i wywołań interfejsu Gemini API używamy modułu async. Projekt kodu jest modułowy, co ułatwia jego dostosowywanie i rozszerzanie. Mamy nadzieję, że deweloperzy będą mogli używać Simóna jako punktu wyjścia do tworzenia własnych projektów robotycznych, które korzystają z interfejsu Gemini API.

Utworzone za pomocą

Sieć/Chrome

Zespół

Autor:

hu-po

Stany Zjednoczone