Simón

Multimodaler Spielroboter, der generierte Verhaltensweisen aufruft

Funktion

Simón versucht, Menschen nachzuahmen, ähnlich wie beim Spiel „Simon sagt“. Zuerst nimmt eine Person über eine Chrome Gradio Python-App auf einem Touchscreen-Display ein kurzes Video, Bild oder Audio auf. Die Gemini API lädt diese Medieneingabe hoch und erhält eine Textbeschreibung der Szene und aller Personen. Die Textbeschreibung wird dann so optimiert, dass der Gemini-Funktionsaufruf aus mehreren Dutzend Kandidaten die bestmögliche Funktion für das Roboterverhalten auswählt. Die Funktionen für das Roboterverhalten werden manuell erstellt. Neue Verhaltensweisen können aber auch mit Gemini (Codegenerierung) und einem Script generiert werden. In einem YouTube-Livestream haben wir Entwicklern gezeigt, wie sie ihre eigenen Roboter-Verhaltensfunktionen erstellen können. Simón besteht aus Schaumstoff, Socken und Klebeband und wird von einem Raspberry Pi mit einer Kamera, einem USB-Mikrofon und Lautsprechern, drei Hobbyservos, zwei LED-Augen und einem Touchscreen-Display angetrieben. Der gesamte Code ist Open Source und wir stellen einen vollständigen Build-Leitfaden mit Installationsanleitung und einer Stückliste zur Verfügung. Wir stellen ein Hilfsskript bereit, mit dem Entwickler einer Gemini-Chatinstanz Fragen zu Simón stellen können, die mit relevantem Kontext vorab ausgefüllt werden. Der gesamte Code ist in Python geschrieben. Wir verwenden das Async-Modul, um Verhaltensfunktionen und Gemini API-Aufrufe parallel auszuführen. Das Codedesign ist modular, um eine einfache Anpassung und Erweiterung zu ermöglichen. Wir hoffen, dass Entwickler Simón als Ausgangspunkt für ihre eigenen Roboterprojekte mit der Gemini API verwenden können.

Basis

  • Web/Chrome

Team

Von

hu-po

Von

USA