Simón
Robot giocattolo multimodale che chiama funzioni per generare comportamenti
Descrizione
Simón cerca di imitare gli umani, come nel gioco "Fai come dico io". Innanzitutto, una persona registrerà un breve video, un'immagine o un audio tramite un'app Python di Chrome Gradio su un display touchscreen. L'API Gemini carica questo input multimediale e riceve una descrizione testuale della scena e delle persone presenti. La descrizione del testo viene poi progettata in modo che la chiamata di funzione di Gemini scelga la migliore funzione di comportamento del robot tra una ventina di candidati. Le funzioni di comportamento del robot sono create manualmente, ma è possibile generare nuovi comportamenti anche con Gemini (generazione di codice) utilizzando uno script. Abbiamo organizzato un live streaming di YouTube per insegnare agli sviluppatori come creare le proprie funzioni di comportamento dei robot. Simón è fatto di gommapiuma, calze e nastro adesivo e funziona su un Raspberry Pi con una fotocamera, un microfono e altoparlanti USB, tre servocomandi per hobby, due occhi LED e un display touchscreen. Tutto il codice è open source e forniamo una guida completa alla compilazione con istruzioni di installazione e una distinta base materiali. Forniamo uno script di assistenza che consente agli sviluppatori di porre domande su Simón a un'istanza di chat di Gemini, precompilando il contesto pertinente. Tutto il codice è scritto in Python e utilizziamo il modulo async per eseguire in parallelo le funzioni di comportamento e le chiamate all'API Gemini. Il design del codice è modulare per una facile personalizzazione ed estensionabilità. Ci auguriamo che gli sviluppatori possano utilizzare Simón come punto di partenza per creare i propri progetti di robotica che utilizzano l'API Gemini.
Realizzato con
- Web/Chrome
Team
Di
hu-po
Da
Stati Uniti