Simón

Robot jouet multimodal qui appelle des comportements générés

Description

Simón essaie d'imiter les humains, comme dans le jeu "Simon dit". Tout d'abord, un humain enregistre une courte vidéo, une image ou un contenu audio via une application Python Chrome Gradio sur un écran tactile. L'API Gemini importe cette entrée multimédia et obtient une description textuelle de la scène et des personnes présentes. La description textuelle est ensuite conçue de manière à ce que l'appel de fonction Gemini choisisse la meilleure fonction de comportement de robot parmi une vingtaine de candidats. Les fonctions de comportement du robot sont créées manuellement, mais de nouveaux comportements peuvent également être générés avec Gemini (génération de code) à l'aide d'un script. Nous avons organisé une diffusion en direct sur YouTube pour expliquer aux développeurs comment créer leurs propres fonctions de comportement de robot. Simón est fait de mousse, de chaussettes et de ruban adhésif. Il fonctionne sur un Raspberry Pi avec une caméra, un micro et des haut-parleurs USB, trois servomoteurs, deux yeux à LED et un écran tactile. Tout le code est Open Source. Nous fournissons un guide de compilation complet avec des instructions d'installation et une nomenclature. Nous fournissons un script d'assistance qui permet aux développeurs de poser des questions sur Simón à une instance de chat Gemini, en préremplissant le contexte pertinent. Tout le code est écrit en Python, et nous utilisons le module async pour exécuter des fonctions de comportement et des appels d'API Gemini en parallèle. La conception du code est modulaire pour faciliter la personnalisation et l'extensibilité. Nous espérons que les développeurs pourront utiliser Simón comme point de départ pour créer leurs propres projets de robotique qui utilisent l'API Gemini.

Conçu avec

  • Web/Chrome

Équipe

Par

hu-po

De

États-Unis