Simón

Robot multimodal lodër që funksionon-thërret sjellje të krijuara

Çfarë bën

Simón përpiqet të imitojë njerëzit, si loja e "Simon thotë". Së pari, një njeri do të regjistrojë një video, imazh ose audio të shkurtër nëpërmjet një aplikacioni Chrome Gradio Python në një ekran me prekje. Gemini API ngarkon këtë hyrje të medias dhe merr një përshkrim teksti të skenës dhe çdo njeriu. Më pas, përshkrimi i tekstit është projektuar me shpejtësi në mënyrë që thirrja e funksionit Gemini të zgjedhë funksionin më të mirë të mundshëm të sjelljes së robotit nga disa dhjetëra kandidatë. Funksionet e sjelljes së robotit janë krijuar me dorë, por sjelljet e reja të reja mund të gjenerohen gjithashtu me Gemini (gjenerimi i kodit) duke përdorur një skenar. Ne organizuam një transmetim të drejtpërdrejtë në YouTube që udhëzon zhvilluesit se si mund të krijojnë funksionet e tyre të sjelljes së robotëve. Simón është bërë nga shkumë, çorape dhe kasetë dhe funksionon në një Raspberry Pi me një aparat fotografik, mikrofon USB dhe altoparlantë, tre servo hobi, dy sy LED dhe një ekran me prekje. I gjithë kodi është me burim të hapur dhe ne ofrojmë një Udhëzues të plotë Ndërtimi me udhëzime instalimi dhe një BOM. Ne ofrojmë një skript ndihmës që i lejon zhvilluesit të bëjnë pyetje në lidhje me Simón në një shembull të bisedës Gemini, duke u parapopulluar me kontekstin përkatës. I gjithë kodi është i shkruar në Python dhe ne përdorim modulin async për të ekzekutuar paralelisht funksionet e sjelljes dhe thirrjet API të Gemini. Dizajni i kodit është modular për përshtatshmëri dhe shtrirje të lehtë. Shpresa jonë është që zhvilluesit mund të përdorin Simón si një pikë nisjeje për të ndërtuar projektet e tyre robotike që përdorin Gemini API.

E ndertuar me

  • Web/Chrome

Ekipi

Nga

hu-po

Nga

Shtetet e Bashkuara