Simón
Robô de brinquedo multimodal que gera comportamentos de chamadas de função
O que faz?
Simón tenta imitar os humanos, como no jogo "Simão diz". Primeiro, uma pessoa grava um vídeo, uma imagem ou um áudio curto usando um app Chrome Gradio Python em uma tela touchscreen. A API Gemini faz upload desse input de mídia e recebe uma descrição em texto da cena e de qualquer pessoa. A descrição de texto é então projetada de forma que a chamada de função do Gemini escolha a melhor função de comportamento do robô possível entre algumas dezenas de candidatos. As funções de comportamento do robô são criadas manualmente, mas novos comportamentos também podem ser gerados com o Gemini (geração de código) usando um script. Realizamos uma transmissão ao vivo no YouTube para ensinar os desenvolvedores a criar as próprias funções de comportamento de robô. O Simón é feito de espuma, meias e fita e é executado em um Raspberry Pi com uma câmera, microfone e alto-falantes USB, três servos de hobby, dois olhos de LED e uma tela touchscreen. Todo o código é de código aberto, e oferecemos um guia de build completo com instruções de instalação e uma BOM. Fornecemos um script auxiliar que permite que os desenvolvedores façam perguntas sobre o Simón para uma instância de chat do Gemini, preenchendo com o contexto relevante. Todo o código é escrito em Python, e usamos o módulo assíncrono para executar funções de comportamento e chamadas da API Gemini em paralelo. O design do código é modular para facilitar a personalização e a extensibilidade. Esperamos que os desenvolvedores usem o Simón como ponto de partida para criar seus próprios projetos de robótica que usam a API Gemini.
Desenvolvido com
- Web/Chrome
Equipe
Por
hu-po
De
Estados Unidos