Simón

Robot de juguete multimodal que genera comportamientos con llamadas a función

Qué hace

Simón intenta imitar a los humanos, como en el juego "Simon dice". Primero, una persona grabará un video, una imagen o un audio breves a través de una app de Python de Chrome Gradio en una pantalla táctil. La API de Gemini sube esta entrada de contenido multimedia y obtiene una descripción de texto de la escena y de cualquier persona. Luego, la descripción de texto se diseña de manera tal que la llamada a función de Gemini elija la mejor función de comportamiento de robot posible entre un par de docenas de candidatos. Las funciones de comportamiento de los robots se crean a mano, pero también se pueden generar nuevos comportamientos novedosos con Gemini (generación de código) mediante una secuencia de comandos. Realizamos una transmisión en vivo de YouTube en la que les enseñamos a los desarrolladores cómo crear sus propias funciones de comportamiento de robots. Simón está hecho de espuma, calcetines y cinta, y se ejecuta en una Raspberry Pi con una cámara, un micrófono y bocinas USB, tres servos de afición, dos ojos LED y una pantalla táctil. Todo el código es de código abierto, y proporcionamos una Guía de compilación completa con instrucciones de instalación y una BoM. Proporcionamos una secuencia de comandos de ayuda que permite a los desarrolladores hacer preguntas sobre Simón a una instancia de chat de Gemini, que se prepropaga con el contexto relevante. Todo el código está escrito en Python y usamos el módulo asíncrono para ejecutar funciones de comportamiento y llamadas a la API de Gemini en paralelo. El diseño del código es modular para facilitar la personalización y la extensibilidad. Esperamos que los desarrolladores puedan usar Simón como punto de partida para crear sus propios proyectos de robótica que usen la API de Gemini.

Con la tecnología de

  • Web/Chrome

Equipo

De

hu-po

De

Estados Unidos