Simón
Robot de juguete multimodal que genera comportamientos con llamadas a función
Qué hace
Simón intenta imitar a los humanos, como en el juego "Simon dice". Primero, una persona grabará un video, una imagen o un audio cortos a través de una app de Python de Chrome Gradio en una pantalla táctil. La API de Gemini sube esta entrada de contenido multimedia y obtiene una descripción de texto de la escena y de cualquier persona. Luego, la descripción de texto se diseña de manera tal que la llamada a función de Gemini elija la mejor función de comportamiento de robot posible entre un par de docenas de candidatos. Las funciones de comportamiento del robot se crean de forma manual, pero también se pueden generar nuevos comportamientos novedosos con Gemini (generación de código) mediante una secuencia de comandos. Realizamos una transmisión en vivo de YouTube en la que les enseñamos a los desarrolladores cómo crear sus propias funciones de comportamiento de robots. Simón está hecho de espuma, calcetines y cinta, y se ejecuta en una Raspberry Pi con una cámara, un micrófono y bocinas USB, tres servos de afición, dos ojos LED y una pantalla táctil. Todo el código es de código abierto, y proporcionamos una Guía de compilación completa con instrucciones de instalación y una BoM. Proporcionamos una secuencia de comandos de ayuda que permite a los desarrolladores hacer preguntas sobre Simón a una instancia de chat de Gemini, prepropagada con el contexto relevante. Todo el código está escrito en Python y usamos el módulo asíncrono para ejecutar funciones de comportamiento y llamadas a la API de Gemini en paralelo. El diseño del código es modular para facilitar la personalización y la extensibilidad. Esperamos que los desarrolladores puedan usar Simón como punto de partida para crear sus propios proyectos de robótica que usen la API de Gemini.
Con la tecnología de
- Web/Chrome
Equipo
De
hu-po
De
Estados Unidos