Симон

Мультимодальный игрушечный робот, который вызывает сгенерированное поведение

Что он делает

Симон пытается подражать людям, как в игре «Саймон говорит». Сначала человек записывает короткое видео, изображение или аудио с помощью приложения Chrome Gradio Python на сенсорном дисплее. API Gemini загружает этот медиа-вход и получает текстовое описание сцены и всех людей. Затем текстовое описание проектируется с помощью подсказок, так что вызов функций Gemini выбирает наилучшую возможную функцию поведения робота из пары десятков кандидатов. Функции поведения робота создаются вручную, но новые новые поведения также могут быть созданы с помощью Gemini (генерация кода) с помощью скрипта. Мы провели прямую трансляцию на YouTube, в которой инструктировали разработчиков о том, как они могут создавать свои собственные функции поведения робота. Симон сделан из пены, носков и ленты и работает на Raspberry Pi с камерой, USB-микрофоном и динамиками, тремя сервоприводами для хобби, двумя светодиодными глазами и сенсорным дисплеем. Весь код имеет открытый исходный код, и мы предоставляем полное руководство по сборке с инструкциями по установке и спецификацией материалов. Мы предоставляем вспомогательный скрипт, который позволяет разработчикам задавать вопросы о Simón в чате Gemini, предварительно заполняя соответствующим контекстом. Весь код написан на Python, и мы используем модуль async для параллельного запуска функций поведения и вызовов API Gemini. Конструкция кода является модульной для легкой настройки и расширяемости. Мы надеемся, что разработчики смогут использовать Simón в качестве отправной точки для создания собственных проектов по робототехнике, использующих API Gemini.

Построено с

  • Веб/Хром

Команда

К

ху-по

От

Соединенные Штаты