Simón
生成された動作を関数呼び出しするマルチモーダル おもちゃロボット
機能
Simón は「Simon says」のようなゲームで人間の真似をします。まず、人間がタッチスクリーン ディスプレイで Chrome Gradio Python アプリを使用して、短い動画、画像、音声を録画します。Gemini API は、このメディア入力をアップロードし、シーンと人間のテキスト記述を取得します。その後、テキスト記述がプロンプト エンジニアリングされ、Gemini 関数呼び出しが数十個の候補から最適なロボット動作関数を選択します。ロボットの動作関数は手動で作成されますが、スクリプトを使用して Gemini(コード生成)で新しい動作を生成することもできます。Google は、独自のロボット動作関数を作成する方法をデベロッパーに説明する YouTube ライブ配信を開催しました。Simón はフォーム、靴下、テープで作られており、カメラ、USB マイク、スピーカー、3 つのホビー サーボ、2 つの LED アイ、タッチスクリーン ディスプレイを備えた Raspberry Pi で動作します。コードはすべてオープンソースであり、インストール手順と BOM を含む完全なビルドガイドが提供されています。デベロッパーが Gemini チャット インスタンスに Simón について質問できるようにするヘルパー スクリプトが用意されています。このスクリプトには、関連するコンテキストが事前に入力されています。コードはすべて Python で記述されており、非同期モジュールを使用して、動作関数と Gemini API 呼び出しを並行して実行します。コード設計はモジュラー化されているため、カスタマイズと拡張が容易です。デベロッパーが Simón を起点として、Gemini API を使用する独自のロボット プロジェクトを構築することを願っています。
構成
- ウェブ/Chrome
チーム
By
hu-po
差出人
米国