Simón

Robot mainan multimodal yang fungsi panggilannya menghasilkan perilaku

Fungsinya

Simón mencoba meniru manusia, seperti permainan "Simon bilang". Pertama, manusia akan merekam video, gambar, atau audio singkat melalui aplikasi Chrome Gradio Python di layar sentuh. Gemini API mengupload input media ini dan mendapatkan deskripsi teks tentang pemandangan dan manusia. Deskripsi teks kemudian dirancang dengan perintah sehingga panggilan fungsi Gemini memilih fungsi perilaku robot terbaik dari beberapa lusin kandidat. Fungsi perilaku robot dibuat secara manual, tetapi perilaku baru yang unik juga dapat dibuat dengan Gemini (pembuatan kode) menggunakan skrip. Kami mengadakan live stream YouTube yang memberi tahu developer cara membuat fungsi perilaku robot mereka sendiri. Simón terbuat dari busa, kaus kaki, dan selotip serta berjalan di Raspberry Pi dengan kamera, mikrofon dan speaker USB, tiga servo hobi, dua mata LED, dan layar sentuh. Semua kode bersifat open source dan kami menyediakan Panduan Build lengkap dengan petunjuk penginstalan dan BOM. Kami menyediakan skrip bantuan yang memungkinkan developer mengajukan pertanyaan tentang Simón ke instance chat Gemini, yang diisi otomatis dengan konteks yang relevan. Semua kode ditulis dalam Python dan kita menggunakan modul asinkron untuk menjalankan fungsi perilaku dan panggilan Gemini API secara paralel. Desain kode bersifat modular untuk memudahkan penyesuaian dan perluasan. Harapan kami adalah developer dapat menggunakan Simón sebagai titik awal untuk membuat project robotika mereka sendiri yang menggunakan Gemini API.

Dibuat dengan

  • Web/Chrome

Tim

Oleh

hu-po

From

Amerika Serikat