Gemini dapat merespons perintah tentang audio. Misalnya, Gemini dapat:
- Deskripsikan, rangkum, atau jawab pertanyaan tentang konten audio.
- Memberikan transkripsi audio.
- Memberikan jawaban atau transkripsi tentang segmen tertentu dari audio.
Panduan ini menunjukkan berbagai cara untuk:
- Meneruskan audio ke model Gemini.
- Memberi perintah pada model Gemini tentang audio.
Format audio yang didukung
Gemini mendukung jenis MIME format audio berikut:
- WAV - audio/wav
- MP3 - audio/mp3
- AIFF - audio/aiff
- AAC - audio/aac
- OGG Vorbis - audio/ogg
- FLAC - audio/flac
Detail teknis tentang audio
Gemini menerapkan aturan berikut terkait audio:
- Gemini mewakili setiap detik audio sebagai 25 token; misalnya, satu menit audio direpresentasikan sebagai 1.500 token.
- Gemini hanya dapat menyimpulkan respons terhadap ucapan dalam bahasa Inggris.
- Gemini dapat "memahami" komponen yang bukan ucapan, seperti bunyi burung atau sirene.
- Panjang data audio maksimum yang didukung dalam satu perintah adalah 9,5 jam. Gemini tidak membatasi jumlah file audio dalam satu perintah; namun, total panjang gabungan dari semua file audio dalam satu perintah tidak boleh melebihi 9,5 jam.
- Gemini mengurangi sampel file audio ke resolusi data 16 Kbps.
- Jika sumber audio berisi beberapa saluran, Gemini akan menggabungkan saluran-saluran tersebut menjadi satu saluran.