Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Gemini dapat merespons perintah tentang audio. Misalnya, Gemini dapat:
Deskripsikan, rangkum, atau jawab pertanyaan tentang konten audio.
Memberikan transkripsi audio.
Memberikan jawaban atau transkripsi tentang segmen tertentu dari audio.
Panduan ini menunjukkan berbagai cara untuk:
Meneruskan audio ke model Gemini.
Memberi perintah pada model Gemini tentang audio.
Format audio yang didukung
Gemini mendukung jenis MIME format audio berikut:
WAV - audio/wav
MP3 - audio/mp3
AIFF - audio/aiff
AAC - audio/aac
OGG Vorbis - audio/ogg
FLAC - audio/flac
Detail teknis tentang audio
Gemini menerapkan aturan berikut terkait audio:
Gemini mewakili setiap detik audio sebagai 25 token; misalnya,
satu menit audio direpresentasikan
sebagai 1.500 token.
Gemini hanya dapat menyimpulkan respons terhadap ucapan dalam bahasa Inggris.
Gemini dapat "memahami" komponen yang bukan ucapan, seperti bunyi burung atau sirene.
Panjang data audio maksimum yang didukung dalam satu perintah adalah 9,5 jam.
Gemini tidak membatasi jumlah file audio dalam satu perintah; namun,
total panjang gabungan dari semua file audio dalam satu perintah tidak boleh melebihi
9,5 jam.
Gemini mengurangi sampel file audio ke resolusi data 16 Kbps.
Jika sumber audio berisi beberapa saluran, Gemini akan menggabungkan saluran-saluran tersebut
menjadi satu saluran.