Mempelajari kemampuan audio dengan Gemini API

Gemini dapat merespons perintah tentang audio. Misalnya, Gemini dapat:

  • Deskripsikan, rangkum, atau jawab pertanyaan tentang konten audio.
  • Memberikan transkripsi audio.
  • Memberikan jawaban atau transkripsi tentang segmen tertentu dari audio.

Panduan ini menunjukkan berbagai cara untuk:

  • Meneruskan audio ke model Gemini.
  • Memberi perintah pada model Gemini tentang audio.

Format audio yang didukung

Gemini mendukung jenis MIME format audio berikut:

  • WAV - audio/wav
  • MP3 - audio/mp3
  • AIFF - audio/aiff
  • AAC - audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC - audio/flac

Detail teknis tentang audio

Gemini menerapkan aturan berikut terkait audio:

  • Gemini merepresentasikan setiap detik audio sebagai 25 token; misalnya, satu menit audio direpresentasikan sebagai 1.500 token.
  • Gemini hanya dapat menyimpulkan respons terhadap ucapan dalam bahasa Inggris.
  • Gemini dapat "memahami" komponen non-ucapan, seperti suara burung atau sirene.
  • Panjang data audio maksimum yang didukung dalam satu perintah adalah 9,5 jam. Gemini tidak membatasi jumlah file audio dalam satu perintah; tetapi, total panjang gabungan semua file audio dalam satu perintah tidak boleh lebih dari 9,5 jam.
  • Gemini mengurangi sampel file audio ke resolusi data 16 Kbps.
  • Jika sumber audio berisi beberapa saluran, Gemini akan menggabungkan saluran-saluran tersebut menjadi satu saluran.