Mempelajari kemampuan audio dengan Gemini API

Gemini dapat merespons perintah tentang audio. Misalnya, Gemini dapat:

  • Menjelaskan, meringkas, atau menjawab pertanyaan tentang konten audio.
  • Berikan transkripsi audio.
  • Berikan jawaban atau transkripsi tentang segmen audio tertentu.

Panduan ini menunjukkan berbagai cara untuk berinteraksi dengan file audio dan konten audio menggunakan Gemini API.

Format audio yang didukung

Gemini mendukung jenis MIME format audio berikut:

  • WAV - audio/wav
  • MP3 - audio/mp3
  • AIFF - audio/aiff
  • AAC - audio/aac
  • OGG Vorbis - audio/ogg
  • FLAC - audio/flac

Detail teknis tentang audio

Gemini menerapkan aturan berikut pada audio:

  • Gemini merepresentasikan setiap detik audio sebagai 25 token; misalnya, satu menit audio direpresentasikan sebagai 1.500 token.
  • Gemini hanya dapat menyimpulkan respons terhadap ucapan berbahasa Inggris.
  • Gemini dapat "memahami" komponen non-ucapan, seperti kicau burung atau sirine.
  • Panjang data audio maksimum yang didukung dalam satu perintah adalah 9,5 jam. Gemini tidak membatasi jumlah file audio dalam satu perintah; tetapi, total durasi gabungan semua file audio dalam satu perintah tidak boleh melebihi 9,5 jam.
  • Gemini mendownsample file audio ke resolusi data 16 Kbps.
  • Jika sumber audio berisi beberapa saluran, Gemini akan menggabungkan saluran tersebut menjadi satu saluran.

Langkah berikutnya

Panduan ini menunjukkan cara mengupload file audio menggunakan File API, lalu membuat output teks dari input audio. Untuk mempelajari lebih lanjut, lihat referensi berikut:

  • Strategi perintah file: Gemini API mendukung perintah dengan data teks, gambar, audio, dan video, yang juga dikenal sebagai perintah multimodal.
  • Petunjuk sistem: Petunjuk sistem memungkinkan Anda mengarahkan perilaku model berdasarkan kebutuhan dan kasus penggunaan tertentu.
  • Panduan keamanan: Terkadang model AI generatif menghasilkan output yang tidak terduga, seperti output yang tidak akurat, bias, atau menyinggung. Pascapemrosesan dan evaluasi manusia sangat penting untuk membatasi risiko bahaya dari output tersebut.