Multimodal Live API

Multimodal Live API memungkinkan interaksi dua arah dengan latensi rendah yang menggunakan input teks, audio, dan video, dengan output audio dan teks. Hal ini memfasilitasi percakapan suara yang alami dan mirip manusia dengan kemampuan untuk mengganggu model kapan saja. Kemampuan pemahaman video model memperluas modalitas komunikasi, sehingga Anda dapat membagikan input kamera atau screencast dan mengajukan pertanyaan tentangnya.

Multimodal Live API mencakup kemampuan utama berikut:

  • Multimodalitas: Model dapat melihat, mendengar, dan berbicara.
  • Interaksi real-time latensi rendah: Model dapat memberikan respons yang cepat.
  • Memori sesi: Model mempertahankan memori semua interaksi dalam satu sesi, mengingat informasi yang didengar atau dilihat sebelumnya.
  • Dukungan untuk panggilan fungsi, eksekusi kode, dan Penelusuran sebagai Alat: Anda dapat mengintegrasikan model dengan layanan dan sumber data eksternal.

Multimodal Live API dirancang untuk komunikasi server ke server.

Untuk aplikasi web dan seluler, sebaiknya gunakan integrasi dari partner kami di Daily.

Panduan integrasi

Sesi

Sesi mewakili satu koneksi WebSocket antara klien dan server Gemini.

Setelah klien memulai koneksi baru, sesi dapat bertukar pesan dengan server untuk:

  • Mengirim teks, audio, atau video ke server Gemini.
  • Menerima respons panggilan audio, teks, atau fungsi dari server Gemini.

Konfigurasi sesi dikirim dalam pesan pertama setelah koneksi. Konfigurasi sesi mencakup model, parameter pembuatan, petunjuk sistem, dan alat.

Lihat contoh konfigurasi berikut:

{​​
  "model": string,
  "generation_config": {​​
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "temperature": number,
    "topP": number,
    "topK": integer,
    "presencePenalty": number,
    "frequencyPenalty": number,
    "response_modalities": string,
    "speech_config":object
  },

  "system_instruction": "",
  "tools":[]
}

Untuk informasi selengkapnya, lihat BidiGenerateContentSetup.

Mengirim pesan

Pesan adalah string berformat JSON yang dipertukarkan melalui koneksi WebSocket.

Untuk mengirim pesan, klien harus mengirim pesan klien yang didukung dalam string berformat JSON dengan salah satu koneksi WebSocket terbuka.

Lihat juga

  • Untuk mengetahui informasi selengkapnya tentang kolom API yang umum digunakan (misalnya,Content dan Tool), lihat Membuat konten.
  • Pelajari panggilan fungsi lebih lanjut.