Gemini Live API overview

Live API memungkinkan interaksi suara dan penglihatan real-time latensi rendah dengan Gemini. Model ini memproses aliran audio, gambar, dan teks yang berkelanjutan untuk memberikan respons lisan yang langsung dan mirip manusia, sehingga menciptakan pengalaman percakapan yang alami bagi pengguna Anda.

Ringkasan Live API

Kasus penggunaan

Live API dapat digunakan untuk membangun agen suara real-time untuk berbagai industri, termasuk:

  • E-commerce dan retail: Asisten belanja yang menawarkan rekomendasi yang dipersonalisasi dan agen dukungan yang menyelesaikan masalah pelanggan.
  • Game: Karakter non-pemain (NPC) interaktif, asisten bantuan dalam game, dan terjemahan real-time konten dalam game.
  • Antarmuka generasi berikutnya: Pengalaman yang mendukung suara dan video dalam robotika, kacamata pintar, dan kendaraan.
  • Layanan kesehatan: Pendamping kesehatan untuk dukungan dan edukasi pasien.
  • Jasa keuangan: Penasihat AI untuk pengelolaan kekayaan dan panduan investasi.
  • Pendidikan: Pendamping belajar dan mentor AI yang memberikan instruksi dan masukan yang dipersonalisasi.

Fitur utama

Live API menawarkan serangkaian fitur komprehensif untuk membangun agen suara yang andal:

  • Dukungan multibahasa: Berbicara dalam 70 bahasa yang didukung.
  • Interupsi: Pengguna dapat menginterupsi model kapan saja untuk interaksi responsif.
  • Penggunaan alat: Mengintegrasikan alat seperti pemanggilan fungsi dan Google Penelusuran untuk interaksi dinamis.
  • Transkripsi audio: Memberikan transkrip teks dari input pengguna dan output model.
  • Audio proaktif: Memungkinkan Anda mengontrol kapan model merespons dan dalam konteks apa.
  • Dialog afektif: Menyesuaikan gaya dan nada respons agar sesuai dengan ekspresi input pengguna.

Spesifikasi teknis

Tabel berikut menguraikan spesifikasi teknis untuk Live API:

Kategori Detail
Modalitas input Audio (audio PCM 16-bit mentah, 16 kHz, little-endian), gambar (JPEG <= 1 FPS), teks
Modalitas output Audio (audio PCM 16-bit mentah, 24 kHz, little-endian)
Protokol Koneksi WebSocket stateful (WSS)

Memilih pendekatan penerapan

Saat berintegrasi dengan Live API, Anda harus memilih salah satu pendekatan penerapan berikut:

  • Server-ke-server: Backend Anda terhubung ke Live API menggunakan WebSockets. Biasanya, klien Anda mengirimkan data streaming (audio, video, teks) ke server Anda, yang kemudian meneruskannya ke Live API.
  • Klien ke server: Kode frontend Anda terhubung langsung ke Live API menggunakan WebSockets untuk melakukan streaming data, dengan melewati backend Anda.

Mulai

Pilih panduan yang sesuai dengan lingkungan pengembangan Anda:

Server-to-server

Terhubung ke Gemini Live API menggunakan GenAI SDK untuk membangun aplikasi multimodal real-time dengan backend Python.

Klien ke server

Terhubung ke Gemini Live API menggunakan WebSockets untuk membangun aplikasi multimodal real-time dengan frontend JavaScript dan token sementara.

Agent Development Kit

Buat agen dan gunakan Streaming Agent Development Kit (ADK) untuk mengaktifkan komunikasi suara dan video.

Integrasi partner

Untuk menyederhanakan pengembangan aplikasi audio dan video real-time, Anda dapat menggunakan integrasi pihak ketiga yang mendukung Gemini Live API melalui WebRTC atau WebSockets.