Ringkasan Gemini Live API

Live API memungkinkan interaksi suara dan visi real-time dengan latensi rendah bersama Gemini. Fitur ini memproses aliran audio, gambar, dan teks yang berkelanjutan untuk menghasilkan respons lisan yang langsung dan mirip manusia, sehingga menciptakan pengalaman percakapan yang alami bagi pengguna Anda.

Ringkasan Live API

Kasus penggunaan

Live API dapat digunakan untuk membangun agen suara real-time untuk berbagai industri, termasuk:

  • E-commerce dan retail: Asisten belanja yang menawarkan rekomendasi yang dipersonalisasi dan agen dukungan yang menyelesaikan masalah pelanggan.
  • Game: Karakter non-pemain (NPC) interaktif, asisten bantuan dalam game, dan terjemahan real-time konten dalam game.
  • Antarmuka generasi berikutnya: Pengalaman yang mendukung suara dan video dalam robotika, kacamata pintar, dan kendaraan.
  • Layanan kesehatan: Pendamping kesehatan untuk dukungan dan edukasi pasien.
  • Layanan keuangan: Penasihat AI untuk manajemen kekayaan dan panduan investasi.
  • Pendidikan: Mentor AI dan pendamping pelajar yang memberikan instruksi dan masukan yang dipersonalisasi.
  • Terjemahan dan pelokalan: Terjemahan real-time dan latensi rendah untuk percakapan lisan, sehingga memungkinkan komunikasi multibahasa yang lancar.

Fitur utama

Live API menawarkan serangkaian fitur komprehensif untuk membangun agen suara yang andal:

  • Dukungan multibahasa: Berkomunikasi dalam 70 bahasa yang didukung.
  • Barge-in: Pengguna dapat mengganggu model kapan saja untuk interaksi responsif.
  • Penggunaan alat: Mengintegrasikan alat seperti panggilan fungsi dan Google Penelusuran untuk interaksi dinamis.
  • Transkripsi audio: Menyediakan transkrip teks untuk input pengguna dan output model.
  • Audio proaktif: Memungkinkan Anda mengontrol kapan model merespons dan dalam konteks apa.
  • Dialog afektif: Menyesuaikan gaya dan nada respons agar sesuai dengan ekspresi input pengguna.
  • Terjemahan Langsung: Terjemahan suara-ke-suara real-time dalam lebih dari 70 bahasa.

Spesifikasi teknis

Tabel berikut menguraikan spesifikasi teknis untuk Live API:

Kategori Detail
Modalitas input Audio (audio PCM 16-bit mentah, 16 kHz, little-endian), gambar (JPEG <= 1 FPS), teks
Modalitas output Audio (audio PCM 16-bit mentah, 24 kHz, little-endian)
Protokol Koneksi WebSocket stateful (WSS)

Memilih pendekatan implementasi

Saat berintegrasi dengan Live API, Anda harus memilih salah satu pendekatan implementasi berikut:

  • Server-ke-server: Backend Anda terhubung ke Live API menggunakan WebSockets. Biasanya, klien Anda mengirim data streaming (audio, video, teks) ke server Anda, yang kemudian meneruskannya ke Live API.
  • Klien-ke-server: Kode frontend Anda terhubung langsung ke Live API menggunakan WebSockets untuk men-streaming data, sehingga melewati backend Anda.

Mulai

Pilih panduan yang sesuai dengan lingkungan pengembangan Anda:

Server-ke-server

Hubungkan ke Gemini Live API menggunakan GenAI SDK untuk membangun aplikasi multimodal real-time dengan backend Python.

Klien-ke-server

Hubungkan ke Gemini Live API menggunakan WebSockets untuk membangun aplikasi multimodal real-time dengan frontend JavaScript dan token sementara.

Agent Development Kit

Buat agen dan gunakan Streaming Agent Development Kit (ADK) untuk mengaktifkan komunikasi suara dan video.

Integrasi partner

Untuk menyederhanakan pengembangan aplikasi audio dan video real-time, Anda dapat menggunakan integrasi pihak ketiga yang mendukung Gemini Live API melalui WebRTC atau WebSockets.